BookletAI - 基于 Agent 的 AI 小册子生成器技术分享
大家好!今天给大家分享一个我们最近开发的项目 - BookletAI,一个基于 AI Agent 的小册子生成器。本文将从创作过程、技术实现原理和作品展示三个方面进行介绍。
一、创作过程
1.1 项目背景
在内容创作领域,制作一份精美的小册子/电子书通常需要:
- 收集和整理大量资料
- 设计排版和视觉风格
- 编写和润色文案
- 制作或寻找配图
这个过程往往需要数小时甚至数天。我们希望通过 AI 技术,将这个过程缩短到几分钟。
1.2 开发流程
Phase 1: 需求确认
- 用户输入主题和阅读时间
- Agent 自动分析并确认创作方向
- 明确目标受众和内容风格
Phase 2: 素材收集
- 使用
web_search 工具搜索相关资料
- 使用
web_scrape 工具抓取高质量网页内容
- 提取关键数据、案例和权威观点
Phase 3: 大纲规划
- 基于收集的素材生成详细大纲
- 使用
booklet_update 工具展示大纲给用户
- 等待用户确认后再进入下一阶段
Phase 4: 页面生成
- 使用
page_upsert 工具逐页生成内容
- 支持并行生成( 3-5 页同时处理)
- 实时更新进度(通过
TodoWrite 工具)
- 智能配图( 70% 真实图片 + 30% AI 生成图片)
二、技术实现原理
2.1 整体架构
前端表单 → Java 后端 → Python AI 服务 → Claude API
↓ ↓ ↓
SSE 连接 ← 消息推送 ← Agent 工具调用
核心技术栈:
- 前端: Vue 3 + SSE (Server-Sent Events)
- 后端: Java Spring Boot
- AI 服务: Python + Claude Agent SDK
- AI 模型: Claude Sonnet 4
2.2 Agent 工作流
BookletAI 基于 Claude Agent SDK 构建,通过 MCP (Model Context Protocol) 工具系统实现复杂的内容生成流程。
核心工具集:
- web_search - 网络搜索
- web_scrape - 网页抓取
- image_search - 图片搜索
- text_to_image - AI 图片生成
- booklet_update - 更新小册子信息
- page_upsert - 创建/更新页面
2.3 消息流转机制
SSE 实时通信:
前端建立 SSE 连接
↓
Java 后端创建 Agent 会话
↓
Python AI 服务调用 Claude API
↓
Claude 返回流式响应( think/tool/text )
↓
Java 后端解析并转换消息格式
↓
通过 SSE 推送给前端
↓
前端实时渲染(思考过程、工具调用、内容更新)
消息类型:
think - AI 思考过程
tool - 工具调用( running → completed )
text - AI 文本回复
error - 错误信息
2.4 并行优化
为了提升生成速度,我们实现了多项并行优化:
- 并行网页抓取 - 同时抓取 3-5 个网页
- 并行页面生成 - 同时生成 3-5 个页面
- 进度实时同步 - 使用 TodoWrite 工具实时更新进度
2.5 智能配图策略
图片来源比例:
- 70% 真实图片(通过
image_search)
- 30% AI 生成图片(通过
text_to_image)
图片验证机制:
搜索图片后必须验证可下载性,如果下载失败则尝试其他图片或使用 AI 生成。
三、作品展示
3.1 示例作品
《北京故宫·紫禁城旅游指南》
在线预览: https://bookletai.org/product-detail.html?contentId=01bdb85e9a294f65861d7b874bb94df9
作品特点:
- 📖 4 页精美排版
- 🎨 专业设计,图文并茂
- 📝 内容丰富,涵盖历史、建筑、文物、游览攻略
- 🌐 支持 HTML5 预览和 PDF 下载
内容结构:
- 封面 - 故宫太和殿全景,标题"皇城遗韵"
- 第 2 页 - 六百年紫禁城历史与建筑介绍
- 第 3 页 - 百万珍藏(珍宝馆、书画馆、钟表馆、瓷器馆)
- 第 4 页 - 游览攻略(入园须知、开放时间、交通建议、推荐路线)
3.2 产品特点
- 完全免费 - 无需注册,无需登录
- 多语言支持 - 支持 26 种语言
- AI 驱动 - 自动生成高质量内容
- 多种导出格式 - PDF 、HTML5
- 适用场景广泛 - 教育、营销、非营利组织
3.3 使用场景
- 教育工作者 - 快速制作课程材料、学习指南
- 内容创作者 - 制作电子书、知识付费内容
- 营销团队 - 制作产品手册、客户提案
- 个人用户 - 整理知识、分享经验
四、技术亮点总结
- Agent 驱动 - 基于 Claude Agent SDK ,实现复杂的多步骤工作流
- 工具生态 - 丰富的 MCP 工具集(搜索、抓取、图片、内容生成)
- 实时通信 - SSE 推送,前端实时渲染 AI 创作过程
- 并行优化 - 网页抓取和页面生成支持并行处理
- 智能配图 - 真实图片 + AI 生成图片的混合策略
- 进度可视化 - TodoWrite 工具实时同步创作进度
五、体验地址
官网: http://bookletai.org/
示例作品: https://bookletai.org/product-detail.html?contentId=01bdb85e9a294f65861d7b874bb94df9
欢迎大家试用并提供反馈!如果对技术实现有任何问题,欢迎在评论区讨论。