实战:搭建知识库问答系统 (RAG)
知识库问答是目前最落地的 AI 应用场景。本教程将教你如何把一份 100 页的操作手册变成一个“百问百答”的 AI 助手。
5分钟
2025-12-26
实战项目教程实战:搭建知识库问答系统
实战:搭建知识库问答系统 (RAG)
知识库问答是目前最落地的 AI 应用场景。本教程将教你如何把一份 100 页的操作手册变成一个“百问百答”的 AI 助手。
1. 技术架构
- 平台:FastGPT 或 Dify (推荐 Dify,界面友好)。
- 模型:
- LLM:gpt-3.5-turbo 或 gln-4-flash (便宜)。
- Embedding:text-embedding-3-small (向量化模型)。
- 数据源:PDF/Word/Markdown 文档。
2. 详细步骤 (以 Dify 为例)
2.1 准备知识库 (Knowledge)
- 登录 Dify,点击“知识库” -> “上传文件”。
- 上传你的公司员工手册或产品文档。
- 分段设置:
- 推荐选择“自动分段与清洗”。
- Chunk Size (分块大小):建议 500-1000 字符。太小会导致语义破碎,太大会导致检索不精。
- 点击“保存并处理”。系统会自动计算向量索引。
2.2 创建 Chatbot 应用
- 回到“工作室”,创建一个“聊天助手”应用。
- 关联知识库:在“上下文”中添加刚才的知识库。
- 设置 Prompt:
你是一个专业的企业小助手。 请基于{{context}}中的内容回答用户的问题。 如果知识库中没有相关信息,请直接回答“资料中未提及”,严禁编造答案。
2.3 调试与检索测试
- 在右侧预览框提问:“年假有多少天?”
- 查看“引用归属”:系统会显示它引用了知识库的哪一段。
- 如果回答不准,可以调整“检索阈值”(Threshold),通常设为 0.5-0.7。
3. 优化技巧
- QA 拆分:不要直接丢大段 PDF。最好先把文档整理成“问题-答案”的 Excel 表格导入,效果提升 50% 以上。
- 混合检索:开启“关键词检索 + 向量检索”的混合模式,对专有名词(如“错误码 E305”)的命中率更高。