目前,我们正在为公司的 OA 系统引入 AI 大模型,目标是打造一个能直接回答业务问题、辅助员工办公的智能知识库。
很多人的第一反应是:既然引入了最先进的 AI,是不是只要把公司各个共享盘里的 Word、PDF、PPT 闭着眼睛打包扔进系统,它就能自动融会贯通了?
现实是残酷的:不能。
目前的 AI 技术(无论多么先进)本质上是一个“超级文本信息检索与总结器”。如果我们扔进去的是缺乏逻辑、格式混乱的文档,AI 输出的就会是断章取义、张冠李戴的废话。这就是行业里常说的“Garbage in, garbage out(垃圾进,垃圾出)”。
为了让大家直观理解我们需要什么样的文档,我们先来看看 AI 是如何在我们这套系统中“阅读”和“找答案”的。
一、 一图看懂:AI 是怎么在知识库里找答案的?
我们的系统采用了 BM25(关键词匹配) + 语义向量召回 + 重排(Rerank) 的底层技术,并且使用了“父子分段(Parent-Child Chunking)”策略。听起来很技术,但它的工作逻辑其实非常机械和直接:
机理
从流程图中可以看出,决定 AI 回答准不准的关键,不在于模型有多聪明,而在于业务文档本身是否具备清晰的“父子结构(层级)”和完整的“上下文条件”。
二、 什么是真正的“优质语料”?(对比案例)
为了让系统顺利运转,我们需要各业务线在提供资料时,尽可能遵循以下标准。我们以公司最常见的两类文档为例:
场景 1:规章制度 / 政策法规类(HR、财务、行政)
政策类文档最忌讳“前提条件”和“处理结果”天各一方,也最忌讳口语化和指代不清。
❌ 反面案例(AI 极易出错的语料):
“关于那个报销的事情,大家注意一下,出差去特大城市可以坐高铁,实报实销。但是新人不行,得主管特批。另外打车费每天上限100块,超了不给报。”
- AI 的困惑: “那个”是什么?“特大城市”具体包含哪些?“新人”是指入职多久的人?这段话如果被系统从中切断,AI 就会告诉所有员工“出差打车每天只能报100”,完全忽略了可能存在的前提。
✅ 正面案例(优质语料):
《2026年员工差旅报销管理办法》
3. 交通费用报销标准
3.1 适用范围: 本标准适用于已转正的正式员工。试用期员工出差需由部门总监邮件特批。
3.2 高铁与动车标准:
a) 前往一线城市(限北京、上海、广州、深圳),可报销高铁二等座。
b) 前往其他城市,仅限报销动车二等座。
3.3 市内交通标准: 差旅期间市内打车费用,报销上限为 100元/人/天。
- 为什么好: 层级分明(3 -> 3.1/3.2)。系统在检索到“打车费用”时,通过父子分段机制,能顺藤摸瓜知道这段话属于《2026年员工差旅报销管理办法》,且有明确的适用人群界定。
场景 2:业务经验传承 / IT运维类(研发、业务复盘、售后解答)
经验类文档最忌讳“只有动作,没有场景”。AI 无法理解没有背景信息的解决方案。
❌ 反面案例(AI 无法复用的废料):
“上周系统又卡了,一直转圈圈。后来小王把服务器那个配置改了一下,重启了中间件就好了,大家以后遇到这个问题就这么干。”
- AI 的困惑: 哪个系统卡了?报了什么错?改了哪个配置文件的哪一行?这种复盘文档存入知识库,完全是占用存储空间。
✅ 正面案例(高质量 FAQ 格式):
【场景分类】: OA 系统 / 考勤打卡模块
【故障现象】: 每月月末最后一天上午 9:00,打卡页面加载超过 30 秒,提示“Gateway Timeout”。
【原因分析】: 月末并发量激增,Nginx 代理服务器的最大连接数配置过低导致排队。
【标准解决步骤】:
- 登录代理服务器(IP: 192.168.x.x)。
- 打开配置文件
/etc/nginx/nginx.conf。- 将
worker_connections参数从 1024 修改为 4096。- 执行
nginx -s reload重启服务。
- 为什么好: 采用了标准的 FAQ(问题-原因-方案) 结构。当员工在对话框里输入“月末打卡一直转圈怎么办”时,AI 能立刻通过语义匹配到这个具体的场景,并一字不差地输出 4 个标准排查步骤。
三、 避坑自查:请业务部门在上传前拦截这些文件
为了保证 OA 智能助手的智商在线,请各部门在筹备知识库资料时,坚决不要上传以下三类文件:
- 纯截图拼凑的 PPT 或 PDF: 里面全是图片没有可提取的文字。如果流程图很重要,请务必在图片下方用文字将关键节点描述一遍。
- 极度花哨、满篇飞线的汇报 PPT: 文本框东一个西一个,AI 提取出来的文字是完全乱序的,逻辑尽毁。
- 过期作废的旧制度: 务必在上传前进行清洗。如果不清理,系统可能会同时抽出 2023 年和 2026 年的两份不同标准,AI 会直接“精神分裂”。
四、 总结与诉求
打造一个真正好用的企业大脑,“IT 部门搭台,业务部门唱戏”是唯一可行的路径。
系统的准确率,80% 取决于业务部门提供的语料质量。我们需要各部门指派熟悉业务的骨干,对现有的核心制度、操作手册、常见问题进行一次结构化的梳理和翻新。









网友评论