现有方案
基本都是搜索的路子,将doc 中所有的文本进行向量化,然后query,将query 做成向量,然后用相似性算法去召回段落来回答问题。
现有方案的缺点:
- 缺失了很多文档结构的信息,然后文档结构信息又很重要的,决定了上线。
新的方案
和我自己之前测试一样的思路,将文档做成一个doc tree。保留所有目录章节等信息。
对于一个query,先挑选段落章节
然后在挑选内容去回答。
为什么有用,不只是利用了相似性,还利用llm的推理能力。
有很多问题是需要推理的。
参考最新的论文,PDFTriage: Question Answering over Long, Structured Documents
论文出来之后,我们可以更加相信这个方案就是对的。
image.png
可以解决的问题类型,不再是相似性检索:
image.png
效果对比可以看出来,和现有方案相比:
image.png
一种改进
完全依赖目录树,有些具体的问题可能也不太能推理,那么是不是可以考虑,把段落的第一句也作为最细粒度的标题。
因为通常第一句话就是一个总结。
混合使用不同的召回策略
- query类型本身进行分类,比如qa类型的query
- 指令类型的query,或者比较泛的类型的query 更加适合page-recall or tilte recall.











网友评论