美文网首页
chatpdf类应用的新方案

chatpdf类应用的新方案

作者: NazgulSun | 来源:发表于2023-09-23 16:50 被阅读0次

现有方案

基本都是搜索的路子,将doc 中所有的文本进行向量化,然后query,将query 做成向量,然后用相似性算法去召回段落来回答问题。
现有方案的缺点:

  • 缺失了很多文档结构的信息,然后文档结构信息又很重要的,决定了上线。

新的方案

和我自己之前测试一样的思路,将文档做成一个doc tree。保留所有目录章节等信息。
对于一个query,先挑选段落章节
然后在挑选内容去回答。

为什么有用,不只是利用了相似性,还利用llm的推理能力。
有很多问题是需要推理的。

参考最新的论文,PDFTriage: Question Answering over Long, Structured Documents
论文出来之后,我们可以更加相信这个方案就是对的。


image.png

可以解决的问题类型,不再是相似性检索:

image.png

效果对比可以看出来,和现有方案相比:


image.png

一种改进

完全依赖目录树,有些具体的问题可能也不太能推理,那么是不是可以考虑,把段落的第一句也作为最细粒度的标题。
因为通常第一句话就是一个总结。

混合使用不同的召回策略

  • query类型本身进行分类,比如qa类型的query
  • 指令类型的query,或者比较泛的类型的query 更加适合page-recall or tilte recall.

相关文章

网友评论

      本文标题:chatpdf类应用的新方案

      本文链接:https://www.haomeiwen.com/subject/dvixbdtx.html