chatpdf类应用的新方案

作者: NazgulSun | 来源:发表于2023-09-23 16:50 被阅读0次

基本都是搜索的路子，将doc 中所有的文本进行向量化，然后query，将query 做成向量，然后用相似性算法去召回段落来回答问题。
现有方案的缺点：

和我自己之前测试一样的思路，将文档做成一个doc tree。保留所有目录章节等信息。
对于一个query，先挑选段落章节
然后在挑选内容去回答。

为什么有用，不只是利用了相似性，还利用llm的推理能力。
有很多问题是需要推理的。

参考最新的论文，PDFTriage: Question Answering over Long, Structured Documents
论文出来之后，我们可以更加相信这个方案就是对的。

image.png

可以解决的问题类型，不再是相似性检索：

image.png

效果对比可以看出来，和现有方案相比：

image.png

完全依赖目录树，有些具体的问题可能也不太能推理，那么是不是可以考虑，把段落的第一句也作为最细粒度的标题。
因为通常第一句话就是一个总结。

网友评论

本文标题：chatpdf类应用的新方案

本文链接：https://www.haomeiwen.com/subject/dvixbdtx.html

chatpdf类应用的新方案