美文网首页
使用向量召回的一些经验

使用向量召回的一些经验

作者: NazgulSun | 来源:发表于2023-07-31 17:31 被阅读0次

你的query是什么,你召回的就是什么?

我们使用的是openai的embedding 模型,对 query 和 目标document 做向量化,然后查找与query 向量距离最小的段落。
对于我们的query,我们要清楚的知道,预期返回的是什么?
比如你的query是一个很细的问题,比如 ai 算力芯片是什么? 你有可能召回很多ai芯片的内容。
比如你的query是一个很宽泛的问题,比如 对比AI算力芯片竞争格局,你可能很难召回有效的零碎信息,除非有一个段落专门讲AI芯片格局。所以你query的总归是要找相似的东西,你召回不了,哪些需要推理,归纳和总结的素材。
ai算力芯片是什么? 这是一个小的query, AI算力芯片竞争格局这是一个很大的query。

对 大query 的拆解

总体的使用效果来看,AI 目前还不适合解决很难的问题,你需要将问题拆分成小问题,可能会达到很好的效果。
比如“AI芯片竞争格局”,你可以拆成,AI 芯片公司有哪些,AI芯片公司的营收有哪些,每一家的技术是怎么样的。然后收集搜索的素材在让AI 做整合归纳。 AI 对小任务的效果好过大任务。

chatpdf等 emebedding模式的局限性

如果你的query是一个大的问答,基本不适合用embedding模式,而适合用推理模式,推理模式是什么?
举一个chatpdf的例子,有很多query 它无法回答,但是你要问:这个是doc的文档目录,请问哪几个小节可能帮我们找到query的答案,他会基于推理给你返回一些范围,在这个小范围内,我们在做素材的整理和归纳,有可能解决你的问题。

embedding 召回的阈值

个人评测下来openai-ada,0.2 召回的的相似度就比较高了,比如90%,超过0.3就会直线下降,比如50%。

其他经验

  • 越具体的问题和query,召回效果越好,越宽泛的问题,召回效果越差。

相关文章

  • MIND

    1. Motivation 在召回向量中,大多数文章是行文序列建立单一向量表示user的兴趣,这篇文章对用户的行为...

  • 向量的长度和单位长度_线性代数_day5

    向量的长度 向量的长度又叫向量的模,使用双竖线来包裹向量表示向量的长度 下面是二维向量中取模的算法,使用勾股定理即...

  • 使用python来实现向量的基本运算操作

    向量的长度 向量的长度又叫向量的模,使用双竖线来包裹向量表示向量的长度 下面是二维向量中取模的算法,使用勾股定理即...

  • Unity3d数学基础之向量

    这只是基础的一些数学知识,后面会为大家整理一些,unity中如何使用向量,向量在unity中的各种算法及其运算法则...

  • 学习R记录 <- 基础3

    向量、矩阵、数组 向量、矩阵、数组,都是在使用R中常用到的 1.1向量 使用c函数可以拼接数值和向量 除此之外用v...

  • 学习小组Day5笔记--尤少林

    R语言的简单使用 数据类型:向量,矩阵,数组,数据框,列表 向量1.1.向量的赋值;向量的四种赋值1.2. 从向量...

  • 2.向量--进一步

    向量的模 向量的模, 即向量的长度. 使用python 的numpy 库计算: numpy.linalg.norm...

  • 向量的点乘的应用和定义_线性代数_day7

    使用cos判断向量的垂直,角度范围 判断两个向量的相似程度(推荐系统) 使用向量的点乘可以通过差值进行制作推荐系统...

  • 编程作业(六)

    支持向量机 支持向量机 本部分练习,我们将在2D示例数据集上使用支持向量机。通过在这些数据集上使用支持向量机,将帮...

  • 向量,矩阵,张量求导法则

    向量,矩阵,张量求导向量对向量求导向量对矩阵求导矩阵对矩阵求导使用链式法则总结 向量,矩阵,张量求导 参考:htt...

网友评论

      本文标题:使用向量召回的一些经验

      本文链接:https://www.haomeiwen.com/subject/pggepdtx.html