美文网首页
知识库RAG应用-Dify&RagFlow文档处理整理

知识库RAG应用-Dify&RagFlow文档处理整理

作者: LaxChan | 来源:发表于2025-05-20 14:59 被阅读0次

Dify

默认只解析文档中的文本,对于表格、图表类不做处理

  • 文档加载流程
    a.) 入口 api\core\indexing_runner.py
    b.) 路由 api\core\rag\index_processor\index_processor_factory.py
    text_model: api\core\rag\index_processor\processor\paragraph_index_processor.py
    qa_model: api\core\rag\index_processor\processor\qa_index_processor.py
    hierarchical_model:api\core\rag\index_processor\processor\parent_child_index_processor.py
    c.) 解析行为(text_model为例)
    【extract操作】api\core\rag\index_processor\processor\paragraph_index_processor.py -> api\core\rag\extractor\extract_processor.py
    不同文档类型的实现(api\core\rag\extractor):
    extractor
    【transform操作】api\core\rag\index_processor\processor\paragraph_index_processor.py
    文档清理: api\core\rag\cleaner\clean_processor.py
    分nodes:
    nodes

RagFlow

文本、复杂表格,图表都可以支持,结合DeepDoc进行文档处理

  • 上传文档
    【api接口】v1/document/upload(api\apps\document_app.py)
    上传文件到服务器,并保存上传文件的相关信息,并进行知识库文档的基本初始化处理
  • 文档解析
    【api接口】v1/document/run (api\apps\document_app.py)
    更新文档状态,供后台任务解析、分块该文档
  • 文档解析分块
    【后台任务】rag\svr\task_executor.py
    根据不同的类型使用不同的实现进行处理


    build_chunks

    Factory:

FACTORY = {
    "general": naive,
    ParserType.NAIVE.value: naive,
    ParserType.PAPER.value: paper,
    ParserType.BOOK.value: book,
    ParserType.PRESENTATION.value: presentation,
    ParserType.MANUAL.value: manual,
    ParserType.LAWS.value: laws,
    ParserType.QA.value: qa,
    ParserType.TABLE.value: table,
    ParserType.RESUME.value: resume,
    ParserType.PICTURE.value: picture,
    ParserType.ONE.value: one,
    ParserType.AUDIO.value: audio,
    ParserType.EMAIL.value: email,
    ParserType.KG.value: naive,
    ParserType.TAG.value: tag
}

对应代码(rag\app):


文档处理

deepdoc对应代码(deepdoc):


deepdoc

相关文章

  • teambition所思竞品分析

    体验创建知识库流程: 概览对知识库的提供一个可视化视图。概览 最近删除比iC多了一个【最近删除】功能,文档类的应用...

  • MFC_ SDI 和 MDI

    MFC 轻松处理单文档界面 (SDI) 和多文档界面 (MDI) 应用程序。 SDI 应用程序允许一次只有一个打开...

  • 每天为你介绍一个时尚品牌~Rag & Bone

    瑞格布恩(Rag & Bone)取自英国俗语“拾荒人”(Rag and Bone Man),“收集没有人想要的东西...

  • hive的serde解析与应用

    今天把serde讲解和相关应用整理一下,参考文档如下参考的官方文档:https://cwiki.apache.or...

  • qiankun 微应用处理样式隔离、冲突

    qiankun微应用中样式隔离处理方式,官方文档有有说到处理方式;一般在主应用中配置样式隔离:如何确保主应用跟微应...

  • iOS didReceiveMemoryWarning 的方法理

    参考文档:27.iOS内存警告处理(didReceiveMemoryWarning) 总结: (1)当应用可用内存...

  • DOM

    本文整理自《高级javascript程序设计》 DOM(文档对象模型)是针对HTML和XML文档的一个API(应用...

  • VMware 常用连接

    VMware官方文档知识库https://docs.vmware.com/cn/[https://docs.vmw...

  • 知识库整理

    APA数据库: https://www.apa.org/pubs/databases/index.aspxMIT数...

  • 2020-06-27 洋葱阅读法:04阅读知识库-01如何进行筛

    建立阅读知识库的3个步骤:筛选收集-收纳整理-应用输出 一、筛选收集 1、收集什么:第一学习成果;第二行动经验; ...

网友评论

      本文标题:知识库RAG应用-Dify&RagFlow文档处理整理

      本文链接:https://www.haomeiwen.com/subject/jilzijtx.html