聊聊知识图谱

作者: 华渚牧童 | 来源:发表于2019-08-12 23:31 被阅读56次

聊聊知识图谱
领域综述 | 知识图谱概论（一）
产品 | 知识图谱落地应用：金融投资领域
产品 | 知识图谱落地应用：智能问答
2020-01-09
知识图谱技术解剖
产品经理视觉——初识知识图谱（二）
知识图谱
知识图谱相关知识
知识图谱概论（一）

知识图谱是2012年由Google公司提出的概念，其初衷是为了提高搜索引擎的能力，改善用户的搜索质量以及搜索体验。随着人工智能技术发展和应用，知识图谱逐渐成为关键技术之一，现已被广泛应用于聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统等领域。其在技术领域的热度也在逐年上升。

什么是知识图谱

本质上，知识图谱旨在描述真实世界中存在的各种实体或概念及其各种关系，由此而构成的一张巨大的语义网络图。从实际应用出发可以简单的将知识图谱理解为多关系图。

数据结构中的图，包含节点和边。一般这些节点和边都是同一种类型的。而知识图谱这样的多关系图中，包含多种类型的节点和边。如下边上图是一个经典的图结构，下图则是一个多关系图，其中不同类型的节点和边用不同的颜色表示。

经典图结构

多关系图

在知识图谱中我们一般用实体、概念等表示节点，关系来表示边，关系即实体之间的某种联系。下图就是现实中一个场景用知识图谱表达的例子。人、国家和篮球都是实体，而且是不同类型的实体。人和人之间的关系可以是“夫妻”也可以是“朋友”。人这个实体和篮球运动实体之间的关系可以是“从事这项运动”，当然也可以是别的关系，例如解说评论、痴迷、讨厌等。

传统搜索基于关键字，返回网页给用户，再由用户对网页信息进行筛选提取加工。而基于知识图谱的搜索，则通过提取关键词，在知识库中通过搜索关键字及关系，对搜索结果进行过滤筛选和分类后返回结果。

例如，我们在百度中搜索“姚明的妻子”，百度不但返回了正确答案，还相关联的列出“篮球名将”、“中国运动员”和“篮球运动员”几类结果。这就是搜索引擎通过“姚明”、“妻子”、“篮球”、“中国”等关键字和关系进行综合搜索筛选的结果。

很多网站都有这样的功能，尤其是像百度、谷歌、搜狗等搜索引擎公司。还有像企查查、天眼查等。下图就是在企查查中查出的马云老板关系图。

知识图谱的构建

知识图谱的构建是实现以上的应用基础，而且构建的前提是需要把数据从不同的数据源中抽取出来。如果是构建某一细分领域的知识图谱，则数据来源可以是公司的业务数据，可以对公司数据库中的结构化数据稍微进行加工就可以作为AI的输入。而如果没有数据积累，需要通过公开的信息构建信息图谱时，则需要对公开的非结构化信息进行结构化信息的提取，例如从维基百科中抽取信息。而信息抽取的难点也在于非结构化信息的处理。此时就涉及到自然语言处理技术，主要有：

实体命名识别

关系抽取

实体统一

指代消解

抽取结构化信息

“陕西历史博物馆坐落在西安城南，紧邻著名景点大雁塔。陕博是中国第一座大型现代化国家级博物馆，它被誉为“古都明珠，华夏宝库””

我们从这段话中可以抽取出实体“陕西历史博物馆”，属性标记为“博物馆”；“西安”属性标记为“位置”；“大雁塔”属性标记为“景点”；“陕博”属性标记为“博物馆”。实体间的关系抽取：“陕西历史博物馆”和“西安”为“坐落”，和“大雁塔”为“紧邻”。

我们在实体抽取的动作上出现了一个问题，就是实体统一。即同一个实体还会有简称、昵称、别称等。在上面一段话中“陕博”就是“陕西历史博物馆”的简称，指的是同一个实体。识别到它们是同一个实体后，我们就可以扔掉一个，这样就可以减少实体种类也降低了图谱的稀疏性，后续查找就会更加方便也更加准确。

上面一段话中还出现了“它”，从词性上讲我们都知道这是一个代词，那么“它”指代的是哪个实体，这就是指代消解要处理的问题。

以上就是在非结构化信息中抽取结构化信息的非常非常简单的介绍，如果有兴趣可以研究一下自然语言处理，这是AI中一个非常重要的领域。

知识图谱的存储

知识图谱的图存储在图数据库（Graph Database）中，图数据库以图论为理论基础，其主要有两种存储方式：一种是基于RDF的存储；另一种是基于图数据库的存储。它们之间的区别如下图所示。RDF（Relational Data Format）一个重要的设计原则是数据的易发布以及共享，图数据库则把重点放在了高效的图查询和搜索上。其次，RDF以三元组的方式来存储数据而且不包含属性信息，但图数据库一般以属性图为基本的表示形式，所以实体和关系可以包含属性，这就意味着更容易表达现实的业务场景。

知识图谱的应用

知识图谱的应用场景很多，除了问答、搜索和个性化推荐外，在不同行业不同领域也有广泛应用，以下列举几个目前比较常见的应用场景。

企业社交图谱查询

基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散，形成一个网络关系图，直观立体展现企业关联。

企业最终控制人查询

基于股权投资关系寻找持股比例最大的股东，最终追溯至某自然人或国有资产管理部门。

企业之间路径发现

在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中，查询企业之间的最短关系路径，衡量企业之间的联系密切度。

交易知识图谱

金融交易知识图谱在企业知识图谱之上，增加交易客户数据、客户之间的关系数据以及交易行为数据等，利用图挖掘技术，包括很多业务相关的规则，来分析实体与实体之间的关联关系，最终形成金融领域的交易知识图谱。

在银行交易反欺诈方面，可以从从身份证，手机号、设备指纹、IP等多重维度对持卡人的历史交易信息进行自动化关联分析，关联分析出可疑人员和可疑交易。

反洗钱知识图谱

对于反洗钱或电信诈骗场景，知识图谱可精准追踪卡卡间的交易路径，从源头的账户/卡号/商户等关联至最后收款方，识别洗钱/套现路径和可疑人员，并通过可疑人员的交易轨迹，层层关联，分析得到更多可疑人员、账户、商户或卡号等实体。

信贷/消费贷知识图谱

对于互联网信贷、消费贷、小额现金贷等场景，知识图谱可从身份证、手机号、紧急联系人手机号、设备指纹、家庭地址、办公地址、IP等多重维度对申请人的申请信息，进行自动化关联分析，通过关系关系并结合规则，识别图中异常信息，有效判别申请人信息真实性和可靠性。

内控知识图谱

在内控场景的经典案例里，中介人员通过制造或利用对方信息的不对称，将企业存款从银行偷偷转移，在企业负责人不知情的情况下，中介已把企业存在银行的全部存款转移并消失不见。通过建立企业知识图谱，可将信息实时互通，发现一些隐藏信息，寻找欺诈漏洞，找出资金流向。

网友评论

本文标题：聊聊知识图谱

本文链接：https://www.haomeiwen.com/subject/aocmjctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！