聊聊知识图谱

作者: 华渚牧童 | 来源:发表于2019-08-12 23:31 被阅读56次

知识图谱是2012年由Google公司提出的概念,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能技术发展和应用,知识图谱逐渐成为关键技术之一,现已被广泛应用于聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统等领域。其在技术领域的热度也在逐年上升。

什么是知识图谱

本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其各种关系,由此而构成的一张巨大的语义网络图。从实际应用出发可以简单的将知识图谱理解为多关系图。

数据结构中的图,包含节点和边。一般这些节点和边都是同一种类型的。而知识图谱这样的多关系图中,包含多种类型的节点和边。如下边上图是一个经典的图结构,下图则是一个多关系图,其中不同类型的节点和边用不同的颜色表示。

经典图结构 多关系图

在知识图谱中我们一般用实体、概念等表示节点,关系来表示边,关系即实体之间的某种联系。下图就是现实中一个场景用知识图谱表达的例子。人、国家和篮球都是实体,而且是不同类型的实体。人和人之间的关系可以是“夫妻”也可以是“朋友”。人这个实体和篮球运动实体之间的关系可以是“从事这项运动”,当然也可以是别的关系,例如解说评论、痴迷、讨厌等。

传统搜索基于关键字,返回网页给用户,再由用户对网页信息进行筛选提取加工。而基于知识图谱的搜索,则通过提取关键词,在知识库中通过搜索关键字及关系,对搜索结果进行过滤筛选和分类后返回结果。

例如,我们在百度中搜索“姚明的妻子”,百度不但返回了正确答案,还相关联的列出“篮球名将”、“中国运动员”和“篮球运动员”几类结果。这就是搜索引擎通过“姚明”、“妻子”、“篮球”、“中国”等关键字和关系进行综合搜索筛选的结果。

很多网站都有这样的功能,尤其是像百度、谷歌、搜狗等搜索引擎公司。还有像企查查、天眼查等。下图就是在企查查中查出的马云老板关系图。

知识图谱的构建

知识图谱的构建是实现以上的应用基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。如果是构建某一细分领域的知识图谱,则数据来源可以是公司的业务数据,可以对公司数据库中的结构化数据稍微进行加工就可以作为AI的输入。而如果没有数据积累,需要通过公开的信息构建信息图谱时,则需要对公开的非结构化信息进行结构化信息的提取,例如从维基百科中抽取信息。而信息抽取的难点也在于非结构化信息的处理。此时就涉及到自然语言处理技术,主要有:

实体命名识别

关系抽取

实体统一

指代消解

抽取结构化信息

“陕西历史博物馆坐落在西安城南,紧邻著名景点大雁塔。陕博是中国第一座大型现代化国家级博物馆,它被誉为“古都明珠,华夏宝库””

我们从这段话中可以抽取出实体“陕西历史博物馆”,属性标记为“博物馆”;“西安”属性标记为“位置”;“大雁塔”属性标记为“景点”;“陕博”属性标记为“博物馆”。实体间的关系抽取:“陕西历史博物馆”和“西安”为“坐落”,和“大雁塔”为“紧邻”。

我们在实体抽取的动作上出现了一个问题,就是实体统一。即同一个实体还会有简称、昵称、别称等。在上面一段话中“陕博”就是“陕西历史博物馆”的简称,指的是同一个实体。识别到它们是同一个实体后,我们就可以扔掉一个,这样就可以减少实体种类也降低了图谱的稀疏性,后续查找就会更加方便也更加准确。

上面一段话中还出现了“它”,从词性上讲我们都知道这是一个代词,那么“它”指代的是哪个实体,这就是指代消解要处理的问题。

以上就是在非结构化信息中抽取结构化信息的非常非常简单的介绍,如果有兴趣可以研究一下自然语言处理,这是AI中一个非常重要的领域。

知识图谱的存储

知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,其主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储它们之间的区别如下图所示。RDF(Relational Data Format)一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。

知识图谱的应用

知识图谱的应用场景很多,除了问答、搜索和个性化推荐外,在不同行业不同领域也有广泛应用,以下列举几个目前比较常见的应用场景。

企业社交图谱查询

基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。

企业最终控制人查询

基于股权投资关系寻找持股比例最大的股东,最终追溯至某自然人或国有资产管理部门。

企业之间路径发现

在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。

交易知识图谱

金融交易知识图谱在企业知识图谱之上,增加交易客户数据、客户之间的关系数据以及交易行为数据等,利用图挖掘技术,包括很多业务相关的规则,来分析实体与实体之间的关联关系,最终形成金融领域的交易知识图谱。

在银行交易反欺诈方面,可以从从身份证,手机号、设备指纹、IP等多重维度对持卡人的历史交易信息进行自动化关联分析,关联分析出可疑人员和可疑交易。

反洗钱知识图谱

对于反洗钱或电信诈骗场景,知识图谱可精准追踪卡卡间的交易路径,从源头的账户/卡号/商户等关联至最后收款方,识别洗钱/套现路径和可疑人员,并通过可疑人员的交易轨迹,层层关联,分析得到更多可疑人员、账户、商户或卡号等实体。

信贷/消费贷知识图谱

对于互联网信贷、消费贷、小额现金贷等场景,知识图谱可从身份证、手机号、紧急联系人手机号、设备指纹、家庭地址、办公地址、IP等多重维度对申请人的申请信息,进行自动化关联分析,通过关系关系并结合规则,识别图中异常信息,有效判别申请人信息真实性和可靠性。

内控知识图谱

在内控场景的经典案例里,中介人员通过制造或利用对方信息的不对称,将企业存款从银行偷偷转移,在企业负责人不知情的情况下,中介已把企业存在银行的全部存款转移并消失不见。通过建立企业知识图谱,可将信息实时互通,发现一些隐藏信息,寻找欺诈漏洞,找出资金流向。

相关文章

  • 聊聊知识图谱

    知识图谱是2012年由Google公司提出的概念,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。...

  • 领域综述 | 知识图谱概论(一)

    本篇文章从知识图谱历史发展的角度向大家介绍知识图谱。 目录: 什么是知识图谱 知识图谱的发展史 一.什么是知识图谱...

  • 产品 | 知识图谱落地应用:金融投资领域

    [ 相关笔记 ] 产品 | 知识图谱落地应用:搜索 产品 | 知识图谱落地应用:推荐 产品 | 知识图谱落地应用:...

  • 产品 | 知识图谱落地应用:智能问答

    [ 相关笔记 ] 产品 | 知识图谱落地应用:搜索 产品 | 知识图谱落地应用:推荐 产品 | 知识图谱落地应用:...

  • 2020-01-09

    自动构建知识图谱 一、知识图谱相关概念 Google公司于2012年提出知识图谱(Knowledge Graph)...

  • 知识图谱技术解剖

    本体、知识库、知识图谱、知识图谱识别之间的关系? 本体:领域术语集合。 知识库:知识集合。 知识图谱:图状具有关联...

  • 产品经理视觉——初识知识图谱(二)

    知识图谱的应用,大致可以分为两类:通用知识图谱和行业知识图谱。我们日常生活中接触最多的是通用知识图谱,如:Wiki...

  • 知识图谱

    知识图谱 基本概念及定义 [知识图谱](Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域...

  • 知识图谱相关知识

    1.最全的知识图谱技术综述 2.浅谈知识图谱基础 3.为什么知识图谱终于火了? 4.知识图谱技术原理介绍 5. 6.

  • 知识图谱概论(一)

    本篇文章从知识图谱历史发展的角度向大家介绍一下知识图谱。 一 什么是知识图谱 知识图谱属于人工智能的重要分支——知...

网友评论

    本文标题:聊聊知识图谱

    本文链接:https://www.haomeiwen.com/subject/aocmjctx.html