知识图谱是2012年由Google公司提出的概念,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能技术发展和应用,知识图谱逐渐成为关键技术之一,现已被广泛应用于聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统等领域。其在技术领域的热度也在逐年上升。
什么是知识图谱
本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其各种关系,由此而构成的一张巨大的语义网络图。从实际应用出发可以简单的将知识图谱理解为多关系图。
数据结构中的图,包含节点和边。一般这些节点和边都是同一种类型的。而知识图谱这样的多关系图中,包含多种类型的节点和边。如下边上图是一个经典的图结构,下图则是一个多关系图,其中不同类型的节点和边用不同的颜色表示。
经典图结构
多关系图
在知识图谱中我们一般用实体、概念等表示节点,关系来表示边,关系即实体之间的某种联系。下图就是现实中一个场景用知识图谱表达的例子。人、国家和篮球都是实体,而且是不同类型的实体。人和人之间的关系可以是“夫妻”也可以是“朋友”。人这个实体和篮球运动实体之间的关系可以是“从事这项运动”,当然也可以是别的关系,例如解说评论、痴迷、讨厌等。
传统搜索基于关键字,返回网页给用户,再由用户对网页信息进行筛选提取加工。而基于知识图谱的搜索,则通过提取关键词,在知识库中通过搜索关键字及关系,对搜索结果进行过滤筛选和分类后返回结果。
例如,我们在百度中搜索“姚明的妻子”,百度不但返回了正确答案,还相关联的列出“篮球名将”、“中国运动员”和“篮球运动员”几类结果。这就是搜索引擎通过“姚明”、“妻子”、“篮球”、“中国”等关键字和关系进行综合搜索筛选的结果。
很多网站都有这样的功能,尤其是像百度、谷歌、搜狗等搜索引擎公司。还有像企查查、天眼查等。下图就是在企查查中查出的马云老板关系图。
知识图谱的构建
知识图谱的构建是实现以上的应用基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。如果是构建某一细分领域的知识图谱,则数据来源可以是公司的业务数据,可以对公司数据库中的结构化数据稍微进行加工就可以作为AI的输入。而如果没有数据积累,需要通过公开的信息构建信息图谱时,则需要对公开的非结构化信息进行结构化信息的提取,例如从维基百科中抽取信息。而信息抽取的难点也在于非结构化信息的处理。此时就涉及到自然语言处理技术,主要有:
实体命名识别
关系抽取
实体统一
指代消解
抽取结构化信息
“陕西历史博物馆坐落在西安城南,紧邻著名景点大雁塔。陕博是中国第一座大型现代化国家级博物馆,它被誉为“古都明珠,华夏宝库””
我们从这段话中可以抽取出实体“陕西历史博物馆”,属性标记为“博物馆”;“西安”属性标记为“位置”;“大雁塔”属性标记为“景点”;“陕博”属性标记为“博物馆”。实体间的关系抽取:“陕西历史博物馆”和“西安”为“坐落”,和“大雁塔”为“紧邻”。
我们在实体抽取的动作上出现了一个问题,就是实体统一。即同一个实体还会有简称、昵称、别称等。在上面一段话中“陕博”就是“陕西历史博物馆”的简称,指的是同一个实体。识别到它们是同一个实体后,我们就可以扔掉一个,这样就可以减少实体种类也降低了图谱的稀疏性,后续查找就会更加方便也更加准确。
上面一段话中还出现了“它”,从词性上讲我们都知道这是一个代词,那么“它”指代的是哪个实体,这就是指代消解要处理的问题。
以上就是在非结构化信息中抽取结构化信息的非常非常简单的介绍,如果有兴趣可以研究一下自然语言处理,这是AI中一个非常重要的领域。
知识图谱的存储
知识图谱的图存储在图数据库(Graph Database)中,图数据库以图论为理论基础,其主要有两种存储方式:一种是基于RDF的存储;另一种是基于图数据库的存储。它们之间的区别如下图所示。RDF(Relational Data Format)一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
知识图谱的应用
知识图谱的应用场景很多,除了问答、搜索和个性化推荐外,在不同行业不同领域也有广泛应用,以下列举几个目前比较常见的应用场景。
企业社交图谱查询
基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散,形成一个网络关系图,直观立体展现企业关联。
企业最终控制人查询
基于股权投资关系寻找持股比例最大的股东,最终追溯至某自然人或国有资产管理部门。
企业之间路径发现
在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中,查询企业之间的最短关系路径,衡量企业之间的联系密切度。
交易知识图谱
金融交易知识图谱在企业知识图谱之上,增加交易客户数据、客户之间的关系数据以及交易行为数据等,利用图挖掘技术,包括很多业务相关的规则,来分析实体与实体之间的关联关系,最终形成金融领域的交易知识图谱。
在银行交易反欺诈方面,可以从从身份证,手机号、设备指纹、IP等多重维度对持卡人的历史交易信息进行自动化关联分析,关联分析出可疑人员和可疑交易。
反洗钱知识图谱
对于反洗钱或电信诈骗场景,知识图谱可精准追踪卡卡间的交易路径,从源头的账户/卡号/商户等关联至最后收款方,识别洗钱/套现路径和可疑人员,并通过可疑人员的交易轨迹,层层关联,分析得到更多可疑人员、账户、商户或卡号等实体。
信贷/消费贷知识图谱
对于互联网信贷、消费贷、小额现金贷等场景,知识图谱可从身份证、手机号、紧急联系人手机号、设备指纹、家庭地址、办公地址、IP等多重维度对申请人的申请信息,进行自动化关联分析,通过关系关系并结合规则,识别图中异常信息,有效判别申请人信息真实性和可靠性。
内控知识图谱
在内控场景的经典案例里,中介人员通过制造或利用对方信息的不对称,将企业存款从银行偷偷转移,在企业负责人不知情的情况下,中介已把企业存在银行的全部存款转移并消失不见。通过建立企业知识图谱,可将信息实时互通,发现一些隐藏信息,寻找欺诈漏洞,找出资金流向。












网友评论