主页 > www.115kj.com >
干货 初学者入门必看的“知识图谱”解读(中)
发布日期:2019-10-09 17:00   来源:未知   阅读:

  的博客文章,其知乎专栏为:AI的怎怎,歪歪不喜欢。欢迎扫描底部社区名片访问

  本系列参考了市面上已知的,几乎全部“知识图谱”相关文章,并总结提炼出一套适合初学者入门的“知识图谱”的知识体系,希望大家能有所收获。

  (1),语义网:1998年提出的科学概念,科学家指定各种规范,表达方式,不断增加并扩充互联网数据的表达和推理等语义能力,基于RDF三元组模型。

  (2),知识图谱:2012年提出的工程概念,当它使用语义网技术栈实现时,和语义网等价。当它使用其他方法实现时,内涵更广,也可以基于属性图模型。

  (1),RDF模型:语义网的基础,所有数据都由三元组组成,W3C标准,支持语义表达和推理,数据易发布和共享。比如,开源的通用知识图谱(FreeBase),开放发布基于N-Triples的RDF数据。代表框架:Jena Framework:操作RDF的数据API,推理RDF的数据引擎,存储RDF的数据库。

  (2),属性图模型:现实生活中,实体和关系都拥有属性,属性图用实体表示节点,关系表示边,分别对应RDF模型的实体和对象属性。但是,属性图中所有的值属性可以全部存储在节点和边的成员变量中,与RDF的数据属性不同,不用显示地以节点和边的形式表示。代表数据库:Neo4J。

  (1),刘庆峰,性别男,1973年出生,在1999年创办科大讯飞,并担任董事长。同时,讯飞知行是它的全资子公司。

  形式上,属性图模型更符合人的常规理解,设计上更适合图的遍历搜索,适合工程实践。

  方案:RDF模型因为披着OWL的外衣,且有RIF/SWRL的加持,天然支持基于本地和自定义规则的推理,但属性图模型通常不具备推理功能,只能业务代码通过实现,比如if-else。

  不过,在某些场景下,比如,带时序关系的舆情事件监控,RDF模型也可以通过构造业务实体进行中转表达,理解上达成和属性图一致。但,属性图模型的弹性更大,可以根据业务需求以及效率的要求,采用不同的数据存储schema。比如:

  (2),2018年1月,优品财富完成近2亿元A轮融资,金证股份领投。202X年,完成Y亿B轮融资,C公司领投。

  (2).1:RDF_1,普通的RDF三元组数据模型,扁平直接,但不方便理解;

  (2).2:RDF_2和属性图_1类似,构建融资事件实体,将属性与事件实体关联。但在属性图上会产生大量入度只有1的小节点;

  (2).3:属性图_2,构建”融资事件“的通用类型实体,将不同的融资事件,以边属性的形式指向通用实体。但会产生海量入度的大节点,影响查询效率;

  (2).4:属性图3,本质上和属性图_2类似,但让事件边回指向自己,折中考虑小节点和大节点在设计上和效率上的优劣。

  (1),市面上已知支持RDF推理功能的实现框架,比如,Jena,打开推理引擎后,查询速度极慢,同时由于推理引擎需要将数据全量载入内存,因此,只支持小数据集上图谱推理,性能有瓶颈,并且还需要做一整套的工具链,成本较高。

  (2),出于各方面成本的考虑,虽然RDF模型语义完备,支持推理,解放了思想,但随之带来的高度复杂性却增加了成本,这也是大家常说学术界使用RDF模型,工业界都在讲属性图模型的原因。