首页 企业国双科技正文

国双参加CCL 实力分享知识图谱开发及应用

 2017年10月13日-15日,“第十六届全国计算语言学学术会议”(CCL 2017)暨“第五届基于自然标注大数据的自然语言处理国际学术研讨会”在江苏南京举行。作为国内最大的自然语言处理专家学者的社团组织—中国中文信息学会(CIPS)的旗舰会议,CCL着重于中国境内各类语言的计算处理,为传播计算语言学最新的学术和技术成果提供了广泛的交流平台。国双科技作为国内大数据行业的领军企业受邀出席了本次大会并参与了研讨会的讨论。

 国双以自主研发的国双云、大数据平台、可视化平台、国双人工智能引擎(国双先知)为基础,拥有自然语言处理、数据挖掘、关联分析、实时分析、知识图谱等多项技术能力,为各行业客户提供智能化大数据解决方案。本次研讨会中,国双科技软件工程师曾祥辉从技术的角度详尽地阐述了知识图谱的搭建原理及其在社会上的应用方向。”知识图谱的来源,属于知识工程的一部分。谷歌提出之后,国内的公司也在跟进。”他说道。知识图谱技术日益成为人工智能的基础,它是机器理解自然语言和构建知识网络的重要方法。近年来,知识图谱在司法领域的运用悄然兴起,它帮助从业人员快速地在线检索相关的法务内容,从而提高法院审判工作质量和效率。

国双参加CCL 实力分享知识图谱开发及应用
 

 国双科技 曾祥辉在论坛上进行发言

 自2015年起,国双在司法大数据领域,通过引进法院、检察院和律师事务所等优秀的一线专业人员,紧密贴合司法业务需求,通过自然语言处理、数据挖掘和分布式计算等技术,已经开发出法律大数据分析系统、同案智能推送系统、知识产权案例指导服务平台、智能语音庭审系统、智能文书生成系统、类案文书预警系统、司法数据可视化平台、司法舆情系统等智能办案辅助产品,广泛应用于全国四级法院系统。目前,国双也已进入检察领域,针对检察院系统定制开发的相关产品从辅助办案到辅助决策,将逐步完成其立体化、一体化的构建。

 国双在司法领域能够具有专业化的深耕能力,是依托国双十余年来在商业智能、广电新媒体、电子政务、工业互联网等多个领域的大数据实践经验与技术积累,得益于专业的技术、优秀的数据分析处理能力、先进的大数据工具以及顶尖的行业认知。

 以下是演讲实录:

 知识图谱概述

国双参加CCL 实力分享知识图谱开发及应用
 

 知识图谱的来源,属于知识工程的一部分。谷歌提出之后,国内的公司也在跟进。

国双参加CCL 实力分享知识图谱开发及应用
 

 这是在司法领域的案例,我们平常在文书中看到的是一个文本的表述,然后结构化图谱,这是在我们案件中要做的事情。

 1、知识表达方式各优缺点

国双参加CCL 实力分享知识图谱开发及应用
 

 文本是自然语言的表达方式,但是它对机器来说是非常难以理解,现在的NLP还不足以达到理解的程度。

 数据库是我们用的最多的数据储存的方式,它的好处就是机器获取信息的效率比较高,技术链比较成熟;它的缺点在于对复杂信息或者复杂关系的表达比较难,因为它的模式是既定的,要演化这种模式所花费的成本会比较高。同时它对复杂关系的多度查询,也就是跨表查询,三个表就达到几十秒的时间,这个对于我们实时系统来说无法接受。

 我们现在开始走向非关系型的数据库,图就是其中一种。图的好处就是在于它非常适合复杂关系和信息的表达和查询。它的模式是一种弱模式,储存模式非常易演化,你要增加新的信息或者新的结点进去,可以随时加。关系型数据库多度查询就无法输出结果,但是在图上始终能够保持在秒级的速度,这是我们对实时系统一个非常重要的条件;它的缺点就是对于我们常用的一些图数据库,它的技术还没有成熟。

 2、应用方向

信息搜索和可视化分析

为自然语言理解提供背景知识库

问答系统、医疗诊断、金融反欺诈、电商搜索推荐

 图谱构建及应用技术

国双参加CCL 实力分享知识图谱开发及应用

 1、整体的构建流程:

 1.1 明确需求

 通用或垂直领域

 业务需求关注的实体类型、关系类型

层级分类体系

 1.2 确定数据来源

通用图谱:百科网站、互联网文本等

领域图谱:垂直网站(法律咨询网站、文书网)、期刊、书籍等。

 1.3 知识抽取

实体抽取(NER)及关系(属性)抽取

基于规则和词典的方法:在词法、句法分析基础上,见效快;规则难以穷尽、瓶颈

基于统计的方法:带标语料难以获得,尤其是垂直领域

二者结合的方法:半监督学习,bootstrapping,种子学习+pattern,效果有待优化

神经网络:LSTM+CRF

事件抽取:静态转向动态,将事件作为实体的一种,拓宽实体关系,丰富图谱。事件识别与分类:触发词、机器学习分类。事件要素的抽取,包括实体和属性:语法、语义分析。

概念抽取:将概念识别引入,主要丰富图谱中IsA的关系,建立层级关系。

 1.4 知识融合

实体对齐:不同数据同一实体、关系或属性的对齐,基于规则或者统计

关系(属性)对齐:如出生日期与出生时间

知识验证:来源可靠性,概率评估

 1.5 知识推理

基于规则的推理:如父亲的父亲是爷爷

基于统计的推理:如图中三角关系的推断

 基于规则的推理:假设A的父亲是B,B的父亲是C,但A和C的关系没有储存,或者在已有的信息是没有获取到,怎么办呢?

 第一种方法,可以通过人给图谱做一些规则,如“父亲的父亲是爷爷”,我们说A的父亲是B,B的父亲C,我们就可以得到这个关系,A的爷爷是C。

 第二种方法,基于统计的方法,比如我们现有的图谱中已经存在很多三角关系,通过很多三角关系的实例,让机器学习到规则“父亲的父亲是爷爷”,得到A和C的关系。

 1.6 知识分布式表示

 我们可以把知识图谱的关系表示成一个向量,向量之间的相似度可以通过一些方法来计算,可以计算相似度,做一些融合,也可做一些推荐。

 2、应用方向:

国双参加CCL 实力分享知识图谱开发及应用
 

 这是知识图谱应用到的一些方向,大概都差不多,可能会涉及到实体链接、关系识别和路径推理。问答系统,它最重要的一点是意图识别和语义分析。现在百度为什么只能识别某一类型的问题而有些问题就识别不了,因为他们做了一些模板的问题。

 总结

 第一点,面向业务需求,决定用什么技术。我们做工程或者做项目跟做研究有点不同,知识图谱的确非常有用,但是你的业务或许根本用不到这个技术。

 第二点,工程性质及快速迭代,粒度有大到小。我们在构建知识图谱的过程中发现这个度非常难以控制,因为要做到实体层和概念层是非常难的。

 第三点,有效果的技术就是最好的技术。不用去拘泥于非得用什么高深的技术和最前沿的技术,这和做学术研究不一样。

 第四点,重视人工协作的力量。基于维基百科和百度百科的知识抽取,它们的基础是什么?就是大量的网民朋友们无私的奉献,都是人工编辑出来的。

 这是一些参考材料,有兴趣的可以去看:

从语义网到知识图谱——语义技术工程化的回顾与反思

 http://www.wtoutiao.com/p/181x8bc.html

降低知识图谱的构造成本

 http://weibo.com/p/1001603966996583691220

知识图谱研究进展综述

 http://www.360doc.com/content/17/0325/18/99071_64 0071618.shtml

知识图谱与深度学习

 http://blog.csdn.net/starzhou/article/details/71169636

责任编辑:陈近梅

分享:
大数据概念_大数据分析_大数据应用_大数据百科专题
贵州

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

更多
“智慧中国杯”全国大数据创新应用大赛
企业
更多