■文/宋卿 戚成琳 张鹏洲
知识图谱技术在新闻领域中的应用思考
■文/宋卿 戚成琳 张鹏洲
摘 要:知识图谱描述了真实世界中存在的各种概念和实体,并通过彼此间的关联关系组成一个语义知识网络。本文首先对知识图谱的基本概念和典型应用进行了梳理,然后阐述了知识图谱在新闻领域中的应用背景并对当前新闻知识化需求进行了分析与研究,并针对新闻领域对知识图谱的需求、知识图谱在国内外新闻领域中的应用现状以及知识图谱在新闻领域中可能存在的应用场景进行了重点阐述。
关键词:知识图谱;新闻;应用
随着互联网和大数据时代的到来,各种各样的信息呈爆炸式增长,从信息缺失到信息过剩的转变使知识成为了一种稀缺品。面对海量的信息和数据,我们的大脑不堪重负,无法对其及时处理。探索一种从信息中有效选择出知识的方法势在必行。知识图谱就是一种将信息有效结构化的方法。对新闻行业来说,传统的新闻内容存储管理方式也亟须改革,新闻内容的重复生产造成了人力的浪费,新闻生产者无法提供一种新闻产品使用户能够轻松高效地汲取高质量的信息。知识图谱的引入无疑为新闻领域现阶段面临的困境带来了转机。目前,知识图谱在新闻中的应用还处于起步阶段,因此,研究知识图谱在新闻领域中的应用现状,探索知识图谱可能存在的应用场景具有重大意义。
知识图谱最初是指科学知识图谱,是一种显示科学知识的发展进程与结构关系的图像。科学知识图谱最早用于科研中,属于科学计量学的范畴。[1]直到2012年,谷歌在其搜索引擎中引入了“知识图谱”技术,使得“知识图谱”这一概念的热度迅速上升。但谷歌知识图谱并不同于早期的科学知识图谱。现在的知识图谱从本质上来说是一种描述知识域的语义网络,结点表示实体或者概念,结点与结点之间的边表示实体或者概念之间的关系。也可以说,知识图谱是一种具有语义性的知识库。知识图谱具有一些基本功能,包括知识的组织、可视化展示和搜索。知识图谱涉及到诸多技术,包括自然语言处理,知识抽取,知识推理和知识表示等。对于知识图谱来说,其发展前景很大但同时又面临着诸多难点,比如知识图谱随着时间推移的动态更新、多数据源的知识融合、实体之间关系的远近程度确定等。
知识图谱有几个典型的应用,包括搜索查询和自动问答等。谷歌是最早将知识图谱引入到搜索引擎中的公司,目的是使用户能进行更智能更快的搜索,使搜索结果从杂乱无章的网页变成有结构的知识展示,并且根据科学完整的知识体系为用户提供一些有价值的新知识。谷歌知识图谱一发布,就引得多方效仿。百度推出了百度知心,搜狗推出了搜狗知立方。和谷歌知识图谱一样,用户输入要查询的内容,搜索引擎会以知识卡片的方式展示搜索结果,并且在右侧给出更丰富的内容推荐。百度知识图谱可以直接给出搜索答案,可以进行场景化搜索、多维度的信息展示以及更加丰富的相关信息推荐。搜狗也在不断创新,已经将知识图谱应用到自动问答中,如搜狗语音助手就应用了搜狗知立方来进行自动问答。
互联网和大数据时代,信息过量让人的精力过度耗费却难以获取真正有价值的知识。而大众传媒中的信息再生机制使得原信息在人的加工之后又产生了新的信息,对用户来说,这些信息使他们感到窒息,不能对这些信息及时接收和处理导致用户无法及时准确地做出决策,可能因此产生信息焦虑等心理问题。而对新闻生产者来说,大量重复生产出来的内容在存储管理上面临着巨大挑战,新闻生产者无法对这些新闻内容进行去重化的积累,很难重复使用已经存在的内容,也无法寻找到一种契合用户信息汲取需求的新闻产品和新闻形式。
最初新闻内容是通过编目进行存放的,检索只能依靠目录进行。后来从新闻文本中提取出比较切合新闻内容的词语作为关键词并利用关键词来索引一篇新闻。然而,这样的搜索依然是低效率的,也没有在存储上有任何改进,同时,关键词并不能更好地从多角度来描述一篇新闻。随着互联网时代的到来,网民们养成了浅阅读的习惯,使标签得到了广泛应用。标签的出现以及对标签维度进行扩充形成的富标签的应用,使大量非结构化的新闻信息得到有效组织,形成了结构化的数据,不仅改变了新闻的存储管理方式,而且为新闻内容进一步进行分类和挖掘创造了可能。同时,用户能轻松快速地搜索到自己感兴趣的内容,也使新闻内容得以迅速传播。但是富标签的应用也存在着诸多不容忽视的问题,首先对标签的滥用和误用可能会扭曲新闻事实,其次杂乱繁多的标签使得用户眼花缭乱,反而又产生了新的信息压力,最重要的是,富标签中不同维度的标签之间并没有任何连接关系,无法形成一个完整客观的知识体系,这样便限制了对有效信息的挖掘。这个时候,知识图谱恰逢其时地出现,应用到新闻中,不仅克服了富标签应用的缺点,并且还强化了在新闻中应用富标签的优势。知识图谱化不仅将海量的非结构化新闻信息转化成结构化信息,而且使长久以来生产的新闻内容得到有效组织和积累,不仅便于内容生产者进行内容存储管理和新知识的挖掘,而且还为用户对信息的选择和认知带来了巨大的方便。可以说,知识图谱应用到新闻领域里正好符合当下新闻行业所面临的需求和挑战,并且会为新闻领域带来新的机遇和革新。
3.1新闻领域中的知识图谱
知识图谱在新闻领域的应用,不能只依赖于知识图谱的现有特性,应该加入新闻领域所需的独有特性。首先,知识图谱在新闻领域中应该更强调它的知识可视化展示功能。其次,根据新闻领域的实际需要,应该在现有知识图谱构成元素中加入时间线的特性,并且,要想拥有更多创新性的应用,知识图谱的构建不能只局限于新闻内容的图谱化,还应当扩充进其他层面的知识。比如用户实体、用户和新闻内容的关系的加入可以用来进行个性化推荐等。最后,知识图谱要想在新闻领域中有更加深入的应用必须重视它的知识推理技术。对知识图谱进行深度知识推理,有利于新知识的发现,为新闻生产者提供新颖的、有深度的、带有预测性和趣味性的新闻内容,对读者来说将获取到更有价值的、能辅助决策的信息。这对两者来说达到了双赢的效果。
3.2知识图谱化在新闻领域中的应用现状
3.2.1知识图谱化在国外新闻领域中的应用
《华盛顿邮报》的知识地图是其在产品形式和用户服务上进行的新探索。知识地图不仅可以防止对信息的重复生产,实现重用,而且以知识地图的方式来组织、存储和管理知识便于用户进行检索和学习,节约时间成本和精力成本。《华盛顿邮报》深谙此道,他们将知识地图应用到网页新闻中,在新闻正文中对一些知识点进行标注,点击可在正文右侧以知识卡片的形式展示相关的新闻背景或相关信息,这些补充显示的知识主要是一些简短的文字和图片。这种做法既不影响原来的阅读体验,还能在右侧及时地为读者补充相关的新闻背景、新闻发展情况,或是一些读者不懂的相关知识,便于读者更准确地理解新闻内容和新闻的发展过程。而且,读者在阅读的过程中不必自己去发现知识,然后花费时间精力来搜索,这样可以大大提高用户体验。可以说,知识地图在新闻中的这种应用不仅创造了一种新的新闻形式,而且体现了以读者为本的意识,为读者提供了一种良好的服务。
《纽约时报》的新闻编码也是一种知识图谱化的应用。《纽约时报》实验室发布一篇名为《新闻的未来不是文章》(The Future Of News Is Not An Article)的报道,文章指出了一种名为“Paticles”的新的新闻形式——对新闻中提取出的新闻颗粒即信息点进行编码。这种新闻编码可以让新闻信息具有被搜索和被提取的能力,并且把这些颗粒嵌入一个动态内链框架可以使新闻的表示具有直观性,同时把新闻报道拆分为元件,建立清晰的时间轴,可以实现新闻信息的及时增量积累和信息重用。事实上,对新闻编码就是对新闻进行信息点提取然后形成一个信息网络。这样的信息网络对于新闻生产者来说解放了他们的劳动力,不必再花太多时间和精力去搜集和整理信息,因为这个信息网络已经自动规整好了。而对于读者来说,经过编码的新闻整个框架脉络清晰,加入了时间轴及时更新的特性,使得读者的阅读节奏得到了契合,并且可以根据自己的兴趣进行有选择地阅读和汲取信息,使读者有一个更好的接收和处理信息的体验。对新闻进行编码还有一个很大的用处,就是可以提取信息网络中的元数据信息点,对新闻叙事进行重构,对同样的新闻内容自动生成风格迥异的文章。事实上这已经体现出一个趋势,就是知识图谱是可以作为机器写作的底层信息支撑的。
3.2.2知识图谱化在国内新闻领域中的应用
目前,国内的媒体机构已经开始对知识图谱在新闻生产中的应用进行探索。新华通讯社作为国家级通讯社,在新闻生产报道方面的技术创新一直走在行业前列。目前,新华通讯社没有建立真正意义上的知识图谱,还停留在人物库、机构库这样的传统知识库层面,但已经开始将百科知识和它自有的人物库、机构库进行合并,也算是知识图谱在新闻领域中应用的初步尝试。目前笔者正在参与的“业务建模与知识图谱系统”项目,就是通过将新闻文本中包含的重要内容碎片化、知识化,从而达到新闻的知识化积累,为新闻知识能够高效率的查询和重用建立基础。通过建立一个知识抽取模型,对新闻文本资源进行实体和关系抽取,构建出知识图谱,将这些新闻文本资源结构化。在不耗费大量人力物力的前提下及时准确地完成知识的积累,并且不再使用网页上的新闻文本作为挖掘潜在信息的来源,而是把知识图谱作为知识源,进行进一步的知识挖掘。新华社2015年年底推出的“快笔小新机器自动写作”未来也将基于知识图谱进行新闻内容自动选择和叙述决策,从而自动生成更高质量的新闻内容。
国内其他媒体也逐渐开始对知识图谱的应用进行探索。可见,新闻领域中知识图谱化的应用在国内也将成为一个新的趋势。
3.3知识图谱在新闻领域中的应用场景思考
第3.2节中的应用实例显示出了知识图谱在国内外新闻领域中的应用现状。事实上,对于知识图谱在新闻领域中的各种应用场景还亟待我们进行思考和挖掘。
3.3.1新闻的可视化展示
对于知识图谱来说,最直接和简单的应用就是它的可视化功能了,可视化展示可以说是知识图谱在新闻中的显式应用。为新闻构建新闻图谱,可以客观完整地表现出一个信息体系。这个信息体系可能是新闻内容本身、该新闻的背景以及很多新闻信息点的相关信息构成的网络。也可能是新闻事件在时间线上发展的纵向网络。或者是某一个主题和它下属的不同话题的网络。这些新闻图谱不仅可以将非结构化的信息结构化,而且可以实现积累,对用户来说,可以更完整直观地把握新闻的内容和动态发展。并且,利用这种可视化的展示方式,可以使用户减少处理信息和检索相关信息的行为,还可以利用这种可视化展示所衍生出来的导航功能使用户选择感兴趣的内容进行阅读,大大提高了用户的阅读体验。
3.3.2新闻的延伸补充
新闻的延伸阅读和补充其实早就存在,只是基于知识图谱所进行的新闻延伸补充更具科学性、相关性和多样性。在一个新闻页面中,新闻正文中所标注出来的信息点作为知识图谱某些局部的中心结点,而延伸阅读的内容可以是和该中心结点关联度极高的结点或和该中心结点有时间关联的结点所代表的新闻,位于正文的下方。而补充则是在新闻正文的右侧,以简短的文字、图片,甚至是视频的知识卡片形式来对新闻的背景、一些由于篇幅原因无法在正文中写出的相关信息、相关历史信息或用户不了解的知识进行补充,这样省去了用户自己去检索的麻烦。同时这样的页面布局无须使用超链接跳转离开本页面,也不会影响正文的阅读体验。
3.3.3新闻个性化推荐
基于知识图谱的浅层新闻推荐类似于新闻延伸补充内容的推荐。然而这样对知识图谱简单浅显的应用相对知识图谱的搭建所花费的成本来说是一种浪费。在《2015中国 APP排行榜》中仅次于“腾讯新闻”和“今日头条”的资讯新闻类客户端“一点资讯”正是依靠基于兴趣图谱的个性化推荐服务成为一匹黑马而跃居行业第三的。“一点资讯”新闻客户端基于兴趣图谱的个性化推荐是知识图谱在新闻中的创新式应用。兴趣图谱在新闻内容图谱化的基础上加入了用户层面的知识,由此也带入了更丰富的关系类型。兴趣图谱包含用户、用户身份、用户新闻兴趣点等类型的结点,还包含兴趣结点与兴趣结点之间、用户结点和兴趣结点之间的各种关系,如用户订阅、搜索、收藏、评论、分享、不喜欢等,并赋予这些关系远近强弱之分。接着,利用大数据和机器学习的算法在搭建好的兴趣图谱上进行挖掘和计算,可以做到对用户来说最优的个性化推荐。
3.3.4机器新闻写作
机器新闻写作是一场正在发生的革命,机器新闻自动写作的实现将大大解放人力,使得记者将精力和时间花在更有价值和更有创造性的工作上。机器新闻写作涉及自然语言生成技术,而自然语言生成所需的信息就来自于知识库。知识图谱是一种具有语义性的知识库,因此知识图谱可以应用到机器新闻写作中,以提供自动生成自然语言所需的知识和信息。斯坦福大学的机器人学家 Ashutosh Saxena在宣布他们的 Robo Brain在线服务的时候说过:“它(Robo Brain)的目标是构建一个非常好的知识图谱,或者知识库,供机器人使用。”由此可知,知识图谱在机器新闻写作中起到了一个自然语言生成的信息支撑作用。
3.3.5预测性新闻
知识图谱还有一个重要技术是知识推理,目前,通过采用关联规则、谓词逻辑和马尔科夫逻辑网络等方法和工具进行知识推理,能够从已有知识中发现隐含的新知识。建立好新闻知识图谱之后,如果能实现对新知识的深度发现,不仅可以为新闻生产者提供更多独到的角度来吸引读者,而且可以为用户提供更有价值的信息以辅助决策,并且,在为读者提供具有预测性的新闻内容这一方向也可能有其施展的地方,如财经方面的一些趋势和体育赛事结果的预测或许在未来都会通过对知识图谱的大规模计算、推理得以实现。
到目前为止,知识图谱在新闻中的应用还处于刚起步的阶段。就目前的应用来看,都是基于知识图谱可以将非结构化信息转化成结构化信息这一根本特性。新闻的可视化展示属于知识图谱的显式应用,而新闻的延伸补充、新闻个性化推荐、机器新闻写作、新闻预测和发现新知识属于知识图谱的隐式应用。这些应用从新闻行业的角度来说,不仅实现了知识的增量积累和重用,而且大大解放了新闻工作者的人力,同时创造了多种新的新闻产品形式和新闻生产形式,对新闻行业来说是一个很大的机遇和变革。而从用户和读者的角度来说,他们既可以拥有更好的新闻阅读体验,不必花费太多时间精力去处理、筛选和检索信息就能更好地把握新闻的内容和发展,同时还能享受知识图谱应用所带来的诸多服务,如新闻的个性化推荐。可以说知识图谱在新闻中的应用为整个新闻行业和广大用户都带来了极大的好处。知识图谱虽然在新闻中的应用目前还处于探索初期,相信未来随着技术难点的克服,还会发掘出更多更有价值的应用场景,我们拭目以待。
参考文献
[1]陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015(02):242-253.
[2]雷会珠,姚立会.知识地图与科学知识图谱辨析[J].中国科技信息,2012(10):59,68.
[3]杨思洛,韩瑞珍.国外知识图谱的应用研究现状分析[J].情报资料工作,2013(06):15-20.
[4]胡泽文,孙建军,武夷山.国内知识图谱应用研究综述[J].图书情报工作,2013(03):131-137,84.
[5]郭云峰,韩龙,皮立华,宋科.知识图谱在大数据中的应用[J].电信技术,2015(06):25-29.
[6]曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践,2015(12):127-132.
(作者单位:中国传媒大学)
中图分类号:G210.7
文献标识码:A
基金项目:本文系为北京市科学技术委员会2016年专项项目《基于类脑知识图谱的中文新闻自动写作系统研发与示范应用》成果,课题编号: Z16110000021614 ;国家新闻出版广电总局科研项目《广播电视监测监管数据挖掘与多维度检索研究》,项目号:2014-41。