李博
(四川大学视觉合成图形图像技术国防重点学科实验室,成都 610065)
随着网络社会的迅猛发展,以微博和微信为代表的在线网络社会已经成为互联网的新业态,为物理社会的计算与分析提供了极佳的大数据平台。在大数据新型社会媒体环境下,人们在网络分享各种信息,发表自己的观点,面对规模巨量、来源庞杂的信息,大数据语义分析与情感量化分析面临如下挑战:
(1)信息表示方式多样,个性化和碎片化,无法使用规范文本为对象。
(2)当前非结构化内容大数据计算范式与个体或群体计算的方法不一致。
(3)面对千万级语义关联节点,已有的基于知识的算法不适用于大数据实时分析。
基于知识本体的大数据语义分析关键技术涉及文本表示、知识本体、语义分析、情感计算、深度机器学习、大数据等多个方面。下面将分别从语义计算、文本表示、语义知识本体构造、情感分析四个方面进行综述分析。
语义可以理解为数据所对应的现实世界中的客观事物所代表的概念的含义,以及这些含义之间的关系,是数据的逻辑表示。语义计算就是研究计算机对自然语言符号背后的语义理解,构建语义表示,处理自然语言,产生关于客观世界的知识。常见的语义计算的方法有格语法(Case Grammar),概念依存理论(Conceptu⁃al Dependency Theory)与语义网络(Semantic Network)。语义计算属于自然语言处理的终极任务,也是难点所在。当前各种理论各有优缺点,多数属于研究探索阶段,离实用化还有一段距离;在大数据背景下的语义计算,通过海量多样化的数据源,可以弥补知识框架的不足,小样本的统计方法存在语义缺漏的困难。通过在大数据信息客体集合上采用大数据的语义计算,依据已有的大数据关联分析,可以通过隐形语义表达的方式,在应用上获得较好的效果。
文本表示是语义计算的基础。文本表示是指原始文本在计算机内的最终表示,是信息检索、文本分类等的处理对象。文本表示的粒度一般为字、词、短语、句子等语言维度。
传统的文本表示很难完整地表示出大数据背景下的短消息。一是社交媒体具有文本内容、时间、主体与客体等多维度,而仅考虑文本内容的现行方法对于多维度远远不够。二是长文本具有口语化、不规则等特点,而传统方法以字、词为粒度居多,不同粒度之间缺乏内在的语义关联性。需要融合多维度时空、主体特征,同时引入知识本体,对文本表示进行扩展。
计算机科学中的知识本体指的是一个采用类型、属性、关系等集合来描述客观世界的模型。自然语言处理的众多领域都获益于知识本体的有效获取与构建。目前面向通用自然语言处理研究的知识本体包括WordNet、FrameNet、HowNet、CCD、BiFrameNet等。这些通用本体对词汇及词汇间的关系等静态知识做了描述,包含了高质量的语言知识。
情感分析,又称情感倾向性分析、意见挖掘或情感分类,利用计算机从文本中提取出作者的情感方向。通过情感分析,可以发现作者所表达的观点、感情、立场等主观情感。情感分析的方法可以分为三类:规则方法、有监督机器学习方法、无监督机器学习方法。
纵观常规长文本与短文本的情感分析,没有考虑到信息主体背景的个体差异,现有的方法有一定缺陷。由于感情分析客观上与信息主体的观点有很大的相关性,仅仅依靠分析文本内容不能准确表达信息主体的情感观点。
基于知识本体的主客观大数据语义分析关键技术旨在以知识本体为语义表示基本单元,研究社会主体与信息客体融合的统一语义分析模型,探索本体概念生成与知识抽取的大数据方法,建立由大数据关联分析构成的语义网,实现以主体为中心的个性化情感量化计算关键技术;对所涉及领域的创新方法进行测试和分析,为探索社会公共安全的宏观态势预测与微观洞察提供新的视角和切入点,为科学理论与关键技术研究奠定坚实基础;以面向社会公共安全事件的群体态势推演为示范应用,验证基于知识本体的主客观大数据语义分析关键技术的研究成果。
基于知识本体的大数据语义分析旨在以知识本体为语义表示基本单元,研究社会主体与信息客观融合的统一语义分析模型,且目前已经正式投入实践应用。
NLPIR大数据搜索与挖掘共享平台是大数据语义分析技术在应用上的典型实践。NLPIR在前身ICT⁃CLAS词法分析系统的基础上进行了十余次的内核升级,已经能够满足各类型大数据文本处理的要求,其中包括了正文提取、中英文分词、实体抽取、文本分类、分词标注等完整的大数据技术链条。在NLPIR的所有技术链条中,都直接或者间接地使用了大数据语义分析技术。
(1)正文提取
NLPIR通过网站的RSS摘要,利用网络采集系统自动抓取非导航性质的网页,并去除网页中的导航、广告等内容,利用深度神经网络模型,提取有价值的正文内容。
(2)分词标注
针对汉语浅层语言分析各个层面的处理对象及问题特点,引入层叠隐马模型统一建模,对原始语料进行分词和词性标注,还可以自动识别人名地名等专用词汇。另外,系统还支持在线用户词典的输入,更加方便了对专有词、自造词、外来词及存在词性争议的词等在实际运用及词性方面的掌控。
(3)文本分类
NLPIR根据深度神经网络,采用内置算法进行分类训练,该分类算法有较高的准确率,可应用于新闻分类、邮件分类、简历分类、区域分类、办公文档分类等方面,而且还能够将特殊信息从大量文本中快速地识别和过滤出来,实现文本过滤功能。
随着知识图谱的迅速发展和大数据语义分析技术的不断进步,JZSearch运用了语义知识图谱的相关技术,实现了针对大数据垂直搜索的全文智能检索。JZSearch语义精准搜索引擎利用自然语言理解、文本挖掘和网络搜索技术,进行人机互动和机器学习,具有了一定程度的语义推理能力。JZSearch最大的进步就是把常用的关键词粒度提高到知识概念粒度,有了理解、处理和分析知识的能力。现列举几个主要功能。
(1)人机自然语言问答式查询
JZSearch具有人机自然语言问答式查询功能,通过人机互动,自然语言理解,对请求信息进行语义分析,能够精准地提取出问题主体,对搜索内容去重并精准回复答案。
(2)搜索结果在线主体聚类
搜索结果在线主体聚类就是通过相似性算法,将搜索结果根据内容的大致一致性,自动进行文档归类,而且还为不同类型的文档生成标题和主题词,并搜索出与问题内容相关联的其他结果。除此之外,该搜索引擎还具有多字段关联搜索的功能,可以对多个字符串进行迭代语义分析,最终给出融合延伸结果。
(3)搜索主题时光机技术
JZSearch通过语义分析和关键字提取,将挖掘出的相关信息根据时间先后顺序展示,并呈现为动态地随时间变化的可视化图谱。
(4)大数据挖掘分析
搜索引擎充分理解问题语义后,利用聚类技术智能搜索出与搜索主题有关的文章并统计出文章的数量,并标注出来源、发布时间、作者和关键词等相关内容。
JZSearch语义精准引擎具有对自然语言理解的技术优势,人机互动更加智能化,具有一定推理判断能力,实现了从信息检索到智能搜索的进步,能够给用户更精准快捷的搜索体验。
随着电子信息产业的飞速发展,互联网的数据量呈几何倍数增长,大数据技术虽然发展迅猛,但由于起步较晚,还有许多技术和设计不够成熟。本文对大数据语义分析的关键技术,特别是对基于知识本体大数据语义分析技术的NLPIR大数据搜索与挖掘共享平台和JZSearch语义精准搜索引擎和进行总结和分析,对读者对于大数据语义分析的研究和应用有一定的帮助。
参考文献:
[1]李国杰.大数据研究的科学价值[J].中国计算机学会通信,2012,8(9).
[2]张华平,高凯,黄河燕,赵燕平.大数据搜索与挖掘[M].北京:科学出版社,2014.
[3]赵妍妍,秦兵,刘挺.文本感情分析[J].软件学报,2010,21(8).
[4]靳小龙,王元卓,程学旗.大数据的研究体系与现状[J].信息通信技术,2013(6).