文/张全
让计算机拥有像人类一样的语言智能、理解人类的语言,是自然语言理解的宏伟目标,也是当今信息时代面临的一项重大科学难题。这一目标一旦获得突破,就相当于掌握了制造语言超人的能力。这个语言超人可以不眠不休,一天24小时,一目万行阅读资料,从中提取有用的知识。这将有力推进信息时代的发展,从当前以数据处理为中心的初级阶段演进到以知识处理为中心的高级阶段,形成巨大的语言知识处理和知识服务产业,并深刻影响计算机科学与技术的发展。
随着因特网的发展,网络上电子文本急速增长,高效准确地从因特网的海量信息中获取有效信息已成为社会生活中的迫切需求。中国科学院声学研究所研究员黄曾先生响应这一时代的号召,面向整个自然语言处理的一系列问题创立了概念层次网络(简称HNC)理论,并发展形成了深入语义内容计算的HNC语言理解处理技术。HNC是这一理论与技术的统称。HNC的出发点就是运用局部联想脉络和全局联想脉络来“帮助”计算机理解自然语言,HNC通过交互引擎的研制来实现计算机对语言的理解过程。
HNC与传统的自然语言理解处理对比
下面将HNC与传统的自然语言理解处理作一个简单对比。
HNC的研究在多个国家级项目的资助下不断深化,不仅应用于实际的网络信息处理服务,而且在评测中展示出优越的性能。2009年中文信息学会组织了句法评测(CIPS-Pars Eval-2009),共有来自美国、欧洲、中国大陆和香港地区的24支队伍参加。HNC参加了汉语事件描述单元识别和汉语功能块分析两项目的开放评测,尽管语言理论体系上存在比较大的差异,但是仍然取得了第一名和第二名的成绩。
“HNC智能网络信息检测系统”的最大特点是能够深入自然语言的语义内容深层完成语言分析处理,而不是仅仅利用语言的表层信息进行浅层处理,因而能够准确获取文字文本所表达的语言内容。尽管涉及同样的词语,HNC技术却能够区分并准确判断网络内容是否是用户关注的内容。HNC面向整个自然语言处理,不仅可以完成单个语句的分析处理,还可以完成多个语句围绕一个表达中心形成的句群处理,萃取其中的主题境单元知识,从而具有强大的语义区分能力。
HNC团队已经取得了多项科研成果,形成了自主知识产权的自然语言理解处理技术体系,为构造各种满足信息时代需求的信息处理应用技术奠定了坚实的基础。同时,以HNC为基础的各种应用技术已经面市,并成功应用于智能网络信息检测软件系统中,正在为保障信息安全、净化互联网的网络内容发挥着重要作用。“HNC智能网络信息检测系统”融合了HNC自然语言理解处理技术与先进的网络技术,主要特点包括:1.根据用户需求,针对网络上出现的特定信息文本内容进行检测(例如色情、反动、低俗等不良信息)报警;2.基于最新的自然语言内容理解技术,不同于以往的基于关键字词的检测系统,准确率高;3.对不能做出判断的内容能提出警告,供人工判别,和传统的检测系统相比能够大大地提高网页的处理数量和减少监管人员人工干预的工作量;4.可为用户定制语言知识,兼容关键词处理;5.可对特定网站内容进行下载、解析、检测并自动生成检测报告;6.支持静态检测和动态监测;7.支持多种编码方式;8.支持多传输协议解析;9.支持云计算,快速处理海量文本内容。
处理的困境
根据中国教育和科研计算机网CERNET面向高招网服务的需求,在“HNC智能网络信息检测系统”基础的上建立形成了“不良信息检测系统”。这一系统已经成为赛尔网络体检中心的一项体检功能,开始为高招网提供不良信息检测的服务。截止目前已经注册了一百多个网站,每次扫描检测的网页数超过14万个,检测系统根据扫描结果自动生成检测报告,供系统管理员参考。