姜 靖
今年1月底,正当全国上下开展整治互联网低俗之风专项行动之际,中科院声学所研发出一种具有语义理解特点的“网络不良信息检测系统”,能帮助监管部门和网站管理者监控色情和低俗等不良信息。张全正是该项目的负责人,本来就很忙的他,一下子又让新闻界给“包围”了。
“我没有故事,就是一个普通人。”张全一再强调。然而,随着采访的深入,记者仿佛从这个“普通人”身上看到千千万万科研工作者的身影,他们的喜忧苦乐是那样的真实,可爱。
三个月研发出系统
“你用‘三点造个句,如何?”一开始,记者本想请张全简单介绍一下这套“网络不良信息检测系统”,孰料他先给记者出了一道考题。
“三点确定一个平面。我三点有个采访……”记者随口答。
“你的造句发到网上,很有可能被当成不良信息被屏蔽掉。”张全微笑地说。
记者愕然。这时,他不慌不忙地打开电脑,调出一个程序,输入了一个网址。不一会儿,屏幕开始提示有几十个“不良信息”。然而,打开这些所谓的“不良信息”一看,其实就是几则再正常不过的反邪教信息。
张全解释说,传统的网络监测系统,一般是基于关键词对网络信息进行机械的识别和过滤,只要文本里含有设定的关键词,不管这个词是什么意思,甚至如“小三点了一杯咖啡”里“三点”都不是一个词,也会被屏蔽掉。
与传统的网络监测系统不同,他们的这套系统主要根据语句的意义来判断哪些网页信息需要过滤。用户只要输入目标网站的网址,系统便会自动打开该网站的所有网页,同时模拟人浏览网页的方式来审查是否还有不良信息,对于不能做出判断的内容系统还能提出警告,供人工判别。
张全说,这就好比为网络装上了“电子眼”,能帮助监管部门和网站管理者从源头上“遏制不良信息传播,净化网络环境。”
为了提供检测标准,他们课题组针对网络上出现的色情、反动、低俗等不良信息进行了搜集,对其语言特征和语意特点进行了提取,建立了一个庞大的不良信息知识库,为软件搜索不良信息提供了文字基础。
目前,他们对该系统进行的语料测试已超过3万篇,测试成功率达85%以上,“完全达到了商品化的要求”。通过更换知识库,该系统就可广泛应用在热点信息跟踪、舆情分析等领域。
出人意料的是,这套系统的研发时间并不长,“去年下半年才开始做,满打满算也就3个月的时间。”对于这点,张全很是自豪。
好技术竟然卖不出去
张全告诉记者,“网络不良信息检测系统”是自然语言理解处理技术与先进的网络技术结合的产物。从20世纪80年代末,中科院声学所黄曾阳研究员就开始探索模拟人脑语言智能的自然语言理解处理模式,创立了“概念层次网络(HierarchicalNetworkof Concepts,简称HNC)理论”,并发展形成了HNC自然语言理解处理技术。HNC的最大特点是能够进入语义深层处理自然语言的内容,而不是仅仅利用语言的表层信息进行处理。通过多年的科研攻关,HNC团队已经取得了多项成果,形成了自主知识产权的自然语言理解处理技术,为形成满足信息时代要求的各种特定的信息处理技术奠定了坚实的基础。
然而,张全从事自然语言理解处理研究却是在读博士以后。1993年,从西北工业大学硕士毕业的他面临人生的一次重大抉择。“我本科、研究生学的都是信号处理,研究生毕业的时候,希望自己的研究方向有所改变。”一个偶然的机会,他认识了黄曾阳老师。与黄老师的几次深谈,坚定了他转行的决心。
然而,这次转行并没有想象的那么轻松,而是“痛苦的像是重新生了一回。”张全说,自然语言处理是语言学与计算机技术的交叉学科,对语言学和计算机的要求都非常高,单单写几千行的程序这一项就让他“吃不消”。
不过,与技术上的困难相比,张全面临最大的挑战是如何将技术产业化。张全说:“一项再完美的技术,只有在市场中才能体现出其应用的价值,停留在实验室无异于死路一条。”张全说。1996年博士毕业后,他的工作重心就转向技术转化上来。当时,尽管国内做自然语言处理的不止他们一家,然而如何将自然语言处理技术进行技术转化,是大家都在探索的问题,没有现成的模式可循,同时,自己单位又没有产业化的平台,致使产业化一度陷入困境。2000年年底,他们尝试利用BNC理论的无形资产与外面公司联合成立了按企业模式独立运营的研究院,计划将其打造成产业化基地,因种种原因,这一目标还在努力之中。
去年下半年,国内净化网络环境的呼声日益高涨,张全他们在短时间内研发出“网络信息不良信息监测系统”,希望搭乘国家整治不良信息的快车,打开市场。
也曾遭遇“无米下锅”
身为自然处理项目负责人,张全不得不花时间精力去谈项目,找经费。“我搞科研出身,以前总想着做好研究就行了”。然而,现在他坐在这个位置上,就不可能对这些事完全置身事外,如果有一个好项目,觉得机会好,他也会花时间来谈。
张全说,虽然声学所做自然语言处理已有45年的历史,但是至今在很多人眼里,做语言处理应该不是声学所的事,声学所来做就难以形成品牌效应,每次拿出去跟人家谈都要解释一番,项目更不会主动找上门来。很长一段时间,课题组“吃了上顿没下顿。”
张全回忆说,1996年到1998年间,课题组基本上申请不到课题,没有课题就没有经费,当时中科院系统已开始全成本核算,所里给予了一定的帮助但非常有限,课题组成员的收入很难和其他课题组相比,一些研究人员选择了离开。课题组只剩下几个人。因为在外面找不到住处,张全只好在博士生宿舍“赖”了一年多。有个细节张全印象特别深,那时有很多同学在外面混的特别好,每次同学聚会,他只管去吃,同学从来不忍心让他付钱。
“也不觉得苦,当时也没小孩,物价水平也不高,生活还是没有太大问题。”张全微笑地说。
一直到1998年底,课题组申请到新的课题,一切才渐渐恢复正常。1999年年底,声学所被批准进入中科院创新基地后,所领导给予了课题组很大的经费、人员和机制的支持,使得课题组人员一度达到20多人。那段时间,课题组科研进展很快,成果出得也多。
张全说,随着信息时代的发展,对自然语言处理技术的需求将愈来愈多,计算机的功能必将由以简单的数值计算为主逐步过渡到以信息知识处理为主。那时,他们的自然语言理解处理技术将大有可为。
然而,在培育产业环境的同时,他们最为迫切的任务是完善专业知识库,但是因为经费不足,这项工作进展一直不太顺利。