王静娟
网络数据挖掘、自然语言处理、人工智能,简单来说,这3个词汇串联起南开大学人工智能学院教授刘杰的绝大部分研究。那么,这三者是什么?又究竟有怎样的关系?在刘杰的娓娓道来中,答案逐渐明了。
特殊的数据
网络数据挖掘,简单来说是从海量的数据中抽取出潜在的、有价值的知识(模型或规则)的过程。如果说互联网数据犹如星辰密布,那么抛开那些杂乱的群星,还有一些被称为“星座”的特殊轮廓。在数据的世界,“星座”是具有复杂结构性的数据,譬如序列型、网络型数据。
刘杰说,传统的机器学习大多是以单个数据为单元进行数据集上的模型学习,考虑的信息相对孤立。“自然语言等序列型数据则不同,它看重序列历史信息,关注承上启下,将样本在序列上下文中进行判断;社交网络等网络型数据,需要搜集个体社交、交互情况,依据成型的网状环境综合判断得到结论。”两者是既考虑样本自身特点,又注重结构情境影响的典型代表。而这也给研究增加了不少挑战。不仅如此,诺大的数据汪洋中,精准搜集、定点捕捞相当于大海捞针。此外,刘杰还指出,文本作为互联网上的主要信息载体有着一个明显的特征,那就是写法随意,不受语言表达方式的限制,与正规的文章之间横亘着一条显著的界限。这也直接造成了语言语义的识别困难。
那么险阻重重,迎难而上的价值究竟是什么?“综合网络结构和文本信息,能够更好地理解语义,准确完成知识发现、人机对话、智能问答、舆情分析等诸多人工智能任务”,刘杰提出了最直接的研究价值。
他坦言,自己近几年将主要精力放在网络数据中的自然语言处理方面,尤为关注的是网络数据挖掘与自然语言处理相結合。这样做,归根还得说到网络信息的主要媒介——文字。“语句由单字构成,对它进行判断建模才能进一步识别句子中的特定内容。”例如,其中包含的关键人名、地名等。在自然语言处理的角度下进行网络数据挖掘,相关机构能够迅速了解互联网的热门话题,甚至搞清楚大众对某一事件的普遍看法。“这可以帮助企业了解自身产品的特点,摸清楚舆情。”
作为具备悠久历史的研究方向,自然语言处理研究还不断开发“新技能”。随着人工智能的诞生进化,算法、算力、大数据研究日趋成熟,自然语言处理方向也迎来了新浪潮,对话机器人便是典型的范例。在刘杰的介绍中,其广泛应用于电商客服、个人助理等服务领域,有效节省了人力和经济支出。“对话等同于让机器人运用自然语言算法去阅读理解和交互,除了准确理解语义,还得生成自然语言答案。”它需要在理解人类语言的基础上给出合理答复。
不管是理解还是反馈,刘杰说皆不是易事。区别于许多动物普遍具有的视觉、嗅觉等基本感知能力,语言是人类特殊的关键认知能力。“基本感知能力获取自然界中的信息。而语言经过创造和传承,则包含更深刻的逻辑性、常识性、文化性,是更高层次和难度的智能体现。”这种独特的智慧形式,也促使自然语言处理成为人工智能发展的重要一环。
触类旁通促发展
从业多年,对刘杰来说,在环环相扣的人生各阶段,两次访学经历令他印象深刻。他在一群优秀的科研学者身上学到了科研方法、治学态度,还扩宽了研究思路。在校内,他勤恳地开展科研工作;走出校门,在工业界研究机构,刘杰还接触到不同的科研风格。他说,高校与企业的环境相辅相成,自己正是在两者的熏陶下夯实基础。
凭借在国内外的经验积累,刘杰于南开大学任教后打响了独立科研征途的第一枪。他主持了自己首个国家自然科学基金项目“基于深度学习的结构化预测模型研究”。当时,深度学习的研究热潮刚刚兴起,刘杰作为第一批“吃螃蟹”的人,以深度学习为手段去研究序列型数据建模。该项目也为他后续工作拉开序幕,密切联系了视频内容的动作识别、自然语言的关键信息识别等任务。
“近期,我们又开展了一个新的自然科学基金项目,叫作‘基于跨模态的网络表征学习。”刘杰说,跨模态是项目关键词,即网络数据从单模态转变为多模态。而所谓模态,如图像、文本、声音等具备结构或属性的信息,每一种代表一种模态。“在互联网,描述同一事件的模态可能是文字、声音,甚至还包括图像。不同模态信息之间并不是独立的,而是存在语义上的互补。为了有效提升表达的质量,我们希望采用合理的手段来融合多模态信息,将它们综合体现在一个模型里。”不过,这是一个难题,让刘杰的研究工作面临挑战。
“研究长时间没有突破口,直到有一天,从另外的一件事情反而得到了启发。”他解释说,如果将网络数据转换为不同模态下的网络,将模态转化视作语言的翻译,就能够利用机器翻译的思路,从而设计一种自我翻译的网络表示学习模型来解决问题。纸上得来终觉浅,经实践证明,刘杰采取的思路和办法十分有效,相关成果汇总成的论文被顶级会议和期刊发表。“这件事情也让我看待问题、事情,尝试多转换角度。你怎样去审视问题,实际就决定了有哪些可选的思路或者方案。只有换了视角,才能跳出原有的局限。”
做专注的行动派
即便肯定了“灵感”的重要作用,但刘杰同时也强调,这一切是建立在良好的学科基础、丰富的知识积累之上。不论是在KDD、AAAI、IJCAI、IEEE TKDE等国际顶级会议和期刊发表论文,还是获得天津市科技进步奖二等奖、2017CCF大数据与计算智能大赛特等奖及一等奖等荣誉,都和刘杰自身的长期积淀有紧密联系。“一个想法的闪现,其实是知识体系和思考方式等共同作用的结果。前期在理论、算法上持续地研究是必备的基础。”
在谈及工作压力的来源时,刘杰认为,学者除了关注前沿研究进展,还理应重视理论与产业融合。“如何将企业实际问题转化成一个可以用模型、算法来解决的理论问题,这其中不止涉及一个问题,而是很多问题。”一是要明确企业应用问题,深入到各个部门了解情况,“这不光是走流程,还得站在理论研究的背景和基础条件上听意见,发掘工作特点,找到问题症结”;二是问题的转化与建模,将发现的应用问题转化为计算机算法所对应的问题,进一步实现算法、程序的搭建。
摸底、布局把好关,刘杰将工作做好、做细、做实的另一法门,便是专注。他结合自身的求学、从业经历特别指出,学术和应用上保持宽广视野的同时,要注意避免过于发散的思维。“对待每一件事情,必须能够静下心来思考并进一步挖掘更深层次的内容。也要往前看,想一想现在做的事情对未来会产生怎样的影响。”刘杰表示,迄今仍会兼顾理论、应用两个层面,但不会过分宽泛地涉猎。“我通常在一个点或者若干个关键点上研究理论和前沿应用。基础理论帮助我快速理解前沿的应用,更好地解决问题。反过来,应用也是一种导向,让我知道社会的需求在哪,我该朝着怎样的理论方向去研究。”前沿应用是基础研究的出发点,理论基础是实际应用的落脚点。对刘杰来讲,理论和应用两条腿走路,可以走得更远、更稳。
团队发展方面,刘杰对不同阶段、不同诉求的学生采取针对性指导。“毕业要去企业工作的,就着重培养他们的动手能力;有进一步学术上深造打算的,就会根据发展路线提供学术能力锻炼的机会。我们团队有很多优秀的学生,既能兼顾学习,在科研上也做了大量的工作,包括参与论文的发表、获得科研竞赛奖励等。这些都很好地锻炼了他们的能力。”对于人才的培养,刘杰提倡依据学业阶段“因时制宜”,还明确了工作认真、保持好奇的重要性。
面向未来,刘杰表示,通过数据分析、挖掘和模型预测来替代人类开展智能化工作是大势所趋,“不过因为算法、模型等局限性,人类距离完全的智能化阶段还有距离”。他的工作契合时代发展,特别是当大数据挖掘和人工智能逐渐渗透多行业,变革成为正在进行时。