信息检索:创新是关键,应用是王道

2020-11-29 02:03郑金武
科技传播 2020年16期
关键词:工业界信息检索学者

近日,第43 届国际计算机协会信息检索大会(SIGIR2020)落下帷幕。原计划在西安举行的SIGIR2020 大会,因疫情影响改为线上举行。

“根据今年词频统计,推荐系统和机器学习占到前两名。”SIGIR2020 大会共同主席、吉林大学人工智能学院院长常毅在接受《中国科学报》采访时,对信息检索领域的研究方向进行了分析。

然而,从今年的SIGIR 大会录取论文内容看,信息检索与人工智能、自然语言处理、数据挖掘等技术融合创新,是大会的重要特点。而阿里巴巴、百度等公司团队多篇论文的入选,又彰显了信息检索领域技术创新与工业界结合的紧密性。

在常毅看来,“交叉融合,与工业界结合紧密”,也正是SIGIR 之所以成为信息检索领域顶级会议的重要法宝。

交叉融合促进技术创新应用

“会议开幕式上近十年关键词的动态演化,显示推荐系统与机器学习是近期SIGIR 会议最热门的方向。机器学习最新方法和模型在信息检索领域的创新性应用,也是学者们关注的焦点。”常毅介绍。

机器学习,也正是中国科学院院士、西安交通大学教授徐宗本报告的关键词。“机器学习(ML)是在一系列前提条件的基础上的运行和应用,机器学习有助于人工智能的巨大成功,而人工智能也有助于机器学习进一步发展和突破瓶颈。”

机器学习,需要大量用于训练的数据集。“我们从一个不完整的数据集中逐步进行机器学习,并由易到难,为处理非常复杂的不完备数据集提供可行的方法。”徐宗本表示,类似由易到难的进阶式训练,有利于突破机器学习的瓶颈,并取得进展。

自2008 年至今,天津大学智能与计算学部副教授张鹏一直致力于开拓量子人工智能与自然语言理解这一交叉领域的研究工作,其入选今年SIGIR 会议的论文,是有关基于量子干涉的检索神经匹配模型研究。

“在人类认知和人类相关性判断过程中,研究表明存在量子干涉现象的大量证据。在此基础上,我们将量子干涉的理论建模在神经匹配模型中,将神经匹配模型扩展到量子概率诠释。”张鹏说,这一神经匹配模型在信息检索任务中应用时,表现出不错的检索效果。

类似的交叉融合研究,在本届SIGIR 大会论文中比比皆是。常毅表示,信息检索与人工智能、自然语言处理、数据挖掘等技术融合创新,既促进了信息检索领域的长足发展,也带动了相关技术的创新应用。

与工业界结合紧密

常毅表示,随着算法、算力的不断提升,SIGIR 会议成果在现代学术界、工业界都显示出重要的研究与应用价值,推动信息检索成为大学和企业都非常关注的专业领域,吸引了更多相关领域的顶级科学家和顶级信息技术公司科研人员加入。

“近十年来,学术团体的研究方向与工业界的实际应用,与机器学习的关系越来越紧密。”常毅说,这样的紧密结合,也有利于学术的不断发展。

在今年的SIGIR 大会上,阿里巴巴研究团队表现突出,共有二十多项研究成果入选,是全球论文数量最多的科技公司。有专家表示,阿里巴巴在多个成果中,展现了人工智能在理解文本信息任务上的突破。

在其中一篇论文中,阿里巴巴研究团队提出了一种能够理解文本言外之意的方法,通过推敲给定隐晦文本的全局语义、局部语义,以及可能存在的噪音,有效提高了模型识别隐晦文本是否包含色情、暴力等内容的精确率。

据统计,百度、华为、腾讯、平安科技等科技公司,在今年的SIGIR 会议上的论文投稿量都很可观,这些论文都来自于信息检索相关技术在实际场景中的应用,而应用又促进技术创新的案例。例如,平安科技公司团队的论文,是平安科技人工智能前沿技术与寿险线上营销业务深度融合的一项创新成果。

信息检索和自然语言处理技术是人工智能的基础技术,实现突破不仅需要全新的模型,还需要结合实际应用提出更创新的训练和推理方法。而阿里巴巴、腾讯等经济体丰富的场景,也为自然语言处理等技术的研究提供了绝佳条件。

中国青年学者唱主角

在今年的SIGIR 会议上,中国和美国学者论文在投稿率录用率排名中,分别名列第一第二。

据介绍,SIGIR 2020 上华人学者的表现十分突出。入选的论文中共有317 位华人学者,其中有1 人发表9 篇论文,3 人发表8 篇,1 人发表7篇,2 人发表6 篇,7 人入选5 篇,7 人入选4 篇,15 人入选3 篇,44 位入选2 篇论文。

其中第一作者华人学生共有55 人。以一作身份发表2 篇论文的学生有7 人。

本届会议最佳论文奖由康奈尔大学Thorsten Joachims 团队获得。而清华大学本次获得了多个奖项,包括最佳论文荣誉提名奖,由清华大学张帆(一作)等获得。

此外,两个最佳短论文奖都被清华大学摘取,第一作者分别是常健新和于是。值得一提的是,于是目前是清华大三学生。

“这些成绩,都显示了中国学者在信息检索相关领域的创新与贡献。”常毅说,“今年SIGIR 会议的一大亮点,是有更多非论文作者尤其是青年学生加入到信息检索社群中来。”

常毅介绍,假如青年学者定义为青年学生、青年博士、青年教师,则今年SIGIR 会议上青年学者的参与比例超过了75%。

常毅表示,青年学者积极参加国际学术会议,多学习、多交流,将有助于他们打开视野、开拓思路,结识海内外、业内外、资深而优秀的研究者、业内同行和同学。

“青年学者应积极通过交换计划、访问计划,积极开展国际合作。”常毅说。

猜你喜欢
工业界信息检索学者
学者介绍
学者简介
学者介绍
期望优秀的工业文化
期望优秀的工业文化
学者介绍
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
两岸工业界签署交流合作备忘录
教学型大学《信息检索》公选课的设计与实施