中国中文信息学会2020年“钱伟长中文信息处理科学技术奖”之
——认知计算模型驱动的互联网搜索技术及其应用

2021-07-23 06:39刘奕群,王小川,张敏
中文信息学报 2021年6期
关键词:搜狗信息检索成果

(主要完成单位: 清华大学,北京搜狗科技发展有限公司

主要完成人: 刘奕群,王小川,张敏,陈炜鹏,马少平,许静芳,毛佳昕,王蟒,马为之)

随着互联网信息爆炸增长,搜索引擎已成为最重要的互联网应用之一,关系到社会信息处理水平与利用效率;当前绝大部分国家的搜索服务被跨国巨头垄断,拥有自主可控的搜索技术对国家信息安全意义重大。

2006年至今,清华大学与搜狗公司通过紧密的校企合作建设了搜狗搜索引擎,致力于提供性能突出、自主可控、内容可信的搜索服务。面对互联网搜索技术面临的重要挑战,项目组凝练以认知计算为核心的创新思路,从以下三个方面实现了显著突破:

(1)查询需求理解: 提出基于用户交互模型的查询需求理解方法,利用用户群体智能改进需求理解,将搜狗查询推荐系统的点击通过率显著提升。成果曾获亚洲信息检索会议(AIRS)最佳论文奖。

(2)资源质量评价: 首次提出基于异常浏览模式监测的识别方法,大大缩短搜狗搜索垃圾网页识别周期,性能显著优于传统算法。成果曾获国际信息检索大会(SIGIR)最佳学生论文奖、最佳论文提名奖。

(3)异质资源匹配: 首次提出多媒体结果的聚合排序方法,利用深度表示学习技术整合多模态特征,显著提升搜狗系统排序效果。成果曾获国际信息与知识管理大会(CIKM)最佳论文奖。

本项目已发表高水平论文70余篇,获专利与软著31项,构建了比较完整的知识产权体系。由中国电子学会组织的科技成果鉴定指出,本项目成果总体达到国际先进水平,部分成果达到国际领先水平。相关成果组成了搜狗搜索的核心模块,协助其成为中国第二大搜索服务提供商。近年来在移动搜索领域搜狗份额迅速增长,验证了市场和用户对项目成果的认可。此外,项目成果还直接应用于百度学院技术培训服务,腾讯微信、知乎和搜狐等平台。经济效益方面,经审计,以搜索业务知识产权占比计算,项目成果近几年推动新增利润超18亿元。社会效益方面,相关技术成果融入网络空间治理体系,甄别垃圾网页超过150亿个,协助北京市工商局主动发现违法线索超6万个,办结案件超9000起。

搜索技术发展与社会信息化水平息息相关,项目组将持续关注搜索技术中的各种挑战,在取得国际领先水平的核心创新成果的同时,致力于为广大中文互联网用户提供性能突出、自主可控、高可信度的搜索服务。

猜你喜欢
搜狗信息检索成果
腾讯拟147亿元全资收购搜狗
搜狗:牵头成立AI创新联盟
工大成果
搜狗二季度财报 表现不如预期
“走出去”成果斐然
“健康照明”成果聚焦
搜狗三季度营收同比增长
“三医联动”扩大医改成果
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究