通过搜索引擎所获取知识可用度的研究——基于图灵测试的视角

2013-07-21 09:35严梓峻王志酉刘慧
中国科技信息 2013年22期
关键词:专业组图灵搜索引擎

严梓峻 王志酉 刘慧

上海对外经贸大学,上海 201620

1.研究背景

在现今社会中用户习惯通过搜索引擎来解决一些生活中的难题,然而很少有人思考搜索引擎所提供的知识在多大程度上是有用的。在本文中,作者将探讨这样一个问题:普通人与搜索引擎的组合是否在某些领域,能够解决一定程度上的难题?换言之,作者希望了解不具备完整领域知识的普通人在拥有搜索引擎工具后,其在某些特定任务中能力可以在何等程度上接近一个领域专家的水准。作者将用“可用度”来描述通过搜索引擎获得的专业知识在解决实际问题时的可用性。

本项目研究的结果将对问答系统的发展起到积极作用。基于全自动的问答系统(如AnswerBus、维基百科)目前尚只能回答简单的问题,对于复杂具体的问题就捉襟见肘。而对基于社会化网络的问答系统[1](如百度知道、腾讯问问、Quora等)而言,其中许多问答者并非精通专业知识,结果也未必理想。那么,是否可以通过搜索引擎的帮助,根据人的常识来选取搜索引擎的结果、找到解决方案?这也就是本文研究的背景之一。

作者将采用类似于图灵测试的方法来比较专家和拥有搜索引擎的普通人在完成特定领域任务上的差距。采取此方法原因有二,一是受到了图灵测试的启发,作者认为通过人的智能与电脑的大信息量结合,通过人的判断,就能较为高效地解决大量问题,甚至超过部分领域的专家;二是通过图灵测试中的实验方法,可以更好得控制变量,提高实验结论结果的准确性,并且具有可操作性。

本文结构如下:在第二节作者将介绍图灵测试的基本情况,然后在第三节作者介绍本文提出的“类图灵测试”的设计与实现,然后在第四节中作者对于实验数据进行了分析。最后一节是实验小结。

2.图灵测试

图灵测试探讨机器在什么情况下“拥有人的智能”。图灵测试是在1950年由著名的“计算机之父”阿兰·图灵(Alan Turing)设计的实验。具体实施方案是一个人在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。问过一些问题后,如果测试人不能确认被测试者的答复哪个是人、哪个是机器的回答,那么这台机器就通过了测试,并被认为具有人类智能[2]。在当今世界的图灵测试比赛中,最佳的谈话机器人也很难瞒过人类。也有研究者提出在一个限定的领域或者任务中来进行图灵测试[4]。在国内也有研究者对这个问题进行研究。陆汝钤[5]提到过人工智能能达到人类多少程度的问题,但是发现许多机器永远不会做到的特质,像和蔼、美丽、创新精神以及幽默感等。

作者设计的测试方法可以称之为“类图灵测试”,整体实验框架与图灵测试类似,但是不同的在于其中一组不是计算机,而是“计算机+人”,也就是拥有搜索引擎工具的普通人,而另一组是拥有领域知识的专家。作者通过比较这两组在完成任务上的差异来分析搜索引擎的可用度问题。

3.实验设计

在实验阶段,作者选择了英语作为主要研究领域、以分组别完成英语问卷的方式,展开设计“类图灵测试”的实验。

实验总人数即样本总体约为120人,剔除异常数据后(如实验个体交白卷与全选同一选项)收集到问卷100份。其中分为A、B、C三个组别,A、B两组实验人员是来自某校初二学生,A组允许使用计算机网络检索而B组则不能,C组是专业组,即来自我校的大二学生,各个组别中分别随机抽样15份作为样本进行试验。

表1 实验人群与数据个数

实验工具方面,英语问卷难度处于大学英语专业六级水平,题目分20题单选题(占50%)以及20空的阅读题(占50%),满分为100分。

先选取A、B两组实验人员,分发实验用英语问卷让其完成。抽样统计两组人员的问答情况得出搜索引擎对于英语能力的提升程度。随后,我们再取以上A组实验人群的数据,将B组人员换成的专业组C组,给他们做同样的问卷,收集整理数据进行抽样统计,通过分析正确率和分布情况以及“伪专家”可回答的问题类型做统计。

4.数据分析

4.1 数据总体分析

首先分析总体情况:

设定业余组,即未通过搜索,为A组;搜索组,即业余人员通过搜索引擎参与问卷的为B组;专业组为C组。调查结果的总体分布如下:

图1 成绩的总体分布情况

在均值方面, C组为70.50分,A组与B组数据分别为55.67分和72.67分,可得B组的均值为最高、超过专业组C组均值,其中前者最高分为92.5分、后者最高分达到95分,意味着在搜索引擎的帮助下,业余组在某领域的解决问能力有可能超过专业组。

图2 均值分析情况

横向分析方差,C组为215.36,A组和B组的数据分别为188.27和267.38,比较A组和B组,搜索引擎帮助下的非专业测试者虽然总体提高,但成绩方差较小。根据结果推测造成这种结果的原因在于业余组的实验人群对于搜索引擎利用能力方面水平不一,造成成绩上的提升也不相同,这表示,在人与搜索引擎合作中,并没有专业组稳定,对于网络信息筛选与渠道选择有较大影响。

4.2 数据分布分析

作者纵向比较,研究数据中各样本的分布情况。标记区间1为≥85、区间2为75~85、区间3为60~75、区间4为45~60、区间5为<45,分别得到下列数据。

专业组的分数分布从区间1到5分别为17%、29%、37%、13%、4%,A组数据:7%、13%、20%、40%、20%,B组数据:40%、13%、34%、13%、0%。专业组分数主要处于60~75分段、75~85分段占大部分,业余组搜索前分数处于45~60分段,图形曲线都接近正态分布,而B组搜索后分数竟然达到85及以上分段,分布巅峰高于专业组,显示在搜索引擎的帮助下,业余人员在高分段人数上超过了较专业人员、但两者的总体平均水平相近。

图3 总体分数分布情况

进一步分项比较单选和阅读的错误率状况分布。由于都是20题,标记错题0~4个、5~8个、9~12个、13~16个、17~20个分别为区间1、区间2、区间3、区间4、区间5。单选方面,区间1到区间5业余组A错题数分布为:0%、20%、40%、33%、7%,业余组B错题数分布为:20%、46%、27%、7%、0%,查看其趋势,分数分布提升了一个分段,意味着搜索引擎能对此类题目的正确率有显著提高。

图4 两业余组的单选错题数分布对比

在阅读方面,区间1到区间5业余组A错题数分布为:0%、6%、63%、25%、6%,业余组B错题数分布为:26%、27%、27%、20%、0%,查看其趋势,分数从主高错误数(9~12个错误)变得更平均,提升不如单选显著。

图5 两业余组的阅读错题数分布对比

就结果而言我们推断:首先由于选择题的题干较短,只需搜索出相关的知识点或生词就能够很好地解决问题;而阅读题的信息量较大、生词和词组之间的联系较为紧密,所以即便是知道解释,也难以从整体上去理解、进而得出正确答案,其次来说,在语言学方面,对于段落语义的理解,知识层面更深奥,难以通过单词拼接完成整篇文章的主体把握,需要专业知识与经验融入理解,才能更好地解决难题。

4.3 实验结果分析

根据以上结果,作者得到以下推断:

1)就总体而言,借助因特网,普通人解决问题的能力(就英语学习方面)的水平是完全可以达到甚至超越专业人员的水平的。

2)就个体而言,鉴于检索与筛选能力的参差不齐,不同的个人之间借助因特网解决问题的能力水平有较大的差异。

3)因特网或者搜索引擎对普通人解决问题能力水平的提升作用,在更简单理性的问题上更显著,相比之下更复杂感性、更需要个人理解的实际问题上提升的作用不那么明显。

5 实验小结

本文中作者研究了非专业人员在有与没有计算机网络的帮助下解决同一问题的能力以及前后的差别,然后将上述两者得到的实验数据同时与专业人员的数据进行比对。通过各方面分析,作者发现计算机网络对于非专业人员而言计算机网络能够显著地提高其解决问题的能力。除此之外,这样的“普通人+计算机网络”的组合在一定条件下,相比专业人员更能胜任对于专业领域知识的工作。

本文研究的课题也有一些局限性。本实验只对英语这一专业进行了研究,样本容量还是不够大,问卷的相对难度、题量的把握还有待商榷,得出的结论只能是浅层次的。在下一步工作中,作者还考虑引入第四组人群,即精通信息检索专业的实验人群,得出数据再与专业组人群进行比对。同时,作者还会将本文中所提及的“专业领域”的范围进行扩大,进一步针对计算机专业、数学专业、经济学专业等等其他专业进行研究。

[1]Gazan R.Social Q&A[J].Journal of the American Society for Information Science and Technology, 2011, 62(12): 2301-2312.

[2]Turing A M.Computing machinery and intelligence[J].Mind, 1950,59(236): 433-460.

[3]Results Loebner Prize 2012 [EB/OL], http://loebner.net/Prizef/2012Contest/Scoring-2012.html

[4]Feigenbaum E A.Some challenges and grand challenges for computational intelligence[J].Journal of the ACM (JACM), 2003, 50(1): 32-40.

[5]陆汝钤,韦梓楚,张松懋等.图灵测试——机器是否有智能[J].创新科技, 2008, 12: 034.

猜你喜欢
专业组图灵搜索引擎
哈啰电动车发布智能新品哈啰B70 PRO,推出智能平台图灵T30
世界表情符号日
人工智能之父:图灵
中国药学会中药和天然药物专业委员会动物药专业组
新英镑
2016IPA年度国际摄影奖最佳表现作品选登
人工智能简史
网络搜索引擎亟待规范
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌