让资源找到你
2007年
搜索技术
外部环境的不断变化、用户的多样性需求,都将促使教育网的搜索引擎向分布式、个性化、智能化、社区化、移动化、行业化的方向发展。在云时代,我们有望实现“让资源找到你”的愿景。
爱因斯坦说:“只要是我能够在字典上找到的东西,我就不会去记它。”互联网时代的典型现象之一是人人变成了“搜索控”。当一个“搜索控”的好处是,你总能在最短的时间内集结许多需要的信息。
搜索的诞生并非来自于满足“需要找到一家最受好评的餐馆”诸如此类的需求,虽然这在如今非常有必要。
搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie,仅用于查找网络文件。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和Gerry Yang共同创办超级目录索引Yahoo。
1996年,Larry Page和Sergey Brin将第一个Google版本放在斯坦福大学的网站上。当时谁能料到一个搜索帝国将要崛起?从这时起,网络开始变得更有价值。
之后,Google、百度、雅虎、搜狐、网易等逐鹿搜索市场。随着互联网爆炸性的增长,用户搜索需求的增长使得互联网公司的“蛋糕”越做越大,在资本市场受到追捧,以至于软件巨头微软迫不及待地以Bing一争高下。时至今日,搜索战场硝烟不断。
追溯搜索的历史,我们发现,搜索出身于大学。同样地,在我国,高校对搜索技术的研究从1995年开始。
“九五”建设时期,北京大学的天网搜索引擎,清华大学的网络指南针搜索引擎,华南理工大学的木棉搜索引擎,开启了国内研究搜索引擎的先河。有专家表示,与面向普通大众的通用引擎相比,高校的搜索引擎具有自身的特色:
第一,针对教育网内用户的特殊需求,为其提供有针对性的信息检索服务,校园网用户经常使用的搜索功能包括网页搜索、FTP 文件搜索、论文检索、IP地址查询、BBS用户信息查询等功能,尤其在论文检索方面,很多教师对于网上搜到的科研信息的出处常常感到困惑。而基于北大天网搜索的中国网页博物馆能够建立含有时间标签的搜索引擎服务,这是很有价值的。
第二,作为深具科研实力的研究机构,高校的研究和探索具有前沿性,华南理工大学的木棉搜索引擎基于开源项目进行,力图解决搜索引擎应用中所带来的挑战,试图通过搜索引擎实现校园网电子邮件、新闻、BBS、博客和档案系统等各种信息的互通。清华网络指南针搜索引擎目前在分布式搜索方向展开了一系列研究,针对集中式搜索存在的问题和瓶颈进行崭新尝试,联合多个搜索引擎,采取分布式的联邦搜索方式,充分发挥局部搜索引擎的优势,从而试图达到更加全面与精确的搜索效果。
搜索引擎随着互联网的发展而发展。今天我们需要搜索引擎具有文字、图片、视频等信息整合功能。随着市场推动应用,更专业、深入、个性化的服务需求,社区网络的兴起,垂直搜索和社区化搜索在2005年左右兴起,并拥有蓝海前景。
搜索作为2007年的教育信息化的关键词的原因是,国内搜索市场当时发生着“联合”:百度联合北大,搜狐与清华合作,雅虎中国携手哈工大,人们希望通过校企合作共建实验室的方式,促进搜索技术的不断发展。2007年年底, Google筹备与各高校的联系与合作。2008年伊始,Google开始向高校免费捐赠搜索服务器GSA。
这几年,互联网一直很热闹。云计算、移动互联网、智能手机等新理念、新技术、新产品的发展让人眼花缭乱,Web2.0技术让社区网络蓬勃兴旺,多媒体、图片、团购、社区互动、地图等应用在网上纵横。
外部环境的剧烈变化和用户需求的多样性都将促使搜索引擎发生变化。以云计算为例。云计算是搜索界无法回避的话题,实际上,日常所使用的搜索引擎就是云计算最方便被感受到的一种应用。云计算促进了整合搜索。整合搜索打破传统的搜索引擎模式的概念,它通过智能分析和导航系统,把不同的搜索领域的结果有机整合在一个网页内,将最有用的信息呈现给用户,用一个搜索框解决所有垂直搜索需求,而不是简单地把链接罗列在一起。而用户最希望的就是“想要的资源在眼前”。
“随着下一代网络的快速发展,以及Web2.0等新一代信息技术的成熟,信息资源的分布和呈现越来越分布化,这为搜索引擎的体系结构设计提出更多新的挑战。”华南理工大学信息网络工程研究中心副主任董守斌表示。基于IPv6的新一代互联网为网上信息服务的发展、特别是为个性化和专业化信息资源的更大规模的扩张提供空前的增长潜力,对信息检索技术提出了革命性的要求,蕴涵着全新的机遇。分布式搜索引擎的优势在于可以联合众多的有特色的小型搜索引擎单元。合理的体系结构可促使系统支持成百上千个单元搜索引擎,支持目前连通性较差的IPv6 网络以及社交网络等的数据采集,提高系统的覆盖率。
教育信息化正在逐步深入,整个校园网信息的综合利用依赖于对信息的有效控制和管理。校园网信息整合的龙头仍然是搜索引擎。外部环境的不断变化、用户的多样性需求,都将促使教育网的搜索引擎向分布式、个性化、智能化、社区化、移动化、行业化的方向发展。在云时代,我们有望实现“让资源找到你”的愿景。