郭锐 (微视互联(天津)科技有限公司 天津300456)
随着我国互联网应用的日益普及,人们的衣食住行都和网络发生了直接或者间接的联系,特别是搜索引擎的出现,可以说是改变了人们获取知识和信息的方式,其重要性毋庸置疑。然而类似百度和Google这样的通用搜索引擎,在某些特定的领域,从信息的准确性、实用性和及时性来讲,往往并不如人意,夹杂大量无用的信息,用户还必须逐个点击筛选。特定领域的垂直搜索引擎正是为了解决这一问题而产生的,其目标是在限定领域范围内提供更加精准有用的信息。在育儿这个领域的知识和信息有其自身的特性,而且用户有特定的人群,即主要为0~6岁的父母,我们基于对育儿知识信息和父母用户的深入研究,研发了一款新型的垂直育儿搜索引擎——智能育儿通。
智能育儿通的主要创新点在于,该搜索引擎的内核包括一个自动问答系统,用户能够以平常说话的自然语言形式提问,系统自动给出相关的答案;搜索结果的展示不仅包括传统的图文,而且还能够提供视频形式,从而信息以一种多媒体的立体角度进行呈现;系统还为用户建立了用户模型,智能分析用户的需求和使用习惯,在搜索的同时主动推送相关的用户可能感兴趣的育儿资讯;并且提供多种客户端,以供用户可以随时随地进行访问,用户操作接口包括网页浏览、手机短信、手机客户端程序和及时聊天。
由于网络信息的爆炸式增长,网民面对海量数据不得不借助搜索引擎这一强大的工具去寻找自己的目标信息,百度和Google是我国网民使用最多的两个通用搜索引擎。各大门户网站也有自己的搜索引擎,如搜狐的搜狗、网易的有道、腾讯的搜搜,这些搜索引擎也各有特色和定位。
在垂直搜索引擎方面,英文比较著名的有KidsClick儿童搜索、AddAll购物搜索、PicSearch图片搜索、MusiDB个性化的音乐搜索。而在中文方面,258商业搜索(http://www.258.com/)、爱帮生活搜索(http://www.aibang.com/)、跳哪工作搜索引擎(http://www.tiaona.com)是比较典型的代表。可以说,在通用搜索引擎占据主导地位的同时,垂直搜索引擎作为一个重要的补充,是互联网发展的必然趋势,也是整合网络资源的一个不可超越的阶段。
中国人均年出生人口是1 500~1 700万,保守估计潜在父母用户群在1.2亿左右。互联网的普及化和移动互联网的迅猛发展已经改变了新一代父母获取育儿知识的方式,二者已经成为妈妈获取育儿信息的主要手段。但是目前,网络上各种信息庞杂,真假难辨,如何让妈妈更有效的获取最权威的知识信息是目前存在的最大问题。
我们所研发的智能育儿通的出发点就是利用先进的人工智能技术和互联网技术,为妈妈提供一个迅速获取权威育儿知识,解决育儿难题的有力工具,过滤掉无用的虚假信息,给出最有效的育儿知识,为父母的育儿过程提供极大的便利,其目标是力争在育儿领域,能够做到比百度更智能,比google更精准。
与传统的垂直搜索引擎相比,智能育儿通的最大不同点就是基于人工智能技术以及科学育儿方法和知识体系构建的,强调用户体验,父母用户能够以各种接入方式,使用贴近自然语言的形式向这个系统提问有关育儿方面的各种问题,系统能够自动给出答案或者资料,并且可以智能地根据用户资料及其使用习惯进行深入分析,提供相关联的育儿知识或信息,使用户可以获取到全面贴心的服务。因此,智能化的自动问答系统是智能育儿通的重要核心之一。
从接入方法来讲,系统的用户可以通过浏览网页、发送手机短信、使用手机客户端程序或是即时聊天工具等方式向智能育儿通提问,从而能够随时随地获取育儿信息。智能育儿通基于SOA体系架构,可以对第三方应用程序开放方便的服务接口以供灵活的集成。
从数据来源来讲,系统致力于打造一个全面综合、立体呈现的育儿知识库,主体数据来源包括来自专业育儿网站的数据库(包括视频,图文形式的育儿知识、育儿活动、育儿专家、育儿机构、育儿产品、育儿资讯等),国内主要的问答系统,如百度知道、搜搜问问的问题数据,以及从各种育儿专业网站抓取过来的网页资源。
从返回结果来讲,系统能够根据用户输入的请求,提供搜索引擎的搜索结果或是智能问答的答案,同时还可以根据内容的相关性,提供育儿知识库中的相关育儿信息,以图文、视频多种方式进行立体呈现。
此外,系统能够针对用户提供的资料和用户的使用行为,建立用户模型,除了用户搜索的结果之外,还能够主动推送用户可能感兴趣的相关育儿信息。
从整体架构来说,可以将系统分为6个子系统(见图1),分别是多客户端子系统、输入输出子系统、自动问答子系统、关键词搜索子系统、育儿知识库与查询子系统以及用户行为分析与反馈子系统。
图1 智能育儿通的整体架构示意图
2.2.1 多客户端子系统 提供多种客户端,以供用户可以随时随地进行访问,用户操作接口包括网页浏览、手机短信、手机客户端程序和及时聊天。各种客户端以统一的方式对用户输入进行处理,即加入用户身份信息,进行加密之后,发送请求到“输入输出子系统”。
育儿问题答案的展现形式会随着用户操作接口的不同而不同,在网页浏览的形式下,答案的主体应以图文加视频的方式呈现,并且将显示相关的辅助信息和相类似的问题。
2.2.2 输入输出子系统 输入输出子系统的核心是用户提问请求的分析和提问结果的输出。请求分析模块的功能包括:对于请求进行解密和认证,过滤非法请求;做必要的字符串处理,过滤非法字符;要能够分析出用户的提问是问句形式还是关键词组合形式,前者将请求传给问答系统,后者将请求传给垂直搜索子系统;在用户输入的同时,能够给出相关提示,类似百度的搜索体验;分析出用户提问所属的育儿知识分类,向育儿知识库提出请求。结果输出模块的功能包括:以统一的形式格式化获得的提问结果和相关知识的结果,包装之后返回相应的客户端;针对相似问题的输出,要有统一的处理模式;针对不同的客户端形式,做不同的结果处理,如结果的字数限制、结果的条数、结果的字段数。
2.2.3 自动问答子系统 用户能以自然语言形式提问,系统会通过自动分析,给出最佳匹配的答案,同时还能给出相类似的问题。主要功能如下:问题库来自百度知道、搜搜问问、新浪爱问等各大知名问答网站;通过对于提问进行语法分析,匹配出相关问题,在各种问题库中搜索问题,找到该问题库中最佳答案,并且可以在最佳答案中选择一个或多个作为提问结果;给出相似或者相关联的问题,并且格式化后推送给输入输出系统;对于问题库、关键词等关键因素可以设置一系列的参数,并可以灵活调节;根据用户模型,给出问题答案的调节;根据用户对于提问答案的满意程度的反馈结果,对于问题系统的算法模型进行调节。
2.2.4 关键词搜索子系统 首先对于网络育儿资源进行全面整理和收集,包括各大网站的文字和视频育儿知识,在此基础上进行归纳分析主题,建立专业的育儿词汇表,对育儿资源数据进行解析和提取,在专业的育儿知识体系框架下实现网页内容的智能分析、网页的分类,从而为育儿关键词的搜索提供更加精准专业的结果。
现在对于育儿视频的搜索各大网站几乎都没有,或者效果并不理想,而育儿通提供基于标签和视频文字描述的育儿视频搜索,搜索结果可以以视频形式直接呈现。另外,我们也注意到,用户想购买产品或服务时,许多人的习惯是先搜索关于这个东西的正面或负面评价,而这些评价信息又很大程度影响用户的购买行为。因此我们着重挖掘各种育儿机构和母婴产品的评价、评论信息,对于每个机构和产品可以计算口碑指数,并表明负面评价和正面评价,在用户搜索的结果中提供这些经过整理之后的口碑评价。
2.2.5 育儿知识库与查询子系统 建立爬虫系统,持续更新育儿知识库,从第三方网站抽取和整理形成统一的知识库资料。将抓取自各大育儿网站的资源数据统一整理,其中包括发布文章、视频、问答、博客、帖子等各种内容形式,经过语料过滤、清洗、重新格式化,形成一个综合性的育儿知识库。首先是为自动问答子系统和关键词搜索子系统提供训练语料的支撑;其次支持育儿知识查询,能够直接接收育儿知识分类请求,返回育儿知识内容,并且能够根据用户模型,返回针对该用户定制的育儿知识。
2.2.6 用户行为分析与反馈子系统 育儿通能够针对用户提供的资料和用户的使用行为建立用户模型,在用户提问之后,不仅给出问题的答案,还能够主动推送各种用户可能感兴趣的相关育儿信息,如母婴机构、幼教产品、打折信息等等。主要功能包括:建立完整全面的父母用户资料库;记录完整的用户访问智能育儿通的行为;保存所有的提问请求及其对应的答案结果,一方面可以作为提问的缓存,提高系统响应,另一方面可以作为提高答案准确率的训练集;用户可以对于提问的答案进行评价,记录所有的满意度,并结合提问回答的结果进行针对性训练,提高搜索模型的精确度;对于提问行为进行分析,给出热门问题、热门关键词等指标;通过分析用户资料和行为,将用户进行特定指标的分类,并能智能推送和定制育儿知识提供决策依据。
智能育儿通整体采用SOA体系架构,对外提供基于Web Services的在线应用服务,从而为第三方应用程序提供方便的服务接口实现集成。主体程序使用Java EE技术构建,客户端覆盖各种操作系统和编程语言。搜索引擎的实现上使用了大量的开源软件,其中利用Apache Nutch负责抓取(crawling)和提取(extracting)内容。Apache Solr作为处理搜索结果的源和入口,使用Solr作为搜索后端,在Nutch和Solr的整体框架下,实现根据育儿知识和信息体系定制的分词、语法分析、索引、匹配等算法。
用户操作接口包括网页浏览、手机短信、手机客户端程序和及时聊天。其中及时聊天工具应包括但不限于QQ、MSN和Fetion(飞信),手机客户端程序的操作系统包括但不限于Android、iOS(iPhone)和 Symbian。
智能育儿通的核心技术来源于本公司与清华大学计算机系合作开发的技术成果,共同享有自主知识产权。智能育儿通预计2011年内发布公测版,将在本公司的运营的真实同城育儿社区“父母在线”(http://www.ifumu.com)中发布,为广大中国父母提供精准的育儿信息和贴心的母婴服务。
智能育儿通在传统搜索引擎的技术基础之上,创新地使用人工智能技术以及科学育儿方法和知识体系进行构建,为全中国的父母提供更精准、更全面的搜索和问答服务,是一种全新的用户体验和服务模式,其技术水平方面在国内也属领先。未来在不断优化搜索效果和提高用户体验的同时,还将拓展商业应用和增值服务,实现大规模的商业化运营。■
[1]郑实福,刘挺,秦兵,等.中文自动问答系统综述[J].中文信息学报,2002,6(16):46-52.
[2]H uizhong D uan1,Y unbo Cao,Chin-Y ew Lin ,etal.Searching Q uestions by Identifying Q uestion Topic and Q uestion Focus[J].Proceedings of A CL,2008(8):156-164.
[3]P Raghavan,H Schtze.Introduction to Information Retrieval[M].Cambridge U niversity Press N ew Y ork,N Y,U SA,2008:100-152.