上下文信息研究综述

2014-11-19 09:48何秀丁丰
电子技术与软件工程 2014年20期
关键词:信息检索搜索引擎

何秀 丁丰

摘 要 上下文信息是指用户在检索过程中产生的一切与检索活动相关的信息的总和,该类信息具有高可靠性、针对性、完整性等特征,有利于信息检索模型准确理解用户兴趣偏好。文中阐述了上下文信息的产生、特征,以及捕获方式,并针对不同的运用对上下文信息进行分类。

【关键词】下文信息 上下文检索 搜索引擎 信息检索

用户的搜索行为是处在一定地上下文环境下,目前的查询系统因利用上下文信息,改善了原有搜索结果重复率高的现象,为用户提供了更具人性化、个性化的高质量服务。

上下文信息对搜索引擎具有非常重要的价值,在对上下文信息研究中发现,不同的上下文信息对用户检索行为产生的影响不一样,即在不同的环境下,某些上下文信息具有较高的使用价值,而某些上下文信息则可以忽略。因此,有必要分析各种上下文信息对用户查询行为的影响,有针对性地利用上下文信息资源。

1 上下文信息的分类

在不同的应用场景(context)下,对上下文信息的定义各具特点,Lawrence认为Web搜索上下文是指与用户检索意图和表达相关的一切信息。Brown 将上下文定义为与用户所处的环境、当前查询时间、季节、温度等相关的信息。Anind 定义:“上下文是指在特定的环境下,能够标识实体特征的相关信息,其中相关信息可以包括某人、物、时间、地点、应用系统等,只要所涉及的实体与用户的交互环境相关联”。在信息检索领域,现广泛接受的是将上下文信息划分为:用户上下文、资源上下文、系统上下文等。

1.1 用户上下文

分为用户静态上下文和用户动态上下文,静态上下文信息包括年龄、学历、专业、工作性质、爱好、生活经验和习惯等与用户个体相联系的其它特征;用户动态上下文指检索过程中产生的所有信息总和,例如:查询词、查询发生时间、用户的IP地址、当前查询浏览所用时间、用户的反馈检查信息等信息;

1.2 资源上下文

Web页面之间的超链接信息、页面本身的结构信息等。

1.3 系统上下文

查询系统本身的某些特征,例如:系统采用的搜引机制、检查模型、排序机制、检索界面的布局等。

2 上下文信息的获取

在信息检索中,从用户参与的方式考虑,可将信息收集的方式分为显式收集、隐式收集、推理获取。

2.1 显式收集

显式收集(或称显式反馈)是指用户根据系统设计的表单内容,自主提交个人基本信息或参与系统的交互信息,用户静态上下文的挖掘则可以采用此方式。

2.2 隐式收集

隐式收集(又称隐式反馈)是指系统在不影响为用户提供检索服务的前提下,“悄无声息”地收集用户的检索信息,用户动态上下文及资源上下文则可采取该方法;该方法常用的技术有:Web信息抽取、基于模板的方法、桌面代理、利用浏览器插件等。

2.3 推理获取

即借助数学中的统计学理论和数据挖掘的相关知识,进行归纳演绎和推断用户的某些信息。

3 上下文信息的研究应用

上下文信息的获取、表示、组织所采用的方法直接影响着系统的搜索质量。如图3-1所示,阐述了用户检索过程产生的上下文信息在信息检索系统中的具体应用。

如图3-1所示,对信息检索中常见应用进行了归类,用户检索中产生的上下文信息可帮助检索系统理解用户需求、用户查询、文档信息以及检查用户查询与文档是否匹配。

4 结束与展望

上下文信息有利于提高搜索引擎质量,有着重要的使用价值。在利用上下文信息时,不仅需考虑其表示方式,由于各类上下文信息对用户检索行为产生的权重不同,还应综合考虑其带来的影响因子,从而构建合理高效地检索模型。

参考文献

[1]Lawrence s. Context in web search[J].IEEE Date Engineering Bulletin,2000, 23(3):5-32.

[2]Brown P J,Bovey J D,Chen X.Context-Aware Applications:From the laboratory to the marketplace[J].IEEE Personal Communications,1997, 4(5):58-64.

[3]Anind K D.Understanding and using Context [J].Personal and ubiquitous computing, 2001.

[4]田萱,李冬梅.上下文信息检索研究综述[J].计算机科学.2010,38(9):18-24.

[5]Jiang D X,Pei J,Li H.Enhancing Web Search by Mining Search and Browse Logs[C].New York:ACM Press,2011:1-185.

[6]何秀,牛之贤,孙静宇.上下文对用户搜索行为的影响[J].情报杂志.2012,10(31):122-125.

作者简介

何秀(1988-),女,现为广东科技学院计算机系硕士研究生在读,主要研究方向为信息检索。

丁丰(1988-),女,现为广东科技学院计算机系硕士研究生在读,主要研究方向软件工程。

作者单位

广东科技学院计算机系 广东省东莞市 523083endprint

摘 要 上下文信息是指用户在检索过程中产生的一切与检索活动相关的信息的总和,该类信息具有高可靠性、针对性、完整性等特征,有利于信息检索模型准确理解用户兴趣偏好。文中阐述了上下文信息的产生、特征,以及捕获方式,并针对不同的运用对上下文信息进行分类。

【关键词】下文信息 上下文检索 搜索引擎 信息检索

用户的搜索行为是处在一定地上下文环境下,目前的查询系统因利用上下文信息,改善了原有搜索结果重复率高的现象,为用户提供了更具人性化、个性化的高质量服务。

上下文信息对搜索引擎具有非常重要的价值,在对上下文信息研究中发现,不同的上下文信息对用户检索行为产生的影响不一样,即在不同的环境下,某些上下文信息具有较高的使用价值,而某些上下文信息则可以忽略。因此,有必要分析各种上下文信息对用户查询行为的影响,有针对性地利用上下文信息资源。

1 上下文信息的分类

在不同的应用场景(context)下,对上下文信息的定义各具特点,Lawrence认为Web搜索上下文是指与用户检索意图和表达相关的一切信息。Brown 将上下文定义为与用户所处的环境、当前查询时间、季节、温度等相关的信息。Anind 定义:“上下文是指在特定的环境下,能够标识实体特征的相关信息,其中相关信息可以包括某人、物、时间、地点、应用系统等,只要所涉及的实体与用户的交互环境相关联”。在信息检索领域,现广泛接受的是将上下文信息划分为:用户上下文、资源上下文、系统上下文等。

1.1 用户上下文

分为用户静态上下文和用户动态上下文,静态上下文信息包括年龄、学历、专业、工作性质、爱好、生活经验和习惯等与用户个体相联系的其它特征;用户动态上下文指检索过程中产生的所有信息总和,例如:查询词、查询发生时间、用户的IP地址、当前查询浏览所用时间、用户的反馈检查信息等信息;

1.2 资源上下文

Web页面之间的超链接信息、页面本身的结构信息等。

1.3 系统上下文

查询系统本身的某些特征,例如:系统采用的搜引机制、检查模型、排序机制、检索界面的布局等。

2 上下文信息的获取

在信息检索中,从用户参与的方式考虑,可将信息收集的方式分为显式收集、隐式收集、推理获取。

2.1 显式收集

显式收集(或称显式反馈)是指用户根据系统设计的表单内容,自主提交个人基本信息或参与系统的交互信息,用户静态上下文的挖掘则可以采用此方式。

2.2 隐式收集

隐式收集(又称隐式反馈)是指系统在不影响为用户提供检索服务的前提下,“悄无声息”地收集用户的检索信息,用户动态上下文及资源上下文则可采取该方法;该方法常用的技术有:Web信息抽取、基于模板的方法、桌面代理、利用浏览器插件等。

2.3 推理获取

即借助数学中的统计学理论和数据挖掘的相关知识,进行归纳演绎和推断用户的某些信息。

3 上下文信息的研究应用

上下文信息的获取、表示、组织所采用的方法直接影响着系统的搜索质量。如图3-1所示,阐述了用户检索过程产生的上下文信息在信息检索系统中的具体应用。

如图3-1所示,对信息检索中常见应用进行了归类,用户检索中产生的上下文信息可帮助检索系统理解用户需求、用户查询、文档信息以及检查用户查询与文档是否匹配。

4 结束与展望

上下文信息有利于提高搜索引擎质量,有着重要的使用价值。在利用上下文信息时,不仅需考虑其表示方式,由于各类上下文信息对用户检索行为产生的权重不同,还应综合考虑其带来的影响因子,从而构建合理高效地检索模型。

参考文献

[1]Lawrence s. Context in web search[J].IEEE Date Engineering Bulletin,2000, 23(3):5-32.

[2]Brown P J,Bovey J D,Chen X.Context-Aware Applications:From the laboratory to the marketplace[J].IEEE Personal Communications,1997, 4(5):58-64.

[3]Anind K D.Understanding and using Context [J].Personal and ubiquitous computing, 2001.

[4]田萱,李冬梅.上下文信息检索研究综述[J].计算机科学.2010,38(9):18-24.

[5]Jiang D X,Pei J,Li H.Enhancing Web Search by Mining Search and Browse Logs[C].New York:ACM Press,2011:1-185.

[6]何秀,牛之贤,孙静宇.上下文对用户搜索行为的影响[J].情报杂志.2012,10(31):122-125.

作者简介

何秀(1988-),女,现为广东科技学院计算机系硕士研究生在读,主要研究方向为信息检索。

丁丰(1988-),女,现为广东科技学院计算机系硕士研究生在读,主要研究方向软件工程。

作者单位

广东科技学院计算机系 广东省东莞市 523083endprint

摘 要 上下文信息是指用户在检索过程中产生的一切与检索活动相关的信息的总和,该类信息具有高可靠性、针对性、完整性等特征,有利于信息检索模型准确理解用户兴趣偏好。文中阐述了上下文信息的产生、特征,以及捕获方式,并针对不同的运用对上下文信息进行分类。

【关键词】下文信息 上下文检索 搜索引擎 信息检索

用户的搜索行为是处在一定地上下文环境下,目前的查询系统因利用上下文信息,改善了原有搜索结果重复率高的现象,为用户提供了更具人性化、个性化的高质量服务。

上下文信息对搜索引擎具有非常重要的价值,在对上下文信息研究中发现,不同的上下文信息对用户检索行为产生的影响不一样,即在不同的环境下,某些上下文信息具有较高的使用价值,而某些上下文信息则可以忽略。因此,有必要分析各种上下文信息对用户查询行为的影响,有针对性地利用上下文信息资源。

1 上下文信息的分类

在不同的应用场景(context)下,对上下文信息的定义各具特点,Lawrence认为Web搜索上下文是指与用户检索意图和表达相关的一切信息。Brown 将上下文定义为与用户所处的环境、当前查询时间、季节、温度等相关的信息。Anind 定义:“上下文是指在特定的环境下,能够标识实体特征的相关信息,其中相关信息可以包括某人、物、时间、地点、应用系统等,只要所涉及的实体与用户的交互环境相关联”。在信息检索领域,现广泛接受的是将上下文信息划分为:用户上下文、资源上下文、系统上下文等。

1.1 用户上下文

分为用户静态上下文和用户动态上下文,静态上下文信息包括年龄、学历、专业、工作性质、爱好、生活经验和习惯等与用户个体相联系的其它特征;用户动态上下文指检索过程中产生的所有信息总和,例如:查询词、查询发生时间、用户的IP地址、当前查询浏览所用时间、用户的反馈检查信息等信息;

1.2 资源上下文

Web页面之间的超链接信息、页面本身的结构信息等。

1.3 系统上下文

查询系统本身的某些特征,例如:系统采用的搜引机制、检查模型、排序机制、检索界面的布局等。

2 上下文信息的获取

在信息检索中,从用户参与的方式考虑,可将信息收集的方式分为显式收集、隐式收集、推理获取。

2.1 显式收集

显式收集(或称显式反馈)是指用户根据系统设计的表单内容,自主提交个人基本信息或参与系统的交互信息,用户静态上下文的挖掘则可以采用此方式。

2.2 隐式收集

隐式收集(又称隐式反馈)是指系统在不影响为用户提供检索服务的前提下,“悄无声息”地收集用户的检索信息,用户动态上下文及资源上下文则可采取该方法;该方法常用的技术有:Web信息抽取、基于模板的方法、桌面代理、利用浏览器插件等。

2.3 推理获取

即借助数学中的统计学理论和数据挖掘的相关知识,进行归纳演绎和推断用户的某些信息。

3 上下文信息的研究应用

上下文信息的获取、表示、组织所采用的方法直接影响着系统的搜索质量。如图3-1所示,阐述了用户检索过程产生的上下文信息在信息检索系统中的具体应用。

如图3-1所示,对信息检索中常见应用进行了归类,用户检索中产生的上下文信息可帮助检索系统理解用户需求、用户查询、文档信息以及检查用户查询与文档是否匹配。

4 结束与展望

上下文信息有利于提高搜索引擎质量,有着重要的使用价值。在利用上下文信息时,不仅需考虑其表示方式,由于各类上下文信息对用户检索行为产生的权重不同,还应综合考虑其带来的影响因子,从而构建合理高效地检索模型。

参考文献

[1]Lawrence s. Context in web search[J].IEEE Date Engineering Bulletin,2000, 23(3):5-32.

[2]Brown P J,Bovey J D,Chen X.Context-Aware Applications:From the laboratory to the marketplace[J].IEEE Personal Communications,1997, 4(5):58-64.

[3]Anind K D.Understanding and using Context [J].Personal and ubiquitous computing, 2001.

[4]田萱,李冬梅.上下文信息检索研究综述[J].计算机科学.2010,38(9):18-24.

[5]Jiang D X,Pei J,Li H.Enhancing Web Search by Mining Search and Browse Logs[C].New York:ACM Press,2011:1-185.

[6]何秀,牛之贤,孙静宇.上下文对用户搜索行为的影响[J].情报杂志.2012,10(31):122-125.

作者简介

何秀(1988-),女,现为广东科技学院计算机系硕士研究生在读,主要研究方向为信息检索。

丁丰(1988-),女,现为广东科技学院计算机系硕士研究生在读,主要研究方向软件工程。

作者单位

广东科技学院计算机系 广东省东莞市 523083endprint

猜你喜欢
信息检索搜索引擎
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
网络搜索引擎亟待规范
地理信息检索中空间相似性度量的一种模糊方法
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
教学型大学《信息检索》公选课的设计与实施
基于Lucene搜索引擎的研究