基于高校学术资源平台网络增值服务的研究

2011-10-20 05:16锁志海张榕娟
中国教育信息化 2011年5期
关键词:学术交流数据挖掘学术

李 杰,锁志海,张榕娟

(西安交通大学 信息与网络中心,陕西 西安 710049)

基于高校学术资源平台网络增值服务的研究

李 杰,锁志海,张榕娟

(西安交通大学 信息与网络中心,陕西 西安 710049)

高校学术资源平台建设的目的在于建立和形成统一的学术资源信息发布与服务平台门户。引入一套学术资源筛选、评审、集成、公告、展示、推广等一系列环节上统一的数据加工、管理、审核程序与规范,用于对各级学术机构登记的学术资源进行学术资源信息的发布、展示和推广,为学术资源的共享工作提供权威和高效的网络增值服务。

学术资源;资源平台;网络增值服务

一、国内外相关研究

国外关于学术信息服务平台建设比较早,已经积累了丰富的经验,例如,Google公司拥有著名的搜索引擎,在全世界范围内提供各种信息。一些发达国家如美国、欧盟、日本等都有良好的学术资源服务平台,在整个国家科技进步和技术创新中都发挥着重要的作用,发达国家还建立了关于信息公开、共用、管理、权益保护、保密等方面的政策和法规,建立了全面的保障机构。而国内则刚刚开始信息服务平台的建设。以下是几个代表性学术资源平台的情况介绍:

1.国外的资源平台

(1)Google 学术搜索 (http://scholar.google.com/)

一个较为完整的学术期刊搜索引擎,它面向研究学者提供已经发表的期刊或者working paper的各组原始来源链接,将学术资源进行汇总。它的特点在于期刊的来源并不仅仅局限于各大期刊数据库,而且更多的是来源于各大高校网站或者学者的个人网页;此外,搜索引擎还提供了各种搜索条件和联想效果。

(2)iMechanica学术交流平台 (http://iMechanica.org/)

一个面向与力学相关领域的科学研究人员的学术交流社区,是一个科技论文共享和学术交流的平台,它是一个多博客文章发布系统,站在科学观点的最前沿和学术教学资源的最前沿,为该领域工作、学习者提供详实、权威、一流的资料和观点。

(3)JSTOR学术电子期刊数据库 (http://www.jstor.com/)

一个综合的电子期刊数据库,资源涉及多个学术领域,向不同领域的学术研究人员提供科技论文的共享服务。

2.国内的资源平台

(1)中国科技论文在线 (http://www.paper.edu.cn)

一个面向众多领域研究学者的学术交流社区,是一个科技论文资源共享和学术交流平台,提供最新发展动态,最新研究成果。

(2)万方数据库

一个国内综合的电子期刊数据库,资源涉及国内多个学术领域、多家学术期刊,面向不同领域的学术研究人员提供科技论文共享服务。

二、未来发展趋势

从国内外目前的调查研究中,我们可以发现,当今学术领域的网络化服务主要还是实现资源的电子化使用,而针对学术研究的网络特色服务、可定制服务,以及网络的增值服务还处于初级阶段。我们欣喜地看到,一些学术交流平台正在尝试着提供更加全面、细致、周到的服务。经过调查和类比现有的网络技术,我们给出了学术网络平台未来的发展方向:

(1)一站式的学术网络门户平台:门户平台涵盖资源搜索、学术交流、研究互动等多项内容;

(2)可定制服务:研究者可以根据自己的研究偏好定制自己需要的服务;

(3)网络增值服务:通过知识学习和数据挖掘基础,利用虚拟网络学术平台达到交流双方双赢的成果,使得网络学术平台的价值呈现指数增值趋势。

综上所述,如图1所示,该平台系统的建设以知识发现模块为表现平台,以基于推理机制的知识发现子系统、基于双库协同机制的知识发现子系统、基于Web挖掘的知识发现子系统作为强大的系统支持,进而建设一个具有网络增值效应的科技论文发布以及学术交流平台。

三、关键技术

1.主题型搜索引擎技术

难点:起始种子站点和词库的设置;主题搜索效率的考虑。

完成功能:主题型搜索引擎的索引技术:采用索引蜘蛛搜索算法的实现;中文分词技术:采用字典匹配法实现;自动分类技术:采用特征向量算法实现;搜索查询技术:基于Lucene的API的算法;相关词推荐技术:基于文本分析和主题抽取的相关词产生模型实现。

2.门户技术

门户Portal的用户策略:学术门户Portal需要通过定义严谨的用户策略、灵活的可个性化定制的内容和布局以及丰富可定制的品质策略,实现灵活的可定制的产品理念。计划采用“用户-用户组-角色-Portlet”的关联方式来实现用户权限的管理。用户隶属于用户组(也可以单独存在),该用户组具有某种(多种)角色,角色分配给用户组,也可以直接分配给用户。

学术门户与应用系统集成规范:通过Portlet技术可以把不同系统集成到同一个Portal平台上,并在同一页面上通过不同的窗口提供来自不同系统的具体服务或信息。

3.单点登录

用户统一身份认证系统位于多个应用系统和统一身份认证中心之间,和应用系统集成,运行在同一个平台之上。该接口接受用户认证请求,由认证中心进行认证,将认证结果返回给应用系统。

客户端用户登录子系统提供完整的单点登录支持。用户只登录一次,就可以使用同一使用者凭证,在平台上的各资源子系统中按授予的权限访问网络资源,用户不会因为访问不同的资源子系统的资源而要求多次登录。

4.内容管理系统技术(协同过滤技术 、W eb日志处理技术、数据库数据的存储 )

采用对象角色建模(Object Role Modeling,ORM)、本题论建模、ER建模三种建模方式。

CMS的数据存储采用关系数据库和 XML相结合的方式,分成确定建立数据库的目的和收集数据、建立概念模型、建立数据模型、实施与维护数据库四个阶段。

采用整体数据模型、基础组件数据模型、工作流数据模型三种数据模型框架。

设计有工作流数据模型和用户权限数据模型。

5.可定制技术

远程处理技术;数据访问策略;错误处理和安全性技术;通用模板设计技术。

6.数据挖掘技术

个性化推荐技术:研究不同用户的兴趣,主动为用户推荐最需要的资源,基于用户Web使用的推荐和基于页面聚类或频繁使用的混合模式建立协同过滤的个性化推荐系统。

难点:数据的稀疏性和不完整问题;语义上的用户需求问题;资源推荐的持续性问题。

文本抽取和数据挖掘技术:基于双库协同机制的知识发现系统和Web数据挖掘过程,它以多个知识源、多种知识融合、多抽象级与不同知识层次结构,使数据库、知识库、方法库、模型库、文本日志协同运作,有效地从海量数据中提取出需要的答案,发现新的知识关联与分类,为交叉学科的发展提供观点和依据,实现 “数据->信息->知识->价值”的转变过程。

四、主要思路与方法

学术资源平台的整体结构如图2所示。

第一,控制层:控制层为系统的最底层,负责完成数据挖掘搜集和过滤整理。

第二,应用层:该层将连接控制层和展示层,控制层捕获的信息将传递到应用层,由应用层的索引数据库和学术资源库进行存储。并作为展示层的元数据。

第三,展示层:该层为向用户发布界面,主要由一学术资源信息门户和一个辅助管理个构成。

主题搜索门户提供两方面的服务,一方面在索引数据库的支持下向用户提供相关动态新闻信息的查询;另一方面向用户提供个性化的学术资源服务。

辅助管理系统主要完成对应用层和控制层的调整和人工干预。诸如完成价格信息的手动添加、搜索排序的选择、搜索范围的选择等等操作。该系统可以根据后续工作开展加以补充和完善。具体的实现方法如下:

1.以网络经济学、管理科学、计算机科学等多学科为研究工具

突破以往的学术网络化项目仅仅以计算机作为实现工具的传统模式,大胆采用以网络经济学、信息经济学为基础指导,引进管理科学中的新型模型架构思路,以先进的计算机科学技术为最终实现手段,完成本课题的研究。多学科交叉研究的优势在于设计出的模型和开发出的产品将符合当前网络经济发展的需要,具有高效、实用、先进的特性,具有网络增值效应,在学术资源门户平台建成之后具备自我增值的能力。

2.学术资源数字化的共享整合(专业学术搜索引擎)

完成基于不同研究领域的主题型搜索引擎的研究,建立力学等若干试点主题型搜索引擎。主要实现功能:面向专业学术研究人员提供对特定专业领域的学术资源信息搜索服务;采用一定的策略预测对相关网页进行预测,动态调整网络蜘蛛的爬行方向,使系统尽可能地围绕设定主题进行爬行,从而节约网络资源;不对整个Web进行遍历,尽可能地筛取、过滤出合适的Web页面,节约网络资源。

3.一站式的学术交流平台的建立

完成基于开源的一站式学术交流平台的建立。主要实现功能有:实现交流平台的单点登录技术;建立内容管理系统,实现学术交流平台的内容聚合效果,最大限度地融入该领域的学术信息,将以往简单地提供电子期刊的浏览服务向提供多元的互动交流服务扩展;建立资源分类目录,避免信息孤岛,将大量有用的学术信息进行组合配置,实现异质信息间的有机联系;构建学术互动交流环境:例如:Blog,共同写作环境,学术讨论区,电子报,文件共享服务等。

4.可定制服务在学术平台上的应用

完成对平台资源的数据挖掘,向学术研究人员提供个性化的服务。主要实现功能有:实现对学术研究人员偏好的知识学习和数据挖掘,向他们提供个性化的服务内容;实现通用模板集成选择和学术期刊内容用户可定制模块;实现数据协同过滤,完成对学术资源的聚合。

5.学术交流平台网络增值服务的研究

比较传统网络服务与网络增值服务,寻找网络增值服务的突破点;分析用户群组的偏好,确定学术领域网络增值服务的亮点;通过知识学习和数据挖掘技术,完成网络增值服务的具体实现。

[1]孟庆涛,王勇胜等.高校网络BBS舆论引导工作的几点思考[J].科技信息(科学·教研),2007(4).

[2]顾晓鸣.网络文化和城市建设[J].探索与争鸣,2001(4):3-6.

[3]刘小敏.WTO与中国的网络文化发展[J].求索,2001(6):50-52.

[4]沃纳·赛弗林,小詹姆斯·坦卡德.传播理论——起源,方法与应用[M].北京:华夏出版社,2000.

[5]陈劲松.现实社会中的虚拟社区的权威达成[J].社会科学研究,2001(4).

[6]寇忠宝.BBS中的偏好挖掘及网络建模:[D].清华大学,2004.

[7]白淑英,何明升.BBS互动的结构与过程.社会学研究,2003(5):8-18.

[8]Matzat U.Social networks and cooperation in electronic communities: A theoreticalempirical analysis of academ ic communication and Internet discussion Groups:[Dissertation].Amsterdam:University of Groningen,2001.

[9]W allace P.The psychology of the Internet.New York:Cambridge University Press,1999.

[10]Kou Z B,Zhang C S.Reply networks on a Bulletin Board System.Physical Review E[J],2003,Mar,67.

[11]Jeong H,Neda Z,Barabasi A.Measuring preferential attachment in evolving networks.Europhys,2003.

[12]Gilad M ishne,Experiments w ith Mood Classification in Blog Posts[C].1st Workshop on Stylistic Analysis of Text for Information Access.SIGIR,2005.

[13]Gaowei Chen,M ing M ing Chiu.Online Discussion Proce-sses:Effects of Earlier Messages’Evaluations,Know ledge Content,Social Cues and Personal Information on Later Messages[C].Proc of the Sixth International Conference on Advanced Learning Technologies(ICALT'06).Kerkrade,2006:756-760.

(编辑:金冉)

G203

A

1673-8454(2011)05-0027-03

猜你喜欢
学术交流数据挖掘学术
学术交流及演出活动
学术是公器,不是公地
学术交流活动
校近期学术交流活动及获奖与出版
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
我校近期学术交流活动及获奖
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
高级数据挖掘与应用国际学术会议