东盟信息特色资源库建设初探

2021-11-30 03:16苏瑞竹胡云龙何玮

魅力中国 2021年50期

关键词：凭祥采集器资源库

苏瑞竹胡云龙何玮

（广西民族大学管理学院，广西南宁 3 260262）

一、建设东盟信息特色资源库的总体要求

1.切入点为更为新颖全面的东盟文化，更加系统地整合东盟信息资源，力求普及东盟文化知识。

2.根据资源平台的要求和标准，建立数据处理和索引，编目并提交到资源包中。

3.每一套资源包都具有自主知识产权，充分体现东盟文化特色，并应结合当前热点话题，以丰富的内容、新颖的形式去拓展东盟文化知识。

4.要注重知识产权的保护，对于那些比较敏感的内容，必须要有相关版权保护措施。

二、东盟信息特色资源库系统非功能需求

本系统的非功能性需求主要有以下几个方面：

（一）保持流畅的访问速度

东盟特色资源库每年都有一些额外的资源，一方面要求服务器在处理请求时能够快速完成资源的上传、检索和修改任务。此外，在向客户端返回数据时，应该尽量减少数据冗余。

（二）资源定位迅速

为了提高用户体验，除了保持访问速度流畅外，用户还应该能够快速找到他们需要的资源。一方面,资源包的作者需要修改和维护每次成千上万的资源属性,要求作者的包可以很容易地找到他所需要的资源在系统中修改,否则,每次资源属性的调整将是一个噩梦。另一方面，由于图书馆资源众多，游客需要通过系统快速满足需求的资源。

三、数据采集研究

（一）资源库内容信息收集要素

资源库分为国内资源库及国外资源库，依据出版形式又可分为期刊资源库、图书资源库、专利资源库等，依据存储类型又可分为题目目录式资源库、全文资源库等，本次信息收集的目的是将网络上所有有关东盟政治、经济、文化、科技、商业、教育等的信息进行收集与整合。因此需要进行专业检索，通过建立检索式使用检索工具进行检索，并进行批量下载与存储。

1.检索课题分析：基于知识发现的东盟商业、政府、科学、旅游等信息整理、挖掘与应用

2.关键词：东盟

（二）资源库的选择

ESI(Essential Science Indicators)、JCR(Joural Citation Report)、Mathscinet 数据库、IEEE/IEE Electronic Library(IEL)、Elsevier(SD)资源库(1700多种刊)、方正数字资源平台-中华数字书苑、中数图中文电子图书、维普信息资源系统、万方资源库跨库检索、中国知网(cnki)、http://koran.tempo.co/ 印尼时代报、https://www.msn.com/en-my/ MNS 马来西亚、https://www.brudirect.com/文莱BruDirect、http://www.vientianetimes.org.la/ 老挝新闻、https://mthai.com/ 泰国MThai、https://zingnews.vn/ 越南Zing.vn、https://sabay.com/ 柬埔寨Sabay、https://www.sg.issworld.com/ 新加坡ISS、https://www.msn.com/en-ph MSN 菲律宾、http://www.myanmar.com/ 缅甸日报。

（三）选择检索工具：火车头采集器

四、采集器相关理论及环境要求

（一）功能

火车采集器主要包含八大特色功能，下面进行一一列举并且说明。

1.网址采集

通过设置网站收集规则，火车头可以快速收集到所需的网站信息。手动输入、批量添加或直接从文字进入网站，并能自动过滤删除重复的网站信息。

2.内容采集

火车头收集器通过对网页源代码的分析和内容采集规则的设置，可以准确地采集网页中零散的内容数据，支持多阶段、多页面等复杂页面的内容采集。通过定义标签，可以在类别中收集数据。

3.数据处理

对于采集到的信息和数据进行一系列智能化处理，使采集到的数据更符合使用标准。主要包括1)标签过滤;2)替换;3)数据转换;4)自动文摘分词;5)下载选项。

4.数据发布

收集完数据后，收集器默认将数据保存在本地存储库(SQLite、MySQL 和SQLServer)中。您可以根据需要执行后续操作，发布数据。它支持数据的直接查看、数据的在线发布、存储库的输入以及用户发布界面的使用和开发。

5.多任务多线程运行

收集器可以同时运行多个任务。支持不同网站或同一网站下不同栏目的内容同时收集，定时任务。在收集和发布内容时，单个任务可以使用多个线程运行，从而提高效率。

6.HTTP 二级代理服务器

采集器可以通过辅助代理服务器的功能实现IP 替换，避免了IP 受限访问导致的获取失败。获取代理IP 地址，并将代理IP 地址导入采集器。

7.计划任务管理器

采集器可以进行自动的收集和释放时间，为实现自动更新功能，添加到计划任务中的任务在任务设定的频率和运行时间内执行。

8.任务运行日志管理

采集监控系统配置在运行任务管理器将记录信息收集和监控模块生成装配成一个日志条目,管理员会将收集和监控模块汇编产生的信息记录到日志条目中，如果启用了自动运行功能或需要监控程序的运行状况。

（二）采集器的系统环境

Win10/Win7/Win8/Win2012/Win2010/Win2008/Win2003/Vista/Xp 以及Linux 要求电脑安装.NET4.0 框架支持，下载地址：

http://www.microsoft.com/zh-cn/download/details.aspx?id=17718

如果需要在 ia64 上进行安装，请使用在此处找到的 ia64 安装程序。

五、采集过程

（一）网址采集规则的制定

1.网址采集规则测试

起始网址以新浪新闻为例

将https://search.sina.com.cn/?q=%E4%B8%9C%E7%9B%9F&c=news&from=home&c ol=

&range=all&source=&country=&size=10&stime=&etime=&time=&dpc=0&a=&ps=0&p f=0&page=2 设置为网站起始站，然后进行批量设置。设置完成点击确定。然后进行测试。

2.网页内容采集规则的设置

通过点击其列表页中其中一个内容页跳转至内容采集规则。与此同时点开内容页的源代码查看。

设置标题规则

字符串为＜title＞首趟长沙-河内东盟国际货运班列从凭祥铁路口岸出境|东盟|凭祥|河内_新浪新闻＜/title＞

选择内容进行规则设置

选择字符串为

＜!--正文 start --＞

＜div class=”article”id=”article”＞

＜p＞＜font＞4 月3 日，首列长沙-河内东盟国际货运班列从凭祥铁路口岸开出。＜/font＞＜/p＞＜p＞＜font＞该班列在凭祥海关监管下办理了通关手续，启程前往越南河内，开辟了中欧班列从东南亚出发的新的陆海通道。＜/font＞＜/p＞＜div class=”img_wrapper”＞＜img src=”//n.sinaimg.cn/sinakd10117/290/w1080h810/20210406/3cf5-knipfse8474593.jpg”w=”1080”h=”810”wh=”1.33”/＞＜/div＞＜p＞＜font＞▲凭祥海关关员对“长沙-河内”班列进行关锁核验以便快速放行＜/font＞＜/p＞＜div class=”img_wrapper”＞＜img src=”//n.sinaimg.cn/sinakd10117/290/w1080h810/20210406/d6fa-knipfse8476603.jpg”w=”1080”h=”810”wh=”1.33”/＞＜/div＞＜p＞＜font＞中外运广西有限公司凭祥分公司业务员韦晶贤：“长沙—东盟国际货运路线的开通能进一步降低物流成本，也为中部地区货物出口东南亚提供新的通道。”＜/font＞＜/p＞＜p＞＜font＞据了解，凭祥铁路口岸是中欧班列往东南亚方向的主要出境口岸，2020 年凭祥海关共监管进出境为进一步推进中国与中南半岛经贸合作、维护全球供应链稳定贡献中国力量。（来源：边关凭祥）＜/font＞＜/p＞

＜!--正文 end --＞

通过点击进行测试那么最初的两项数据采集就已经形成，包括了标题和内容的设置。只代码可以在源代码中找到，就能提取出来。

3.导入本地硬盘

接下来跳转第三步，内容的发布。这里选择导入到本地硬盘，可选择以WORD 或者textPDF 等格式保存。

选择text 文本保存保底。开始运行程序，点开一个内容设置就能查看到改采集的内容，将所有的数据导出。点击我的任务，进行新建任务并且进行任务规则制定。然后点击保存并启动。

开始数据收集与整理，数据收集以主题为分类进行全面收集。收集内容涉及科技、商业、文化、教育、人文、社交、政策等多项类别的内容，分别采集的数据为文献名、文献链接、作者、来源、发表时间、资源库、北引次数、下载次数。

数据爬取过程以中国知网为例、还需要爬取其他资源库的数据。

以上只是一部分资源库的提取，由于大数据的数据量在TB-PB 级别，这里只引用其中一部分作为解释，多余不做赘述。采集完成后进行下一步，数据的整理与加工。

（二）网页内信息的收集和组织

1.信息整理加工

由于数据的分析处理软件需要采用结构化数据，因此需要将数据整理为电脑和人皆可识别的结构化数据，这里方便数据分析与碰撞需要将他加工为EXCEL 表格进行分析。

2.语义描述

东盟文献资源收集完成后，需要对收集到的数据进行语义描述，以实现资源的后续检索和定位，呈现相关知识。通过提取东盟文档资源元数据，如事件、时间、地点和其他实体，将原始的东盟文档资源元数据转换为新的元数据三元组。通过三元模型，可以表示任何数据和知识，实现计算机的可理解。参考DC、CDWA、VRC 等元数据标准，文档资源元数据可以从标题、标识符、事件、背景、日期、地点、主题、资源类型、作者等方面获得。在提取和描述文档元数据的相关元素之后，使用RDF 和XML 语法规则来描述元数据，以便计算机能够理解和识别任何数据和知识。

3.知识关联

在对东盟文献资源进行元数据描述之后，需要通过相关维度的连接，在资源之间建立更丰富的知识关系网络。建立内部语义关系，通过语义关系标注，形成基于主题、事件、时间、地点、类型的内部关系。主题:东盟的文献资源，如泰国、文莱、新加坡等，在建立专有名词列表时，应从词语的语法位置提取关键词。事件:东盟文献资源对象的具体行为大多与当时的社会生产活动相结合，如新加坡的多元宗教交流、新加坡的文化交流等。对这些语义词进行相关性分析，可以为当时新加坡与外国的友好交往和文化交流提供历史证据。这类词通常是动词，需要根据语境的词性进行分析和提取。时代性:印度文献资源的内容和意义具有时代性特征。按照时间线对资源进行排序，有利于纵向比较和建立相关性的纵向分类。对于时间语义词，可以建立时间词汇或构建词语规则。位置:泰国文献资源的主题空间范围，如“泰姬陵”“玉佛寺”等，可以通过分析上下文句子中的词汇来标记。类型:东盟文献资源可分为宗教多元交流、海外贸易等多种类型。通过外部关联和内部关联的建立，东盟文献资源由松散的资源集合体转变为复杂而有序的东盟文献资源知识元知识网络。为用户提供更直观的视觉体验和新的研究思路。

结语

随着东盟区域一体化进程的不断加快，使得东盟文献信息需求不断增加，作为文化信息交流中心的图书馆，在发展机遇下，应突出重点信息资源建设，利用东盟的馆藏，结合网络资源的深度整合，开发建设具有东盟区域文化特色的知识库，打造特色优质服务，实现优势互补，以达到特色信息资源共享的目的。