孙海英 陈秀峰
(佳木斯大学图书馆 佳木斯 154007)
黑龙江省垦区知青人立方数据库研究
孙海英 陈秀峰
(佳木斯大学图书馆 佳木斯 154007)
数据库管理系统是21世纪诞生的典型信息化管理系统,通过数据库管理系统能从根本上提高管理效率,并方便用户使用。本文就黑龙江省垦区知青人立方数据库系统展开研究,结合当前现状找出需要改进之处,并提出改进设想,提高该搜索引擎管理效率。
黑龙江省垦区 知青人立方 数据库
黑龙江省农垦总局的所在地,在20世纪六七十年代的全国性知识青年上山下乡的大运动中,成为当时无数青年人的人生转折点,知青文化的重要发源地之一。建立一个人际关系型数据库,是抢救和发掘知青文化的重要保证和基本手段。
1.建设有自身特色的数据库系统。提高黑龙江省垦区知青人立方数据库系统管理效益必须对该数据库进行地方特色建设。所谓地方特色首先需要结合当地人文气息,保障知青寻找人员日常使用习惯。黑龙江省垦区知青人立方数据库系统建设需要根据当地人文化习性设置与之相应的使用方法。其次该系统需要结合当前我国人们交友方式及家族联系方式。当前我国人立方系统在进行人员寻找时信息系统构建方式仍旧不够完善,很多信息并非有用,没有结合寻找人员当地特色,寻找人员关系较为繁杂。
2.拓宽服务空间。黑龙江省垦区知青人立方数据库系统服务于社会,因此不可像高校数据库一样仅仅服务于学生,而是要建立服务于社会的综合性数据库系统。由于该系统需要服务于社会,因此必须提高其服务层次。建立黑龙江省垦区知青人立方数据库系统时需要采用新的信息服务模式,建立人性化服务功能点,便于社会民众在查找知青人员关系时简便操作,以此吸引更多民众,有效拓展人立方数据库服务空间。与此同时还便于数据库管理人员及时收集相关信息,了解用户需求,不断改进以便提高服务水平。通过黑龙江省垦区知青人立方特色数据库系统能够对专业数据进行有效加工,用户可以在该系统中自由检索,通过不断增加检索点能够有效提高检索效率,提高用户体验,查找资料时间被进一步缩短。
3.实现黑龙江省垦区知青人立方数据库系统与其他数据库系统资源共享。黑龙江省垦区知青人立方数据库系统属于地方数据库系统,其拥有知青信息有限,仅通过该数据库难以查到与要寻找知青对象相关信息,因此必须将各个地区人立方数据库系统连接起来,建立人立方共享体系。人立方关系网是其赖以生存的根本,通过数据库共享系统能够将所有人立方数据库连接起来,使得讯息传递网络化,便于实现数据传递,让用户在不同地区可查阅到自己想要的人员信息,以此建立完善且兼具特色的数据库管理系统,用户不需要踏遍所有地区寻找自己需要的人员信息,仅在一个地区便可查询。实现黑龙江省垦区知青人立方数据库系统与其他数据库的信息共享,有助于其长期发展,不断壮大。
1.数据访问控制。黑龙江省垦区知青人立方数据库系统虽然是个开放式系统,供社会民众通过该系统浏览及查询相关信息,但是黑龙江省垦区知青人立方数据库系统在系统开放同时需要保护数据库系统安全性。黑龙江省垦区知青人立方数据库系统仅可由内部管理人员对数据进行管理,不可由外人入侵内部系统,外人仅可浏览开放信息,不可更改。基于此,必须保证黑龙江省垦区知青人立方数据库系统具备一定开放性外,还需做好防入侵系统,即防止外部非法人员入侵黑龙江省垦区知青人立方数据库系统,防止其修改数据。要做到数据库系统不被侵犯首先要做好存取控制。数据存取控制可分为三个层次,第一为决定用户是否具备访问权限,第二为决定用户可以访问那些资源,第三为决定用户是否具备更改资源的权限。要实现该种功能需要建立科学操作系统。根据需求将系统设置为九个用户组,用户可根据不同需求注册与之相应的用户组,并在其中注册自己的用户名和密码。此后用户即是数据库系统用户,每位用户都对应了一个系统单元。在进行权限限制时,从虚拟和实体两个方面保证系统安全。用户在访问相关数据时该操作均需通过中央处理系统,判断其身份可靠后方可访问信息。
2.黑龙江省垦区知青人立方数据库系统工作流程分析。
(1)信息收集方式。黑龙江省垦区知青人立方数据库系统工作原理是首先将知青人信息收集并输入数据库,该部分在人立方中被称作信息采集器。信息采集器是一个计算机集中程序,它日夜不停地运行,进行信息收集,并在引入新信息时过滤掉无用旧信息,因此人立方上虽然信息众多,但其中并未有常见无效链接。黑龙江省垦区知青人立方数据库系统采集信息有两种方式,一种是从一个URL开始根据一定规律不停衍生,寻找与之相关联的信息。另一种是将WEB按照域名、IP地址等进行划分。信息采集器收集信息有多种格式,并处于不断更新状态。
(2)信息搜索方式。与其他搜索类似,黑龙江省垦区知青人立方数据库系统亦是采用索引进行信息抓取。数据库中自带索引器,索引器从采集到的信息中识别关键词生成索引表。索引项又可分为客观索引和内容索引。顾名思义,客观索引与内容关系不大,主要为作者名、编码、时间、链接等。内容索引与内容息息相关,主要为关键词、重要短语、句子等。索引器生成索引算法主要有集中式和分布式两种,信息量较大时必须使用索引,否则将无法跟上信息增加速度,导致很多内容无法被发现。黑龙江省垦区知青人立方数据库系统主要使用“人名”、“出生年”、“原居住地”、“原学校”、“下乡(农场)年份”、“目标乡村(农场)”、“保送或考入的上一级学校”、“返城时间”、“曾工作单位和职务”、“现居住地”十个标引项为字段。在“人名”下设“现用名”、“曾用名”为子字段,在“曾工作城市”下设“曾工作城市1”、“曾工作城市2”、“曾工作城市3”为子字段,在“曾工作单位和职务”下设“曾工作单位和职务1”、“曾工作单位和职务2”、“曾工作单位和职务3”为子字段,将各字段通过“加权法”以提高人立方关系的可靠性。另外,改进该关系型数据库的检索方式,以加权检索代替逻辑检索,赋予检索者自由修改权值与权重的功能,在检索过程中根据需要设置以权重值为核心的逐层关系分散型网络,以确定人物之间的关系。
(3)查询及结果。黑龙江省垦区知青人立方数据库系统拥有查询搜索器和结果排序器。查询搜索器主要是根据索引快速牵引出相关内容,用户设置搜索条件,并对弹出的信息进行过滤,从而得出有效信息。结果排序器是对得出的有效信息进行显示排序,排序方式主要是根据被搜索频率以及反转文档频率进行区分。
黑龙江省垦区知青人立方数据库系统工作流程见图1。
图1 黑龙江省垦区知青人立方数据库系统工作流程
以上阐述黑龙江省垦区知青人立方数据库工作方式。众所周知,在20世纪六七十年代的全国性知识青年上山下乡的大运动中,黑龙江省垦区成为当时无数青年人的人生转折点,知青文化的重要发源地之一。近半个世纪过去,作为知青文化的重要载体,当年的知青多已年过花甲,有的已经离开人世,因此仅仅能够对其进行数据收集远远不够。为提高搜寻效率必须提高信息抽取准确性。评价信息抽取准确性,主要有召回率和准确率两个指标。召回率为测量被正确抽取信息比例,准确率表示抽取信息准确信息比例。有如下公式:
召回率(R)=抽出正确信息数量/所有正确信息数量
准确率(P)=抽出正确信息数量/所有抽出信息数量
从定义可知R和P数值均处于0-1之间,且二者呈反比。数据被抽取时需综合考虑R和P,由此诞生综合指标度量值F,计算公式为:
其中B为精度偏重量,为预设值,一般设置为1。
黑龙江省垦区知青人立方数据库对知青信息检索主要通过人物社会关系展开,下表列举较为简单关系网络,以展示黑龙江省垦区知青人立方数据库信息间联系。
表1 关系示例
随着科技不断发展,当前各项管理已经从传统纯人工转变为信息化管理。数据库也是如此。本文就黑龙江省垦区知青人立方数据库展开研究,为寻找知青信息展开研究,为后续相关工作奠定基础。
[1]王山甲.“人立方”关系搜索引擎[J].网络新知,2014(5).
[2]iFei.肉搜索之微软人立方[J].网行天下,2012(4).
佳木斯大学人文社会科学研究面上项目(13Sh201543)。
孙海英,佳木斯大学图书馆副研究馆员,研究方向为图书情报。
G25
A
2016-12-26