基于 NSII 网页浏览日志分析用户对物种的关注度及其关注点变化

2017-03-07 00:12
数据与计算发展前沿 2017年4期
关键词:关注度统计表日志

中国科学院植物研究所,北京 100093

引言

生物多样性保护的重点是对相关保护物种 (濒危、特有、经济价值等) 进行监测[1],并针对性的进行关注和保护。但要确定这些需保护物种的名录清单以及划分生物多样性热点分布范围并进行保护空缺分析,作为生物多样性保护的有效方法和手段则很难。合理规划保护优先区,提高保护效率对于拯救濒危和易危物种至关重要。但目前这些都远远做的不够。

在当今信息化时代,网站用户的访问轨迹和行为一般都会记录在对应网站的服务器日志中。通过对这些日志信息加以提取、解析和统计分析就会得到一些有用的信息。本文通过对国家标本资源共享平台(NSII,http://www.nsii.org.cn/) 中记录用户访问行为的日志文件,主要是对其中的检索关键词进行提取和解析,分析用户到底关注标本页面上的哪些类型的信息,得出用户访问最多的物种清单、馆藏信息、地理分布信息以及不同国家和省份的用户浏览次数最多的物种清单,一定程度上揭示用户对不同物种、不同地理分布和馆藏分布的关注度,从而确定热点物种 (访问和浏览人数多的物种)。

1 数据的获取和处理

Apache 服务器日志记录的内容主要包括包括IP、日期、访问地址、响应状态、传输流量字节等信息,日志的格式如下面所示:

210.72.92.235--[26/Oct/2016:18:34:06+0800]"GET/newquery?qs=*:*&fq=sname:%22Vaccinium%20%22&fq=geotags:%22%E9%BA%BB%E6%A0%97%E 5%9D%A1%22&start=4 HTTP/1.1" 200 9816

其中,“210.72.92.235”是用户的 IP 地址,“26/Oct/2016:18:34:06+0800”是访问时间,“GET”是访问方式,“HTTP/1.1”是网络协议,“200”是响应状态编码,“9816”为传输的字节数,而其中最为重要的是网页浏览地址,包括传递的参数和参数值,即 /newquery?qs=*:*&fq=sname:%22 Vaccinium%20%22&fq=geotags:%22%E9%BA%BB%E6%A0%97%E5%9D%A1%22,也就是用户检索的关键词信息。其中,sname 和 geotags 的参数值为 URL编码后的信息,解码后为:sname: " Vaccinium ",geotags:" 麻栗坡"。

记录用户访问行为的服务器日志主要是文本的格式 (即非结构化的信息),需要通过 PHP 程序与 mysql进一步解析和整理为结构化的信息,主要步骤如下:

(1) 通过 PHP 程序读取 .log 的文本文件批量写入到 MYSQL 数据库中;

(2) 对于未编码的关键词信息通过 mysql 的一些字符串处理方法进行提取和分析,对于编码过的关键词信息通过 PHP 进行解码和还原,且全部进行结构化处理,便于之后的统计分析;

(3) 对于地理分布信息等,由于用户输入的不一致性,即用户的检索习惯的不同,需要统一进行规范化处理,以保证用户访问的真实情况,对明显不正确的检索词需进行删除;

(4) 对所有类群的属匹配所属门类。首先采用sp2016 物种名录进行匹配,对于未匹配的属信息,通过 NSII 庞大的标本数据库继续进行匹配,对最后还不能匹配的需要逐个进行排除,对于某个属即属于植物界又属于动物界的需要结合两者匹配的结果进行综合考虑,最终得到属名的界 (Kingdom)。

2 数据分析和对比

2.1 生物门类总访问统计与分析

通过表 1 的统计分析发现,矿石的访问占了很大比例,其次是植物和动物,其他门类相对比较少。与 2015 年 NSII 日志对比看[2],用户对极地的矿石、岩石、冰雪样品、化石等资源的关注度提高很多,对动物的关注也有所提高。对植物物种的关注度依然保持很高,对矿石和冰雪样品物种的关注度提高很多。

2.2 热点属名访问统计与分析

将用户对不同物种所属的属、IP 数以及网页数分别进行汇总统计,形成表 2。这里将植物和动物分开进行统计与分析。

在表 2 中,用户对属的关注度 (即 IP 数) 有个排序,结合用户浏览属的网页数这也可以说明哪些属可能是热点访问属,NSII 在平常的数据质量保证中要重点关注这几个属的数据质量。动物的关注程度显然比植物低,可能是研究动物数据的用户较少,或者用得少。

对比 2015 年的访问日志分析中的前20个植物热点属名访问[3],发现这两年对属的访问几乎没有交集(只有 3 个),这也说明分析样本的偏差性和关注变化的动态性。

2.3 热点类群统计与分析

用户对不同类群的访问和关注情况也不同,如表 3。

通过表 3 可看出用户对 Paris、Ilex 和Rhododendron 这三个类群的关注和访问量比较大。对比近两年访问日志分析发现用户对植物类群的访问几乎没有交集 (只有 1 个),这也说明分析样本的偏差性和关注变化的动态性。

2.4 热点馆藏访问统计

用户对不同馆藏的访问兴趣和关注度也不同,如表 4 所示。

用户对不同馆藏的物种关注情况如下表 5。

从表 4 中可以看出,用户对哪些馆藏单位的访问比较多,可能是这些馆藏单位实体标本较多,数字化标本也比较多,在数据质量方面应该重点保障一下。从表 5 可以看出用户访问哪些馆藏单位的物种数较多,即物种分布较丰富。

2.5 热点国家或省份访问统计

用户对不同国家或省份的访问兴趣和关注度也会不同,如表 6 所示。

用户对不同省份的物种关注情况如表 7 所示。

从表 6 可以看出用户对哪些省份或国家的关注比较多,可能是这些地方的实体标本较多,数字化标本也比较多,对这些分布地的数字化标本质量可以重点关注或优先考虑这些地区或国家的标本数字化。从表 7 可以看出用户访问哪些省份或国家的物种相对较多,即物种分布相对丰富。

表1 网络用户的物种关注和访问情况以及与其他名录的对照表Table 1 Network users' concerns and access for species

表2 网络用户关注的前 20 个属名统计表Table 2 Thetop 20 genus users concerned

表3 网络用户关注的前 20 个类群统计表Table 3 The top 20 groupsusers concerned

表4 用户关注的前 20 个馆藏单位统计表Table 4 The top 20 collection users concerned

表5 用户关注的前 20 个馆藏单位物种关注统计表Table 5 The species of the top 20 collection users concerned

表6 用户关注的前 20 个国家或省份统计表Table 6 The top 20 countries or provincesusers concerned

表7 用户关注的前 20 个国家或省份物种关注统计表Table 7 The species of the top 20 countries or provinces users concerned

2.6 热点地名访问统计

用户对不同标本分布地的访问兴趣和关注度也会不同,如表 8 所示。

用户对不同地名的物种访问情况如表 9 所示:

通过表 8 可以看出这些地区可能是用户的关注热点区,也可以说是标本的分布热点区。表 9 也同样说明了用户更多的关注哪些地区的物种,也间接的说明了这些地区物种分布会比较多。

3 讨论和展望

生物多样性信息学及其物种保护对于生态圈的平衡及其重要,也值得更多的关注。本文基于用户访问和浏览日志,解析其中的搜索关键字来记录和分析用户的关注度和关注点。

表8 用户关注的前 20 个地名统计表Table 8 Thetop 20 place names users concerned

网站设计的优劣最终还是需要从用户行为日志即用户行为数据中得到反馈。从用户输入关键词的统计中可以分析出用户组织关键词的习惯,并分析和统计用户的关注点。此外也可以结合用户停留页面的时间和用户的操作行为来进一步改进和完善用户行为分析,挖掘用户的兴趣点和关注点。

表9 用户关注的前 20 个地名物种关注统计表Table 9 The species of the top 20 place names users concerned

对比 NSII 近两年的访问日志分析,发现这次的前 20 个热点类群与 2015 年的日志分析中的前 20 个植物热点类群[3]几乎没有重复,这也说明分析样本的偏差性和关注变化的动态性。同时结合不同地名关键字了解这些地名的用户关注情况以及物种的分布情况,结合标本馆了解这些标本馆的用户关注情况以及标本的馆藏情况。随着关注 NSII 网站的用户越来越多,网站用户分类引导下的用户组成越来越丰富,可供分析和讨论的关注点也会日益丰富。单一的网站访问记录不足以充分的说明实际问题,如果能结合其他相关网站的访问记录进行综合分析,或许能更加真实的反映用户对物种的关注情况,为生物多样性信息学等的发展、物种保护以及保护地设立提供相关依据。

[1]马克平. 2011. 监测是评估生物多样性保护进展的有效途径. 生物多样性. 19: 125–126.

[2]许哲平, 陈铁梅, 朱雪娟等. NSII 框架体系和关键技术集成应用. 见马克平主编. 第十一届全国生物多样性保护与持续利用研讨会论文集[C]. 北京: 气象出版社,2016. 269–278.

[3]许哲平, 陈铁梅, 朱雪娟等. 从 NSII 访问记录浅析网络用户对中国生物物种的关注度. 见马克平主编. 第十一届全国生物多样性保护与持续利用研讨会论文集 [C].北京: 气象出版社, 2016. 279–284.

[4]Roskov Y, Kunze T, Orrell T, Abucay L, Paglinawan L,Culham A, Bailly N, Kirk P, Bourgoin T, Bail- largeon G,Decock W, de Wever A, Didiiulis V. 2016. Species 2000& ITIS Catalogue of Life, 2011 Annual Checklist. Digital resource at www. catalogue of life. org/annual-checklist/2016.Species 2000: Naturalis, Leiden, the Netherlands.

[5]The Biodiversity Committee of Chinese Academy of Sciences. 2016. Catalogue of Life China: 2016 Annual Checklist. Beijing: Science Press.

[6]Soberon J, Peterson T. Biodiversity informatics: managing and applying primary biodiversity data [J]. Philosophical Transactions of the Royal Society B: Biological Sciences,2004, 359, 689–698.

猜你喜欢
关注度统计表日志
2020年部分在晋提前批招生院校录取统计表
一名老党员的工作日志
扶贫日志
2019年提前批部分院校在晋招生录取统计表
上榜派出所统计表
神奇的统计表
游学日志
雄安新区媒体关注度
全国两会媒体关注度
暴力老妈