薛华杰,张 宁,傅怡宁,徐 飞,王书平,徐思越,印丽萍
上海出入境检验检疫局,上海200135
基于网络爬虫技术对电子商务多肉物种资源数据的研究
薛华杰∗,张 宁,傅怡宁,徐 飞,王书平,徐思越,印丽萍
上海出入境检验检疫局,上海200135
【目的】近年来,通过电子商务平台获取境外珍贵的多肉物种资源已成为一种重要渠道,大量濒危物种通过第三方物流方式非法流入我国。甄别濒危物种并梳理出多肉物种资源重点查验名单,能够为物种资源查验尤其是植物多肉类濒危物种查验提供参考。【方法】以跨境多肉物种资源交易的热门平台“多肉之家”为研究对象,基于网络爬虫技术平台,获取电商多肉植物926条种类数据,并对数据进行筛选和归类分析。【结果】“多肉之家”平台上交易的多肉植物共涉及23科878种,其中包含18种CITES附录Ⅰ以及120种CITES附录Ⅱ濒危物种,约占16%。进一步对濒危植物进行归类分析发现,濒危植物中仙人掌科和大戟科多肉植物种类最多,分别为66和36种,两者占总计濒危植物种类的74%。【结论】网络爬虫技术在获取电商类平台的交易植物的种类数据上具有较好的实用性。
多肉;濒危物种;电商;网络爬虫;CITES
随着我国经济的高度发展和人民生活水平的日益提高,国内的资源已无法支撑未来三四亿中产阶层的物质需求和服务追求。因此,从全球获得资源的“跨境消费”已日益成为一种时尚和潮流。2015年,全国各邮政口岸累计查验进境国际邮包3600余万件,共截获禁止进境动植物及其产品29765批次,同比增长74%。作为全国最大的邮政口岸——上海,情况也不容乐观。2015年,累计查验进境国际邮包1504万件,占全国的1/3,截获禁止邮寄进境物共4168批次,同比增长42%,涵盖活动物、特殊物品、植物繁殖材料等诸多高风险物品,以及龟甲牡丹Paeonia suffruticosa Andr.、星兜Astro-phytum asterias Lem.等珍稀濒危物种与腐烂茎线虫Ditylenchus destructor Thorne、贝克剑线虫Xiphinema Bakeri等检疫性有害生物(国家质量监督检验检疫局动植物检疫监管司,2016)。
虽然近年来检验检疫系统在物种资源查验,尤其是濒危物种查验方面取得了不错的成绩,但截获的种类偏少,与CITES附录Ⅰ和Ⅱ收录的3万余种植物相比(宋云等,2015;Convention on International Trade in Endangered Species of Wild Fauna and Flora,2013),仍有巨大差距。口岸一线人员面对海量的物种名单难以有效地开展日常鉴定工作。
本文基于网络爬虫技术平台,通过抓取电商“多肉之家”多肉植物种类信息进行分析,甄别出其中的濒危物种并梳理出多肉物种资源重点查验名单,为物种资源查验,尤其是植物多肉类濒危物种查验提供参考。
1.1 网络爬虫技术
网络爬虫(web crawler),又称为网络蜘蛛(web spider)或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本(孙立伟等,2010)。网络爬虫通常从一个称为种子集的URL集合开始运行,它将这些URL全部放入到一个有序的待爬行队列里,按照一定的顺序从中取出URL并下载所指向的页面,分析页面内容,提取新的URL并存入待爬行URL队列中,如此重复上面的过程,直到URL队列为空或满足某个爬行终止条件,从而遍历Web。目前已在搜索引擎制作、电商信息分析等领域得到了推广和应用(孙立伟等,2010;王弘巍,2012; 杨颂,2010)。
1.2 抓取“多肉之家”物种资源
“多肉之家”为国内最具人气的多肉植物交流论坛之一,不仅在多肉养护种植等方面处于领先地位,而且是跨境多肉物种资源交易的热门平台。
基于“神箭手”(http:∥www.shenjianshou.cn/)网络爬虫平台,通过对其采集爬虫代码进行编辑,抓取“多肉之家”(www.drzj.net)收录的多肉植物的学名、中文名、科等信息数据。
基于网络爬虫平台,本次抓取共计获得23科926种物种资源数据。
2.1 “多肉之家”物种资源种类构成情况
将抓取的23科926种数据,经人工甄别筛选,实际有效为23科878种,见图1。前10名的科为:景天科 Crassulaceae 493种,百合科 Liliaceae 125种,仙人掌科Cactaceae 66种,番杏科Aizoaceae 53种,大戟科Euphorbiaceae 42种,龙舌兰科Agavaceae 19种,菊科 Asteraceae 17种,萝藦科 Asclepiadaceae 14种,马齿苋科Portulacaceae 12种,夹竹桃科Apocynaceae 9种。
图1 “多肉之家”物种资源科分布情况Fig.1 Number of succulent species per family found in www.drzj.net
2.2 “多肉之家”濒危物种与非濒危物种构成情况
“多肉之家”共有878种物种资源。其中濒危物种138种,CITES附录Ⅰ濒危物种18种,占2%,CITES附录Ⅱ濒危物种120种,占14%;其余物种资源740种,占84%。
“多肉之家”CITES附录Ⅰ和CITES附录Ⅱ濒危物种的详细情况,见表1。
表1 “多肉之家”CITES附录Ⅰ和CITES附录Ⅱ濒危物种名单Table 1 List of endangered species of CITES AppendixⅠandⅡin www.drzj.net
续表1
2.3 “多肉之家”CITES附录Ⅰ濒危物种构成情况
“多肉之家”CITES附录Ⅰ濒危物种共计3科18种。其中仙人掌科16种,约占88%;百合科1种,约占1%;大戟科1种,约占1%。
2.4 “多肉之家”CITES附录Ⅱ濒危物种构成情况
“多肉之家”CITES附录Ⅱ濒危物种共计7科120种。其中马齿苋科7种,约占6%;龙舌兰科1种,约占1%;龙树科Didiereaceae 3种,约占2%;百合科16种,约占13%;仙人掌科50种,约占42%;大戟科35种,约占29%;夹竹桃科8种,约占7%。
图2 “多肉之家”CITES附录Ⅱ濒危物种构成情况Fig.2 Proportion of endangered species under CITES AppendixⅡin www.drzj.net
近年来物种资源保护得到质检总局、海关等相关口岸执法部门的高度重视,口岸物种资源查验点建设不断加强,配套的政策法规也不断完善,但业务量大、人员紧张、技术支撑不足等客观因素限制了物种资源查验工作的开展,而缺乏口岸重点查验名单,则是导致目前查验工作难以有效推进的主要因素。植物濒危的原因非常复杂,其中自身因素、物理因素、生物因素和人类活动是导致濒危的四大主要原因(盛茂银等,2011)。目前,CITES附录Ⅰ和Ⅱ收录的3万余种植物,并不都是由于国际间非法买卖交易等人类活动导致其濒危。因此,可通过贸易买卖的数据,对3万余种植物进行筛查,甄别出易被国际间非法买卖交易的物种,从而建立口岸重点查验名单。“多肉之家”是国内养护交流、交易买卖的多肉植物最具人气的电商平台之一,买卖双方借助该平台进行交易。因此,对该网站的数据进行分析就可以筛选出多肉物种资源重点查验名单(表1)。
“多肉之家”收录的仙人掌科植物有66种,全部是濒危物种,其中龟甲牡丹、星兜等16种植物为CITES附录Ⅰ濒危物种,帝王龙Ortegocactus macdougallii Alexander、白鸟 Mammillaria herrerae Werderm.等50种植物为CITES附录Ⅱ濒危物种;“多肉之家”收录的大戟科植物有42种,濒危物种约占86%,其中皱叶麒麟Euphorbia decaryi Guillaumin为CITES附录Ⅰ濒危物种,华烛麒麟Euphorbia candelabrum var.bilocularis、柳麒麟 Euphorbia hedyotoides N.E.Brown等35种植物为CITES附录Ⅱ濒危物种。因此,建议口岸加强对仙人掌科和大戟科的物种资源查验。造型奇特可爱的景天科植物受到多肉爱好者的热捧和追逐,在“多肉之家”电商中被收录了493种,约占总数的56%,但没有一种是濒危物种。不过,景天科植物的种类和数量众多,同时口岸检疫时曾多次截获腐烂茎线虫、贝克剑线虫等检疫性有害生物,因此口岸及其实验室仍需注意对景天科植物的检疫。
当前口岸物种资源的查验主要采取“人—机—犬”三位一体综合查验模式(吴晶等,2016),只能初步判定是否为多肉物种。建议开展现场在线自动识别搜检技术的研究,开发诸如花伴侣、形色、微软识花等物种资源识别app软件,从而提高工作效率。此外,物种资源的识别主要是依靠形态学方法,但是大多数物种在口岸并不能被迅速准确识别,只能按照《中华人民共和国邮政法》等法律法规规定(中华人民共和国中央人民政府,2009),放置一个多月后才能抵达实验室,导致很多样品枯萎、腐烂。另外,截获的不少物种有很多尚处于营养生长阶段,缺少只有在繁殖阶段才会出现的花、果等鉴定到种的特征,上述情况严重影响了形态识别的效果。随着分子生物学,特别是ITS、psbA-trnH等DNA条形码技术的发展,已能达到属甚至种的准确识别(任保青和陈之端,2010)。因此,建议口岸查验实验室加大对DNA条形码技术的研发,为物种资源查验提供技术保障。
盛茂银,沈初泽,陈祥,田兴军,2011.中国濒危野生植物的资源现状与保护对策.自然杂志,33(3):149-154.
任保青,陈之端,2010.植物DNA条形码技术.植物学报,45(1):1-12.
宋云,许瑾,赵竹,李明福,陈克,黄炎,陈乃中,2015.我国进出口贸易中生物物种资源调查分析.植物检疫,29(5):25-29.
孙立伟,何国辉,吴礼发,2010.网络爬虫技术的研究.电脑知识与技术,6(15):4112-4115.
王弘巍,2012.基于亚马逊网站的特定电子商品爬虫设计与实现.硕士学位论文.长春:吉林大学.
吴晶,李井干,殷连平,高颖,2016.中澳新进境邮寄物检疫的比较与分析.植物检疫,30(5):14-17.
杨颂,2010.面向电子商务网站的增量爬虫设计与实现.硕士学位论文.长沙:湖南大学.
国家质量监督检验检疫局动植物检疫监管司.上海局严厉打击虚假申报入境邮包.(2016-05-30)[2017-07-03].http:∥dzwjyjgs.aqsiq.gov.cn/gzdt/201605/t20160530_467478.htm.
中华人民共和国中央人民政府,2009.中华人民共和国邮政法.(2009-04-24)[2017-07-03].http:∥www.gov.cn/flfg/2009-04/24/content_1295123.htm.
Convention on International Trade in Endangered Species of Wild Fauna and Flora,2013.AppendicesⅠ,Ⅱ andⅢ.(2013-09-13)[2017-07-03].https:∥www.cites.org/eng/app/appendices.php.
Analysis of electronic business data for succulents species resource based on web crawler
XUE Huajie∗, ZHANG Ning, FU Yining, XU Fei, WANG Shuping, XU Siyue, YIN Liping
Shanghai Entry-Exit Inspection and Quarantine Bureau, Shanghai, 200135, China
【Aim】 In recent years,obtaining foreign valuable succulent plants through the e-commerce platform has become an important channel and a large number of endangered species illegally were introduced into China through third-party logistics.Screening out endangered species and proposing a key checklist of succulent plants can provide a reference for the identification of species resources, especially for inspection of endangered succulent plants.【Method】 Based on the web crawler technology platform,926 categories of data on succulent plants were obtained from the popular internet trade platform"succulent plant house"in China.The data were then screened and classified according to CITES.【Result】 There were 878 species of succulent plants belonging to 23 families from the data obtained from the"succulent plant house", which included 18 endangered species of CITESAppendixⅠ and 120 endangered species of CITESAppendixⅡ.The endangered species acconted for 16%of all the succulent plants imported.Results show that the most endangered plant species belonged to Cactaceae and Euphorbiaceae.The numbers of species in both families were respectively 66 and 36, accounting for 74%of the total endangered plant species.【Conclusion】 Results indicate that the web crawler technology platform has good feasibility in obtaining the species data in the e-commerce platform of plant trading.
succulents; endangered species; electronic business; web crawler; CITES
10.3969/j.issn.2095-1787.2017.04.010
2017-07-13 接受日期(Accepted):2017-10-20
国家质量基础的共性技术研究与应用(2017YFF0210303);上海检验检疫局科研项目(HK004-2015)
薛华杰,男,高级农艺师。研究方向:植物检疫
∗通信作者(Author for correspondence), E-mail:xuehj@shciq.gov.cn
(责任编辑:郭莹)