摘要:在大数据时代,数据挖掘技术和工具已取得瞩目的成就。该文基于八爪鱼采集器在“肥仔水”项目中的具体应用,介绍了八爪鱼的原理、特点以及使用方法,以及它在提升企业信息数据挖掘方面的优势。
关键词:数据挖掘;八爪鱼;肥仔水;市场潜力
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2019)34-0017-03
1 概述
大数据和云计算的诞生改变了人类信息技术的面貌[1]。数据已经成为企业的核心资产。[2]大数据时代,如何迅速挖掘和分析数据,对于企业的决策有着重要的意义。近年来涌现出大量的数据挖掘软件,如集搜客、八爪鱼、狂人、Octoparse等,并且应用于商业、科技、政府等不同的领域。随着“互联网+”和电商的兴起,大数据对商业经济的影响越来越大,如何从海量的数据中寻找出有价值的信息变得迫在眉睫。[3]本文将利用八爪鱼采集器在淘宝网和京东网上采集英国吴德物次肠痛水(简称肥仔水)以及其竞争对手的电商销售数据,并根据采集结果进行进一步分析,判断肥仔水是否能够进入中国大陆市场并对其市场前景做以预估。
2 八爪鱼采集器简介
八爪鱼采集器是由深圳视界信息技术有限公司自主研发,整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据服务平台。适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业的多种业务场景。可以提供舆情监控、市场分析、产品研发、风险预测等业务模块。[4]
八爪鱼客户端使用的开发语言是C#,运行在Windows系统中,客户端主程序负责任务配置及管理、任务的云采集控制以及云集成数据的管理。八爪鱼采集器的核心原理是基于Firefox内核浏览器,通过模拟人浏览网页的行为(如打开网页、点击网页的某个按钮等操作)和设计工作流程,对网页内容进行全自动提取。它有四种采集模式:简易采集、智能采集、向导模式、自定义模式。价格也分为五个不同的等级。采集结果可手动或自动导出到数据库,存储为Excel、soL、TXT、MYsoL等格式。
3 八爪鱼采集器的特点
八爪鱼采集器全网适用,眼见即可采集。还有智能防封功能,可以自动破解多种验证码,提供IP代理池,结合UA切换,可有效突破封锁,顺利采集数据。内置数百个网站数据源,全面覆盖多个行业,并提供海量模板。同时还有分布式云集群服务器和多用户协作管理平台的支撑,可灵活调度任务,顺利爬取数据。它可零门槛三步获取数据:(1)打开客户端,选择建议模式和相应的网站模板;(2)预览模板的采集字段、参数设置和示例数据;(3)设置对应的参数,保存运行完成数据采集并导出数据。
2019年4月25日八爪鱼版本更新后,收费方式也进行了调整,从原有的免费版和私有云收费版,升级为更加具体化的收费方案,如表1所示。对比各种收费版本提供的服务,旗舰版可作为个人的首选,而旗舰+版本的性价比最高。
3.1 优势
八爪鱼的通用性强,适用于所有互联网公开数据,可应对各种网页的复杂结构(瀑布流等)和防采集措施,可实现百分之九十九的数据抓取。八爪鱼操作简单,无须技术背景,这一特点决定了八爪鱼对初学者或者是零编程基础的用户十分具有亲和力。它模拟人浏览网页的操作,通过输入文字、点击元素、选择操作项等一些简单的操作,即可完成规则配置,无须编写代码,十分方便。八爪鱼在真正意义上实现了操作流程可视化,用户可打开流程按钮,可以清晰地看见具体操作流程,并可对每一步骤,进行高级选项的设置(修改ajax/xpath等)。更新后的八爪鱼收费标准更加丰富,给用户提供更多的选择。免费版具备所有的功能,能够满足用户的基本采集需求,增值服务如云采集,有5000台云服务器,可以24*7高效稳定的采集数据,结合API可无缝对接内部系统,定期同步爬取数据,可满足高端付费企业用户的需求,而且采集速度更快。
3.2 劣势
八爪鱼采集器目前还无法采集视频中的数据,同时,它只能采集和判断,并没有计算功能。虽然八爪鱼相较于神箭手、火车头、Octoparse、Visual WebRipper、ContentGrabber等不需要代码基础,更为平易近人,但是它却不像火车头采集器具有同义、近义词替换和参数替换的功能;和集搜客相比,八爪鱼无法抓取超链接里的数据。[5]
4“肥仔水”案例数据挖掘及分析过程
肥仔水,商品名为英国吴德物次肠痛水(WoodwardsGripe-Water),是一款非处方产品,化学名为GripeWater,1851年由英国药剂师William Woodward发明。19世纪40年代,英格兰东部的婴儿患有“fenfever”(芬热)的疾病,Woodward从治疗芬热和疟疾中汲取灵感,指出gripewater司以缓解婴儿肠绞痛,并在1876年将GripeWater注册为商标。此后吴德物次肠痛水以代代相传(Granny told Mother and Mother told me)的口号在欧美各国十分畅销。[6]但目前我国国内仍然没有任何化学名为GripeWater的产品在CFDA(中国食品药品监督管理总局)注册销售,许多使用肥仔水的顾客也大多采用网购、海淘的形式来购买。由于笔者曾在香港大昌行利丰医药有限公司市场部工作,大昌行在马来西亚的工厂负责生产销往欧洲的肥仔水,公司欲将该产品引进内地注册销售,但该项目最终以缺乏相关市场数据(购买第三方公司的数据太过昂贵)而搁置延迟。
肥仔水竞争产品的选取依据两个原则:一是具有相同的化学名;二是产品具有相同的适应症和治疗效果。与肥仔水具有相同化學名但不同商品名的产品为Mommy's Bliss妈宝乐;Lit-tle Remedies西甲硅油为物理缓解婴儿肠绞痛的非处方产品;衍生七星茶是香港老字号广为人知的药食同源产品,可以患者婴儿肠绞痛、消化不良等症状。后两种产品与肥仔水具有相同的适应症或治疗效果,具体信息如表2所示。
在学习数据挖掘这门课程时,笔者使用数据挖掘工具—八爪鱼采集器在京东、京东、eBay上分别采集了妈宝乐、西甲硅油和衍生七星茶的销售数据,并做如下分析。
4.1 数据采集
本次采集的日期为2019年4月20日,使用免费版本的简易采集模式。步骤如下:(1)先选取京东网为目标url,使用八爪鱼提供的“商品列表采集”模板,输入搜索关键词“gripewater”“肥仔水”“吴德物次肠痛水”,使用回车键切换,设置多个搜索关键词。并设置翻页次数为大于1的任意值,输入淘宝网账号和密码后,点击“保存并启动”。
(2)采集页面的上半部分是八爪鱼浏览网页的全过程,下半部分为提取到的数据,包括商品名称、商家店名、价格、成交量、商品链接等。采集完毕后,会自动弹出“采集完成”的对话框,并提示共采集的数据量以及用时。
(3)点击导出数据至excel,即可生成本次采集的表格。然后用同样的步骤分别采集出妈宝乐、西甲硅油和衍生七星茶在三个电商平台上的销售数据,采集完成后经初步筛选,删除掉不相关的数据,并汇总做进一步分析。
4.2 市场现状
经过数据汇总,由于eBay平台销量占比较小(不足10%可以忽略),文中主要以淘宝网和京东网上的数据作以分析。淘宝网3月20日至4月20日期间的销售数量以及平均价格换算成总销售金额,如表3所示。
根据以上采集的数据,按肥仔水平均售价为58元/瓶计算,可以得出:(1)肥仔水在淘宝网的月均销量为5410瓶。在京东网采集到的销量为5620瓶。(2)衍生七星茶因为已经经过CF-DA审批并在内地开设了相应的中医门诊,有一定的销售模式和销量基础,其在淘宝和京东均占据了60%以上的市场份额。(3)在未注册上市的三个产品中,肥仔水和西甲硅油在淘宝网的销量相当,均高于妈宝乐;西甲硅油在京东网的总销量最好,其次是妈宝乐,肥仔水所占的市场份额最少。
4.3 适应症人群
GripeWater的适应症人群为1-7岁的婴幼儿,中国2012年至2018年间出生的婴儿总数为1.16亿。[7]根据中华医学会的统计数据,婴儿肠绞痛每年的平均发病率大约为20%。肥仔水为进口的非处方产品,消费群体定位为有经济基础的人群,根据国家统计局的数据,我国近年来城市人口占总人口的40%,因此计算得出肥仔水的适应症人群的总数量为930万,按每位患儿每次够买一瓶的最低数量,即每年930万瓶销量。
4.4 潜力分析
婴儿肠绞痛在中国内地有着庞大的消费群体,但目前的市场除了网购和海淘外,还未被任何一个强有力的竞争者所占据。大昌行集团在马来西亚的工厂可直接供货给内地,这样减少了中间流通环节和其他风险因素,同时提高了利润空间。
肥仔水虽然为非处方产品,但是仍要以医院内开展的学术活动为核心。大昌行可凭借在国内儿童医院多年的销售经验,由团队的医药信息沟通专员负责各区域线下核心医院的学术推广,配合线上强有力的品牌影响力以及电商活动。因非处方类药品需要向CFDA提交注册审批,一般注册期为两年,预计2021年上市销售,基于医院、药店的调研、公司业务覆盖的规模以及以往的销售基础,对肥仔水未来三年的销售做以下预估(产品利润与采购价格涉及公司机密,因此不予公布产品价格结构)。
基于以上分析,肥仔水具有可观的市场潜力以及利润预估,鉴于国内还没有竞争对手占领市场,因此是进入中国内地的好时机。
5 结束语
在本项目案例中,八爪鱼充分发挥了不需要编程的优势,并且可视化的流程可以确保数据的采集基本无误。但是数据的计算部分需要用户自己完成。由于笔者采用的是简易采集模式,只能使用其中固定的模板,虽然十分便捷,但数据挖掘还较为粗糙,如果需要添加其余参数,或需要更加精准的数据,就需要使用付费版本的云采集模式,或者使用神箭手等需要编写程序以获得个性化需求的采集器。
八爪鱼作为一款比较成熟且方便的数据挖掘工具,可在企业的实际工作中根据需要筛选出有价值的信息,从而帮助企业提升效率、把握资源、提高市场竞争力。
参考文献:
[1]李燕.提高档案服务能力的新模式一云档案馆服务优势浅析[J].云南档案,2013(05):56.
[2]茅斯佳.基于数据挖掘技術的卷烟营销BI应用初探[J].东方烟草报,2018(12):1-2.
[3]尹青正,吴海燕,等.大数据对商业经济的影响[J].中国新通信,201 8,20(14):244.
[4]八爪鱼.[EB/OLl.[2019-06-01]. https://www.bazhuayu.com.
[5]干货:国内外十大主流采集器软件盘点.[EB/OL].[2019-06-01].https//www.bazhuayu.c om/blog/421.
[6] Gripe Water[EB/OL].[2019-06-01]. https://en.wikipedia.org/wi-ki/G ripe_water.
[7]国家统计局年度数据[EB/OL].[2019-06-03].http://data.stats.gov.cn/easyquery.htm?cn=C 01.
【通联编辑:朱宝贵】
收稿日期:2019 -10 -15
作者简介:乔萌萌,上海大学图书情报2018级硕士研究生,主要研究方向为数字人文、图书馆学。