徐达
(西南科技大学制造科学与工程学院,四川 绵阳 621000)
当前我国大数据与数据分析发展的研究
徐达
(西南科技大学制造科学与工程学院,四川绵阳621000)
大数据是国内外最热门的研究方向之一。在大数据时代,人们身处的世界正在悄然改变。目前,我国大数据与数据分析已经走出了初步理论探索阶段,形成了初具规模的产业链。首先举例分析近年来我国大数据分析在商业、舆情分析和医疗领域的发展以及已取得的成就,在此基础上,总结了我国在大数据与数据分析行业,在产业链、软硬件条件、专业人才、数据资源和相关法律法规等方面所面临的挑战和机遇。
大数据 大数据分析 发展现状
人类一直热衷于对世界的探索,分析事物已知的形态,发现其内在规律,然后利用这一规律预测事物的未来发展。当今互联网,信息爆炸,人们越来越难以获取有效的关联信息。大数据与数据分析帮助人类从海量和复杂的数据中提取互相关联的信息。
2011年著名调查公司麦肯锡在《大数据:创新、竞争和生产率的下一个前线》的研究报告中提出“大数据时代已经到来”;2013年被业界人士称为大数据元年。尽管人们对“大数据”的认识千差万别[1],但是其基础技术架构已经形成,其发展成果已广泛应用于各个行业。
2.1大数据成为企业的新资本
“大数据为新财富,价值堪比石油”[2],数据日渐成为企业一项重要的资产,大数据战略已经进入到企业战略层面。据IBM在2012年对全球95个国家,26个不同行业领域的1144名企业高管和专业人士的一项调查显示,超过四分之一正在进行大数据试验或已经实施具体措施,全数意识到他们应更多地利用大数据[3]。
大数据时代的企业主要分为两类:①数据服务的提供者:以英特尔、IBM和orcal为代表的数据分析服务提供商。他们有良好的软硬件开发基础,为企业提供解决方案;②大数据服务的使用者:大数据分析具有实时和全面的特点,分析结果往往极具价值,为企业决策、拓展市场和创新提供参考,其中最具代表性的是阿里金融,专为小微企业和初创业者提供小额信贷融资服务。自2010年6月成立,截至2014年2月,已经有70余万家小微企业通过阿里金融获得融资。阿里金融使用大数据思维确认客户信息的真实性:对阿里集团积累的客户信用数据和行为数据,以及税务、海关和电力等第三方数据进行分析。在此过程中,阿里金融建立了大量模型,通过云计算来筛查所得数据的有效性,给出客户信用评价结果,并以此结果为依据,向其提供贷款。在贷款过程中,阿里会持续监控客户数据,明确贷款流向和产生的效益。如发现异常,就会启动扣款机制。当客户出现坏账时,只要其信用评价是正面的,阿里还会提供补充帮助。
这一在信贷评估方法的创新,改变了银行业的游戏规则,为其自身和客户创造了巨大利益。相较于传统银行的抵押担保模式,阿里金融利大数据分析技术,将贷款风险分散到贷款前、中、后三阶段,有效地控制风险,极大地提升了服务效率。金融业包括银行业一项重视数据分析,但是传统银行业以自身的运营数据为依托,这些数据往往不够全面,跟不上时代变化,无法为决策提供更具说服力的支撑。
2.2大数据分析技术提升舆情分析能力
舆情分析是根据特定问题的需要,对针对这个问题的舆情进行深层次的思维加工和分析研究,得到相关结论的过程。公共部门通过舆情分析掌握社会舆论走向,企业可以通过舆情分析获取负面信息预警和竞争者情报等。
如今,网络成为舆情分析的主战场,传统媒体正在被互联网所取代。据中国社会舆情与危机管理报告(2012),2011年微博首报舆情案例比例占比达到五分之一以上,连年递增。截止2014年6月,我国网民规模已达6.32亿,其中手机网民5.27亿[4]。微博、微信和QQ等网络社交平台是网络舆情重要检测对象,所有的舆情分析平台都有对微博、QQ群的检测分析。
目前应用于网络舆情分析主要有电子问卷调查、非结构文本数据分析、语义识别和基于网络日志的隐性舆情分析等基于大数据的技术[5]。电子问卷调查是基于互联网的抽样调查,所得结果简单明了,适用于公众对已知热点事件的态度调查。非结构文本数据分析针对网络舆情数据中图片和音视频数据。语义识别是指计算机对自然语言的理解和生成,计算机需要语义识别系统才能对自然语言做出响应。现阶段对自然语言处理尚无成熟系统,但是特定用途的语义识别系统已经出现,部分舆情分析软件已经具备面向中文和少数外文的语义识别功能。非结构文本数据分析和语义识别技术可以实时监测,发现热点,分析一段时间内舆论走向。隐性舆情分析技术提高分析结果的精确度和正确度。网民在浏览网站时会在服务器留上不仅会留下点击量数据,还会留下IP、鼠标停驻时间、鼠标点击的集中区域和浏览时间点等数据。他们来自于实时且海量的数据源,能够真实地反映了信息到达率和吸引力大小、受众兴趣点和受众人群特征等信息。
2.3医疗
我国医疗健康领域已经意识到了大数据分析带来的巨大机遇。总体来说,其发展水平尚停留在扩大数据采集渠道和体系构架建立阶段,我国三大互联网公司BAT均在2014试水互联网医疗领域。百度与北京市政府联合推出的北京健康云,主打个性化的健康服务。将个人健康数据与百度的大数据资源结合,为用户量身定制健康服务。阿里健康与中信21世纪合作,开拓药品电商市场,欲借此建立中国最大最精准的药品数据库。微信智慧医疗利用其在即时通信市场的优势,主打医疗资源整合,其解决方案贯穿整个患者就医过程。截至2015年1月,全国已有近100家医院通过微信公众号实现移动化的就诊服务和快捷支付,累计超过1 200家医院支持通过微信挂号。
数据分析在健康医疗领域的利用,对于提高医疗水平有着重要的意义。我国医疗领域长期资源分配不均,医患关系紧张。大数据的应用将会对现有医疗资源进行有效整合,盘活医院沉淀大量电子病历,在提高就诊效率、减少患者负担和避免过度医疗方面有其重要意义。从长期来看,以大数据分析为基础的医疗研究将为国民健康做出巨大贡献。
3.1大数据产业链初步形成
大数据产业链可分为4个层级:数据产生与数据聚集、数据组织与管理层、数据分析层和数据应用层[6]。经过数年发展,我国大数据产业链基本形成。2012年,中关村大数据产业联盟成立,在实现产学研合作、标准制定和技术创新,产业的跨越式发展,推动培植世界领先的大数据技术、产品、产业和市场等方面有重要推动作用。全国首家大数据交易所,也将于2015 年5月在贵阳成立,这标志着产业链基本形成。
大数据产业链的形成可以提升数据价值,优化资源分配,可以有效化解有数据的公司无法处理,需要数据的公司又没有足够的数据来源,具备分析数据能力的公司无处一展身手的怪圈。产业链发展初期由三大互联网公司主导;随着行业规模扩大的成熟,不断有初创公司和转型公司加入,产业链内的分工会越来越细化。
3.2软硬件基础技术助推大数据产业发展
大数据得益于国内基础网络全面发展,以及计算机技术全面发展,使得大数据运算成为可能。诸如Hadoop和mapcover等能够对大量非结构化数据进行高速处理的软件技术均采用开源模式。技术壁垒少,国内相关研究起步较快,商业应用上取得了很大成果;但起步时间较晚,在基础研究领域还是处于落后地位。
大数据重要来源——感知数据,大部分来自于物联网中各种传感器等自动化设备。在物联网中,物与物和物与人,通过物联网相互连互通,这使得更加数据资源面广泛。大数据分析需要进行大量运算,只有少数公司具备这样的实力。随着云计算技术的兴起,使没有计算环境的企业,也可以通过云计算技术获得强大的运算能力。如此既避免了硬件资源闲置,也使更多公司可以进行大数据的分析。
3.3专业从业人员缺乏
人才缺乏是全球大数据与数据分析行业面临的共同挑战之一。自2013年开始,英美等过开始培养大数据人才,国内高校也相继开始大数据人才培养。2014年,复旦大学开设数据科学工程硕士和博士学位;人民大学、北京大学等高校开设大数据分析硕士学位;2015年,清华大学开设大数据硕士学位。大数据人才的培养受制于培养周期限制,而人才短板制约着技术进步与应用,所以人才储备缺乏制约着我国大数据产业初期的发展[7]。
3.4政府数据源仍然缺乏共享
丰富的数据源是大数据产业发展的基础。政府部门掌握大量优质数据资源,理应在数据资源开放中作出表率。美国政府早在2009年《透明和开放政府备忘录》中就明确提出“联邦信息就是全民的信息”,要求各级政府应用现代技术开放政府信息,而我国数字化的数据资源总量远远低于美欧,而且没有相关法律法规的实施细则明确政府数据开放责任,导致政府数据整体开放程度较低。
这一现状正在改变,在全国性的产业结构转型浪潮中,数据资源的的价值被放大,各级政府逐步将数据开放纳入发展规划。上海市走在全国政府数据对外开放的前列,根据《2014年度上海市政府数据资源向社会开放工作计划》,上海已开放190项数据内容,涉及交通、教育、金融和环境等11个领域。
3.5相关法律法规缺失
我国相关法律法规缺失表现在两方面,一方面欠缺推动数据公开的动力,另一方面公众对隐私保护的担忧。2个方面相互牵制,任何一方失调都会连带影响另一方。现有的文献对大数据时代政策法规层面做过一些研究,也提出过解决方案,但是基本停留在隐私保护和数据主权等理论方面,并没有就大数据时代数据分析技术发展相结合。
以网络爬虫技术为例,这是一种可以自动抓取网页信息的技术。网站通过“网络爬虫排除标准”这一协议,声明站点中哪些数据可以被自动抓取,哪些数据受到保护不希望被抓取。自动收集受保护的文件则是侵权行为,这种协议是机器与机器的约定,而人设定机器是否突破这一约定。这一情况在数据分析技术中广泛存在,这就要求在获取筛选数据阶段要受到监管和限制,如此方能有效保护各方利益。
为了获得大数据服务带来的好处,我们不可避免地分享个人数据,例如前文提到的“在服务器日志上留下的浏览数据”。对于大众来说,很难追踪到自己的某一浏览数据储存在哪里,被分享给谁,用于何种用途,他们对这类数据丧失了控制权,这样的数据交易方式是否合法我国尚无明确界定。因此对处于大数据产业链下游各方,比如数据分析者和数据利用者的规范也有待加强。
本文介绍大数据与数据分析近几年在商业、舆情分析和医疗健康方面的发展现状,并以此为基础,分析了我国大数据行业目前面临的机遇与挑战。可以看出,我国大数据的发展之快超越了之前每一次计算机技术革新,全行业面临的机遇和挑战也从发展初期单纯的技术架构层面变得更加广泛而多变。
[1]钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播(中国传媒大学学报),2013,35(7):104-109.
[2]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4):47-49.
[3]张平.大数据如何在企业落地生根—访IBM大中华区全球企业咨询部谢国忠[J].企业管理,2013(7):106-110.
[4]中国互联网络信息中心.第34次中国互联网络发展状况统计报告[J].互联网天地,2014(7):71-89.
[5]唐涛.基于大数据的网络舆情分析方法研究[J].现代情报,2014,34(3),3-11.
[6]迪莉娅.我国大数据产业发展研究[J].科技进步与对策,2014 (4):56-60.
[7]吴薛.产业生态圈视角下大数据产业集群培育的研究-以苏州为例[J].常州大学学报:社会科学版,2015,16(1):57-62.
Research on Latest Development of Big Data and Big Data Analysis in China
XU Da
(College of Manufacturing Science and Engineering,Southwest University of Science and Technology,Mianyang Sichuan 621000,China)
Big data is one of the most popular research directions at home and abroad.At present,in China,big data and big data analysis have moved out of the preliminary theoretical exploration stage,and formed a close industrial chain.The paper introduces what big data analytics achieved in business,public opinion analysis and medical field.Based on it,the paper summarizes challenges and opportunities of big data industry development in terms of the industrial chain,software and hardware conditions,professional workers,data resources,laws and regulations.
big data;big data analysis;development
TP274
A
1008-1739(2015)17-68-3
定稿日期:2015-08-12