探讨统计学创新之路 迎接大数据时代挑战
——《统计与信息论坛》创刊30周年统计学展望笔谈(一)

2016-12-23 07:19
统计与信息论坛 2016年11期
关键词:舆情信息统计学



探讨统计学创新之路 迎接大数据时代挑战
——《统计与信息论坛》创刊30周年统计学展望笔谈(一)

大数据时代的统计创新:数据工程

肖红叶 天津财经大学

不知不觉,《统计与信息论坛》创刊30年了。我们回顾、感叹其办刊之路,艰辛跋涉30年的同时,更应为其30年不懈坚持专业化精神和职业操守,活跃学术创新与交流,培养青年学者等方面的突出贡献,成长为中国统计重要学术平台的励志精神,点赞。谨以此文,祝《统计与信息论坛》再创佳绩。

1.背景。迅猛发展的大数据,已展现出对各领域的颠覆性影响。目前大数据生成与应用主要是计算机技术推动的,但下一步的有效扩展,需要各学科的协同推进。其中,基于数据处理方法优势的统计学占有先机。但现实是,统计学家或因认知(本人也曾经历),或因缺失计算机大数据生成和处理相关知识,游离其之外,可能失去机会,急需变革创新。

2.两种变革思路。“数据科学”与“数据工程”。显然,前者适于大数据理论研究及其人才培养,后者则更专注于大数据的具体应用以及人才培养。

3.何为“数据工程”?我们基于统计学语境提出这个概念。可将其粗略界定为:从大数据中获取有效信息的统计工程化技术。“数据工程”为统计实现具体的技术生产力变革,提供了可行路径,即统计学从方法论向工程技术转型;统计理论方法创新为用户需要的 “数据信息技术产品”;伴随大数据和人工智能推进,“数据工程师”将成为一个现代化职业,为用户提供定制的数据信息产品与服务。产品化和职业化创新成果,是大数据时代,统计生产力水平的标志。

4.实践。2013年天津财经大学珠江学院基于统计专业,组建“数据工程”方向,进行培养“数据工程师”的课程和教材体系改革。3年实践引起各界广泛关注。2016年1月,20多所高校发起,创立了全国统计学专业数据工程方向教学联盟。2016年7月,50多所高校参加联盟杭州会议,又提出与相关专业结合的 “+数据工程”概念,及其推进路线图。

5.展望。数据工程技术及其掌握该技术的人力资源,将成为我国未来一个时期,实现创新型经济的重要驱动力。数据工程必将成长为新的经济增长点。统计的数据工程之路艰辛曲折,但前行光明。

互联网统计概念与大数据概念的问题

赵彦云 中国人民大学

我们研究的创意是要建立“互联网统计”新概念,具体含义是在互联网技术下的统计思想、统计理论、统计方法、统计工作的新统计知识体系的总称。

作为一个新方向或潜在推动新学科的核心概念或主题概念,应该具备的条件是:(1)新概念在科学定义上严谨规范。(2)对相关学科和研究的过去具有升级标新的作用。(3)对未来学科的发展具有巨大的空间。“互联网统计”新概念的内涵是指依附于互联网技术和利用于互联网技术的统计,其中依附于互联网技术的统计包括从互联网、移动互联网、物联网自动获取数据,以及在互联网云技术下的云数据库存储与服务。相对于传统统计学,这些都是全新的统计方式,统计数据量不仅大,数据属性类型更加充分,而且数据的系统关联、时间细分、空间细分的统计匹配性等复杂性且生态有序,由此统计数据一体化设计与处理理论方法更加重要。利用于互联网技术的统计体现在互联、互通、互动统计、个性化统计分析、智能化统计模型、统计监测、预测、优化、控制。在互联网统计研究中,针对现代统计理论方法,包括概率数理统计,也包括社会经济统计,面向互联网技术、面向互联网经济社会生活方法、面向互联网自然生态圈解析,升级统计科学、统计技术、统计应用将是互联网统计的使命。

“大数据”的提出,似乎表面化,不足够具备科学严谨的概念。“大数据”概念,国外有人解释包括大尺度,其实即使“大数据”可以解释更多,如包括大尺度、大密度,以及变量的细分度、时间细分度、空间细分度等等,但是“大”字是不严谨的相对用语,而且属于最粗劣的“小与大”二分法。我个人认为,作为互联网技术变革作用的一个核心特征“大数据”现实性、形象性,对过渡性的科学研究与学科形成发展,具有一定的意义。但是,随之发展,需要在更多的定义基础上,探索全新的核心或主题概念。

对“大数据”概念后的背景分析,包括计算机技术、通信技术、互联网技术、移动互联网、物联网(传感穿戴智能技术)、云数据、云计算等一系列技术基础上的应用,核心体现在互联、互通、互动的人类社会与自然生态新方式活动上,统计新概念仍然是核心、是关键、是主题、是主体,即互联统计、互通统计、互动统计的整体,可以用“互联网统计”概念统帅之。

互联网统计的科学作用反映在三方面:1.互联上的技术属性量值统一标准化。世界万物互联,量值的统一是统计科学思想的运用和体现,技术量值统计标准化是互联网统计客观的基础层面,也是互联网升级演化、吸纳利用现代科学技术的直接体现,是互联网统计的新内容,是现有统计学所空白的内容。互联网特别是物联网智能化,需要传感量值的技术自动测量标准的规范标准化,其中要在已经存在的量值不一的问题上,按照世界万物技术属性一体化要求,运用统计分析科学优化,实现动态化的互联量值标准化,为统计数据分析奠定条件基础。2.互通上的社会关联测量量值的统一标准化,包括产品、服务、技术、知识一体化的互通规范标准化统计及标准统计编码。现实存在的经济社会统计已经按照全社会关联量值统一标准化不断向前发展着,但是,在互联网技术发展下,如同安装上“显微镜”放大更加细分社会关联的测量,如同安装上“望远镜”扩大更大范围的社会关联量值统一标准化,即让全社会所有可能的社会活动的量值都具有互通的统计标准化功能。3.互通上的社会关联属性测量一体化的统一标准化,包括三证合一、五证合一,以及未来更多的能覆盖全社会主体的个人与单位唯一编码的统计标准化。经济社会活动非常复杂多样化,传统上的统计、数据、信息都是按不同属性分别归属于社会不同组织、不同认知领域记录、记载、存储的。例如一个人每天的活动,记录的统计、数据、信息可能涉及许多方面,如生产组织、技术、收入、餐饮、交通、朋友、娱乐、教育、社会保障、住宿、商业等等,实际上对于一个活动的统计解析所转化成的数据、信息,在互联网下成为大数据,但是,如果没有互通社会关联属性测量一体化的统一标准化,大数据将成为数据垃圾。因此,互通上的社会关联属性测量一体化的统一标准化,成为互联网发展的必要条件之一。

显然,互联网统计体系更多的要求是复杂大系统的大统计设计、全社会活动个人及单位主体与产品服务及各种所依附可能属性的标准化统一编码、社会认知自然环境生态的标准化统一编码,以及标准化编码中所体现相关统计信息的理论方法,将引领统计科学迈向一个服务人类社会发展更高科学平台。因此,互联网统计能够发挥聚集科学研究和聚焦统计应用开发的重要概念,推动统计科学又一次革命式的大发展。

图1 互联网统计体系解析图

做先进的数据产品是统计科学的未来之路

米子川 山西财经大学

互联网是当今时代的操作系统,大数据是这个时代的新能源。David Donoho教授在《数据科学五十年》一文中,提出“从数据中学习”的观点,他认为数据科学是一门全新的科学,不仅包括统计学范畴,也囊括机器学习领域;这种超级集合,更多受到商业的驱动,而非理论研究的发展使然;可以说,数据产品就是这种趋势的必然产物。

在大数据环境下,做先进的数据产品是统计科学发展的重要路径。首先,统计模型析出大量的因果关系和关联关系。在应用中,需要将这些统计关系固化到成熟的软件、工业产品和智能设备中,才能发挥统计关系的作用和价值。高新科技提供了未来电子设施和设备的精密肌体,统计模型则可以提供思维缜密和论证严谨的数据智慧。其次,统计科学可以适应实时分析的需要。互联网+、物联网、智能城市等概念的落地,使得大规模的在线实时记录不断涌现,而事后的数据统计分析无法适应各行各业对数据分析的同步性要求,只有将这些统计关系变成产品的内核,实现即时数据处理和分析,才能完成统计科学对大数据的完全介入和自身的系统革新。第三,大规模的统计应用会带动社会经济领域对统计科学的重大需求不断升级,为应用统计的创新和发展创造更大的空间。第四,统计产品化将会带来统计科研新的评价标准和新的学科使命,大数据所需要的不仅仅是学术论文,更需要逻辑合理、实证合意的算法,需要高效率、零误差和短流程的统计设计,需要一体化、智能化和人性化的数据产品,使得统计科学成为大数据时代最有价值的生产力之一。

简而言之,统计产品就是要做到统计分析结果的可视化,统计分析流程的软件化,核心数据处理模型和方法的芯片化,统计模型固化到实物产品中,一些先进的统计技术逐渐实现工程化的应用。比如,实验设计在工业质量管理中的应用更多是通过软件来实现的;统计过程控制方法固化到了大量工业数控设备中;证券分析模型嫁接在证券交易网站和媒体门户,表现为大盘指数和各类指标,成为最热门的互联网产品;导航、大众点评、图书推荐等功能几乎处处可以看到统计科学的影子,这些丰富的应用和化于无形的存在,就是未来最好的统计,也是统计最好的未来。

统计的逻辑及大数据时代对统计的要求

晏艳阳 湖南大学

之所以认为统计学是“通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学”,是因为统计学所要解决的是复杂对象的总体认识问题。从最初关于对“城邦”的总体认识,到各个领域不同现象之间的关系确定,所涉及的问题都是复杂性与不确定性交织。为了描述所要认识对象的需要,统计学家所给出的办法是抽象出一些能说明客体性质的“指标”并将其量化,在此基础上进行各种关系的分析、推断、预测。所形成的方法体系从数据的获取方式(普查、抽样等),到变量的各种分布推断、变量间相关关系的确定与测度,到总体特征的描述与预测。在该思维逻辑的每一个环节,都由统计学家给出了伟大的解决方案,正如《女士品茶》所描述的那样,20世纪的统计学变革了科学。也因此有许多统计人在对这些惊人成就的震撼之余感叹前人没有给后来者留下多少新的重大突破空间。

如果没有大数据,统计学的理论发展可能正如当今的制造业期待新的突破一样进入瓶颈期。大数据时代的来临正好为统计新方法的开创提供了机遇,机器连续记录的各种形式的数据超越了统计学家们为了某一特定目的而获取数据的思维逻辑。由于这一逻辑起点的改变,使得统计分析的手段和方法都需要进行变革。从手段上看,大量的工作是数据的挖掘清洗,这就需要统计人必须有相当熟练的计算机技术技能,能够从海量数据中识别、挖掘出有用的信息,从非结构化数据中挖掘信息。如果做不到这一点而仍采用传统的调查手段获取数据,那么,原来由统计学家完成的工作就会被计算机专家所取代,统计学因此有可能被边缘化,这一点也可以看作是大数据给统计学带来的挑战。从方法论上看,传统的统计思维均是根据所研究对象领域的理论分析,首先寻找变量可能关系的基本框架,然后用实际数据进行验证。在大数据环境中,数据大多不是依据特定理论框架而记录,或者所记录的数据大大超过即定理论框架所要求的数据范畴,分析者就是要从这样的海量数据中挖掘出一系列有用的信息。因此大数据时代能更多地发现如“恩格尔定律”这样的“统计规律”,而不是依据“定理”找证据。值得注意的是,统计学的“认识工具”特性仍不会变,因此,统计学方法的发展仍如20世纪统计大师大量诞生时的情况一样,需要统计学者对所认识客体科学领域的理论有相当的认识。

乘数据科学春风,播撒“数据+”种子

董 麓 天津财经大学

回顾半个世纪以来统计学的蓬勃发展,至少有两个方面起到了决定性作用。一是计算机科学的迅猛发展,使得与数据和统计相关的技术发生了革命性变化;二是各应用领域(如生物医药、金融等)快速发展,并对使用统计方法分析解决自身问题产生了强烈需求。迄今为止,这两方面依然是推动统计学发展的重要力量。

“大数据”时代的来临,标志着一门新兴科学,即数据科学的发展进入了一个新的时代。我们应该清醒地认识到,“大数据”只是一个状态描述,而数据科学将是有长久生命力的科学。统计学是数据科学的重要组成部分,数据科学的发展对统计学提出了前所未有的挑战,也提供了空前的发展机遇。它期待统计理论研究的创新,催生统计应用的发展,呼唤统计教育的改革。

提到我国的数据科学与统计学发展,就不能不提到肖红叶教授。早在20世纪80年代中期,他就提出了“计算机+数据+经济学”的发展思路并付诸于实践。从1987年开始,他先后主持创建了“经济信息管理”、“数据分析”、“数据工程”等本科专业和方向,成为国内高校开展“数据+”教育的探路者。

在“大数据”时代的今天,“数据+”的思想已经广泛深入人心,但“数据+”的系统教育与专业人才培养却远远落后于时代的需要。从统计学高等教育的角度来看,现阶段的一个重要任务就是大力推进“数据+”教育,要把“数据+”的根深植于各个应用型学科领域,并在这些领域开花结果。

大数据时代统计学应拥抱数据科学

方匡南 厦门大学

21世纪是信息爆炸的时代,随着计算机技术的飞速发展,极大地便利了数据的采集和存储,各个部门每天都积累了大量的数据,比如商业银行交易记录、超市的销售记录、政府统计中各中小企业的财务报表等等。同时这些数据的维度也越来越高,比如研究基因与癌症的关系涉及的基因有几万个,信用评分中有上千个自变量等等。数据来源多样化,有业务记录数据,有传感器数据,也有第三方数据,甚至是从网上爬取来的数据等。此外,数据的格式也越来越多样化,有结构化数据,也有文字、图片、音频、视频等非结构化数据。这些海量高维、来源多样化、格式多样化的大数据给传统的统计分析带来了极大的挑战。

数据科学(data science)是一门研究数据的科学,但这个词在计算机圈子里接受程度较高,而在统计学圈子里接受程度不是很高。大数据时代,统计学应适应时代的发展,主动拥抱数据科学,必须做到如下两点:

第一,统计研究应坚持以实际需求驱动发展。统计的发展跟实际需求是息息相关的,比如20世纪初,为了研究如何提高农作物产量,提出了农田实验设计方法;再比如20世纪60年代为了研究工业品的质量,提出了可靠性统计方法;而到了21世纪初,随着互联网技术的发展,积累了海量的数据,也需要更多统计学家积极研究互联网大数据分析方法。

第二,统计研究需要主动结合计算机。对于大数据的研究,对研究人员的计算机技术要求也更高了,统计学家不能把这些都推给计算机学科去做,更不能只守着统计的一亩三分地,这样只会越做越小,不断被边缘化,而是要主动学习一些必要的计算机技术或者与计算机研究人员合作,不断扩大统计研究的范围。只有这样,在大数据时代统计学才能发挥更大的作用,迎来新的发展机遇!

统计模型应用面临的挑战与转型

李宝瑜 山西财经大学

统计量化测度和统计模型是统计学的核心,从统计学诞生之日起,其生命力就在于能够对现实进行量化测度和用统计模型分析实际问题。没有量化测度,经济统计学就不会相对独立于经济学。没有模型应用,数理统计学就还是数学,就不会从数学中分离出来。目前社会已经发展到网络和大数据时代,传统和现代的统计模型无论在方法上还是在应用中都已经受到了挑战。

在方法上,传统的统计模型都是建立在利用样本“估计”总体的思想上的,因为不了解总体,所以每个模型都要对总体进行“假设”,然后来检验样本。但在大数据和网络时代,很多总体的信息量都能全面获得,这就有必要思考:抽样调查还需要吗?抽样的重要性是否减弱了?总体还需要通过某个样本来“估计”吗?进一步,总体还需要“假设”检验吗?时代的改变对历经几百年之久的经典统计方法提出了生存和发展的挑战。

在统计模型的应用中,目前国内外都出现了一些极端和偏误,一是模型的使用条件越来越苛刻,假定越来越多,名目繁多的各种“假设”检验越来越多,模型越来越复杂,使用越来越困难,建立一个实证模型,甚至困难到几乎无人能通过所有各种检验的程度。如果按照严格的标准,很难有人能做出一个合格的模型,符合理论与假设条件的模型应用越来越难,而且业内普遍有唯我独尊的思想,认为通不过检验的模型就是不好的,实际上限制了模型的应用。二是模型普遍被滥用,无用的模型越来越多,甚至普遍出现了认为模型越复杂水平越高的误解和学术导向。很多现象本来用简单的平均数即可解决问题,但很多人要用复杂的模型,用大家不容易理解的语言来表达众所周知的事实,故意制造神秘感。很多论文都在做类似于“兔子长有几只耳朵的”的所谓的“学术”研究,其中不少论文会通过复杂的模型得到“兔子长有三只耳朵”的违反常识的结论。三是模型的实际应用价值在下降,例如研究经济问题,需要对经济现象有深刻的理解,但很多人对经济根本不了解,找一点数据,用一个统计模型,用统计软件得到一个估计结果,就对国家有关部门提出政策建议。其实这是在自娱自乐,玩数字游戏,几乎没有实用价值。四是很多杂志良莠不分,标准不清,没有复杂模型的论文不发,对滥用模型起到推波助澜的作用。

面对这些挑战和问题,统计学必须及时转型。个人认为,在统计建模方法和模型应用方面,一是要在思想认识和方法上转型,认识到统计方法自身也有缺陷,应该不断创新统计方法。例如,要正确对待统计“估计”结果,从传统的单样本估计向多样本估计转型;正确对待“假设”检验的结论,从“假设”检验向“模拟”检验转型;转变样本神圣不可侵犯的思想,将样本主动优化的思想纳入统计建模。二是要重视学科交叉,学科之间相互认可和结合。例如,在统计学家眼中,数据量再大也是样本,而在其它学科看来,数据量再小也是总体,因而统计模型要从样本检验总体,而其它学科就不强调“假设”检验。这就提示我们,不同学科的思想都有其优势,统计方法不应该唯我独尊。要做到数理统计与经济统计互相认可和结合,发挥数理统计模型的优势和经济统计对经济现象认识的优势。要加强统计学与运筹学和计算机信息科学结合,发挥统计模型、目标优化与机器学习各自的优势。三是在“问题导向”的指导思想下应用模型,重视用“应用价值”标准评价模型,减少或避免模型的误用或滥用,提高统计模型在实践中的有用性,避免统计应用的唯数学化倾向,保持统计学科在应用方面的生命力,保证已经从数学分离出来的统计学不再退化到作为公共基础性质学科的数学。四是要大力开发统计产品。经济统计学要打破主要为政府服务,为宏观经济服务的固有思想,多开发符合市场需求的统计产品;数理统计要改变目前主要以给其它学科提供统计方法为主,转变为直接为行业和企业提供统计产品为主。总之,统计学需要转型,统计模型需要改进。模型应用需要更加重视实用价值,这样才能满足大数据时代发展的要求。

深化我国政府统计调查体系改革的建议

刘建平 暨南大学

我国已建立起一个庞大的政府统计调查体系,随着改革开放的不断深入,体系中深层次矛盾和问题逐渐凸显,不能适应时代和形势发展的要求,一是不能适应政府职能转变的要求,二是不能适应经济全球化和IMF制定的GDDS以及SDDS的要求,三是不能适应大数据时代的要求。存在的主要矛盾和问题是:1.缺乏系统的顶层设计;2.未摆脱对全面统计报表制度的路径依赖;3.经常性抽样调查缺乏科学的连续性设计;4.政府统计管理体制尚未理顺,调查组织机构设置不尽合理;5.政府统计数据供需矛盾日渐突出,调查资源浪费与数据短缺并存;6.统计监督能力不强,数据抗干扰性差。

为此,提出深化改革的三条路径建议:

1.改革完善现行政府统计调查制度方法,把在做的做好。首先,明晰各种调查方法功能定位,从建立系统的顶层设计机制入手。其次,完善现有周期性普查制度。现行三大综合性周期普查,一是需要“瘦身”,二是必须将需要与可能结合,三是要统一农业普查与经济普查的频率和时间。其他周期性专项普查和一次性普查也要纳入顶层设计,统筹规划。第三,坚持经常性抽样调查的主体地位。住户类调查,按其内容特征和内在逻辑关系实施一体化设计,构建以劳动力和住户收支为核心调查内容的住户调查体系。基本单位类调查,实施目录抽样,即“四上”单位继续实施一套表统计调查制度,“四下”单位和个体经营户实施抽样调查,上下界限以省划线,并适当上移。经常性抽样调查实施科学的连续性抽样调查。住户类和个体经营户调查采用单水平连续性调查设计;基本单位类调查采用多水平连续性调查设计。第四,组织管理体系和相关法律制度给予相应配套改革。

2.探索充分利用行政记录的路径,把能做的做起来。将基于行政记录的名录库调查作为我国官方统计调查,逐步由名录库系统取代普查,由名录库调查取代抽样调查,充分发挥三者的互补作用,改革完善我国政府统计调查体系。

3.面向未来,开拓创新。首先,对大数据资源开放与共享机制的建立展开研究。其次,积极开展大数据应用试点研究。第三,对有关统计调查理论和方法问题展开研究。

智慧城市与大数据

金勇进 中国人民大学

1900年,全球只有13%的人口居住在城市中,目前,这个比例已经超过50%。在中国,居住在城镇的常住人口也已经超过50%,中国的城镇化建设正在以前所未有的步伐快速向前挺进。随着城市数量和城市人口的不断增多,城市被赋予前所未有的经济、政治和技术的权利,城市的发展也关系到城镇化建设和经济发展的大局。由此,建设智慧城市,实现城市各个领域的智慧化,既是世界范围的探索与追求,也是中国战略发展的必然选择。

“智慧城市”是个热词,但对此似乎尚无统一定义。我的理解是智慧城市就是在新一代信息技术支撑下,形成以人为本知识环境下的城市形态,通过信息提取与科学管理,构建可持续创新生态,经济协调发展,从而不断提高人民的生活质量。事实上,城市运行体征是通过数据进行量化表现出来的,智慧城市的每一个细节都会产生庞大的数据,城市发展是大数据形成的物质基础。但数据本身并没有什么意义,只有经过一定的处理,经过系统性分析,才能彰显数据的价值。改革初期我们称“摸着石头过河”,现在我们需要提升,要“看着石头过河”,也就是说,我们需要健全和完善各种信息系统,搜集相关可靠的数据,测量不同时间河的坡度与深度,寻找最佳的交汇点,做出智慧的决策,让更多人公平、安全地过河。

智慧城市的建设离不开大数据,大数据将成为智慧城市的智慧引擎。在城市规划方面,通过对城市地理、气象等自然信息和经济、社会、文化、人口等人文社会信息的挖掘,为城市规划提供强大的决策支持;在环境监测方面,对城市河流进行采样,依据空气质量监测数据,判别环境污染程度,提升城市环境质量;在城市交通方面,通过对道路交通信息的实时挖掘,向公众提供即时交通流量信息,缓解交通拥堵,并快速响应突发状况;在舆情监测方面,通过网络关键词搜索和语义智能分析,全面掌握社情民意,提高公共服务能力,应对网络突发事件,打击违法犯罪。总之,大数据是智慧城市的核心资源,智慧城市建设和大数据结合能够产生更多的价值增量。

但是,在智慧城市的建设中我们也面临种种挑战。就数据而言,城市发展积累了很多数据,但尚缺乏深入应用。交通拥堵、环境污染、食品安全、公共医疗、政务协同等等,这些都是大数据可以开发、应用的领域,而目前的瓶颈是信息分割,各政府部门间不愿公开、分享数据,造成数据之间的割裂。以人口数据为例,人口出生、死亡数据在公安局,入学、升学信息在教育局,结婚、离婚、收养数据在民政局,医保、生育保险数据在社保局。人的一生都有行政记录记载,但是数据间的联系被割裂了。

大数据的关键在于信息分享,智慧城市的标志是“数据智慧”,数据产生智慧需要将专门领域的知识和量化分析方法与经验、理解、常识、洞察力及良好的判断力相结合,思辨性地理解数据,并依据数据进行决策,充分利用信息和通讯技术手段,感测、分析、整合城市运行核心系统的关键信息,为人类创造更美好的城市生活。

统计学在健康卫生领域的应用大有作为

易丹辉 中国人民大学

2016年8月的全国卫生与健康大会,习近平总书记发表了重要讲话,提出“倡导健康文明的生活方式,树立大卫生、大健康的观念,把以治病为中心转变为以人民健康为中心”,同时指出将健康管理贯穿于人生命的全周期,进一步推进健康中国的实现。在这一建设过程中,需要建立事前健康管理、事中诊疗监控、事后赔付核查的“三位一体”医疗风险控制机制,需要建立健康/疾病风险评估群体或个体水平上的评估机制,而健康/疾病风险受社会因素、生物因素和心理因素的共同影响,涉及社会经济发展水平、遗传背景、环境因素暴露水平、心理精神健康状况等,涉及医疗卫生和健康管理的各种数据。包括人群流行病学监测数据(肿瘤登记、心血管病报告、传染病报告、死因监测等)、疾病诊疗数据(门诊、病房的病案资料等)、健康体检数据、组学数据(基因组、代谢组等)、社会经济数据等等,对这些数据进行有效处理,离不开统计学。

如何坚持以预防为主,中西医并重,将健康融入所有政策,人民共建共享的伟大蓝图,实现精准医疗、健康措施的精准推荐,都离不开大量的数据分析与研究,这需要借助统计学。要让广大人民群众享有公平可及、系统连续的预防、治疗、康复、健康促进等健康服务,离不开对大量连续观察数据的分析探讨,需要运用统计学方法。要做到正确处理政府和市场关系,在基本医疗卫生服务领域政府有所为,在非基本医疗卫生服务领域市场有活力,更离不开数据的支撑,需要统计学提供科学依据才有可能达成。

随着我国卫生健康事业的发展,各种与人民生活、健康相关的数据会越来越多,需要分析研究的问题也越来越多,统计学的方法与应用越来越重要。

网络舆情分析的统计思维

朱建平 厦门大学

《统计与信息论坛》伴随着我的教学科研共同成长,30年的历程,同样验证着我国统计学科的变革与发展。“互联网+”行动的实施,驱动着时代前行,给统计学学科建设提出了严峻的挑战。时值《统计与信息论坛》创办30周年之际,就近年来在网络舆情分析应用和研究中遇到问题,谈谈自己的一点思考。

近年来,随着社会复杂程度的日益提高,网络舆情信息安全受到广泛重视,网络舆情监控及信息分析技术的研究不断深入,适宜网络舆情分析的方法不断涌现。在应用中,针对网络舆情分析的总体思路,某些步骤流程的具体实施处处体现着统计的思维和方法。

1.网络舆情信息采集中的统计思维。传统的舆情信息汇集方法和渠道主要有文献研究、社会调查、计算机辅助电话访问调查、网络调查、舆情直报点、内参、信访工作、网络论坛等。针对网络舆情,文本数据主要建立在互联网上的Web页面和一小部分互联网应用软件系统中。此时搜集信息主要是网络定性资料收集技术,例如现有的网络爬虫或对其进行改良的网络爬虫完成信息的高效采集。这一思维将会进一步开拓或提升统计调查技术的理论与方法。

2.网络舆情信息过滤中的统计思维。一般釆用基于内容的过滤、基于网址的过滤和混合过滤等多种形式完成舆情信息预处理。在具体实施中,舆情过滤主要利用判断页面内容与主题的相关性,这是一种基于关键词的模糊匹配方法。在舆情分词方面,主要借助现有成熟的分词系统完成分词,并利用语义分析法和人工智能分词法完成分词,在此基础上提出的网络舆情热点发现分词法有效提高了网络舆情分词的精度。这一思维将进一步加深定性资料聚类分析和判别分析的研究。

3.网络舆情信息挖掘中的统计思维。基于Web挖掘的方法是数据挖掘在网络信息分析中的新应用,它能自动、智能地获取并发现相关舆情信息内涵和舆情热点,提高舆情处理和分析的效率和质量,实现网络舆情的智能分析和动态预警。这一思维将智能分析和统计模拟相结合,会开辟出新统计模拟的研究领域。

4.网络舆情信息量化中的统计思维。基于语义的数据挖掘方法则主要通过分析Web文本中潜在的语义结构或借助本体、语义词典等外部语义知识,从舆情文本语义层面发现舆情规律,主要包括潜在语义分析法和基于外部语义知识的语义分析方法等。该方法能够将传统的文本分析深入到上下文的语义层面,通过量化加强对文本的语义特征提取和语义相似度计算来提高信息分析的精度。这一思维将会在完善文本数据分析技术的基础上,进一步产生新的文本数据研究的理论和方法。

网络舆情分析是一个充满机遇与挑战的研究领域,涉及多个学科领域。还应该注意到,如何评判舆情分析的正确性和科学性是一个值得研究的问题。另外,民众的情感隐藏在文本语义中,现有方法大多围绕语法展开,语义层面的舆情分析技术还有待提高。

统计学在能源领域研究的应用

周四军 湖南大学

我国经济经历30多年的改革开放发展,经济又受到过金融危机的冲击,经济需要从高速增长向新的发展模式转型,即“新常态”。从原有的发展向“新常态”迈进过程中,我们将面临许多需要解决的困难和问题。习近平主席在G20杭州峰会开幕词上提出了五大发展理念——创新、协调、绿色、开放、共享,这与我国“十三五”规划纲要里的五大发展理念基本上是对应的。习主席十分看重全球治理的问题,并提出了四个重点:金融、贸易投资、能源、全球发展。其中能源利用是一个关键因素。这轮金融危机以来能源也是全球关注点,奥巴马上任以来也把能源作为美国经济的一个重点,围绕着能源问题、新能源问题,新能源与化石能源、清洁能源与化石能源的关系如何协调问题,能源引发的气候变化、温室气体排放问题等等,都是和能源相联系在一起的。能源问题将是国内外经济学研究的一个长期的热点问题,统计学作为一门方法论学科,在能源领域研究的定量分析方面将发挥重要作用,包括:能源利用效率、环境效应、节能减排、技术进步、能源消费结构、能源回弹效应、能源环境政策评价等方面。

百尺竿头 更进一步

蒋 萍 东北财经大学

2016年是《统计与信息论坛》创刊30周年,这是一件值得庆贺的事情。30年来,《统计与信息论坛》坚守统计学发展的前沿阵地,积极传播优秀的统计科研成果,见证并促进了中国统计学的发展,赢得了学术界的认可与高度赞誉。

回顾30年的发展历程,《统计与信息论坛》对中国统计学发展的贡献主要体现在两个方面:统计研究成果的传播平台、统计学者的成长平台。首先,作为专业的统计学学术刊物,《统计与信息论坛》坚持走专业性、学术性道路,刊发了大量优秀的统计科研成果,这些研究成果基本涵盖了统计学的众多研究内容,包括统计方法、统计应用、统计调查、统计教育等;其次,《统计与信息论坛》还伴随着统计学者的不断成长。《统计与信息论坛》既刊发国内统计学届权威学者的研究成果,也刊登中青年统计学者的优秀成果,极大地调动了广大统计科研人员的积极性,是中国统计科研人员和统计实践工作者的成长园地。

当前,国内统计学发展既面临大数据带来的巨大冲击又面临统计学上升为一级学科的现实背景,可以说,中国统计学的发展已经进入了一个新的历史阶段,统计学刊物也面临与时俱进的挑战。未来,《统计与信息论坛》应基于当前的中国统计学发展的现实背景,继续做好优秀统计研究成果的展示平台。

办好学术刊物不容易,能够数十年坚持学术至上为原则办一本学术刊物更不容易。多次获得各类荣誉称号是对《统计与信息论坛》多年来不断创新求索的最好诠释。未来,相信《统计与信息论坛》一定能百尺竿头,更进一步,为中国统计学的发展做出新的贡献。祝福《统计与信息论坛》的明天更加美好!

祝贺与期望

罗良清 江西财经大学

作为一名《统计与信息论坛》的忠实读者,我有幸见证了《统计与信息论坛》的发展历程。从最初未进C刊的默默无闻,到励精图治、严控质量,发展为现在的知名核心期刊,受到学术界普遍的赞誉和好评。我的几次投稿,编辑部给我的感受是不仅回复快,而且精益求精,给出许多中肯的意见,使文章不断完善。可以说,《统计与信息论坛》能取得今天的辉煌成绩,最离不开的是编辑部老师和审稿人的辛勤付出。在《统计与信息论坛》创办30周年之际,我谨致以最热烈的祝贺。

《统计与信息论坛》为统计学界提供了良好的学术交流平台,在促进我国统计学的研究和发展、学术信息交流、分享学术经验中起着推动和不可或缺的作用。在未来的发展中,希望《统计与信息论坛》一如既往地支持中国统计学科的发展,紧扣时代脉搏,追踪统计研究的最新动态,汇集统计研究的最佳成果;立足统计实践,传播统计知识,扩大统计学科的影响力。以诚恳精良的专业精神,严谨务实的学术品格,脚踏实地的工作态度,把《统计与信息论坛》越办越好,创造更美好的明天!

《统计与信息论坛》——统计学学术研究的弄潮儿

白仲林 天津财经大学

《统计与信息论坛》自1986年创刊已经走过了30年的发展历程。近10年来我不仅是这份国内最高层次学术研究刊物的热心读者,而且自2008年起还荣幸成为她的作者之一。所以,《统计与信息论坛》已是我的良师益友。

30载的《统计与信息论坛》以其科学严谨的天性、创新探索的禀性和公平公正的习性赢得了国内学术界的广泛褒奖,为培育、塑造统计学(者)的科学才智做出了巨大的贡献。

《统计与信息论坛》的栏目设置涵盖了演绎和归纳的科学研究方式、刊载内容与时俱进。尤其,在已经降临的“大数据”时代,《统计与信息论坛》传承和发展了突出因果关系分析的统计理论方法的研究,也开创了注重相关性分析的经验研究,并有力地推动了统计学科体系的转型和升级。有鉴于此,相信《统计与信息论坛》一定能够成为中国“大数据”统计学学术研究的弄潮儿,继续深化大数据的消噪、全样本抽样、多样化大数据稀疏性建模、以及对(基于小概率事件推断原理的)假设检验挑战等研究方向的理论探索及其应用研究。

展望未来,期待着《统计与信息论坛》一如既往地坚持理论性、学术性和权威性的方向,引领当代统计学研究的潮头。衷心祝愿《统计与信息论坛》越办越好!

(责任编辑:杜一哲)

猜你喜欢
舆情信息统计学
关于投稿的统计学要求
统计学符号使用的说明
统计学符号使用的说明
本刊对来稿中统计学处理的有关要求
订阅信息
消费舆情
舆情
舆情
舆情
展会信息