刘春辉
(云南财经大学体育部,云南 昆明 650221)
大数据分析作为大数据使用过程中最基础的内容之一,在其应用的过程中,就是要对多类型、大量的数据群体进行全面的剖析,从而能够将隐藏在数据集群中的有效数据信息挖掘出来。近些年来,大数据分析技术的快速发展受到了图书情报界的高度重视,大多数的学者认为大数据分析的出现,对推动整个图书情报行业的发展有着非常重要的意义,同时也认为大数据分析对情报学产生的影响不是片面的,而是非常全面的,其中最为显著、直接的影响就是情报分析。
情报分析在实际应用的过程中也可以称为情报研究,就是结合用户的实际需求,利用现代化的科学技术和操作手段来对数据进行分析和评价,从而获得更有价值的情报产品。所以才会说,情报分析与大数据分析之间有着一定的共性,都是将数据和信息作为主要的研究对象。
从19 世纪的工业革命以来,蒸汽机的出现对人们的生活和工作方式带来了非常大的冲击,自进入20世纪以来,计算机的出现则大大地推进了时代的变革,人们的生活方式更是发生了巨大的变化。移动互联网端的社交方式,已经成为人们日常生活的重要组成部分,每分每秒都在进行大量的数据更替和交换。据统计,当前阶段互联网运行一天内所产生的数据能够将整整两亿张的光盘刻满,已经完全超过了人类所产生的可印刷数据的总和。大数据带来的是一个时代的变革,各行各业的数据都已经进入了量化发展的阶段,数据信息也变得随处可见。当然数据群在变庞大的同时,同样也会变得非常冗杂,因此做好数据的划分也是非常必要的。同时,从烦冗、复杂的数据群中筛选出更有价值的数据信息,或者是创造出更有价值的信息,都有着非常重要的价值。
情报分析对于数据的依赖和重视程度也是非常高的,在进入大数据时代之前,情报分析是由少量工作人员,通过对特定数据进行分析得出结果。自进入大数据时代以来,情报分析所需要面对的数据群得到了进一步的扩大,综合知识的涉及范围越来越广,分类的细化程度也在不断地加深,在想通过人力来完成数据的分析显然是不可能的,因此情报分析工作也越来越依赖计算机了,但是这也从侧面凸显出数据分析是情报分析的重要环节之一。
对于大数据来说,数据结构上的多样性是其最为突出的特点之一,日常生活中的信息、 交易记录、照片、电子邮件等,都属于大数据的范畴,只是数据的形式不同而已。通过这些动态的数据更替,能够更好地反映出相关的人物或者是事件,同时在此基础上,进行更加深入的数据研究和分析的话,还能够实现对事件和人物的深度挖掘。在实际的市场应用中,可以对得到的大数据信息进行进一步的挖掘和创新,从而得到一种新的商业形式,这对市场的开拓以及竞争力的提升,都有着重要的作用和意义,同时还能够为新商业形式的选择提供可靠的保障。例如,可以通过对某用户浏览记录信息的分析,判断出用户日常的喜好和浏览习惯,从而利用数据分析的形式,在用户后期浏览的过程中,做好定向的推送。除此之外,还能够通过各种形式的社交平台发掘用户的社交状态以及个人动态,通过对不同层次数据信息的利用和整合,得到全面的用户特征体系。
随着大数据技术的快速发展,情报分析手段在多个行业都得到了规模化的使用,同时随着使用深度的不断增加,需要考虑和研究的问题也越来越多。情报分析发展至今,单一的数据已经无法更好地满足情报分析的需求,因此实现信息的多元化整合对整个大数据技术和情报分析技术的发展有着重要的意义。例如,对于一篇论文来说,其来源可能是维普、万方、知网或者是其他,但是要想完成一个课题,仅仅依靠某一篇论文是不行的,需要进行大量的数据汲取和整合,以得到有效的数据信息,从而更好地完成一个论文课题。
如果两个或者是两个以上的变量,在面对一个相同规则时,对于变量的取值有着一定规律性的话,在取相同变量值的同时,其对应的变量就会按照某种规律发生相应的变化,由此就可以说两者之间存在着一定的关联性。在当前的大数据时代背景下,大数据分析过程中对于数据的处理,在理念上有三种较大的转变,首先就是数据对象要全体不要抽样,其次对于数据处理效率的要求要高于处理结果的精确度,最后就是要求数据之间的相关性而不是因果性。其中相关性则是大数据分析的特征。同样,在情报学的基础原理中,相关性也发挥着巨大的作用,同时相关性分析也是情报实践分析过程中的常用方法,任何一种情报都是在一定规则的影响下相互关联的。
通过上述分析能够看出,大数据分析和情报分析之间还是存在着比较多的共性的,但是差异性的存在也是不可否认的。从数据对象的层面来进行对比的话,大数据分析更加侧重的是数值信息,而情报分析更关注的则是文本信息;从数据规模的层面来进行对比分析的话,大数据分析的整体数据规模比较大和全,而情报分析则追求的是数据的适合度,突出的是数据所具有的关键性; 对于分析时机上的差异来说,大数据分析一般进行的是实时分析,而情报分析却存在一定的时滞性;对于数据任务来说,情报分析的任务非常明确,整个分析模式也是规定好的,整个分析按照既定的流程开展即可,而大数据分析侧重于对新模式的挖掘。
情报分析与数据分析之间,不仅分析对象上有所差距,在数据性质方面也存在着较大的差别,不管是定性分析还是定量分析,情报分析都是以文本分析为主要对象和分析基础。这里所说的文本分析,主要指的是专业、论文、科技报告、政策文本等内容对象,由于情报分析的对象是文本,而文本本身又有着语义上的关联关系,因此对于情报分析来说,其分析过程的重要内容就是找出这些文本之间所具有的语义关系。大数据分析则与情报分析是完全不同的,大数据分析对分析对象的类型没有具体的要求,并不局限于某种类型的数据信息,从现阶段的实际应用情况来看的话,大数据分析更多时候是以数值数据和结构化的短文本数据为主要分析对象的,常见的大数据分析对象包括销售数据、用户数据以及传感器所采集到的数据等。
对于大数据来说,其分析对象是大数据,但是结合大数据的定义和基本的特征来说,只有达到PB 以上级别的数据信息才能够称为大数据信息。除此之外,维基百科对于大数据的定义也有着清楚的解释,就是无法在短时间内利用一些常规的软件来对相关的内容进行管理和处理的一种数据集合,也可以解释为,能够通过传统算法或者是数据库系统进行处理的数据则不能被称为大数据。除此之外,对于大数据分析工作而言,其分析过程更加强调的是对全体数据的分析,这也是大数据分析工作的显著特点之一。
对于情报分析来说,大多数的分析过程都不需要使用大量的数据,有海量的数据集合就已经能够满足情报分析工作的开展需要。对于情报分析工作来说,在开展某一分析任务时,要想获取和任务有关的全部数据几乎是不可能的,即使能够收集到全部的数据,在情报分析的过程中,也不一定需要对全部的数据信息进行分析,通常情况下只需要对部分关键数据和主导数据进行分析。
对于数据的分析时机来说,通常分为实时分析和历史分析两种情况。历史分析指的就是对历史出现的数据整体进行科学的分析,当前阶段的历史分析的主要方式有两种,分别是交互式的历史分析和批量式的历史分析。而实时分析则可以理解为动态分析,在实践的过程中一般包括基于时间窗口的分析和动态流的分析。对于大数据分析而言,其提出的目的就是更好地满足对数据量、 数据类型以及处理速度的要求,实时分析也因此成了大数据分析的一大特色。但是,对于某些具有特色、 特点的大数据分析系统来说,由于应用场景的不同,对于历史分析能力也有着一定的要求。
对于情报分析和数据分析在分析时机上的差异来说,主要体现在分析的过程中,情报分析的分析过程并不会对历史分析还是实时分析进行区别,虽然在情报动态分析的过程中,对于新数据集群的依赖性比较大,但是在对数据的规律性进行总结的过程中,通常会带有一定的阶段性和滞后性。因此,对于数据情报分析来说,要想实现对趋势和规律的总结分析,就会涉及对历史数据的整合和分析。
对于大数据分析来说,其最典型的分析任务就是通过数据之间的相关性,来实现对数据模式的深度挖掘和预测分析。对于数据挖掘来说,大数据强调的是数据未知性和未知模式之间的相关性,仅在此点上,大数据分析就与情报分析之间有着较大的差异。对于预测分析来说,大数据分析主要包含对趋势和缺失信息的预测,所谓趋势预测就是对事物可能的发展轨迹和最终产生的影响力进行分析,而缺失信息预测则指的是对现有信息中缺失的信息或者是始终未出现的信息进行预测。
对于情报分析来说,其分析目的和分析任务一般都是比较明确的,并且在分析的过程中,还需要回答具体的问题,也就是说,在情报分析工作开始之初,就已经知道了整个分析的结果。对于情报分析工作人员来说,其主要的工作任务就是围绕着整个情报分析的课题,对各类相关的信息进行搜集,同时还可以利用各种形式的工具和方法来开展内容分析的工作,对于分析过程中可能出现的新现行、 新情况等进行监控,并结合分析结果中的蛛丝马迹,去探索数据群体中的规律,最终形成一份完整的分析报告。
通过对大数据分析和情报分析关系的科学辩证,可以清楚地认识到,二者之间既存在着一定的共性,也存在着一定的差异性。但是,二者在实践应用的过程中,并不会因为差异性的存在,而影响到实际应用的效果。在实践中通过对大数据分析和情报分析共性的总结和整理,能够更加清楚地认识到大数据分析给情报分析带来的发展和机遇。但是,要能够认识到情报分析和大数据在本质上的差异,即使大数据分析的规模越来越大,涉及面越来越广,但情报分析仍有着自己独有的特色,如果实践者能够将情报分析的特色和优势充分发挥出来的话,对于大数据时代的发展也是一个巨大的挑战。