十九大报告中提到:“促进高校毕业生等青年群体、农民工多渠道就业创业”,“推动互联网、大数据、人工智能和实体经济深度融合。”
随着大数据应用的发展,大数据价值得以充分体现,大数据在企业和社会层面成为重要的战略资源,数据成为新的战略制高点。作为一种新的资产类别, Google、Facebook、亚马逊、腾讯、百度、阿里巴巴和360等企业正在运用大数据力量获得商业上更大的成功,金融和电信企业也在运用大数据提升竞争力。
大数据在带来发展的同时,也面临着三大挑战:第一大挑战是“数据过载”。我们现在每天产生的数据量大约相当于公元元年至一千年全人类产生的数据总量,而且这个量还在指数级不断增长。所以大数据时代第一个重大的矛盾,就是日益增长的数据总量和我们普通人分辨甄别数据能力之间的矛盾,我们把它叫做数据过载。
第二大挑战是数据的形态发生了巨大的变化。以前我们接触的绝大多数数据是结构化的数据,但是现在的数据更多变成了非结构化的数据,比如语音、图像、视频、社交关系网络、空间移动轨迹等等。这些数据量非常大,里面藏着巨大的价值,但分析挖掘起来很困难。
第三大挑战是数据之间存在“孤岛现象”。比如说新浪微博的数据、腾讯QQ的数据、线下公安局的犯罪记录数据,这些数据之间并不联通,就像一个个信息的孤岛。如何在安全、隐私可控的情况下,打通不同领域的数据,将不同平台不同维度的数据通过同一个人、同一家企业、同一部手机、同一个位置关联起来,产生1+1远大于2的价值,是大数据时代的又一大挑战。
我的博士生导师周涛教授在大数据行业赫赫有名——他是《大数据时代》的译者、2015年中国十大科技创新人物之一,我是他培养的第一届创业型博士。在周教授的指导下,我发现大数据在带来挑战的同时,也带来了机遇。于是,我带领一群刚从电子科技大学毕业的学生团队开始创业,有针对性地在大数据行业做了三项基础技术工作。
一是对海量公开数据的大规模采集、存储、分析、处理。目前数据采集存量已经超过PB级别,同时每天还在以TB的量级在更新。这些数据包含了新闻、社交、电商、招聘、企业、旅游等方方面面。
二是进行非结构化数据的结构化处理。例如淘宝的商品信息数据就是非结构化的,商品颜色、规格、风格、包装等诸多信息杂乱且不规则地分散在商品标题和描述中,我们用计算机按照结构化数据的特点填放到各种“表格”中,就可以使商品数据的分析变得十分简单。
三是做数据的跨域关联。把不同维度的数据进行跨域关联来综合描绘一个目标体,这个目标体可以是企业、人群、商品、品牌、商铺等等。例如,把公开采集到的企业工商信息、招聘信息、电商销售信息、新闻舆情信息等通过同一个企业主体关联起来,形成企业画像,在做企业信贷评估、企业定向服务等方面十分有用。
当前,许多传统的实体企业都在探索科技转型升级,我们团队依托以上三项大数据基础能力,为大型实体企业提供大数据服务。
在“五粮液大数据项目”中,团队为客户搭建起一个大数据平台,基于这些数据,以“五粮液”这个品牌为中心进行跨域关联,建立多维度的“五粮液品牌画像”,从品牌覆盖度、舆论热度、美誉度到市场表现、经营现状、竞争对手、科技力、商品优缺点等维度的定量化数据展示,从而帮助五粮液利用大数据在精细化生产、个性化营销、实时化品牌保护等方面提供决策支撑。
我们的创业公司叫“卧龙大数据”。人们称赞卧龙孔明可以通过掌握大量领域的知识和信息进行预测,我们也希望能通过更加现代化的手段将海量数据跨域关联起来,进行分析预测,从而为国家决策提供建议、为企业发展提供支撑、为人民生活提供便利。