创建“可观”的大数据

2015-08-02 10:37春秋
上海工运 2015年12期

文/春秋

创建“可观”的大数据

文/春秋

关于小爬虫的努力奋斗史,人们关注兴致缺了些,一个数据与一堆数据在非专业人士眼里,实在差别不大。另外,这一个小爬虫软件与另一众小爬虫,它们在互联网世界抓取千变信息的功能上,分不出显然的高下与优劣。所以,要成全某些东西的独一无二,视角应当要变化下,比如抓取之后拿茫茫数据怎么办?

在这些冗杂的语言、数字或字符串中理出一条人类新媒体传播的头绪。禹卫华的答案大致如此。他是上海交通大学媒体与设计学院院长助理,也是大数据与传播创新实验室的主任。

实验室背景

上海交通大学大数据与传播创新实验室又称T-Lab,即“透明(Transparence)实验室”,一方面因为实验室从房间到办公桌都是钢结构与玻璃,一切一览无余,另一方面也表达在大数据时代几乎都是透明的理念。实验室是一个开放平台,不但对接校内,同时对接校外的各类需求,致力于通过平台建设推动新闻传播学科的转型与升级,通过短期培训与日常教学工作共同实现新闻传播业务的不断创新,实验室也形成社交媒体挖掘数据库并定期发布研究报告。

在信息的最终端

外界把“对互联网BBS论坛、博客、微博、转帖、新闻跟帖等内容进行实时采集和监测”的软件统称为舆情监测软件,比小爬虫多了统计与预警的用处。由禹老师麾下实验室开发的Socialdata-x归类于此,但也远不止。

“一般这一类软件顶多把采集好的敏感关键信息由出现频率多少来排名,它们在互联网上出现到了一定数,软件开始发出危险预警。然后没有然后了,也没有关于事件的结论。”禹老师立志让Socialdata-x补上后来的环节。当然,基于实验室优秀的技术支持,小爬虫完美铺网,地盘势力覆盖几大远近闻名风头无二的社交平台,尽所能地爬梳完整详细丰富的信息。

前阵,允许普通二孩的政策由官方发布后,赞成否定中庸的各执一词,各方观点风起云涌,在网上轰炸开了花。这档口,禹老师聚焦的是国外对此的看法。“公布的那天晚上六点到隔天的早上六点,外国知名的社交网站有7万条相关评论信息。我们的软件把它们全部装箱入数据库,再开始清点过滤。”之前这热点还在预热的一个月里,库存的对“普二”的外文网络评点已经多到十几万条,好在经过程序整理,撇去了无序或断片的内容,余留下5万条精装版本。

接下来,禹老师会凭着自己的智慧与传播学理论根底,拨云见日般地剖明海那边的大众态度与这一次的传播意义。专业点说,这是社群连接分析。“大数据的最终端,是由人去观察,站在辅助者角色的软件无法越界代替。”

扯去大众难解标签

禹老师点开自个计算机页面上一幅幅颜色迷离酷炫的图,一些比烟花更灿烂,一些是点缀后的中国地图,还有的里外三层圈,在黑色的布景下像极了科学界对太阳的层级解构。它们不是现代派艺术家的美好作为,它们是可视的能被理解的数据图画。

于是,除了书面的专业报告外,数据扯去了大众难解的标签,堂而皇之地亮相。

定位在呼和浩特,某人在微博上抒发对高考改革话题的一些片语。这一段往常以文字表述的内容抽象成了荧光蓝色的点,在中国地图上定格于呼和浩特位置,别的圆点与它一起散落着,仿如眨眼的夜深星空。鼠标在这点上划过,某人自发的评论文字显现出来。围绕数据的人事物在同一维度到齐。再微观来看,相对北京的其他地方,昌平区集凑着更密麻的圆点。“因为那儿外来人口多,所以对异地高考的新闻格外关注。”

谁对谁影响,谁与谁联系,一张繁复的尘网不再是语言上的描摹。点成了圈,圈外扩展出了点。“微博上,转发与评论的人都在数据图上留痕。”那时那会儿的人际传播过程倒回在数据图上。另方面,小爬虫还能抓牢各种出现在留言中的表情符号,禹老师把它称作情绪数据。好比简单明了的关键词“好”,末尾加上问号与感叹号,两者寓意迥然不同。

“虽然有些成果,但我们的研究还要深入。”禹老师以一向的自谦语调说道。

想象“码”在现实里

当翩翩自带文艺风况且学文从文的禹老师,遇上以技术流攻城略地的理科人士,那么两相说得清吗?

实验室的草创初年,一文两理三皮匠聚在一起,默默擦着冷汗,因为你方唱罢我听也不懂,感性思维与理性的一对垒,结果是两两“阵亡”。数据怎样粉墨呈现,禹卫华在脑内补完后,对着队友吴桑与XMAN倾倒出来,希望借助他们的智慧双手,把想象“码”出在现实里。但身为与直线曲线表格之类传统形式打交道的理科人士,难理解禹老师浓墨重彩的数据抽象画。不过来日方长,三人磨出了相知的默契。

禹老师花一暑假时光看完程序员宝典,终于跨过了写代码的门槛。他不说自己称得上能手,但也摆脱了当懵懂门外人的局面。事实上,到了后来,实验室的三人交流,用的是代码,是高端的计算机语言,不再是普通话或英语。

偶然有时候,两位高手正巧不在,出手解决虚拟世界问题的就是当年不懂的禹老师。“微信十秒钟换一次接口,这下得不到公众号数据了。”日常工作处在崩盘的崖边上。禹老师稳了稳焦急的心神,转念想,就像钥匙环上扣了太多把钥匙,到头来自己绕进去,甚至找不到开家门的那把,对方也是这样,担负过重,早晚放弃。

所以,禹老师两手一挥,任它去十秒变化吧,他让代码改回到原来的日常状态。过了几天后如禹老师所想,一切恢复到原来,包括那微信接口。

故事终于迎来了团圆的结局。

最近,禹老师忙里抽空地开启微信公众号newdata,在平台上晒出独家的新媒体全景数据,文章以数字分析与观点见长,不过笔调依然属于文人style。

v名词对对碰

Socialdata-x新媒体全景数据平台,聚合当前主要社会化媒体如微博、微信公众账号、论坛等数据资源,是专门面向学科背景为人文社会科学的研究者、媒体从业人员、公务部门开发的一个集采集、分析、交互可视化为一体的分析平台。

Socialdata指的是社会化数据,即可以获得的、公开的社会化数据,x指的是学科,可以是新闻传播学、社会学,也可以是政治学、教育学等,凡需要进行社会化数据研究的研究者均可使用。