2012年8月7 日消息,加州大学洛杉矶分校电气工程专业的女博士生Roj a Bandari开发了一种算法,预测新闻能否在Twit ter上流行,或者在社交网站上引发热烈讨论。据称这一算法的准确率达到84%。
Bandar i此前曾在惠普实习。她在设计这一算法时也得到了惠普实验室两名研究员的帮助,相关论文则发表在今年6月的2012年国际人工智能发展协会大会上。
通过人工智能方法,Bandari和惠普两名研究员分析了与超过4万条新闻有关的数百万条Twitt er消息。在4/5的情况下,如果算法将新闻打上“热门”标签,那么相关的Twit ter消息数量将超过100条,而对于非热门新闻,相关的Twit ter消息通常少于20条。
这一算法能解决多方面的问题,而Bandari目前正专注于探索新闻如何实现病毒式传播。她正在加州大学洛杉矶分校与Vwani Roychowdhury教授共同研究这一课题。
2010年时,他们研究了在2009年伊朗街头游行中,信息在Twit ter上的传播方式。这促使Bandar i对新闻在Twit t er上的热门程度做进一步研究。她分析了每一篇新闻中的多个变量,发现影响新闻热门程度的最重要因素是新闻的发布机构。一些机构的新闻会更多地连接至Twit ter消息,无论是被读者还是新闻作者。
例如,《基督教科学箴言报》的每条新闻平均带来16条Twit t er消息,其中一些新闻完全没有出现在Twitt er上。与之相比,知名科技博客Mashabl e的每条新闻平均带来超过1000条Twitt er消息,而最冷门的新闻甚至也带来了360条消息。
“我们发现,新闻来源是影响热门程度的最关键因素。”Bandar i表示,“在Twitt er上,成功的消息源可能与其他地方有所不同,Mashabl e的新闻比CNN更流行。《基督教科学箴言报》可能是谷歌上最重要的新闻来源之一,但在Twitt er上几乎不存在。”与TechCr unch、Mashabl e和赫芬顿邮报相比,《纽约时报》、《洛杉矶时报》和路透社等传统新闻巨头在Twit ter上并不是那么受欢迎。
Bandar i等人还设计了名为“主观分类器”的机制,衡量新闻是否采用带偏见,或情绪性很强的语言。研究人员将脱口秀节目主持人的谈话实录作为高度主观性语言,同时将CSPAN作为客观性语言。令Bandar i感到惊讶的是,主观性语言这一指标不会对新闻热门程度产生太大影响。无论是平淡的陈述还是激情的话语,都不会影响新闻热门程度。
Bandari表示:“新闻行业有一种观念,即一些新闻被炒热是因为煽动了读者感情,但实际上并非如此。如果希望使用过激的语言来增加曝光度,那么完全行不通。”
Twit ter以及一切微博服务的核心就是"转发"
此外,话题与新闻热门程度也没有太大关系。在Twit t er上,科技类新闻最流行,但由于每一篇新闻都可以被归入不止一个门类,因此准确预测很难。而尽管外界普遍认为涉及名人和知名企业的新闻将会引起更多关注,但实际结果也非如此。
Bandar i希望,自己的研究有助于增加记者和博客编辑所撰写文章的转发量。她表示:“如果你是一名科技新闻的自由撰稿人,那么不会想要给《基督教科学箴言报》写文章。如果你来自传统的大型媒体,那么现在情况已变。你需要与新兴媒体竞争。此外人们对内容更感兴趣,而不是你文章中的语气。夸张的语言无法带来更多曝光。