文/ 佚 名
写稿机器人
文/ 佚 名
2015年9月10日,一条标题为《8月CPI涨2%创12个月新高》的新闻在腾讯财经上发布。看上去,这条新闻的内容和媒体记者日常的消息稿无异,引用了统计局的数据,还加入了国家统计局城市司高级统计师余秋梅以及银河证券等分析师对数据的分析和预测。但它背后的作者,其实是腾讯财经开发的写稿机器人 Dream Writer。
“机器人来抢记者饭碗了!”“记者们已哭晕”……写稿机器人一时间引发业内热议。
“根据算法在第一时间自动生成稿件,瞬时输出分析和研判,一分钟内将重要资讯和解读送达用户。”当时腾讯这样描述自家的写稿机器人。
距离写稿机器人Dream Writer发出的第一篇新闻已有一年多的时间,媒体中陆续已有如第一财经“DT稿王”、新华社“快笔小新”等机器人开始参与写稿工作。
Dream Writer项目副总监刘康对包括第一财经在内的媒体透露,目前财经+科技应用的发稿量超过2000篇/天,体育稿量500篇/天,包括每天行情报盘、上市公司公告精要报道,以及体育赛事每轮每场的消息。
不仅如此,基于写稿机器人,腾讯内部一款集合了新闻资讯类AI和超级资讯服务秘书类的应用正在研发当中。
之所以开发一款写稿机器人,源自腾讯自己的“痛点”。
刘康回忆,当时他所在的腾讯财经频道招了一批新人和实习生,大量的基础工作、快速的稿件、财报、宏观数据变动、板块变动都需要快稿,这对新人来说既枯燥也辛苦。“所以大家都在问能不能让机器来做,这样的话,我们富有创造力的新人可以把自己的精力留下来,做更有创造力的事情,这是我们做这件事情的起点。”
于是,从2014年12月开始筹划并建立数据库,到2015年3月正式启动机器人写作项目,经过开发和测试约半年后,腾讯写稿机器人Dream Writer于2015年9月正式上线。
事实上Dream Writer的团队仅有5个人,不过多个腾讯部门均被卷入Dream Writer工作中,参与搭建和底层支持。
在过去一年半的时间里,这支团队一直在低调运作。Dream Writer一直在持续工作,尤其在奥运会期间,Dream Writer产出内容达3600余篇,其中第一块金牌的新闻就是机器人写的。
刘康表示,从文本的角度,机器写作实现从0到1,是相对简单的,例如,用技术团队简单做一个财报系统,或是给体育赛事做一个基本的描述这类模块化的写作,但是如何从1到3,让机器人的稿子写得有“人情味儿”、对细节描述更加到位和精彩,花费了相当多的精力。
以写跳水新闻为例,这是一个评分制的比赛,评委对于走板、空中姿态、落水姿态、水花等等每个动作的打分,都有详实的数据被记录在数据库里。接下来,这些数据会被腾讯通过一定的算法和机器自己的识别——先让机器跑几十万篇的数据,跑一个规则出来,它会自己把这些数据重新还原。因为每一个分数都可以还原成一个动作,这样通过一定的算法把它还原成原先的场面就变得可行。
其实竞争对手也有很聪明的写稿机器人,不过对方的做法是抓直播间的描述,通过一定的算法和逻辑拼接成一篇文章,而腾讯写稿机器人Dream Writer不一样,是基于特别细颗粒化的数据进行还原。
“今天数据量非常细,细到可以描述到每一个数据的颗粒还原。”刘康说,“比如足球的一个动作怎么记进数据库里面,射门包括射偏、打中立柱、高出立柱……这些都可以用数据还原。”
而在写稿机器人背后的核心技术,主要涉及的有包括智能撰文技术、内容抽取技术、要闻萃取技术这三项。目前腾讯已经获得相关专利。
以内容抽取的技术为例,Dream Writer可以把一篇千字文章概括为数百字,其中涉及到统计学、深度学习等技术。在财经领域,写稿机器人更依赖统计学,但在其他内容领域,腾讯可能需要单独研发一款算法产品模型。
此外,针对写稿机器人所写的稿件,腾讯成立了一个专门的安全管理平台进行内容风险管控:第一轮,机器写作时会单独做一个算法和规则判断机器写的有没有问题;第二轮是经过安全审核;第三轮才能正式推出来。这中间衔接时间越少,意味着出来的作品既准确又迅速。
刘康透露,目前Dream Writer在财经、科技、体育等领域的常规撰文、批量撰文已经开发完成,这款写稿机器人未来一年甚至更长的时间的工作重点,主要在于持续进行优化文本,并且将内容生产领域从目前的科技、财经和体育扩充到全品类,并不急于考虑商业化。
例如,在财经领域新闻的写作上,尽管目前写稿机器人本身具备强算法规则和模型,但难度也不小,特别是对数据的解读和认知,甚至将来的预测。刘康坦言,如果希望Dream Writer写得更深度,甚至将来要写行业研报、垂直类深入的研究,目前仍需要再花时间深耕。
在刘康看来,写稿机器人不会抢走记者的饭碗,而是希望Dream Writer能够解放记者,让记者从事更具挑战和智慧的工作。“远远谈不上取代(记者),我希望它始终是个助手,帮我整理资料,然后我来赋予它生命。”