机器学习:出版业的下一个引爆点?

2017-10-26 18:20徐丽芳乐征帆
出版参考 2017年1期
关键词:出版商畅销书机器

徐丽芳+乐征帆

2016年年初,一篇由人工智能(artificialintelligence,AI)与人类合作完成的短篇小说《当有一天电脑写起了小说》(Konpyuta ga shosetsu wo kaku hi)成功通过了《日本经济新闻》星新一文学奖(Nikkei Hoshi Shinichi Literary Awardceremony)的初审。该小说源于日本公立函馆未来大学(FutureUniversily Hakodate)仁松原(Himshi Matsubara)團队开发的一个AI项目。团队首先编写了一段传统小说用作模板,然后将其拆解成单词和短语,最后通过创造一个选择矩阵来让程序进行操作——人工智能最终完成了剩下的20%的工作。虽然最终没能荣获奖项,不过能在盲审中通过专业评委的初审,已经让很多研究人员看到了机器学习的潜力。同时也使得我们开始对机器学习到底能在出版业中发挥多大作用产生好奇。

机器写作

通过机器学习来实现机器写作或机器人写作并不鲜见。机器写作最早可追溯至1950年代关于机器翻译的研究成果。近年来,随着计算机技术应用领域的拓展,机器写作技术基本成熟并广泛应用于医疗、财经、教育等各个领域,在媒体领域则尤为显著。

2009年,美国西北大学智能信息实验室的学生和研究人员开发出一款名为统计猴子(stats Monkey)的软件,对美国职业棒球大联盟季后赛进行了报道;2010年,两名西北大学的教授和一名前网络公司主管合作成立的叙事学公司(Narrative Science)开发的一款名为鹅毛笔(Quill)的机器写作系统,对数千项大大小小的体育赛事进行了近乎实时的报道;2014年3月17日,美国洛杉矶遭遇地震,《洛杉矶时报》记者兼程序员肯恩·施文克(Ken Schwencke)编写的名为地震机器人(Quakebot)的算法程序,在地震发生3分钟内自动收集相关信息,率先发布了突发新闻。

其中,创立于2007年的美国科技公司“自动洞察”(Automated Insights)是机器写作新闻领域的领军者,其开发了一款名为“文字匠”

(WordSmith)的软件,可以依据用户提供的数据和模板自动编写一些简单的体育类、财经类新闻(见图1)。据Automated InsiahtS介绍,其客户包括美联社、雅虎、三星、微软等著名品牌,应用于媒体、商业、金融服务、体育娱乐等多种产业,仅在2013年就生产了3亿篇100多种形式的报告,平均每秒钟生产9.5篇,而近年来的报告产量超过每年10亿篇/条。

在我国,腾讯财经开发的腾讯写作机器人(Dreamwriter)于2015年9月10日首次发布了《8月CPI同比上涨2%创12个月新高》的新闻报道,成为国内首个机器新闻写作的试水者。同年11月7日,新华社推出“快笔小新”机器人,主要负责体育新闻和财经新闻的报道。与此同时,《纽约时报》《华盛顿邮报》《洛杉矶时报》《卫报》《世界报》《福布斯》等多个国家的新闻媒体近年来都已经将机器人不同程度地应用到新闻采编的多个环节。不过现有的这些机器人程序大多是为特定类型的结构化的新闻写作而开发,尚不能完全脱离人工干预。

除了新闻,机器还可以创作其他类型的文本。例如生成游戏说明文本、军事报告、天气预报,或在教育、医疗环境中生成自动问答和学习、医疗记录,在导航系统中生成路线报告、景点介绍、问答等。

除此之外,机器甚至可以进行艺术创作。2016年5月,由人类和机器携手创作的音乐剧《越过栅栏》(Beyond theFence)在伦敦艺术歌剧院上演。该剧实际上是一个由音乐、计算机、创造力研究领域的顶尖专家通力协作的学术项目——编舞、演出、剧务之类的工作由人承担,但剧本、歌词以及音乐是先由计算机构思和生成,再由人工挑选整理而成。“双眸剪秋水,一手弹春风,歌尽琵琶怨,醉来人梦中”——2016年3月,清华大学的一套人工智能系统写出了格律诗,在大众评分中获得了与人类作品相似的分数,并且有相当多评委无法分出哪些诗出自机器之手。

在出版领域,许多新兴公司也在试图用机器学习技术帮助作者撰写作品。作者工具(Author Tools)是美国英特罗格(Intellogo)公司(见图2)目前正在开发的一套基于网页的人工智能工具。Intellogo聘请了一个文学专家团队来训练其理解词汇、情感、内容和情境是如何混合在一起的。该工具能帮助作者深入把握作品结构并且探究文中概念的内涵,比如:简单和复杂的情节如何匹配,如何设定主要角色的情感层级,如何将女性角色置于中心地位等;同时,分析这些内涵概念如何互动,各自发挥什么样的作用,以帮助作者理清情感、情境和上下文的作用;通过对作者以往作品的回顾,帮助作者保持写作风格的统一。

发现与推荐优质内容

通过机器学习来分析文本内容,从而更好地服务于阅读和出版其实也早已有之。成立于2007年的书灯公司(BookLamp)是一家通过分析文本的写作风格来帮助读者寻找适配图书的公司;成立于2011年9月1日的轨道公司(Trajectory)通过自然语言处理程序处理成千上万本图书的相关信息,收集并分析图书特征,以帮助读者更加深入地发现和利用这些信息。2014年,名不见经传的智能推荐公司Intellogo显然想在机器学习的道路上多迈进一步。它主要利用大数据分析图书内容和读者行为,通过机器学习掌握已有图书的主题、写作风格、节奏、情感等,以便更精准地为读者推荐图书。

对于出版商来说,Intellogo机器人首先会梳理出版商的整个书库,并生成包括风格、主题、观点、语调等在内的细粒度内容分析报告(见图5)。然后,根据内容细节,Intellogo可以生成增强型的标准化元数据,方便公司、零售商和合作伙伴发现和利用出版商的内容。最后,Intellogo可以将对出版内容的研究同对消费者行为数据的研究相结合,深入理解读者的喜好,来发现新的商机。从书商的角度来说,他们可以将机器人应用于自己的信息平台如线上网站,从而达到更好的营销效果。Intellogo机器人一方面可以根据图书信息,24小时无间断地向读者有针对性地推荐图书,与客户建立个性化的互动关系;另一方面,书商也可以利用人工智能,通过对用户数据的分析来改善为用户提供的服务。endprint

值得一提的是,Intellogo推荐图书的过程,并不是现有搜索引擎式的根据搜索关键词返回条目式链接,而是用户与机器自然的对话过程。在对话过程中,客户可以对机器人提出要求,机器人也会根据自己的理解和对话情景提出进一步的问题。最终,机器人只会反馈最合适的、唯一的圖书,而且会说明推荐这本图书的原因。如果用户对图书不满意,可以通过和机器人反复对话来完善推荐的书目。人工智能AI会在不断的沟通中完善自己对概念的理解,变得更加聪明和高效。

机器预测

机器学习的潜力也不仅限于阅读推荐,预测畅销书同样可以施展所能。2016年初,《畅销书密码:解剖惊世小说》的作者乔蒂·阿彻(Jodie Archer)和马修·L.乔克思(MatthewL Jockers)声称他们创造了一种算法,能分辨出哪些文学元素可以使得图书畅销。4月,数据驱动的出版商英凯特(Inkitt)宣布将和石山图书(Tor Book)合作出版第一部由算法选择出版的小说,在业内引发了很大争议。

Inkitt创始人及CEO阿里·阿尔巴扎(Ali Alibazaz)坚信人工智能和机器学习将成为出版业新的引爆点。他认为过去400年间,出版过程是建立编辑和文学机构的知识、经验以及直觉之上的,其不得不从数百万手稿中选出谁最有可能成为下一本畅销书的作品。不过传统的系统并不是绝对靠谱,《哈利·波特》第一卷被拒绝了12次,《暮光之城》被拒绝了14次,《魔女嘉莉》被拒绝了30次。有多少优秀小说因为专家误判而永远没有机会出版呢?又有多少作者在面对一些拒绝之后放弃了呢?现在技术的发展使得潜在的畅销书不会轻易被忽视——数据将会给每一个作者公平的机会去获得出版权利。他认为,数据驱动的出版只是科学地改变出版流程的一部分:数据可以帮助出版商选择合适主题和风格的文章,实现更科学的决策,同时也可以进行更有效的市场推广。

不过出版咨询机构创意逻辑公司(TheIdeaLogicalCompany)的创始人和领导者迈克·肖特金(Mike Shatzkin)则完全不认可机器学习预测畅销书的潜力。他说:“仅仅从图书的内容本身而不考虑消费者、品牌和营销推广等因素就判断一本书是否能畅销是非常荒谬的。”他以谷歌预测新电影票房为例:谷歌在预测票房时考虑了各种数据如荧幕数量、主演之前电影的票房、电影搜索量、预告片观看量、电影流派、上映季节、特许经营状态、明星魅力、竞争情况、批评情况、试映的观众评分等。虽然谷歌拥有全世界最强的文本分析能力,可是他们并不去分析剧本,因为剧本并没有预测价值。

而Intenogo创始人和CEO尼尔·巴尔塔萨(NellBalthaser)则对机器学习技术有不一样的理解。他认为:算法本身不能预测图书是否会成为畅销书,不过我们所做的是利用机器学习去定义畅销书的语调、情感、话题和写作风格,然后再通过这种方式更好地理解读者需求。一方面,人工智能系统可以将现在的畅销书,也就是代表了当前市场兴趣取向的图书和出版商即将出版的图书进行比较,来帮助确定市场营销的重点;另一方面,使用机器学习可以给出版商一个获得其读者实时偏好信息的机会并采取相应行动,如将书名改成更易被读者接受的版本。

综上所述,不论关于机器学习仍然存在多少争议,无可否认的是从长远来看出版同样是一个技术驱动的行业。从造纸术到雕版印刷术、活字印刷术,我们所不可预知的是下一次技术变革究竟是什么以及何时到来。不过我们知道,当人工智能席卷而来,除了会对出版业的内容生产、推荐、营销产生深刻影响外,甚至可能会创造出全新的运营模式。当人工智能都开始创作了,又有什么是不可能的呢?机器学习,也许就会是下一个转折点。endprint

猜你喜欢
出版商畅销书机器
机器狗
24小时完成的畅销书
机器狗
未来机器城
畅销书架
畅销书架
七成软件出版商转向云服务
畅销书为何畅销