摘 要 图书影响力预测是出版大数据预测的重要组成部分,旨在通过模型化方法,解析和利用图书出版发展规律,预测图书的未来影响力,为管理决策提供社会效益评估手段和战略管理工具。从图书生产、传播、消费全链条出发,分析影响力的内在逻辑关系,建立图书影响力分析框架;针对影响力的多维性和时滞性问题,结合选题决策模型、逻辑模型、图书分类分期分级系统,改进过程导向的图书影响力预测模型;结合图书的销量预测、社会影响力预测、学术影响力预测模型,构建数据驱动的图书综合影响力预测模型。在开放数据和数字技术赋能下,数据驱动的图书影响力预测有望成为保证和促进影响力经济、社会效益优先的重要手段和量化预测新模式。
关键词 图书;社会效益;影响力预测;数据驱动;销量预测
影响力既是过程,也是结果。图书影响力是由图书的社会影响力、学术影响力、市场影响力等构成的一个系统,是衡量图书在社会活动中产生的控制力和价值贡献、在学术活动中产生的作用力和知识贡献、在文化消费活动中产生的竞争力和经济贡献的重要指标。
图书影响力预测是出版大数据预测的重要组成部分,旨在通过模型化方法,解析和利用图书出版发展规律,预测图书的未来影响力。依据对图书影响力内涵的不同界定,学术界形成了效果导向和过程导向两种主流研究思路,在影响力预测上提供了多种见解和实现策略,但缺乏从影响力生成的过程、条件、要素视角对其进行分析与预测,也未能从模型层面系统考察纳入情景数据的大数据预测模式。传统的判断预测依赖编辑的直觉与经验判断[1],统计预测依赖历史数据的采样范围、时效性、颗粒度,大数据预测将情景数据纳入预测模型,可解决认知偏差、数据时滞、数据缺失等问题。
本文拟采用系统论思想,探索数据驱动的图书影响力预测,将效果研究与过程研究相结合,通过构建影响力的分析框架、预测模型和时空关系网络,从影响力预测视角衡量图书的市场表现和社会影响,预测图书未来的影响力,解决图书社会效益评估的可操作性和经济效益评估的准确性、时效性问题,为管理决策提供社会效益评估手段和战略管理工具。
1 图书影响力分析框架建立
影响力分析是影响力预测的前提和基础,影响力预测模型建立在影响力产生机制分析基础之上。通过分析图书影响力的内在逻辑关系,建立图书影响力分析框架,有助于厘清各类影响力间的复杂关系。
1.1 过程分析
针对影响力产生机制的路径多样性和产生最终影响的载体多元性特征,从图书生产、传播、消费全链条出发,分析生产过程产生影响力的核心要素、传播过程产生影响力的作用方式、消费过程产生影响力的作用效果;从价值产生、价值提升、价值实现3个环节,探析图书影响力产生机制及影响路径。
(1)生产过程
内容是出版的核心,质量是出版的关键。图书质量、作者、编辑、出版社等是图书在出版过程中产生影响力的核心因素。图书质量是从选题策划到校对印制的整个生产过程质量控制的最终结果,也是图书产生影响力的根源。图书入选重点项目和获得奖项荣誉、社会评价、国际影响是出版社文化和社会影响力的量化指标,是其作为生产机构的社会效益的实现路径。但是高质量的图书产品仅是图书社会效益的实现基础,还需要围绕传播、传承、消费多个过程得以最终实现其社会效益,需要结合多元主体协同完成用户获得与用户使用过程。
(2)传播过程
内容产生价值,传播提升价值。从传播学5W模型出发,解读图书传播过程的传播主体、传播内容、传播渠道、传播对象、传播效果5个要素及其发展趋势(见表1),探索图书传播的价值提升路径。大数据时代图书传播的发展趋势为从大众传播到人际传播,从线下口碑到网络口碑,从图书知识到用户体验,从专业评论到大众评论,从借阅记录到数字指纹。
(3)消费过程
渠道传播价值,消费实现价值。图书消费活动包括通过购买、租借等方式选择产品的图书获得过程和通过信息获取、社会阅读、学术引用、文本生产等方式开展阅读活动的图书使用过程。图书与用户之间的联系通过用户消费行为得以建立并证实图书是精神产品。图书与社会之间的联系通过社会阅读活动得以建立,并证实阅读是开展社会自组织和社会控制的有效手段[2]。另外,公共图书馆馆藏图书的公共文化产品属性体现于可供社会共享、具有正外部性和公共性等特点,正外部性产生于图书消费过程中并体现于对用户和社会的正面影响。
1.2 效果分析
影响力预测是保证和促进影响力经济、社会效益优先的重要手段。本文从市场表现(叫座、不叫座)和社会影响(叫好、不叫好)两个角度,对经济效益与社会效益的关系进行经济学解释和出版学分析,结果如表2所示。
“叫好又叫座”的A类型是出版业追求的理想状态,体现了社会效益与经济效益相统一。在理想的图书市场下,“叫好”是“叫座”的充分必要条件。“好书能畅销”“畅销的是好书”是出版事业和出版产业发展的重要价值体现。出版物内容的信息密度、学术水准、思想内涵、传播时空范围等指标不仅事关读者的认同和忠诚度,还会影响出版企业品牌的长远发展[3]。
“叫好不叫座”的B类型较多体现于学术性专业性较强、拥有固定读者群体的学术出版或专业出版中。我国政府采用国家出版基金、低税率等方式,鼓励和支持正外部性强的学术图书、古籍图书等,发挥国家政策和图书产品的价值功能。主题出版具有记录历史真实、彰显文化自信等突出价值[4],旨在加强出版的政治和文化功能。主题出版的部分图书也存在“叫好不叫座”的问题,一些“题材重大”的主题出版凸显价值引领等功能,相对容易进入主流媒体的“好书”榜单,但如果在叙事性、艺术感染力等方面不强,难以得到大众认同,社会影响力将大打折扣。
对于“叫座不叫好”的C类型,图书市场上某个时期常出现昙花一现的畅销书现象。由于图书本身存在质量粗糙、缺乏产生深远影响的思想、不被主流媒体认可推介等,导致数量与质量之间存在背离现象。这类畅销书缺乏持久影响力,只是吸引短暂的社会注意力,难以转化为具有传承性、延续性的常销书。随着出版制度的不断完善和读者阅读品味的持续提高,C类型图书的生存空间将日渐萎缩。
在“不叫好也不叫座”的D类型下,图书出版的社会效益与经济效益俱差。究其最初动机可能是追求“叫好又叫座”,最后产生了背道而驰的结果,与选题决策的判断失误、市场渠道的受限、个人利己动机等各种因素导致的偏差有关。
数字时代,出版机构出版精品图书的主动作为和国民阅读能力的普遍提高,以及数字技术全链全面赋能[5],为“双效统一”和“叫好又叫座”的理想实现提供了可能。
2 图书影响力预测问题的提出和模型构建
图书影响力的多维性体现于图书对经济、社会、学术等不同维度的影响力,体现在数量、质量、效率、效果等多个方面。可通过分类型、分阶段开展及时且全量的图书影响力预测,重构时空关系,揭示出版发展规律。
2.1 图书影响力预测问题的提出
(1)多维性。图书影响力产生的过程存在复杂性和结果不确定性,导致难以归因于某一图书产品并量化其贡献度。由于受众多元化、渠道分散化等,影响力的全面追踪局限于数据可获得性和数据聚合能力。影响因素的多样化和内生性问题,使得影响因素测度和关键因素识别存在困难。在开放科学、开放获取、开放数据的推动下,可通过多维数据聚合,将效果研究和过程研究相结合,弥补效果研究在贡献量化、全面追踪、内生性等问题上的不足。
(2)时滞性。图书影响力的时滞性体现在图书市场表现数据在出版社、书店、图书馆、用户之间反馈效率低、数据不全面;专家评价、用户评价、学术引用等影响力反馈及时性、有效性存在较大差异;出版、发行、营销、评价、使用等多个方面的线上和线下数据聚合能力不足;图书的影响具有持久性、传承性、滞后性等特征[6]。
2.2 效果导向的图书影响力预测模型
效果导向的图书影响力预测模型旨在将影响力视为一种结果,利用系统理论,展示影响力的时空范围和时空关系,聚焦影响力客体类型,以市场影响力(图书销量)预测模型、社会影响力预测模型、学术影响力预测模型等为代表。
(1)图书销量预测模型
图书销量预测主要采用计量经济模型、新产品扩散模型和人工智能模型等。①计量经济模型从经济角度考虑销量与其影响因素的因果关系,依赖较多的历史数据和相关影响因素的测度。②新产品扩散模型采用群体行为分析视角和经典Bass模型改进策略,将价格、广告、用户评分等因素纳入模型的构建,依赖产品每期销量数据和新产品扩散的现实情境。③人工智能模型采用人工神经网络等对少量的非线性数据建模,但大部分算法都是黑箱模型,模型对于结果缺乏可解释性。
以上方法大多依赖延迟性较大的统计调研数据,预测时效性较低;忽视了用户生成内容,缺乏大数据分析,预测准确性受限。情感分析是从用户生成内容中挖掘用户情感信息,可为经济价值量化与开发提供用户口碑传播行为分析和效果测度工具。孟园等[7]基于细粒度情感分析技术,构建细粒度综合情感指数,结合ARMA模型对产品的销量预测进行实证分析。Rocklage等[8]将图书评论的星级、效价、文本情感纳入计量经济模型,提出基于情感分析的图书销量预测模型。
(2)图书社会影响力预测模型
图书社会影响力具有评价主体多元、传播渠道分散、评论关联情感等特点,图书社会影响力的外在特征为用户特征、媒介特征等。张红丽等[9]提出基于网络用户评论的评分回归预测模型。另外,替代计量强调追踪学术文献在网站和社会媒体上被提及或使用频次,体现了受众触达率和关注度,可作为社会影响力的量化表征。李纲等[10]从论文、作者和期刊3个方面构建学术论文特征框架,构建论文推特提及量预测模型。另外,苏娜[11]系统梳理并述评了国内外对科学研究的社会影响力评价理论与实践。
(3)图书学术影响力预测模型
图书学术影响力具有引用时滞、数据多源、引用关联情感等特点,图书学术影响力的外在特征为图书特征、作者特征、出版社特征、引证特征等。大数据时代,学术影响力预测强调聚合多平台数据提升预测水平,强调推进图书、作者、出版社等之间的协同预测。霍朝光等[12]对论文、学者、机构、期刊、项目、专利等不同学术实体影响力预测研究进行述评,总结学术影响力预测研究的指标体系、方法体系和特征体系。
3 数据驱动的图书影响力预测模型构建
图书影响力预测模型的可能改进策略包括:①组合预测。依据组合预测理论,2种或2种以上无偏的单项预测组合优于每个单项预测。销量预测可将经济计量模型、Bass模型及改进模型、人工智能模型进行组合,提高预测准确度。②网络口碑与经济计量模型相结合,可将在线评论情感分析与经济计量模型相结合进行销量预测。③网络口碑与新产品扩散模型相结合,可将在线评论情感分析与Bass模型及改进模型相结合进行销量预测。④基于TEI@I方法论[13]的集成预测,采用先分解后集成策略,将百度指数结合经济计量模型进行销量预测。⑤协同预测,可采用图书实体与作者实体协同策略,构建时空关系网络,依据作者影响力预测图书影响力。⑥定性与定量预测相结合,借鉴回报模型[14]的基本原理,将编辑直觉预测和同类图书的影响力评价相结合,校正销量直觉预测,拓展社会影响力预测。
3.1 过程导向的图书影响力预测模型改进
依据图书影响力预测模型的可能改进策略,提出改进思路及模型结构。
(1)改进思路
科学研究的经济与社会影响力评价模型以回报模型、SIAMPI模型等为代表。Buxton等[14]提出评价医学研究的经济与社会影响力回报模型。该模型属于中长期影响力评价模型,解决了时滞、归因等问题,但案例分析需要较多资源投入。Spaapen等[15]提出SIAMPI模型,通过追踪科学研究主体与利益相关方的多样化联系来评价社会影响力。本文所构建的过程导向的图书影响力预测模型,旨在将影响力视为一个过程,利用知识转移理论,展示图书从作者流向社会的过程,聚焦于影响力产生机制。
(2)模型结构
通过选题决策模型综合利用单一性信息(作者知名度)、同类图书分布性信息(选题成功率、历史销量)、市场先验信息(头部效应)校正编辑直觉预测[1];通过逻辑模型划分影响力产生过程的生产、传播、消费3个过程,区分图书的选题确定、投入、开展、直接成果、间接成果、采纳、成效等7个阶段,界定项目申请与筛选、产品扩散两个关键转换点,寻找影响路径及案例;构建图书影响力分类分期分级体系,对图书出版类型(大众出版、学术出版、专业出版)进行分类,对短期、中期和长期影响进行区分,对影响程度进行分级,通过图书分类分期分级系统区分影响类型及载体,判定影响归因于该图书产品的程度;将定性方法与定量方法相结合,综合利用编辑销量直觉预测法、案例分析法、文献计量法、专家评价法等进行影响力预测,从知识扩散视角对图书生产(图书类型、资助项目、国际合作、作者知名度、出版社声誉)、知识转化(被引次数、施引文献水平、馆配量)、知识转移(国际引用率、领域外引用率、海外馆藏量)进行文献计量。
3.2 数据驱动的图书综合影响力预测模型构建
数据驱动的图书综合影响力预测,旨在聚合不同来源的图书引用、借阅、提及、评论等数据,追踪用户关注、科研前沿和先进思想文化,发现新思想、新理论、新方法,为选题决策、购买决策等提供量化预测依据。
本文采用数据驱动预测模式,将传统的统计技术与异质信息网络挖掘等大数据技术相结合,在构建图书异质信息网络模型的基础上,结合图书的销量预测、社会影响力预测、学术影响力预测模型,构建预测指标体系和预测方法体系,从而构建数据驱动的图书综合影响力预测框架(如图1所示),同时实现数据融合、网络构建、实体链接和量化预测。
3.2.1 基本思路
数字时代,图书产品在保持内容系统性、思想性的基础上,彰显传播性。用户、图书、作者、出版社、媒介等构成价值创造的核心要素,核心要素间的连接作用决定影响力生成的方式,决定图书价值产生、价值提升、价值实现的内在逻辑。图书内容决定图书与用户、媒介、社会之间连接的持续性,媒介决定图书与用户、社会之间连接的广度,用户决定产品使用价值和图书社会效益的实现程度。因此,连接作为图书价值创造的基础和前提,决定了影响力产生的方式、路径、效果。本文坚持系统论思想,将图书置于用户、作者、出版社、媒介等相互联系的整体之中,考察图书从作者流向社会的过程和效果。采用异质信息网络理论和方法[16],综合考虑图书、作者、出版社、用户、媒介之间的交互关系,构建图书异质信息网络。考虑图书、作者、出版社、用户、媒介等图书异质网络实体互为特征、协同演化,构建数据驱动的图书综合影响力预测模型,采用子网络建模不同类型实体间的交互关系和语义关系,横向上协同开展作者影响力预测、出版社影响力预测、媒介影响力预测、用户评分预测、销量预测、学术影响力预测等,纵向上利用结构化、半结构化、非结构化数据进行属性挖掘、结构探索、语义探究,实现以已知链接预测未知链接、以现有链接预测未来链接。
3.2.2 基本思想
采用数据驱动预测模式,将传统的统计技术与异质信息网络挖掘等大数据技术相结合,从社会影响力、学术影响力、市场影响力等维度,分析数据特征;从市场表现、网络口碑、用户行为等方面,筛选预测指标;从短期、中期、长期3个层面,构建预测模型。
3.2.3 基本流程
通过大数据、人工智能等技术和方法,对多源异构数据进行采集与预处理;建立图书异质信息网络,捕获图书、作者、出版社、用户、媒介之间的交互关系和语义关系;对网络口碑等进行多层次属性挖掘和细粒度情感分析,挖掘用户的真实偏好与需求信息,识别用户对图书产品总体及其各个属性的态度;从图书产品的生产、传播、消费3个过程和市场表现、社会影响2个层面,系统性构建图书产品的外显的消费数量(叫座)和内隐的消费态度(叫好)的预测指标体系;将属性挖掘、情感分析、量化预测集成于网络构建和挖掘过程,预测图书产品的社会影响力、学术影响力、市场影响力等。基本流程主要包括数据采集与预处理、图书异质信息网络构建、学术影响力预测、市场影响力预测、社会影响力预测。
3.2.3.1 数据收集与预处理
(1)图书生产数据收集。出版大数据包括图书产品的全文本数据、元数据、经营数据、销售数据、网络数据、引证数据、馆藏数据等。中国版本图书馆可提供图书产品的CIP核准号、ISBN、正书名等图书元数据字段。对于全文本数据、元数据、经营数据等,可通过注册、自建、采购等方式获取。
(2)图书传播数据采集。当当网可提供星级评分、评论内容、评论时间等在线评论信息以及前500图书销售排行榜。对于当当网、京东网、豆瓣读书等平台的网络数据,可利用LocoyPoster 软件工具进行采集,通过ISBN与图书元数据、经营数据、营销数据、引证数据、馆藏数据等进行关联聚合。
(3)图书消费数据收集。中文学术图书引文索引(CBKCI)可提供4 000余本学术图书的被引数量和施引文献题录。CNKI可提供14 000余本中文图书的被引数量、阅读数量和用户数量。读秀可提供230万余种中文图书的被引用指数、被图书引用数量、引证图书目录和馆藏量。SpringerLink平台提供Bookmetrix指标,包括图书及章节的被引、下载、提及、评论和用户数量。WorldCat提供OCLC近两万家成员馆编目的书目记录和馆藏记录。百度指数平台可提供搜索引擎用户关注度数据。对于引证数据、馆藏数据、搜索数据等,采用直接从文献数据库和平台中收集相关数据。
(4)数据预处理。对于在线评论等网络口碑数据,可通过Python、NLPIR、Jiebar等工具,进行分句、分词、词性标注、词频统计等预处理;整合How Net情感词典、大连理工大学情感词汇本体库等,形成基础情感词典;将在线评论时间依据预测需求,划分为年、月、日等不同的时间粒度;将中图法分类与电商网站图书分类进行映射,依据各种分类体系划分不同的主题粒度。
3.2.3.2 图书异质信息网络构建
针对影响力的多维性和信息融合问题,将异质信息网络作为一种对复杂对象及其关系建模的方法,通过从网络数据中挖掘链接关系和语义信息来发现隐藏模式。
(1)多模网络构建。例如,由出版大数据形成的图书信息网络可被建模为一个5-模异质共现网络,表示为一个带有对象类型映射函数t=v→A和关系类型映射函数φ=ε→R的有向图G=(v,ε),包含图书名称(B)、作者名称(A)、出版社名称(P)、媒介名称(M)、用户名称(U)5个对象类型以及同一关系、创作关系、出版关系、传播关系、评价关系5个关系类型,每个对象关联文本属性和时间属性。
(2)元路径分析。元路径[16]是在网络模式TG=(AR)的图上的一条路径,它的形式是,缩写为A1A2…Al+1,描述了节点类型A1到Al+1之间的关系。不同元路径以不同的语义表示对象间的关系序列,其中BAB、BUMUB元路径分别表示同一作者创作了2本图书、2个用户在同一媒介上评价了2本图书。元路径分析可通过基于元路径的相似性测度方法PathSim[16],发现更相似的两个对象。基于相似图书的销量时间序列,可对图书新产品进行销量预测。异质信息网络构建从网络的内部结构入手,通过多模网络构建,对异质节点间的共现关系进行融合;通过元路径分析,对不同网络层级进行关联,实现信息融合和网络建模。
3.2.3.3 学术影响力预测
图书学术影响力预测旨在提前识别出高质量图书,综合文献计量、图书、作者、出版社等特征,采用回归分析方法和人工神经网络方法等,构建引证数量预测模型,预测引证的变化。
(1)预测指标体系构建。图书学术影响力的外在特征为图书特征、作者特征、出版社特征、引证特征等。其中,图书特征主要包括图书主题成熟度、图书名称长度、参考文献数量等;作者特征主要包括作者学术影响力(H指数)、署名作者数量、作者创作图书数量、作者被引用图书数量、作者国别、作者所属机构声誉等;出版社特征主要包括出版社声誉、出版社等级、编辑影响力等;引证特征主要包括被论文引用数量、被图书引用数量、被引年份跨度、首次被引年份、早期施引者的学术影响力等。
(2)预测方法体系构建。①回归分析预测方法。以外在特征为自变量,以引证数量为因变量;采用线性回归、岭回归、逐步线性回归模型,预测中短期引证数量,适用于存在明显线性关系的截面数据或时间序列建模。②时间趋势分析。从引证历史数据观察趋势规律,采用分解分析、移动平均、指数平滑进行短期预测,采用趋势外推进行中长期预测,适用于规律性强的时间序列建模。③人工神经网络方法。采用时间递归神经网络(RNN)等方法,利用数据的高维度特征,预测长期引证数量。④基于元路径的关系预测方法[16]。对于图书异质信息网络,综合考虑作者权威度、出版社影响力等相互作用和引用权重设置,通过构建图书-作者、图书-出版社-作者等子网络,利用网络实体间的交互关系和子网络间的相互强化关系,采用基于元路径的关系预测方法,实现引证关系预测。
3.2.3.4 市场影响力预测
图书市场影响力预测旨在量化网络口碑数据,从图书产品的内容、形式、价值、服务4个子维度出发,采用细粒度情感分析方法,结合计量经济模型、Bass模型及扩展、人工智能模型等,构建纳入属性情感的销量预测模型,预测未来的销量。
(1)预测指标体系构建。图书市场影响力的外在特征为图书特征、用户特征、媒介特征等。其中,图书特征主要包括图书类型、产品生命周期等;用户特征主要包括用户级别、百度指数等;媒介特征主要包括用户评分、评论数量、属性情感等。
(2)预测方法体系构建。①随机时间序列预测法。采用细粒度情感分析方法,进行属性词典构建、情感词典构建、属性抽取、情感词抽取、属性的情感分类,构造细粒度情感指数,采用AR模型、ARMA模型等随机时间序列预测法,构建属性情感感知预测模型,预测中短期图书销量。②人工智能方法。将图书名称作为搜索关键词,获取图书的百度指数,采用SVM、随机森林等人工智能方法,预测中短期图书销量,适用于存在搜索关键词不易产生歧义的百度指数。③基于元路径的相似性测度方法[16]。对于图书异质信息网络,综合考虑用户影响力、媒介影响力等相互作用和评论权重设置,通过构建图书-用户、图书-媒介-用户等子网络,采用基于元路径的相似性测度方法,结合相似图书的历史销量数据,实现图书新产品销量预测。
3.2.3.5 社会影响力预测
图书社会影响力预测旨在量化外显的消费数量(叫座)和内隐的消费态度(叫好),从图书的传播媒介、辐射范围、传播效果3个方面,获取评价数据、使用数据和替代计量数据,采用回归分析方法和情感分析方法等,构建社会效益量化预测模型,预测评分、热度等。
(1)预测指标体系构建。图书社会影响力的外在特征为图书特征、媒介特征等。其中,图书特征主要包括重版率、重印率等;媒介特征主要包括图书下载量、提及量、海外馆藏量、国内馆藏量等。
(2)预测方法体系构建。①回归分析预测方法。以文本情感倾向、评论数量、读过数量、在读数量、想读数量等为自变量,采用回归分析方法和情感分析方法,构建图书产品的评分预测模型,适用于存在明显线性关系的截面数据或时间序列建模。②人工智能方法。结合图书特征、媒介特征等,采用SVM、随机森林等人工智能方法,构建图书新产品的评分预测模型。③时间趋势分析。对于时间序列数据,以馆藏量、下载量、提及量等为历史数据,采用分解分析、移动平均、指数平滑进行短期预测,采用趋势外推进行中长期预测,构建图书热度预测模型。④基于加权元路径的相似性测度方法[17]。对于图书异质信息网络,通过构建图书-用户、图书-媒介-用户等子网络,采用基于加权元路径的相似性测度方法,结合用户-图书历史评分矩阵,实现评分预测。
4 结语
习近平总书记在文艺工作座谈会上强调,“一个好的作品,应该是把社会效益放在首位,同时也应该是社会效益和经济效益相统一的作品”。图书影响力预测是保证和促进影响力经济、社会效益优先的重要手段。出版经济是影响力经济,影响力经济建立在影响力之上[6]。保证和促进影响力经济、社会效益优先,关键在于双效统一。图书产品的双效统一体现于“叫好又叫座”的主题出版图书,体现于读者喜闻乐见的畅销书、常销书,体现于“为人民出好书”的精品书、品牌书。
图书是精神产品内核和物质产品形态的统一,在空间的社会传播、时间的历史传承过程中,通过对用户的精神影响,进而对社会产生作用,体现其社会效益;在口碑传播、产品营销过程,通过对用户的消费影响,进而对经济产生作用,体现其经济效益。图书社会效益的评价指标围绕图书质量、社会传播、历史传承展开,其中社会传播体现了作者、用户、传播媒介、辐射范围、传播效果之间交织的时空关系以及思想影响的深度和范围,历史传承体现了图书的长效影响力,但难以使用当前指标量化。图书经济效益的评价指标围绕销量展开,其中常销书、馆配量、重版率、重印率、产品生命周期等市场表现指标,体现了口碑传播的广度、深度、持久度,但难以即时量化。图书的双效评价存在时滞性特征,图书影响力预测可以提前预测图书产品的经济效益和社会效益。
影响力经济强调基于图书内容的交互功能和注意力保持策略,主张以供给侧图书内容创新与质量提升来保证和促进影响力经济、社会效益优先。数据驱动的图书影响力预测模型提供了一个开展图书影响力预测的理论框架,勾勒了图书影响力预测在模型层面的初步框架,有利于推动出版物量化预测从销量预测拓展至影响力预测。
本文尝试探索从需求侧图书影响力预测来保证和促进影响力经济、社会效益优先。①将效果研究与过程研究相结合,建立图书影响力分析框架,分析影响力产生机制及载体影响,探析“双效统一”模式的现实逻辑和实现路径;②将编辑直觉预测和同类图书的影响力评价相结合,改进过程导向的图书影响力预测模型,拓展回报模型的应用范围;③将协同预测与异质网络构建相结合,结合图书的销量预测、社会影响力预测、学术影响力预测模型,构建数据驱动的图书综合影响力预测模型,拓展影响力预测新视野。
在开放数据和数字技术赋能下,数据驱动的图书影响力预测有望成为保证和促进影响力经济、社会效益优先的重要手段和量化预测新模式。
(责任编辑:郭剑)
参考文献
[1] 杨金花.图书销量预测偏差与校正[J].出版发行研究,2020(4):46-49.
[2] 徐丽芳.阅读研究的万花镜:读《阅读社会学》的几点启示[J].传媒,2021(1):77-78.
[3] 王鹏涛.新技术环境下阅读演进研究:趋势、特征与应对[J].编辑之友,2020(4):28-33.
[4] 万安伦,黄婧雯.论主题出版的特质与价值[J].编辑之友,2019(10):33-37.
[5] 江小涓.数字时代的技术与文化[J].中国社会科学, 2021(8):4-34.
[6] 于殿利.出版是什么[M].北京:中国传媒大学出版社, 2018:75.
[7] 孟园,王洪伟,王伟.网络口碑对产品销量的影响:基于细粒度的情感分析方法[J].管理评论,2017, 29(1):144-154.
[8] ROCKLAGE M D,RUCKER D D,NORDGREN L F.Mass-scale emotionality reveals human behaviour and marketplace success[J].Nature Human Behaviour, 2021:1-7.
[9] 张红丽,刘济郢,杨斯楠,等.基于网络用户评论的评分预测模型研究[J].数据分析与知识发现,2017, 1(8):48-58.
[10] 李纲,管为栋,马亚雪,等.学术论文的社交媒体可见性预测研究[J].数据分析与知识发现,2020,4(8):63-74.
[11] 苏娜.科学研究的社会影响力评价:研究与实践进展[J].情报学报,2020,39(10):1114-1119.
[12] 霍朝光,董克,魏瑞斌.学术影响力预测研究进展述评[J].情报学报,2021,40(7):768-779.
[13] WANG S Y.TEI@I:A New Methodology for Studying Complex Systems[C]// The International Workshop on Complexity Science,Tsukuba,Japan,2004.
[14] BUXTON M, HANNEY S.How can payback from health services research be assessed?[J].Journal of Health Services Research and Policy,1996,1(1):35-43.
[15] SPAAPEN J,VAN D L.Introducing‘productive interactions’in social impact assessment[J].Research Evaluation,2011,20(3):211-218.
[16] 孙艺洲,韩家炜.异构网络挖掘原理与方法[M].段磊,朱敏,唐常杰,译.北京:机械工业出版社,2016:148-151.
[17] 石川,俞士纶.异质信息网络分析与应用[M].胡琳梅,石川,译.北京:机械工业出版社,2021:95-100.
Research on Data Driving Book Impact Prediction Models
Juan Ren1 Zhao Yang2
1.Shanghai Publishing and Media Research Institute, Shanghai Publishing and Printing College,Shanghai 200093,China; 2.Shanghai Jiao Tong University Library, Shanghai 200240,China
Abstract Book impact prediction is an important part of publishing big data prediction. It aims to analyze and use the development rule of publishing, predict the future impact of books, and provide social benefit evaluation means and strategic management tools for decision-making. It establishes the analysis framework from the whole chain of book production, communication and consumption to analyze the intrinsic logic of book impact. Aiming at the problems of multi-dimensions and time-lag of book impact, it proposes that a process oriented book impact prediction model can be constructed by combining the topic selection decision-making model, logical model and book classification model system with stages and levels. Combined the book sales prediction model, book social impact prediction model with book academic impact prediction model, a data-driven book comprehensive impact prediction model can be constructed. With the empowerment of open data and digital technology, study on data-driven book impact prediction is expected to become an important method and a new quantitative prediction pattern to ensure both social benefits and influence economy.
Keywords Book; Social benefits; Impact prediction; Data driving; Sales