基于文本挖掘的我国数字出版政策分析评估研究

2024-04-26 07:02童晓雯康琪瑶袁小群
中国数字出版 2024年2期
关键词:文本挖掘数字出版

童晓雯 康琪瑶 袁小群

摘 要 数字出版政策对于规范、引导并促进数字出版产业发展具有重要意义,分析其内容特征可为后续政策制定与优化提供参考和指导。鉴于此,文章运用文本挖掘方法,引入高频词共现网络和PMC指数模型,对2006年以来的270余项数字出版政策内容进行分析和评估,以期找出其固有特征,为后续相关政策的制定提供借鉴。结果表明:一个合理政策应包括文化属性、意识形态、宏观管理以及服务体系等4个方面的属性,我国已有数字出版政策总体表现优良,但仍有优化提升空间,后续政策制定时有必要在政策客体、政策评价和政策工具等方面加强。

关键词 数字出版;政策评估;文本挖掘;PMC指数模型;共现网络分析

数字社会,作为出版产业发展迅猛的新兴出版形态,数字出版已成为新闻出版业的主要发展方向和文化产业发展的重要组成部分。近3年《中国数字出版产业年度报告》显示,我国数字出版2020年、2021年以及2022年整体收入分别为11 781.67亿元、12 762.64亿元和13 586.99亿元,较上年增长率分别为19.23%、8.33%和6.46%,均超同期国内生产总值的增长率。尽管数字出版在市场调节与政府指导的双重作用下保持着良好的发展势头且取得了丰硕的成果,其发展过程中仍存在诸多问题。如传统出版向数字出版转型及融合受阻,受众日益增长的多样化需求与技术研发和工业应用水平不一致等[1]。这些问题的解决需要合适的产业政策来加强市场调节,优化资源在产业中的配置,以推动数字出版产业的可持续发展。现有关于数字出版政策方面的研究主要集中数字出版政策回顾与梳理[2]、特定数字出版政策如版权政策[3]、区域性政策[4]、财税政策[5]、文献计量分析[6]以及从政策工具视角量化我国数字出版政策工具的运用现状[7-8],缺少对数字出版政策内容本身进行挖掘分析。鉴于此,本文聚焦我国数字出版政策内容本身,通过文本分析的方式挖掘出我国数字出版政策内容特征,同时从政策内容的一致性视角对样本政策的好坏加以评估。为此,本文以我国数字出版政策为对象,利用高频词共现网络归纳出自2006年以来数字出版政策的内容特征。然后,引入PMC(Policy Modeling Consistency)指數模型,以我国数字出版政策内容特征为依据设计评估指标体系并对选择样本的政策内容一致性优劣进行评估分析,以期为后续数字出版政策的结构设计、内容制定和体系完善提供路径借鉴。

1 研究设计

不同于已有的数字出版政策分析工作,本文从政策内容视角对我国数字出版政策文件进行分析并加以评估。

1.1 研究框架

本文首先利用自然语言处理和统计学方法,对选择的样本文件进行全文分析,找出我国数字出版政策内容关注点和重心的分布规律;然后,引入PMC指数模型并构建我国政策文本内容一致性评估的指标体系,设计相应的评估模型;最后,对选取的政策样本进行一致性评估。

1.2 政策来源

与余钧[9]工作相似,本文也仅考察中央及部委层级的数字出版相关政策。本文首先以“数字出版”“复合出版”“电子出版”“网络出版”“出版数字化”等为关键词,对中国政府网、北大法宝数据库等进行检索,选取发布日期在2006年1月1日—2022年12月31日的政策。在此基础上,本文适当补充现有数字出版政策研究文献中的政策并剔除与研究相关性较差的样本,获取国务院、原新闻出版总署、原新闻出版广电总局等多个部门自2006年出台的270余项数字出版政策。

1.3 研究过程

本文将270项数字出版政策导入自编python程序进行处理后得到初始高频词表,剔除“数字”“出版”等不具政策含义的高频词,得到有效高频关键词。然后,本文选择前50个高频词绘制高频词共现网络并对其进行聚类,以挖掘我国数字出版政策内容特征。

PMC指数模型通过包含多个变量的指标体系来评估政策建模过程中的一致性的优劣 [10]。考虑数字出版发展是一个阶段性的过程,经历了电子出版、网络出版、复合出版、融合出版,本文选取8项各阶段典型政策加以评估,如表1所示。

综合已有研究成果[10]和数字出版政策文本内容特征,本文确定了PMC指数模型10个主变量及40个子变量,如表2所示。其中,政策性质(X1)和政策时效(X2)分别用来判断数字出版政策性质及有效时长[11],并设定10年以上为长期,5~10年为中期,1~5年为短期。政策领域(X3)用来分辨政策作用的不同领域,政策工具(X4)用来衡量政府在数字出版产业发展过程中发挥的作用及采用的方法与手段,包括供给型、需求型及环境型3类。政策内容(X5)表明数字出版政策的重点内容及不同作用层面,政策视角(X6)考察不同政策视角的数字出版政策效应,分为宏观、中观和微观三重。此外,由于数字出版政策的不同目标指向特定对象,因此设置政策客体(X9)变量以研究政策作用的对象。变量政策评价(X7)和变量政策公开(X10)用于了解政策制定的整体情况与公开状况。

与Estrada[12]的构建方法一样,本文首先计算数字出版政策的10个主变量和40个子变量的投入产出,然后逐个计算子变量的值,再计算每个主变量的值,最后生成每个政策样板的PMC指数,获得该政策的评估结果。同时,鉴于PMC曲面绘制仅是对PMC指数评估结果的直观展示而无额外含义,本文忽略PMC曲面绘制步骤。

2 数字出版政策的核心内容

图1显示270项数字出版政策中出现的频率较高的50个词对应的高频词共现网络。在图1中,出现频次越高的词语所对应的文字标签和点越大。显然,数字出版政策涵盖文化产业、服务体系、科学技术、版权保护等内容,涉及经济、科技、政治等政策领域。“文化”一词在数字出版政策中出现频次最高,达10 195次,表明数字出版具有强烈的文化属性。“服务”“企业”“技术”等高频词的出现反映了数字出版政策的侧重点,如服务体系建立,企业改革,技术创新等数字出版发展过程中面对的需求与前进方向。图1显示数字出版政策高频词被划分为以文化、社会、服务和国家为核心的4个类别,体现了270项数字出版政策的4个中心内容体系。

“文化”词频最高表明数字出版的文化属性为当前数字出版政策最核心内容。内容是出版物的内核,技术水平决定数字出版物的呈现形态。推动文化创新和技术发展,才能缓解用户多样化需求与数字出版发展不匹配的问题。因此,在市场需求与政策指导的双重驱动下,出版企业积极探索以先进技术为支撑的多种出版形态,有声书、电子书、动漫等新型出版物的兴起即创新发展的结果。文化属性层面另一大侧重点是积极引导建立国际机构的同时鼓励国际合作,这也体现了国家在数字出版产业需求型政策工具方面所做的努力。再次,为保证数字出版持续健康发展,数字出版政策对人才队伍建设、产品研发、出版项目研究等方面也提供了指导和帮助。最后,数字出版政策对地区生产也给予了一定支持与关注,鼓励少数民族文化的传承与发展。

在意识形态层面,从共现图可以看出我国数字出版政策坚持社会主义出版理念,把社会效益放在首位,实现社会效益与经济效益相结合。出版的本质是传递知识、传播信息、传承文明,用人类创造的知识来提高人的素质,从而推动社会进步。出版工作是党的宣传思想文化工作的重要组成部分,是促进文化繁荣兴盛、建设社会主义文化强国的重要力量。出版物对广大人民具有思想道德、行为、价值观等方面的深远影响。出版业不但要创造经济财富,更重要的是创造文化财富,推动人类文明的进步和发展,促进社会的进步。因此,政策对数字出版同样提出了坚持正确导向的要求。

在宏观管理层面,数字出版政策重点可概括行政部门改革、活动规划与工程实施和知识产权保护等3方面内容。数字出版发展初期由原国家广电总局、原新闻出版总署、原文化部等多个部门负责质量监察、违法查处等职能。例如网络游戏由文化部主管,但网络游戏出版物的前置审批权又归原新闻出版总署拥有,多个部门的协调管理降低了数字出版的规制效率。从2013年国家新闻出版广电总局的设立到2018年国家广播电视总局的设立,这种多头管理的现象有所变革。此外,随着信息技术对社会的赋能,数字阅读成为人们获取知识与信息的新型途径,原新闻出版总署自2011年起每年组织开展全民数字阅读专题活动。“出版融合发展工程”“中华民族音乐传承出版工程”等相关工程的组织实施也有助于推动数字出版产业的发展。最后,知识产权的保护是文化创新发展必不可少的基础,近些年我国出台了一系列保护知识产权打击盗版的相关政策,同时组织开展“剑网”等打击网络侵权盗版专项行动。

在服务体系方面,国家通过政策积极推动数字出版服务体系建立及标准制度完善,以解决长期制約我国数字出版发展的标准化问题。为此,移动游戏出版服务管理、互联网新闻信息服务管理规定等政策对数字出版公共服务体系的建立予以规制,《中国标准关联标识符(ISLI)》《MPR出版物》系列国家标准的贯彻实施也改善了数字出版产业标准不统一的发展困境。为了规范数字出版物生产和发行,促进数字出版健康可持续的良好发展,相关部门也发布了《网络信息内容生态治理规定》《关于加强数字出版内容投送平台建设和管理的指导意见》《互联网信息服务管理办法》等一系列规章制度。

3 数字出版政策效果分析

基于1.3的4个步骤可得8项数字出版样本政策的PMC指数,参考已有研究成果[12],本文将PMC指数分为4个级别:PMC指数在8.5~10分之间的政策可评价为优秀,位于7~8.49分可评价为良好,5~6.99分可评价为合格,5分以下则为不良。按照该评价标准对8项样本政策进行级别划分如表3所示。

由表3可知,本次选取的8项数字出版政策样本中P2、P3被评估为优秀,P4、P5、P7和P8等4项被评估为良好,P1、P6被评估为合格。而从各政策指标均值视角来看,X10> X6>X5>X8>X2>X7>X4=X3>X1>X9。其中政策公开和政策视角两项均分超过0.9,表明我国数字出版政策在这两个方面做得异常好。而政策客体方面均分只有0.56,勉强合格。这意味着我国数字出版政策制定过程中容易出现作用对象不够明晰的现象,主要原因在于当前政策的制定大多指向政府相关部门与产业中的企业,而较少指向产业的受众和相关非营利组织等主体。此外,表3也显示部分指标虽然其均分显示较高,但其各样本政策得分并不均匀,波动较大。如政策评价和政策工具均分分别为0.75和0.78,但均有两个主变量数据不合格或勉强合格。造成上述的主要原因在于我国数字出版政策对环境型和供给型政策工具的使用情况比较良好,但缺乏细化的实施方案。对于需求型政策工具的使用,政府还未给予足够重视。显然,后续有关部门在制定数字出版类政策时有必要注意政策客体、政策工具和政策评价等方面的内容。

上述8项政策样本中,政策P2《关于加快我国数字出版产业发展的若干意见》不仅在总体评价上表现优异,其还分别在政策性质(X1)、政策工具(X4)、政策内容(X5)、政策视角(X6)、作用层面(X8)和政策客体(X9)6个主变量评价中达到最高值。其主要原因在于该政策对数字出版当前的发展现状与存在问题做出了基本描述,提出了数字出版未来的发展目标及指标,规划了加快发展的主要任务和保障措施,所以在政策性质上表现优良。政策中建议加快数字出版产业标准制定,以创造公平的市场竞争环境,鼓励数字出版机构“走出去”开发海外市场,提出政府应在人才、资源、资金等方面支持数字出版产业,运用环境型、需求型、供给型政策工具加快我国数字出版发展。显然,无论是对于文化、科学技术、产品形式及内容的创新,还是加快产业服务平台和标准建立,完善相关法律法规等内容,该政策都给予了一定关注并提出了对应发展任务。而且P2在政策视角、作用层面和政策客体层面也做了全面考虑。综合来看该政策对于加快我国数字出版发展的问题提出了全面客观的建议,但在规划时间及具体实施方案上稍显欠缺。

作为8项政策样本中被评估为合格的政策样本P6《网络出版服务管理规定》评估为6.15分。该政策除了在政策公开和政策时效方面表现优异之外,其他8个主变量表现一般,尤其在政策性质(X1)、政策工具(X4)、政策视角(X6)、政策评价(X7)及作用层面(X8)5个主变量评分中均为最低分。仔细分析该政策内容可以发现,P6政策聚焦于网络出版服务行为规范和加强内容监管等方面,仅在较狭窄范围内对网络出版服务管理做出了监管与规定,缺少详细的目标、周密的规划与翔实的方案。事实上,造成该政策的不完备有其客观存在的现实原因。首先是网络出版服务业快速发展,亟须加强引导和规范。2002年颁布《互联网出版管理暂行规定》时,从事网络出版活动的网站数量较少且形式单一。随着网络技术的迅猛发展,网络出版形式增多,导致各类非法网站和淫秽色情、有害信息等违禁内容监管难度剧增,亟须完善有关法规和规章。其次,第十二届全国人民代表大会第一次会议批准《国务院机构改革和职能转变方案》和《国务院关于机构设置的通知》设立国务院直属机构国家新闻出版广电总局,国家对总局开展网络出版服务管理的范围、边界等进行了划分和调整,亟待将新闻出版广电总局的相关职责要求纳入规章之中。这样,满足产业发展实践需求和机构调整的政策支持就成为本政策亟待解决的核心问题,也就导致其对网络出版服务行为的概念、网络出版许可的条件以及网络出版的编辑责任制等基本问题的解决不彻底,PMC指数得分较低。

4 结语

本文综合利用文本挖掘和内容分析方法,对2006年以来的270余项数字出版政策内容进行了深入分析。结果表明:我国数字出版政策内容体系应包含文化属性、服务体系、意识形态与宏观管理等4个部分。这与我国数字出版的文化属性、商业属性、意识形态宣传功能和公共政策的管制引导功能契合。8项数字出版样本政策的实证分析结果显示我国数字出版政策整体质量较好,但依然有少量政策PMC指数得分较低,仍有改善空间。首先,针对我国数字出版政策大多指向政府相关部门与产业中的企业,而较少指向产业的其他主体的现状,后续政策制定时可考虑增加对受众以及高校、公益机构等组织的鼓励与规范等方面的内容,全面激活数字出版产业各主体的积极性。此外,在政策工具层面,未来政策可加大对数字出版市场需求刺激的方法与手段,以改善当前政策对需求型政策工具使用不够重视的现状。最后,可以考虑设置数字出版产业管理部门,并出台与产业发展阶段及环境配套的相关法律法规,保障数字出版产业的良好发展。

(责任编辑:翟艳荣)

参考文献

[1] 储鹏. 基于内容分析法的数字出版产业政策研究[D]. 武汉:武汉大学,2020.

[2] 周艳敏. 我国数字出版产业政策法规回顾与展望[J]. 中国出版,2013(21):44-47.

[3] 肖江涛,丁德昌. 论我国数字出版企业的版权保护机制构建[J]. 出版广角,2018(24):37-39.

[4] 甄增荣,武春霞,李玥. 数字出版产业的区域性及发展对策:河北省出版产业的比较优势与政策供给[J]. 出版发行研究,2017(6):47-50.

[5] 胥力伟. 加快数字出版产业发展的财税政策研究[J]. 科技与出版,2016(11):81-84.

[6] 陆维仪. 我国数字出版产业政策理论研究回顾与展望:基于文献计量的分析[J]. 出版发行研究,2018(12):41-45.

[7] 常嘉玲. 基于内容分析法的我国数字出版产业政策优化路径探究[J]. 出版发行研究,2019(4):24-29.

[8] 张窈,储鹏. 我国数字出版政策工具选择体系及其优化策略研究[J]. 科技与出版,2021(2):31-42.

[9] 余钧,戚德祥. 数字出版政策的演进脉络及新阶段政策取向[J]. 科技与出版,2023(10):47-54.

[10] 宋大成,焦凤枝,范升. 我国科学数据开放共享政策量化评价:基于PMC指数模型的分析[J]. 情报杂志,2021,40(8):119-126.

[11] ESTRADA M R,YAP S F,NAGARAJ S. Beyond the Ceteris Paribus Assumption: Modeling Demand and Supply Assuming Omnia Mobilis[J]. Social Science Electronic Publishing,2010.

[12] ESTRADA M R. Policy modeling:Definition,classification and evaluation[J]. Journal of Policy Modeling,2011,33(4):523-536.

贡献声明:

童晓雯:在论文成稿过程中,主要负责研究设计、论文撰写和修改。

康琪瑶:在论文成稿过程中,主要负责数据收集与处理、初稿资料收集与整理。

袁小群:在论文成稿过程中,主要负责选题、研究設计、论文修改。

作者简介:

童晓雯(1984— ),女,出版中级,湖北长江传媒数字出版有限公司项目经理,专注于出版数字化转型升级、融合发展工作近10年,作为骨干成员策划、申报并实施国家及省级融合出版项目20余项。

康琪瑶(1998— ),女,武汉大学信息管理学院硕士研究生,国家新闻出版署语义出版与知识服务重点实验室助理研究员。主要研究方向为数字出版、出版知识服务,在《出版科学》等期刊发表了学术论文。

袁小群,武汉大学信息管理学院副教授、出版科学系副主任,语义出版与知识服务实验室室务委员会副主任,主要研究科技期刊出版、数字出版与出版知识服务、数据分析与人工智能、计算机网络应用,发表中英文学术论文70余篇,出版学术专著2部。

Research on Text Mining—Based on Analysis and Evaluation of Digital Publishing Policies in China

Xiaowen Tong1Qiyao Kang2Xiaoqun Yuan2

1.Hubei Changjiang Media Digital Publishing Co.,Ltd,Wuhan 430070,China;2.School of Information Management,Wuhan 430072,China

Abstract The digital publishing policy is of great significance in regulating,guiding and promoting the development of the digital publishing industry. Quantitative research on its content may provide reference and guidance for subsequent policy formulation and optimization.In this study,text mining methods,including high-frequency word co-occurrence networks and the PMC (Policy Modeling Consistency) index model were implemented to analyze and evaluate the content of 270 Chinese digital publishing policies since 2006.The results show that a reasonable policy should include attributes such as cultural attributes,ideology,macro management and service system.Overall,Chinese digital publishing policies have performed well,but there is still room for improvement.

Keywords Digital publishing;Policy evaluation;Text mining;PMC index model;Co-occurrence analysis networks

猜你喜欢
文本挖掘数字出版
数据挖掘技术在电站设备故障分析中的应用
基于LDA模型的95598热点业务工单挖掘分析
文本数据挖掘在电子商务网站个性化推荐中的应用
从《远程教育》35年载文看远程教育研究趋势
学术期刊数字出版的运行模式与市场结构
浅谈新媒体在美术类图书出版中的应用
做一个全民阅读时代的“悦”读人
国际图书出版市场现状及趋势分析
慧眼识璞玉,妙手炼浑金
学术期刊云出版研究