人工智能环境下出版编校技术赋能的挑战与治理

2024-11-22 00:00:00杨瑰玉
出版参考 2024年10期

摘 要:以ChatGPT为代表的人工智能应用深刻影响着出版行业的各个方面,新的数字化平台和应用工具不断涌现,其中也存在各类技术条件限制、出版价值判断和智能生成内容版权等问题,为此,厘清智能化内容生产、内容调适和内容风险问题,革新出版流程和内容治理方式,是出版业的必然选择。

关键词:人工智能 编校技术 内容风险 内容治理

2022年11月以来,由OpenAI公司发布的新型问答机器人ChatGPT成为全世界范围的热点网络话题。其实,在此之前人工智能就被应用于绘画、视频、数学问题和音乐创作等领域。这类可用于内容创作的生成式人工智能技术和自然语言处理等新兴技术,对出版行业的各个环节都有着深刻的影响[1][2],并引发了广泛的争论和思考。人工智能应用对出版编校技术赋能尤其显著,深刻变革了出版内容的生产工具、生产关系,也带来了许多内容风险问题。本文试图在此方面进行综合述评,并提出相应的内容治理策略及建议。

一、人工智能环境下出版编校技术赋能的内容生产

从雕版印刷术发明的时间算起,出版已经历一千多年的蓬勃发展。人工智能则是人类进入计算机时代后的新兴技术,迄今仅有几十年的历史,但在出版领域的应用十分广泛,影响十分深远。

(一)人工智能技术驱动选题策划科学化、高效化

随着出版业数字化转型,人工智能技术逐渐被应用于出版选题策划工作。出版单位在选题策划时利用人工智能深度学习和大数据分析挖掘技术,便捷地掌握目标读者的兴趣需求和偏好特征,为策划编辑提供精准、高效的选题决策参考,有效解决个人经验主义造成的出版内容选择困局,辅助编辑找到符合市场需求的选题。[3]北京开卷信息技术有限公司为国内四百多家出版企业提供中文图书零售数据监测服务,海量的销售数据和消费者数据为选题策划提供了数据支持;爱思唯尔、施普林格等国际出版集团通过建立大型数字化资源平台[4],广泛运用数据库技术和数据决策分析工具,为出版社编发人员提供便捷的数据服务和决策参考。

(二)人工智能技术驱动编校加工智能化、协同化

出版编校技术的智能化为编校人员带来诸多便利,图文识别、协同编校、自动化评议和论文自动检测等创新应用,使得传统的内容生产方式和编辑出版模式都发生巨大变革。[5]在编校加工阶段,应用智能编校排版系统、机器智能的协同编纂系统和出版管理平台等,编校人员得以提高工作效率和生产的针对性。在成稿后的内容生产阶段,人工智能编校也有较多成熟的应用。编校人员在海量语料库、知识库的支持下,利用数字化协同编纂系统和各类校对软件等,进行图文内容智能编辑审校、智能排版设计,不仅工作效率得到极大提升,编校质量也明显上升。例如,方正智能辅助审校系统通过不同的算法模型进行分析纠错,不仅能进行字词检查、体例格式审校、术语规范识别,还可以实现云端审校,而且结果具有实时性,促进了出版编校流程优化。

二、新知识范畴体系下出版编校技术赋能的内容调适

知识经济时代,人工智能与出版融合发展,出版学新概念、新现象涌现,出版内容范畴体系不断扩展。为了重构出版流程并强化其治理效能,我们必须深入理解和把握智能出版、元宇宙出版等新概念,以及虚拟数字人、自然语言处理等新现象、新技术,以更加广泛、更加深邃的视野认识信息化背景下的出版流程和经营管理,做好内容评估和筛选,以转变出版范式和规避出版风险。

(一)“泛在智能”突破内容的质量和表达限制

腾讯研究院院长司晓说,“未来,智能技术会是一个渗入生活、无所不在的状态”[6],这可以说是对“泛在智能”的一种形象描述。随着AI、5G、区块链等新技术的发展,人工智能技术将深入出版领域,广泛渗入编辑、加工、复制和发行等各出版环节,促使内容、载体、技术和出版者等多元主体组成全新的出版场域。例如,腾讯云图研发了高精度通用OCR引擎,解决了OCR技术方向的文本畸变、密集排布、小字模糊字等难题,极大提高了内容处理效率;爱思唯尔发布了生成式人工智能工具Scopus AI,帮助研究人员和科研机构快速准确地获取文献摘要和研究见解;吉林人民出版社利用数字孪生、云计算及云渲染技术,推出拟人化泛在智能体“吉遇”数字人,创新了To B和To C的对话式知识服务场景;[7]“方正星空出版大模型”推出了一系列智能工具,如方正智能编辑助手、方正鸿云AI工具集等,将智能工具与多种应用场景相结合。

(二)“知识关联”促进内容的供给和需求匹配

基于智能化内容生产与知识传播的特征,出版企业因势利导地利用人工智能技术,突破传统内容数据非结构化、无标引的限制,构建了基于标引、覆盖供需两端的关联管理体系,使得内容变得可复用,还能够精准且快速地溯源。首先,通过对内容资源进行标引,使作者、编辑和用户在内容生产过程中可以实时互动。这些被标引的内容是企业的核心数据资产,既服务作者,帮助其找准选题方向,精准锁定读者群和目标市场,避免出版内容同质化,又服务编辑,帮助其更快地识别和判断稿件内容质量,实现自动化评审和编校加工,提升出版效率。例如,作者、编辑和终端用户依托AIGC技术打造的内容生产线,可以实时在线互动沟通,保证内容供应实时更新。其次,通过强化内容的关联性和需求的关联性,提高知识产品和服务的供需匹配和调度管理水平。新兴技术的发展推动传统编印发的线性链条变为以任一环节为起点的即时供应模式。这一变化伴随着各类场景的深度融合,可将内容生产者与终端消费读者无缝对接,闭合了“C to B”、UGC、AIGC的直接联系渠道,使得出版流程一体、同步。例如,利用AIGC与数字人、虚拟/增强现实等技术的集成,结合供需两端的精准标引和智能化关联,借助于智能终端的“软硬一体”,让编辑沟通、内容推荐均跃升至全新层面。

三、人工智能环境下出版编校技术赋能的内容风险

内容创作是出版的先发环节,人工智能自主或辅助创作已经广泛应用。先是Midjourney、Stable Diffusion等人工智能绘画软件震动绘画界,再是人工智能在音乐、视频制作领域发展迅猛,还有ChatGPT、Kimi等智能应用引起广泛关注。这些新兴的人工智能技术对出版内容的创作帮助不小,也带来了较多的内容风险。

(一)“高科技,伪生产”导致去作者化的内容侵权风险

AIGC等人工智能技术应用的泛化引发内容生产和传播的去作者化,导致内容侵权问题。比如,ChatGPT在用户咨询时所生成的内容,其出版主体是咨询者还是人工智能,抑或其创制者或所有者?使用者将人工智能所生成的内容用于自己的创作,是人类对机器的引用,还是涉嫌抄袭?若区块链技术在智能合约下撮合交割的内容出现偏差或认证作者身份错误,引用者或改编者是侵权原创者,还是侵权虚拟人作者,抑或不存在侵权?这些因“去作者化”导致的内容侵权风险,涉及复杂的伦理争议。有专家学者从人工智能生成的内容缺乏独创性的角度考虑,认为其不具有著作权属性;另一部分专家学者则认同人工智能生成的内容的新颖性和创意性。但是,人工智能生成内容应归属于谁?随着人工智能技术的发展以及人们的版权意识日益增强,智能出版时代“高科技,伪生产”导致去作者化而产生的内容归属问题及其带来的侵权风险,将成为一个重要研究课题。

(二)“高智能,低情感”导致去编辑化的内容质量隐患

随着人工智能深度融入出版领域,技术与人文的矛盾日益凸显,出版领域选题策划、编校加工体系和场景被人工智能技术与自然语言处理工具逐步重塑。一方面,高效的智能技术旨在实现服务的个体化,而非注重传统意义的出版价值。其“算法理性”和“模拟情感”容易使优秀的内容隐没于算法黑箱,容易使风格单一、缺乏创意的内容成为流量的聚焦点,不仅“误伤”了诸多内容新颖且具有人文内涵的作品,还使选题集中在畅销书部分,加剧出版物的高度同质化现象。另一方面,人工智能造成“信息茧房”效应和群体极化问题,对出版行业的内容导向把关和用户阅读体验造成了负面影响。就机器本体的底层逻辑而言,人工智能难以突破拟主体性的界限,机器思维无法替代人文关怀,难以识别隐喻信息,比如一些专业细分领域的特定用语容易被人工智能识别为错误或敏感内容。另外,由于现有的网络条件和版权保护等原因,许多文献资料特别是图书内容并未联网,而大量科学价值极低、重复甚至有错误的文献数据充斥其中,在对出版物的社会效益、伦理价值判断方面,人工智能无法替代编辑的职能。

(三)“重采集,轻保护”导致数据活动的安全问题

大数据及人工智能技术的飞速发展,为选题策划和编校加工提供了全新的资源、方法与范式,但数据活动的安全问题也在快速增加,广大编辑和终端读者对人工智能的安全性担忧不断加剧。一是数据采集忽视用户选择权,在未经同意的情况下,大量个人数据被用于大语言模型的训练,可能涉及侵犯他人相关权利。如大语言模型的训练数据的采集,可能并未制定并公开个人信息收集使用规则,或者分散隐晦地包含在隐私政策中,不便于用户充分使用选择权。如ChatGPT在未经适当同意的情况下从网络资料和数据库文献乃至个人信息中获取训练数据,若用户在作品中使用其生成的内容,则可能侵犯他人权利。二是数据篡改和泄露导致虚假有害信息传播或学术剽窃等不当行为。出版企业基于海量数据进行选题策划,这些数据很容易被恶意行为者操纵或篡改,导致人工智能算法提出的选题出现偏离而不准确、不可靠;攻击者还可能会试图使用恶意软件窃取出版内容标引元数据,导致数字内容资源的泄露。三是人为错误的内部威胁。编辑不具备人工智能的“机器理性”,容易出现内容标引、系统连接等方面的错误,这些错误将导致智能排版、智能编校等工具做出错误处理,使得内容出现不易发现的错误;也可能导致“电子媒介人”“数字虚拟人”等在远程互动时做出不当应对,导致负面舆情。

四、人工智能环境下出版编校技术赋能的内容治理

随着信息技术的飞跃,内容量激增与质量控制成为出版业面临的双重挑战。如何有效利用人工智能的力量,提升内容编辑的效率与精确度,同时维护内容的创造性和伦理性,满足数字化时代内容传播要求和读者阅读需求,实现出版内容治理的现代化,是出版业亟须解决的问题。

(一)自动校对与语法审查

自动校对与语法审查是人工智能技术在出版内容治理中的重要实践之一,它超越了传统基于规则的校对软件,实现了从浅层的拼写检查到深层语法逻辑分析的飞跃。首先,借助AI理解语境,纠正语义上的不当,如时态误用、主谓不一致、词语搭配不当等问题。通过深度学习模型,使AI学习海量的语言数据,建立复杂语言结构的模型,从而在不同文体和专业领域中准确识别并修正错误,让编辑不用将大量时间耗费在基础的文字审校工作中,从而能集中精力对内容进行可读性编辑和创造性润色。其次,借助AI在校对过程中实现多语言支持和风格统一,确保多语言版本间的一致性,同时根据预设的风格指南调整文本表述,如遵循特定学术期刊的引用规则、遵循企业品牌风格等,确保出版物的专业性和可读性。再次,编辑人员要充分利用AI提供的初步校对结果,结合人类的判断力和创造力,进行复审和精修,以达到最佳的校对效果。

(二)语义理解和内容优化

内容的知识组织与信息架构设计对AI进行高效语义理解至关重要。首先,要让AI技术在内容处理的前端,即知识的组织和信息架构设计上发挥关键作用。它能够借鉴图书分类学、索引编制的成熟原则,优化关键词的精准提取与自动摘要的生成。这意味着,即便是海量信息,也能通过智能算法快速提炼核心要点,既满足学术严谨性,又能适应大众阅读习惯。比如,向AI“投喂”大量文献进行深度学习,使其自动识别并归纳出文本的关键主题、人物关系、时间线等,提高信息检索与内容导航的效率。其次,利用本体论构建知识图谱,让AI系统在更高层次上理解文本间的复杂关联与概念的深层含义,并根据信息之间的逻辑关系进行推理,实现对内容深度语义的精准解析,从而帮助编辑明确内容的价值所在,提高工作效率与质量。再次,利用机器学习算法分析出版市场趋势,预测读者偏好,为编辑提供数据驱动的决策支持,使内容创作更加贴近市场需求,同时保持前瞻性。

(三)版权审核与合规管理

AI技术在版权审核中的应用不仅优化了现有流程,还开拓了版权管理的新维度,使得出版社能够在保证内容创新与流通的同时,有效防控版权风险,促进了内容产业的合规与繁荣发展。一是自动化侵权检测。利用人工智能,通过自然语言处理、计算机视觉等先进技术,迅速分析文本、图像和音视频内容,与庞大数据库中的版权作品进行比对,有效识别潜在的侵权行为,减少人工审核的繁重工作,提升审核速度和准确性。二是深度学习辅助的模式识别。利用AI对内容的上下文的理解和创意表达,更精细地区分合法引用、合理使用与侵权行为之间的界限,特别是进行复杂版权案例的判断,以助于出版社维护原作者权益,鼓励内容的合法再创造与学术交流。三是用户生成内容的版权监控。在社交媒体和内容共享平台泛滥的时代,要利用AI监控系统持续扫描网络空间,及时发现并报告未经授权使用的出版内容,有效保护出版社及作者的合法权益。

五、结语

人工智能不仅是出版产业升级的催化剂,也是文化传承与知识创新的重要伙伴。为了充分发挥其潜能,行业内外需共同努力,促进技术、人文与政策的深度融合,推动出版领域向更加智慧、可持续的发展方向迈进。本文的研究成果期望能为相关从业者、决策者提供参考与启示,助力在人工智能的广阔天地中积极探索出版编校技术赋能的内容生产、内容调适与内容治理的新路径,推动出版高质量发展。

(作者单位系湖北科学技术出版社)