生成式智能出版的技术原理、应用挑战及优化路径

2024-05-18 06:05:45索伟
传播与版权 2024年8期
关键词:技术原理

索伟

[摘要]智能出版的本质是作者通过自动文本分析、AI语义解析、人工智能排版等方式生产以及传播知识。在人工智能与出版融合发展的大趋势下,生成式智能出版作为一种新型智能出版模式,通过对内容资源进行数字化处理和个性化定制,实现知识内容的快速生产、精准分发与个性化定制。生成式智能出版具有智能生产、人机协同、个性化定制等特点,在优化出版物结构、助力内容增值、增强用户体验等方面具有积极作用,但在技术应用过程中也存在版权保护不力、生产成本高昂、知识产权难以保障等问题。对此,文章针对上述问题从加强版权保护与权益保障、打造自主可控的核心技术、优化生产流程与用户体验三个方面提出生成式智能出版的优化路径。

[关键词]生成式智能出版;技术原理;应用挑战;路径

智能出版是人工智能与出版融合发展的产物,指利用人工智能、大数据、云计算等技术手段,对传统出版进行数字化处理和智能化再造,为读者提供个性化的内容和服务[1]。人工智能技术在出版业的落地与应用是生成式智能出版的重要组成部分,代表出版业数字化转型发展的新方向。2017年,中国新闻出版研究院印发的《2016—2017中国数字出版产业年度报告》(以下简称《报告》)指出,从数字内容生产、数字内容消费到数字内容服务,我国数字出版产业的数字化转型升级已成为必然趋势[2]。

一、生成式智能出版:“智能生产”与“人机协同”的新型出版模式

新型出版领域的智能化转型已是大势所趋,而人工智能作为一种先进的生产工具,已经渗透至出版生产与传播的各个环节。近年来,我国对人工智能技术加大投入力度,从基础层到应用层都实现了智能化的转型,如当下的大型化工厂、酒店等都可实现智能化,而对出版行业而言,智能化也是人心所向,新聞出版产业逐渐从“人找信息”过渡到“信息找人”,从“产品导向”转向“用户导向”,从“人机协同”走向“人机融合”。

传统出版企业为实现融合发展,纷纷引入人工智能技术,在智能编辑、智能校对、智能排版、智能审核等方面进行探索和尝试。然而,目前基于人工智能的智能编辑与校对仍主要处于“人机协同”阶段[3]。在编辑环节,人工智能主要用于自动检测、纠错与矫错等;在校对环节,人工智能主要用于语言识别、语义理解和语法分析;在排版环节,人工智能主要用于排版工具的开发。总体而言,这种人机协同模式仅将人工智能作为一种工具,尚未实现真正意义上的“人机协同”。而生成式智能出版作为一种新型智能出版模式,以进行数字化处理并加以个性化定制为核心内容,是基于深度学习算法模型和自然语言处理技术进行内容生成的过程。随着深度学习算法模型的不断改进与优化,生成式智能出版逐渐实现从“人机协同”到“人机融合”的转变。

在出版领域中,“人机协同”指机器在完成任务的过程中更加注重人与机器之间的协作关系,并使得工作效率得到显著提升。在内容生产阶段,人工智能主要通过机器自动或半自动地完成编辑工作;在内容分发阶段,人工智能主要通过机器自动或半自动地完成对内容的快速分发;在个性化定制阶段,人工智能则主要通过机器自主或半自动地完成对内容的深度加工并最终交付。与传统出版相比,生成式智能出版具有更高的智能化程度和更强的个性化定制能力。一方面,生成式智能出版可以根据用户的当前需求和用户的喜好习惯,更新出版内容和写作资源;另一方面,生成式智能化出版可以结合用户的喜好,为用户提供个性化专属定制,从而真正实现内容生产和分发与用户一体化关系,优化用户的使用体验[4]。

二、生成式智能出版的技术原理:内容、用户与场景的匹配

生成式智能出版的第一个关键技术是机器学习技术。机器学习技术是人工智能发展中最重要的分支之一,也是生成式智能出版的核心技术。机器学习算法以统计学为基础,利用统计学中的一些经典思想和算法分析来处理数据,从而对人类思维过程进行模

拟[5]。具体来说,机器学习可分为监督学习、无监督学习、强化学习三种类型:监督学习指通过训练一个模型来预测另一个模型的输出结果,通过不断地训练和优化,让模型的预测效果更好;无监督学习则指从没有标签的数据中进行学习,如无标签文本分类;强化学习则是通过与环境之间的互动来进行学习,如自动驾驶汽车。

在生成式智能出版中,机器学习技术主要分为三种类型:一是基于文本数据训练得到的分类模型;二是基于用户行为数据训练得到的推荐模型;三是基于用户反馈数据训练得到的推荐模型。基于文本数据训练得到的分类模型主要是在传统算法上进行改进,其在大规模数据集训练上取得较好的效果;基于用户行为数据训练得到的推荐模型则能够更加准确地预测用户可能感兴趣或者需要关注的领域。在传统算法中,文本数据集通过分类标签对用户进行分类,并根据不同标签来判断用户偏好,从而向其推荐内容。然而,这种模式存在一定的问题:第一,对海量且多样的文本数据集而言,标签本身就会存在一定程度的局限性;第二,不同标签之间缺乏有效区分度。在推荐算法中,由于对用户标签进行了系统级划分和处理,因此在用户多标签下的内容推荐很难取得好效果。基于用户反馈数据训练得到的推荐模型虽然能够较为准确地预测用户可能感兴趣或需要关注的领域,但是其在面对海量且多样的文本数据集时会出现泛化能力不足、不稳定等问题。

三、生成式智能出版的价值作用:助力内容增值,优化出版结构

在人工智能与出版融合发展的大趋势下,生成式智能出版以数据和算法为核心,在数字时代重新定义了出版业的基本规律,具有优化出版物结构、助力内容增值、增强用户体验等价值作用[6]。首先,在内容增值方面,生成式智能出版通过对海量数据的自动处理和分析,能够对已有内容资源进行深加工与再利用,更好地实现知识内容的个性化生产与定制化推送,从而为用户提供更多优质的内容资源。其次,在出版结构优化方面,生成式智能出版通过对知识数据的深入挖掘和分析,能够将传统出版物中不方便阅读或用户不感兴趣的内容与用户不匹配的资源进行重新整合与优化,确保用户既能看到自己喜欢的资源,又能屏蔽自己不感兴趣的部分。最后,在用户体验方面,生成式智能出版通过对海量用户数据进行自动化的深度分析与挖掘,确保在出版结构优化时找到属于用户的独一无二的内容。同时,这样的查询方式还能够提升出版业的整体效率。

四、生成式智能出版的困境挑战:版权保护与权益保障不足

智能出版以数据为核心,通过对内容进行数据化处理,生成具有高度个性化特征的内容产品。在这种新型智能出版模式中,由于机器自动化的属性,数据获取的成本降低,生产效率提升,从而引发数据产权、版权保护与权益保障等问题。目前,生成式智能出版主要分为三种形式:一是自动生成系统(Automated Generation System,AGS);二是人工智能写作系统(Artificial Intelligence Writing System,AW);三是自然语言处

理系统(Natural Language Processing System,NLP)。

其中,前两种生成式智能出版模式的版权保护与权益保障问题最为突出。

(一)自动生成系统:数据产权界定模糊

在自动生成系统中,数据主要由编辑通过对作品的加工处理获得。在生成时,编辑可以通过对数据的抓取、整合与加工,形成具有高度个性化特征的内容产品。由于数据获取的便利性和时效性,在传统出版中,作品创作完成后由作者享有版权。而在自动生成系统中,编辑并不直接参与内容的创作过程,而将作者提供的内容作为数据来源进行抓取和处理,从中获取大量具有独创性、新颖性的内容。因此,自动生成系统的数据产权界定存在一定的模糊性。在未来技术不断发展、市场竞争加剧的背景下,传统版权法很可能面临“去中心化”的挑战,同时数据产权问题也可能进一步加剧,因此,数据产权界定成为生成式智能出版面临的首要问题。

(二)人工智能写作系统:著作权保护存在漏洞

人工智能写作系统的核心是智能算法,通过对输入信息的学习,根据不同作者的写作风格和特色,利用机器自动生成文字相关的内容和作品。在生成式智能出版模式下,机器对用户输入的文字内容以及作者信息和擅长类别进行筛选、过滤与汇总,基于此生成用户真正想要的内容,并通过算法推荐给适合这类内容的用户,这种基于用户需求的智能化创作模式虽然具有高度的个性化特征,但是其数据是在互联网大环境中所找到的,因此原始数据容易受到其他机构或个人的非法利用。同时,机器不具有重新创造出全新作品的能力,也无法享受我国的著作权法保护。尽管我国相关法规对“人工智能生成作品”有明确规定:“本法所称人工智能创作的作品……是指计算机程序和算法”,但由于细节不够以及缺乏相关法律规定,目前司法实践仍难以确定人工智能著作是否构成著作权侵权,这对人工智能写作系统来说是一个非常大的弊端。

五、生成式智能出版的优化路径

人工智能与出版的深度融合是智能出版发展的必然趋势,生成式智能出版的应用将会对传统出版模式产生巨大的影响。然而,生成式智能出版的流程还不够完善,同时其在技术应用上也面临不少问题,为解决这些问题,笔者认为可以从以下三个方面做出优化。

(一)加强版权保护与权益保障

目前,作者和平台都面临侵权的风险。比如,一些平台利用网络爬虫技术抓取他人作品数据,或在网页中插入与他人作品相似度较高的图片和音频,从而获得用户数据。在这种情况下,如果侵权行为得不到有效制止,将会严重影响作者和平台的利益。因此,相关主体必须完善相关法律法规,严厉打击侵犯著作权行为,建立完善的版权交易市场,增加侵权行为成本,真正加强版权保护与权益保障。

(二)打造自主可控的核心技术

生成式智能出版涉及数字内容产品生产、加工、包装、营销、管理等环节,每个环节都需要投入大量的人力、物力与财力。而生成式智能出版中涉及的人工智能算法需要大量算力支撑才能实现智能生产与智能分发,这无疑加大了内容生产成本。因此,出版企业等相关主体要及时引入属于自己的核心技术算法[7],深入推进生成式智能化出版,有效利用AI技术,并科学合理地创新技術,引入国外相对发达的技术资源进行学习和钻研,从而形成属于自己的核心资源,降低内容生产成本。

(三)优化生产流程与用户体验

在智能出版趋势下,一些大学生或是学术参与者依赖AI智能写作,由此衍生出一系列学术不端的问题。这在一定程度上对当下论文原创度以及实验真实程度、学术公平性、道德规范的维持以及用户体验度都产生不良影响。对此,笔者建议相关主体加大内容生产流程的监管力度,对内容生产过程给予更好的意见(列大纲、实验数据参考等方面),从而增强用户体验。

六、结语

目前,生成式智能出版仍面临前所未有的挑战,有些学者认为,生成式智能出版内容提出过早。对此,相关主体要积极宣传生成式智能出版,及时解决当前出版面临的知识碎片化、信息过载、质量参差不齐等问题,利用人工智能与出版融合赋能,实现由传统出版向生成式智能出版的转型,促进生成式智能出版在内容生产领域发挥更大的价值。

[参考文献]

[1]张新新,黄如花.生成式智能出版的应用场景、风险挑战与调治路径[J].图书情报知识,2023(05):77-86.

[2]杨雅.生成式人工智能在科技期刊出版中的应用场景探讨[J].新闻研究导刊,2024(02):242-245.

[3]杨亚红,孙岩,余党会.学术出版行业生成式人工智能作品相关责任与风险分析研究综述[J].中国科技期刊研究,2023(12):1601-1607.

[4]刘珍,赵云泽.技术逻辑、实现方式与现实边界:生成式AI对出版业的深层影响[J].中国出版,2023(15):11-16.

[5]种晓明.AIGC赋能出版业背景下版权监管新路径研究[J].科技与出版,2023(08):96-104.

[6]熊有军,戴琼.生成式人工智能发展路径赛道及商业模式分析[J].信息系统工程,2023(12):121-124.

[7]彭道敦,谢琳. 大型生成式人工智能的版权法分析:禁止盗用救济路径的提出[J].学术研究,2023(11):52-54.

猜你喜欢
技术原理
中波广播发射天线的原理及维护技术探讨
市级人工影响天气地面业务流程研究
刍议广播发射天线技术及应用
无人驾驶汽车未来展望
新能源汽车技术的技术原理和优缺点探究
浅谈智能化除草机器人技术发展现状及趋势展望
COFDM在现代数字广播DRM中的应用
科技视界(2016年11期)2016-05-23 10:05:17
基于VPN的计算机虚拟网络技术及应用
电气自动化测量设备的技术原理与应用
科技传播(2015年24期)2016-03-09 23:55:50
典型多模型估计方案的分析与比较