生成式人工智能(AIGC)在科技情报研究工作中的应用

2024-01-26 02:48张颖岚李梦茹
科技和产业 2023年24期
关键词:科技情报数据挖掘模态

张颖岚, 卢 絮, 董 洁, 李梦茹, 刘 宇

(北京市科学技术研究院科技情报研究所, 北京 100044)

2022年,生成式人工智能(artificial intelligence generated content,AIGC)模型ChatGPT的推出引发广泛关注,基于自然语言处理技术(natural language processing, NLP)突破的ChatGPT在数据采集、数据分析、语义理解、文本自动撰写等场景展现了出色的能力。知名的AIGC创作应用程序有人工智能(artificial intelligence,AI)写作程序Jasper AI,AI绘图工具Midjourney、Stability AI,AI编程工具GitHub Copilot,AI聊天工具ChatGPT等。

生成式人工智能模型可追溯至20世纪50年代,随着隐马尔可夫模型(hidden markov model,HMM)和高斯混合模型(gaussian mixture model,GMM)等概率模型的发展,以及深度学习算法的出现,生成式人工智能模型在性能上得到显著提升[1]。为解决传统文本生成算法和图像生成算法在处理长句子和复杂图像方面的能力问题,循环神经网络(recurrent neural network, RNN)和卷积神经网络(convolutional neural Networks, CNN)被引入到语言、图像建模任务中[2],允许对相对较长的依赖关系进行建模并有效处理序列特性数据。随后,2014年Goodfellow等[3]开创性的提出了生成对抗网络(generative adversarial networks, GANs),在无监督机器学习、计算机视觉和自然语言处理领域中取得了突破性的进展,成为生成式人工智能模型发展的重要里程碑。2017年,Transformer模型架构[4]被引入自然语言处理和计算机视觉任务中,不仅能在单模态任务中取得突出效果,将transformer架构与不同领域模型结合还能够完成多模态任务,成为例如谷歌的BERT模型和Open AI的ChatGPT等许多生成式人工智能模型的核心架构。

AIGC相关技术尚处于起步阶段,Gartner预测AIGC技术在技术成熟度曲线(hype cycle)中位于大众期望的峰值期(peak of inflated expectations),进入主流应用的时间为2~5年[5]。但以ChatGPT为代表的大模型AIGC技术迭代速度呈现指数级爆发,引发人工智能技术浪潮,进一步影响科技情报工作方式变革。一方面,利用AIGC技术在文本生成方面的优势,可以作为高效智能创作工具成为知识生产新模式,优化科技情报工作与服务水平;另一方面,AIGC技术在决策影响、安全伦理、知识产权等方面的问题初露端倪,为科技情报研究工作带来机遇与挑战。因此,有必要从科技情报研究全流程视角探究AIGC在科技情报研究工作中的应用,并提出有针对性、可操作性的对策建议。

1 AIGC技术的定义

1.1 AIGC的定义与应用场景

AIGC是一种使用深度学习算法、广泛大数据训练学习、大算力支撑的人工智能技术生成内容方法。AIGC具有生成性、多样性、可组合性等特征,可在例如媒体、电影、音乐、游戏、电商、科研等数字化程度高、内容需求丰富的行业率先实现应用创新发展。目前,AIGC技术已广泛应用于金融、传媒、电子商务等多个领域,未来应用场景将进一步多元化,如图1所示。

图1 AIGC技术应用场景

1.2 AIGC的优势

AIGC基于自然语言理解(natural language understanding,NLU)、自然语言生成技术(natural language generation,NLG)、自然语言处理技术等多种人工智能技术,在数据挖掘、数据分析、文本自动生成、多模态/跨模态结果呈现方面具有突出优势。

1.2.1 数据挖掘

数据挖掘(data mining)是从大量真实世界数据(real world data)挖掘潜在信息、价值的过程,通常由统计、情报检索、机器学习等方法实现数据挖掘流程自动化。与传统数据相比,大数据具有数量大、种类多、实时性、非结构化的特点[6]。AIGC通过“预训练大模型+下游任务微调”的方式获取大量标记和未标记的数据,利用无监督学习、半监督学习、监督学习等机器学习技术,推断海量数据内在结构和深层次的复杂规则和关系,摆脱了传统数据挖掘方式中对劳动力和人工经验的局限性,在数据挖掘工作中的效率、稳定性、灵活性存在优势[7]。

1.2.2 数据分析

在技术层面上,面对多元化的数据结构,AIGC可运用自然语言处理技术从语义层面进行技术支持,实现对非结构化、复杂数据及信息的智能分析处理[8]。在分析能力上,AIGC可以自动分析数据,推断数据隐藏潜力并提炼观点,从而提高数据素养,进一步利用数据资源发现问题、分析问题与解决问题[9]。

1.2.3 文本自动生成

文本自动生成是AIGC实现商业化应用最早的技术之一,以现有的商业场景划分,AIGC的文本自动生成技术可以分为交互式文本和非交互式文本生成。交互式文本生成以结构化写作为主,以电商客服、媒体新闻撰写为核心应用场景,非交互式文本生成以剧本续写、营销文本等非结构化文本写作。以ChatGPT为代表的大模型AIGC技术在多源多模态数据关联与文本内容生成方面提供了强有力的技术支持,推动了信息资源和内容生成相关领域产生变革效应,形成人工智能辅助人类完成内容生成任务的新型信息环境[10]。

1.2.4 多模态/跨模态融合

跨模态融合是AIGC区别于传统UGC(user generated content)和PGC(professional generated content)的显著特征。2021年,OpenAI发布了开源跨模态模型CLIP(contrastive language-image pre-training),它利用自然语言理解和计算机视觉分析技术,分别提取图像和文本特征中隐含的语义,在超大规模的数据集中最大化样本语义相似度,实现跨模态的相互理解和结果输出[11-12]。

2 AIGC在科技情报工作中的应用

AIGC作为一种新形态的知识生产模式,将引发新一轮内容生产力革命,进一步影响科技情报工作方式变革。从三个方面分析AIGC技术在科技情报工作中的应用如图2所示。

图2 AIGC技术在科技情报研究流程中的应用

2.1 多源数据转化与挖掘

数据转化与挖掘是科技情报研究的核心工作之一。科技情报数据转化方法是运用数据清洗、翻译、数据过滤、信息检索等加工方式,将具有关联的相关性数据转化为格式化、结构化的有效数据[13]。传统的科技情报转化方式通常是需要情报研究人员结合自身知识与经验进行数据加工,研究结果很大程度受情报人员主观因素干扰并且耗费人力资源和时间成本。

AIGC技术通过自身在数据挖掘、多模态信息抽取、智能检索上的算法优势,利用人工智能技术驱动的自主传感器和网络爬虫技术[14],从海量数据库中判别与筛选有效数据,将多源异构数据转换为统一语法、语义的通用数据模型,并实现信息处理自动化。AIGC技术在获取数据的效率和覆盖率方面得到了显著提升,从而提升科技情报科研人员的工作效率。

2.2 智能化研究与分析

在科技情报研究分析中,AIGC技术中机器学习、遗传算法、信息关联等多学科智能化辅助分析技术,采用定量的科技情报研究方法,通过构建学习模型、预测分析模型、知识图谱,结合数学方法与专家系统在科技情报研究中的应用,实现对科技情报信息的智能化研究与分析,提高研究结果的准确性和可信度。

随着经济全球化及人工智能技术的飞速发展,机器翻译已成为科技情报人员处理海量数据与国外情报信息的重要研究工具之一。AIGC在人工智能技术、特别是NLP语义分析技术和增强学习技术的突破,为科研人员提供高质量科技情报翻译提供了可能。同时,AIGC技术能够从科技文献中挖掘提炼细颗粒度的知识单位,并对知识单位进行整理加工,形成规范有序的知识网络[15]。

未来,可能能够实现一种新型的科技情报研究专属模型,利用AIGC技术进行文献检索和摘要抽取,形成集科学知识网络、国内外学术文献、知识库系统、知识问答、信息检索、科技查新、翻译功能为一体的交互式科技情报研究服务系统。

2.3 多模态结果展示与决策支持

科技情报研究工作在数据采集、数据挖掘、数据分析的基础上,最终形成特定研究主题的科技情报研究报告。传统的科技情报研究工作,通过常规图表、建立信息资源平台等方式对研究结果进行展示,但随着大数据时代的发展,常规科技情报结果展示方式难以支撑海量数据集对于直观结果展示的需求。

AIGC技术可以将科技情报研究报告以多模态形式进行结果展示,例如文本、图像、视频、音频等方式。AIGC技术可对复杂多元结果数据抽象映射至跨模态可视化结构[16],并通过数据聚合、智能检索技术,利用可视化平台实现自定义范围的结果展示。在决策支持方面,AIGC技术可以实现情报数据的实时更新,满足用户对于数据时效性的要求,进一步提升科技情报服务效率与水平。

3 风险与挑战

以ChatGPT为代表的AIGC技术的巨大潜力表明了AIGC技术将一定程度影响科学研究范式,接下来分析AIGC技术对科技情报研究工作带来的潜在风险与挑战。

3.1 安全保密问题

随着大数据、人工智能等新兴技术的发展和普及,当数据信息以更加智能化模式获取时,一方面提升了科技创新协同效率,另一方面也增加了科技信息被过度采集、传播和使用的风险[17]。AIGC技术服务所有者能够在科技情报工作者使用AIGC类应用程序时轻易获取主要受众和目标群体的用户画像数据,开展精准挖掘、关联性分析等聚合分析,掌握研究问题、关键核心技术、研究进展、重要实验设备等一系列关键敏感信息,导致科技创新成果数据及相关信息被不当访问或获取,从而对国家科技战略安全产生隐患。例如,三星半导体业务部门因员工误用、滥用ChatGPT应用程序,20天内发生3起芯片机密数据泄露事故。

3.2 底层数据不干净,产生偏见影响决策

AIGC技术本质就是使用大量数据集执行训练进行机器学习的人工智能技术。以ChatGPT为例,ChatGPT基于2021年以前的互联网开源数据集进行训练,对于2021年后事件的输出结果将产生偏差,甚至生成大量虚假信息,伪造事实误导情报分析影响决策。另外,目前的AIGC技术生成结果并不具备验真与证伪的功能和元认知能力,泛知识化大模型无法保证应答质量,甚至稀释真实信息。科技情报研究领域对数据可信度有更高的要求,因此基于虚假数据和伪事实生成的情报报告很可能产生偏见影响决策与研究结果[18]。

AIGC可能会带来意识形态问题。AIGC的输出结果由模型决定,而模型又来自算法选择和用于模型预训练的庞大数据集,这使得模型开发人员可以轻易将偏好的价值观植入训练数据集,或通过算法选择、底层架构使输出结果产生潜移默化的影响。如果模型开发人员的价值观存在扭曲历史、文化偏见和种族歧视等,科技情报研究人员在使用AIGC模型时,底层数据的扭曲、偏见和歧视会对科研结果产生微妙的影响,甚至产生误导。因此,在国际国内各种思潮交织碰撞、东西方意识形态博弈的背景下,AIGC类互联网服务可能被国家行为体和非国家行为体操纵,成为意识形态传播的工具。

3.3 对传统科技情报研究工作形成挑战,加剧就业竞争

AIGC对传统科技情报工作带来颠覆式影响,从情报感知、数据采集、数据挖掘、情报分析、结果生成、结果展示、科研成果写作等科技情报研究环节均会受到不同程度的影响。一方面,部分传统科技情报研究工作将会被AIGC技术优化或取代,加剧了就业竞争,甚至引发技术性失业问题[19]。以ChatGPT为例,目前版本程序的功能以语言交互形式为主,同时兼具编写和调试计算机代码等编程能力,将对多源异构情报信息采集、信息分类人工处理、科技情报定量定性分析等传统科技情报研究工作的效率和时效性带来冲击。另一方面,AIGC技术中的智能检索、智能化辅助分析等人工智能技术将大幅提升科技情报研究工作效率,同时扩展科技情报服务工作的业务范围,催生出新的智能服务方向和体系,带来新的工作机会。

4 对策建议

4.1 建立风险管控机制,完善情报工作安全措施

在科技情报研究中,一方面注重技术预防,利用深度学习、大数据等技术手段防范敏感数据窃取问题。建议建设具有我国自主知识产权的AIGC科技情报智能服务平台,构建智能化科技情报安全服务基础设施体系。从物理安全和技术安全两方面共同保障科技情报研究工作的开展,形成数据资源中心、风险管控、资源共享一体化的安全信息环境。另一方面,应建立风险管控机制,利用法律约束规范AIGC技术规范发展。遵循基本伦理原则,建立AIGC安全性审查与追溯制度;尊重个人隐私,建立访问管理和控制数据来源和应用制度,预防潜在隐私与安全问题发生,使人工智能技术能够在科技情报研究领域得到良性的发展。

4.2 加强底层数据标注和数据清洗过滤处理

科技情报研究工作应加强底层数据标注,注重数据清洗过滤处理流程,加强对数据质量的管控。在大数据时代中,海量处理数据不断增加是科技情报研究工作面临的未来趋势,ChatGPT类AIGC技术优化了数据挖掘工作流程,在大模型底座的加持下,推动了情报信息资源建设和多源多模态信息生成技术升级。科技情报工作应加强识别AIGC可能生成的虚假信息,从大数据全生命周期评价科技情报安全性和可靠性,保障情报信息安全,提高科技情报研究水平与政府决策服务水平。

4.3 建议多举并发,提升科技情报工作人员就业竞争力

人工智能作为引领新一轮科技革命的战略性技术取代部分劳动力完成工作已成为必然趋势,应辩证看待AIGC技术在科技情报工作就业中体现的“替代效应”和“创造效应”[20],建议从政府、高校、用人单位及个人四个方面提升科技情报工作人员就业竞争力,以应对AIGC技术对现行科技情报工作人员就业带来的深远影响。政府层面,建议应对人工智能产业变革,开展科技情报教育制度改革;高校层面,建议优化情报学及相关学科领域科技创新体系,推进人工智能与情报学相关学科的交叉融合与动态调整,注重毕业生多维能力培养;用人单位层面,建议建立基于AIGC等人工智能技术的科技情报技能培训体系,提升科技情报工作人员的人工智能技术应用能力,拓展科技情报研究人员创造性工作能力,努力消除因人工智能技术兴起引发的技术性失业恐慌;个人层面,倡导终生学习理念,利用AIGC等智能化辅助技术在科技情报工作中的优势,持续提升自身科技情报研究能力、实践能力和综合竞争力。

5 结语

随着AIGC底层技术和产业生态形成的新格局,科技情报研究领域将是AIGC技术发挥智能作用的主战场之一。数智时代变革引发的新情报范式,已开始向多模态、跨模态、个性化、多元化的智能情报服务方向发展。应认真思考和探索信息技术发展变革对情报学研究与实践的推动作用,充分发挥AIGC作为智能研究辅助工具在科技情报研究工作中的优势,重视研判新技术可能导致的潜在风险与隐患,为新时代科技情报研究工作提供安全、有效的技术支持。

猜你喜欢
科技情报数据挖掘模态
基于数据工程的国防科技情报生态体系构建
探讨人工智能与数据挖掘发展趋势
铜陵市科技情报工作存在的问题与发展对策
加强科技情报档案管理工作的建议
基于并行计算的大数据挖掘在电网中的应用
国内多模态教学研究回顾与展望
一种基于Hadoop的大数据挖掘云服务及应用
基于HHT和Prony算法的电力系统低频振荡模态识别
基于创新环境下的科技情报研究
由单个模态构造对称简支梁的抗弯刚度