类ChatGPT模型介入国家科技计划项目评审的应用探讨

2024-03-27 03:07陈金辉吴瑞林
科技和产业 2024年5期
关键词:专家库专家科技

宋 欢, 陈金辉, 吴瑞林

(1.高技术研究发展中心, 北京 100044; 2.北京航空航天大学人文社会科学学院, 北京 100191; 3.清华大学公共管理学院, 北京 100084)

国家科技计划是政府支持科技创新、高效配置科技资源的主要途径,也是加快建设科技强国、实现高水平科技自立自强的关键载体。自2014年实施国家科技计划管理改革以来,改革开放后设立的一批科技计划被优化整合为布局合理、定位清晰的新五类国家科技计划体系,包括国家自然科学基金、国家重点研发计划、国家科技重大专项、技术创新引导专项(基金) 、基地和人才专项[1]。在国家科技计划项目管理全流程中,项目评审立项环节更加备受关注,因其立项结果往往与科研工作者的科研事业和前途密切相关。随着项目的数量和种类日益增多,对项目评审的要求也越来越高[2]。近年来,关于项目评审的研究主要聚焦于评审概况分析[2-3]、项目评审方法[4-6]、专家评价模型[7-8]、专家遴选系统和专家库建设[9-11]等,而结合国家相关政策文件对评审工作中现存的一些瓶颈问题进行深入分析的相关文献报道较为少见。

近70年来,人工智能(AI)始终被称作世界三大尖端技术之一,近年来更是取得了飞跃式的发展[12]。2017年7月,国务院印发了《新一代人工智能发展规划》,强调要抓住人工智能发展的重大历史机遇,提出了面向2030年中国人工智能发展的战略规划[13]。2022年7月,科技部等六部门印发《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》的通知,推进人工智能场景创新,着力解决人工智能重大应用和产业化问题,提升人工智能发展质量和水平[14]。2022年年底,美国OpenAI人工智能实验室发布的ChatGPT成为当今最强大的AI处理模型之一,以极快的速度引起学术界和企业界的现象级关注。全世界的互联网巨头都纷纷宣布对标ChatGPT模型开发竞品,将这些模型统称为类ChatGPT模型[15]。类ChatGPT具有卓越的自然语言理解能力和生成能力,在诸多领域都展现出良好的应用前景,如教育教学[16]、编辑出版[15]、情报工作[17]以及学术研究[18]等,但在国家科技计划项目管理中的应用尚未见报道。那么,该如何利用类ChatGPT的强大功能来解决项目评审工作的瓶颈问题,并尽可能避免其负面影响呢?

为回答上述问题,结合现有的国家政策文件,深入探讨中国国家科技计划项目评审工作中亟待解决的问题,以具体问题作为导向和启发源头,基于类ChatGPT的技术优势提出其在项目评审工作中的4个潜在应用以及可能存在的挑战,以期为国家科技计划项目管理工作提供价值参考。

1 国家科技计划项目评审工作存在的问题

1.1 评审专家的评审行为影响同行评议的公正性

评审专家作为同行评议的主体,其评审意见是国家科技计划项目立项的重要决策依据,对国家科技资源合理配置起着关键作用。研究人员之所以对同行评议的过程感到不满更可能是对评审专家的质量或者选择感到不满[19]。尤其当评审专家没有认清评审的重要责任和义务,甚至急功近利、面对利益冲突难以维持学术界的纯洁,其自身的科研诚信和专业能力必然会受到各方质疑,如此一来对国家科研事业的健康发展将产生很大的负面作用。对此,国家自然科学基金委员(以下简称“基金委”)深入调研2015—2019年项目评审的实际情况,向项目申请人和评审专家开展了连续5年的满意度调查[20]。部分调查结果显示:超过10%的专家对于不熟悉的申请书选择“找熟悉项目内容的专家帮忙评审”;项目申请人反馈评审专家对“申请书研究内容的理解有偏差”“评审意见笼统空洞”;在通信评审和会议评审均存在小比例的打招呼现象,等等。这些现象或行为将不同程度地影响项目评审结果,进而影响中国各领域科技发展的进程乃至科技强国目标的实现。

其实,关于评审专家在项目评审中出现的异常现象或者违规行为早已引起各项目管理部门的重视。中共中央办公厅、国务院办公厅于2018年印发的《关于深化项目评审、人才评价、机构评估改革的意见》(以下简称《三评改革》)以及教育部、科技部于2020年印发的《关于规范高等学校SCI论文相关指标使用 树立正确评价导向的若干意见》均强调,应对评审专家的实际表现予以记录,建立诚信档案或信誉制度等,以严格规范评审行为[21-22]。基金委于2018年提出了“负责任、讲信誉、计贡献”的评审机制,对专家评审提出了包括倡导性规范、限制性规范和禁止性规范在内的三类规范性行为,鼓励项目评审中负责任、讲信誉的行为,同时对不负责任、不讲信誉的行为实行有效监督,目前已取得了一定的效果[23]。然而,以上所涉及的对评审专家行为的规范和监督机制,其本质还是依靠专家严格自律。唯有高度重视和引导专家认清评审过程的神圣不可侵犯,才是解决思想行为不端正的最佳途径。

1.2 语言差异难以满足项目评审工作的国际化和开放性需求

合作共享是推动科技创新、迎接全球新科技革命和产业变革的利器。人类要破解共同发展难题,比以往任何时候都更需要国际合作和开放共享[24]。借鉴外籍专家的先进经验和创新理念、促进对科技创新发展的研判和拔尖创新人才的培养,对于中国国家科技计划项目管理工作具有重要意义。2017年,为进一步完善国际专家队伍的建设,科技部研究出台了《科技部关于推进外籍科学家深入参与国家科技计划的指导意见》,明确提出鼓励外籍科学家参与国家科技计划的顶层设计、项目管理以及研究开发等相关工作的支持意见[25]。《三评改革》强调,在部分前沿与基础科学等领域逐步按适当比例引入国际同行评价,提高科技评价活动的公开性和开放性,确保评价结果的科学性和客观性[21]。

然而,科技部在2019年发布的《关于政协十三届全国委员会第二次会议第2439号(科学技术类139号)提案答复的函》中提到,国家重点研发计划的在库专家共计9万余人,其中外籍专家有1 260多名[26]。由此可见,国家重点研发计划的项目管理工作还是以国内专家队伍参与为主。究其根本,很大一部分原因在于语言差异给国际专家队伍的建设带来了阻碍。以外籍专家参与评审项目申请书为例,国家科技计划的项目申请书可能在很长一段时间内都只能以中文为主,由于外籍科学家通常不会说中文更不认识汉字,难以对中文项目申请书进行评阅。由此推断,目前专家库中的外籍专家可能基本由外籍华人组成,绝大部分非华人的外籍科学家由于语言不通难以深入参与到国家科技计划的评审活动中[27]。

1.3 评审专家的评审负荷过重影响评审效率和质量

研究人员尤其是早期研究人员作为评审专家,可以从项目评审工作中挖掘可利用的宝贵资源,及时了解所在领域的前沿动态以及如何开展高质量的研究、写出有力论据,对于提高科研思维能力和项目申请的命中率有较大帮助。然而,项目评审涉及的知识面既广又专,即便是评审经验丰富的专家也不太可能对项目申请书中的所有知识点或技术都精通。基金委对2014—2021年函评专家的评审负荷进行调研。统计结果表明,2020年、2021年被指派项目数在15项以上的函评专家占比分别为60%和35%,指派20项以上的函评专家约为6%[28]。此外,评审专家完成1份面上项目评审的平均时间约2 h,一个月内若评审20份面上项目则需要约34 h[28]。这对于利用工作之余来评审项目的专家来说依然是一项繁重的任务。评审负荷过重可能导致评审疲劳或者缺少足够的时间和精力阅读申请书并给出科学合理的意见,影响评审效率和质量。

自2018年以来,科技部、财政部、教育部等先后实施了《贯彻落实习近平总书记在两院院士大会上重要讲话精神开展减轻科研人员负担专项行动方案》(减负行动1.0)、《关于持续开展减轻科研人员负担 激发创新活力专项行动的通知》(减负行动2.0)和《关于开展减轻青年科研人员负担专项行动的通知》(减负行动3.0),旨在持续减轻科研人员的负担,充分激发创新活力[29]。此外,《三评改革》强调,要提高项目评审的质量和效率,合理确定专家的评审项目数量和总时长等工作量[21]。一些项目评审辅助系统的研究成果也致力于减轻专家的评审工作负担[30]。综上,为评审专家提供更加人性化、高效率的评审辅助服务,进一步减轻专家的评审负荷,提高评审效率和质量,使专家更加愿意参与项目评审工作,是项目管理专业机构亟待实现的一个重要目标。

1.4 专家库管理水平亟待提升

专家库的建设质量是保障项目评审公正性的重要前提,但目前对于专家库的质量还缺乏评估标准[31]。当前,国家科技计划专家库中的专家普遍来源于两种途径:一是向各高校院所或企业等集中征集,由专家本人提出申请及单位批量审核;二是将获得项目资助的负责人直接转为评审专家。一方面,通过这两种方式入库的专家通常为国内专家;另一方面,针对第一种途径,能否将各领域所有符合评审条件的专家全部入库,取决于各单位能否将有关专家征集的通知送达每一位潜在的候选专家,以及每一位候选专家是否在规定时间内提出申请。作为专业机构,不应被现有的专家推荐方式以及国界所局限,而应化被动为主动,在全球范围内海量征集符合条件的专家。尤其是对于偏冷门的学科或前沿交叉领域,小同行专家数量紧缺,更加需要探索多样化的专家入库渠道。

此外,有关国家科技计划专家库建设的系统研究较少,如在库专家的分布特点及其优化对策等。2018年,中共中央办公厅、国务院办公厅印发的《三评改革》强调应进一步实现国家科技专家库的规范统一,并细化专家的所在研究领域和方向,便于项目与专家的学术专长进行更精准的匹配[21];2020年,教育部和科技部印发了《关于规范高等学校SCI论文相关指标使用 树立正确评价导向的若干意见》,鼓励相关部门对专家的实际评审表现等方面进行相应评价,并以此建立专家信誉制度[22];2021年,科技部等13部门联合发布了《关于支持女性科技人才在科技创新中发挥更大作用的若干措施》,其中强调在各类评审工作中提高女性专家的参与比例,鼓励更多符合评审条件的女性专家入库[32]。由此可见,随着学科领域不断交叉、新兴学科的发展壮大,评审活动也愈发频繁和复杂,对于专家库的建设提出了更高的要求,对以上政策文件所提及的专家领域及研究方向划分、专家反评估和性别比例等方方面面都应进行系统全面的分析、总结与改进,从而更好地实施专家库动态化管理。

2 类ChatGPT模型概述

国外的ChatGPT和星火认知大模型是类ChatGPT模型的典型代表,其具体介绍如下。

ChatGPT是美国OpenAI人工智能实验室推出的生成式人工智能模型,于2022年11月上线仅仅两个月就突破了一亿用户,成为历史上用户数量增长最快的应用程序[15]。其先后经历了多个版本的技术演变,于2023年3月正式发布ChatGPT4.0版本,相对于以前的版本,其数据规模更大、理解能力和文本生成能力等更胜一筹[33]。ChatGPT的成功受益于人类反馈强化学习的训练方法、超强的算力以及庞大的数据规模,不仅支持上下文理解和连续多轮对话,而且具备强大的逻辑推理能力,敢于质疑和拒绝、承认无知和错误,在机器翻译、对话问答、文本理解与生成(包括小说、剧本和论文等)、语法纠错、文本摘要以及程序代码生成等方面都展现出优异的性能,几乎可以赋能各个行业,吸引了无数的潜在用户[33-37]。其巨大的发展潜力使得各大企业巨头瞄准这一商机,如国外的谷歌、微软以及国内的百度、阿里巴巴、科大讯飞等均在类ChatGPT大模型领域加快布局并已取得飞速进展,这将极大推动类ChatGPT模型及相关产业全面落地开花[15]。

虽然ChatGPT具备较好的智慧功能,但调用国外大模型面临潜在的政治、经济及网络安全等风险,这预示着我国自主研发安全可控的通用认知大模型势在必行[18]。2023年5月6日,科大讯飞正式发布星火认知大模型,经历了V1.5、V2.0版本之后,于2023年10月24日正式发布星火认知大模型V3.0,其文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力持续提升[38]。国务院发展研究中心国研经济研究院的测评报告显示,星火大模型V3.0的综合能力达到了国内领先水平,甚至达到了国际一流水平[39]。与ChatGPT相比,星火认知大模型对于中国用户来说没有任何注册门槛和访问门槛,数据隐私方面也相对更安全。并且,星火认知大模型的助手中心和插件功能十分强大。

3 ChatGPT在国家科技计划项目评审中的应用探讨

综合以上有关国家科技计划项目评审工作的政策分析和所面临的问题,利用类ChatGPT模型的强大功能对项目管理工作赋能,逐一探讨其在项目评审环节中的潜在应用(图1)。考虑到国家科技计划项目评审的数据安全问题,以下将使用国内的类ChatGPT代表——星火认知大模型对相关的内容举例论证。

图1 类ChatGPT在国家科技计划项目评审中的潜在应用

3.1 教育培训助手

张洪亮等[31]表示,评审专家由于缺乏项目管理经验,想要对整个资助体系或各项改革措施深入了解需要花费较长时间,否则很难充分理解评审程序以及评审要义,因此对评审专家开展系统性培训十分必要。更重要的是,评审专家作为国家科技计划项目的“把关人”,一旦对评审的责任义务认识不清,或在个人利益和作为受托者代表的国家利益选择上发生信念摇摆甚至信念缺失,极容易影响项目评审的公正性。因此,通过建立系统有效的教育培训机制,让专家彻底认清参与评审的真正使命,重视规范自己的评审行为,才能更好地自我监督,有助于形成公正的评审环境。

在现实生活中,评审专家可能很难找到合适的交谈对象,来探讨有关评审使命、评审行为等敏感、严肃而有深度的话题。类ChatGPT能够提供高度拟人化的对话问答模式,在评审专家教育培训机制的建立过程中作为教育培训助手,发挥人文启蒙以及情感调节的作用,使专家在轻松愉快的互动过程中潜移默化地接受教育培训[40]。这种扩展能够触动评审专家新的人文思考,如善意、公正、教养、理性交往等,影响当下的认知和道德状况,甚至主导专家的评审态度与行为,促使评审专家客观理性地看待评审工作,树立正确的评审观念。图2演示了评审专家与星火认知大模型探讨“如何更好地拒绝请托行为”的对话过程。整个对话内容不仅展现出评审专家拒绝请托行为所存在的忧虑,而且证明了模型本身拥有多轮对话的记忆功能和正确的三观,其再三强调评审专家应遵守职业道德和诚信原则,引导评审专家必须公正评审,有助于营造风清气正的评审环境。此外,未来还可能通过类ChatGPT来收集不同群体个性化特征的大数据,发掘不同评审专家群体在不同阶段的需求,从而提供针对性和有效性的教育培训服务。

图2 星火认知大模型与评审专家进行互动的示例

3.2 翻译助手

ChatGPT作为世界上最先进的AI语言模型之一,尽管不是专门为翻译而设计的,但其拥有超级海量、地道的外文资源,能够进行顺畅对话的语种超过数百种,并已从自然语言文本的语法或句法处理的初级阶段升级到逻辑、语义和情感处理的高级阶段,提供远超传统翻译工具的灵活性和可靠性[41]。张重毅等[12]对ChatGPT的中英文翻译表现方面进行了测试,发现其翻译结果与专业人工翻译的整体质量不相上下,内容完整准确、表达清晰流畅、语法标准规范,拥有比商业翻译软件更自然更出色的实时语言转换能力,并且还能通过专业词汇和学科基础原理的预训练微调,获得领域专用的语言转换器,使跨语种学术交流成为可能。

由此可见,类ChatGPT给项目管理工作带来了更多的机遇。在其帮助之下,语言将不再成为外籍专家参与中国国家科技计划项目管理工作的沟通障碍,它将被用作翻译助手,对中文项目申请书等重要文件进行多语种翻译,指派给不同国家的评审专家进行评阅,从而实现国际化评审。不仅如此,评审专家还可以利用类ChatGPT对评审过程中想要查阅的外文资料进行翻译,更加高效高质地完成项目评审工作。图3所示为本文第一作者上传的博士学位论文部分中文摘要,要求星火认知大模型将其分别翻译成英文和法语。可以看出,翻译内容的语法标准规范、语句完整流畅。总而言之,类ChatGPT将助力国家科技计划项目管理工作走向国际化,打造一支开放包容、实力雄厚、具有全球竞争力的国际专家队伍。

图3 星火认知大模型为评审专家提供英语和法语翻译的示例

3.3 评阅助手

评审专家的反馈意见是项目申请人改进课题研究设计、启发科研思维的宝贵资源。然而,想要为项目申请者或其研究课题提供负责任、有较高参考价值的评审意见,评审专家必须花费较多的精力和时间通读和把握申请书的精髓,对于不确定或是不熟悉的研究背景需尽快查找相关文献加以理解。上述工作对于科研任务本就繁重的评审专家来说,无异于进一步加重了工作负担。

有了类ChatGPT的帮助,评审专家可以通过提问的形式,要求类ChatGPT对申请书和相关文献提炼核心要点、解释专有名词的概念,甚至解答一些综合性的问题[18]。以本文第一作者的博士学位论文《基于滚环扩增技术的DNA水凝胶的构建及其应用》为例,这篇论文在2019年经过了4位评审专家的盲审,得到的分数分别是93(优)、92(优)、85(良)和77(良)。向星火认知大模型询问DNA(脱氧核糖核酸)水凝胶的最新进展,它将DNA水凝胶的研究进展高度凝练为6点,即自修复和自适应功能、药物输送系统、细胞培养和组织工程、生物传感、基因编辑、3D打印技术。这些基本是DNA水凝胶近年来的研究热点,使用户对DNA水凝胶的概念、功能或应用有快速、清晰的认识。此外,类ChatGPT还能提供辅助评审以及评审意见润色修改的功能。如图4(a)所示,星火认知大模型对该论文给出了较为中肯的评审意见,对于每一项评价都能给出充分的理由,与论文盲审的大部分评审意见具有较高的一致性。但如果能针对论文的不足之处给出更加具体、可操作性强的指导意见会更好。需要注意的是,模型本身一直在更新迭代,不是完美的,所提供的答案无法保证百分百正确,需要用户有辨别的能力。例如,由于其自身的局限性,对论文规范性的理解存在瑕疵,对原本正确的文本可能产生误判,即第4条关于“亚甲基蓝(Methylene Blue, MB),阿霉素(doxorubicin,DOX) ”的内容实际上是正确的。随后,从4位评审专家的评审意见中挑出一份语言错误比较多的评审意见,让该模型进行润色修改,结果如图4(b)所示。该模型不仅修正了多处明显的语法和标点符号错误,而且还对个别词语进行了合并或替换,读起来更加流畅,如将“多边形DNA水凝胶,软刷型DNA水凝胶以及蜘蛛网型DNA水凝胶”中的3个DNA水凝胶合并为1个,并将逗号改为顿号。

图4 星火认知大模型为评审专家提供辅助评审以及评审意见修改服务的示例

3.4 专家库管理助手

为被评项目精准匹配评审专家是保障同行评议质量的关键,AI在专家遴选方面的应用尤为瞩目且备受期待。然而,由于AI技术本身难度大且应用的实际情况复杂,国内外的项目管理智能化探索尚处于起步阶段。自2012年,基金委开始尝试多种AI方法对已入库的评审专家和项目进行匹配,目前已通过建立全学科大规模知识图谱、申请书/评审专家多维学术画像、基于指派效果反馈的评审专家多层级匹配策略,利用AI实现专家遴选工作[42]。结果表明,AI对学术前沿和关键科学问题的了解更加深入,显著提高了专家指派效率、评审项目共识度和上会率[43]。与其他AI技术不同的是,类ChatGPT能够使项目管理者通过限定研究领域、国籍等条件,在全球范围内遴选候选专家并获取其公开的个人信息,而不仅仅限于已入库的专家。如图5所示,星火认知大模型根据提问的要求,推荐了与纳米材料研究相关的单位和学者,同时提供了相应的简介。其中,图5(b)的两个问题主要区别在于国籍的限定。如果限定了中国籍,那么所推荐的是中国学者或者华裔学者;如果没有限定中国籍,那么就所推荐的学者来自全球不同的国家。这对于评审专家的遴选工作有较大的参考价值。如果对所推荐的专家不满意,还可以通过多轮对话的形式提出进一步的要求,让类ChatGPT不断推荐符合项目申请书的候选专家,而无须倾注大量心血组织各单位在全国范围内征集专家或者建立复杂的模型匹配专家,显著降低专家库管理成本的同时提高工作效率。

图5 星火认知大模型为专业机构推荐评审单位和评审专家的示例

此外,专业机构应加强对专家库信息的跟踪调研,在建立评价标准的情况下,一方面从整个专家库的人数、性别比例、单位类别、领域划分、反评估结果以及信息更新情况等方面定期评估专家库的建设质量,另一方面可参考全球最大的同行评议平台Publons,尽量丰富专家个人数据,如对每一位专家的项目评审数量、命中率和离散率等反评估情况进行分析比较和记录存档[31]。针对这类专家库管理的工作,可以利用类ChatGPT生成相应的PPT(微软演示文稿文件)模板,节约PPT的构思时间,提高专业机构管理人员的工作效率。如图6所示,只提出让星火认知大模型制作一份国家重点研发计划专家组成分析的PPT模板,模型就能生成一份27页的PPT模板,连报告的名称都能自动生成,甚至在没有任何提示的情况下,就生成了PPT目录下的6个板块内容,包括国家重点研发计划的概述、专家团队在国家重点研发计划中的角色、专家团队的构成和选拔、专家团队的工作模式和方法、专家团队的成果和影响、专家团队的未来发展和展望,每个板块下还有对应的小标题、文字描述以及插图。这些内容的设计能够清晰地展现、提示和指引用户在专家库管理工作中需要完成的工作任务,给工作任务的规划者和执行者带来很大的启发。2023年3月16日,微软公司推出 Microsoft 365 Copilot,即将GPT4.0全面接入Office全套商业软件,开启全新的工作方式,通过该技术可以将专家库的各类数据使用自然语言生成 PPT、在 Excel 中轻松进行趋势分析、创建可视化图表等,大大提升工作效率,助力专家库高效动态管理[44]。

图6 星火认知大模型为专业机构制作专家库管理所需的PPT模板的示例

4 挑战和对策

类ChatGPT在教育培训、翻译、评阅和专家库管理等不同场景的应用,将大幅提升项目评审工作的效率和质量。但是,类ChatGPT技术如同一把双刃剑,强大的功能之下还隐藏着危机和挑战。下文从不同角度分别论述并提出相应的对策。

4.1 减弱相关人员从事评审工作的内驱力

类ChatGPT以极低的时间成本为项目管理者和评审专家提供各种便利,与此同时,极易导致他们对类ChatGPT的过度依赖,从而弱化参与评审工作的主观能动性和创造性。例如,项目管理者利用类ChatGPT批量搜索并生成某个研究领域的专家名单及其相应的专家信息,便依据此名单邀请专家参与评审,可能导致项目管理者忽视对学科分类、研究方向以及项目背景的细节进行深入理解和区分,从而错失了更优化的专家匹配效果;或者评审专家借助类ChatGPT搜索与项目申请相关的文献并提取核心内容,争取在短时间内了解领域前沿,可能会缺少只有认真研读文献才能带来的深刻感悟与启发。因此,类ChatGPT为使用者提供便利的同时,也容易导致评审工作趋向固化,削弱评审相关人员进一步思考、探索和创新的动力。

针对类似的情况,使用者要清楚地认识到,人类有情感、主动性和创造力,而AI只是模拟和拓展人的智能,始终无法完全替代人脑。因此,应当对类ChatGPT的应用场景和范围进行限定。例如,可以将一些基础烦琐的事务交给类ChatGPT来完成,而一旦涉及想象力、创新性或者需要深入思考的任务则由人类来完成,以此明确人与类ChatGPT的分工,营造人机高度协同的最佳工作模式。唯有一边主动顺应新的技术变革以寻找突破,一边坚守“以人为本”的核心价值,才能真正促进评审工作的持续发展。

4.2 成为错误或虚假信息的批量制造者误导使用者

实际上,类ChatGPT的准确性远高于传统搜索引擎,但由于类ChatGPT的数据源来自海量互联网数据,包括维基百科、书籍、期刊、社交媒体网站以及网页爬虫等,且其本质上仍是根据提示词概率分布关系生成关联内容的语言模型,难以保证其所提供的内容全部是真实可靠的[18, 45]。再者,即便类ChatGPT的答案是错误的,但它回答问题的语气却十分自信,因此使用者在采纳类ChatGPT的答案时,应具有一定的辨别和取舍能力。例如,尽管类ChatGPT具有内置道德模型,但其仍可能因为提问形式不同而绕过模型甚至通过有效捕捉网络上各种真伪难辨的信息,偏离对评审专家进行培训的初衷。此外,类ChatGPT所提供的答案或道德建议不具有一致性,也可能对评审专家的认知、道德决策等多方面都造成不良影响或严重冲击[46]。

从使用者的角度来看,不仅需要对类ChatGPT所提供的答案保持时刻警醒,而且需要加强批判性思维和伦理意识,在正式采纳类ChatGPT生成的内容之前,花费一些时间和精力进行溯源性审查,确保不被其所误导。此外,在构建数据集时,应过滤筛选掉权威性较低的数据源,如一些社交网站或开放式问答社区。

4.3 类ChatGPT的广泛应用存在泄露隐私或数据安全的风险

类ChatGPT尚未成为成熟的产品,难以保障用户的隐私安全和数据安全。OpenAI 官方提示,人工训练师可能会查看人们与类ChatGPT的对话,以改进系统和模型。但是,从事项目评审工作的重要前提是具备保障项目评审安全的意识,如基金委印发了《国家自然科学基金项目评审回避与保密管理办法》,规定其相关的工作人员和评审专家应当对评审工作的一些重要信息履行保密义务,包括评审专家名单及基本情况、评审意见、评审结果等。尤其是国外的类ChatGPT模型,很可能导致政府信息和个人信息的大规模泄露,甚至威胁国家安全。

AI技术研发是一项高风险、高投入的工作,需要市场的长期努力和支持。从政策支持上,国家需要选拔一批为梦想而坚持研发的人才,鼓励他们从事中国版ChatGPT的研发从而降低国外技术依赖,实现技术自主可控性;从管理监督上,应当加强对AI技术的风险数据实时监控并定期进行安全风险评估,同时做好用户反馈工作,更好地保护用户隐私和国家数据安全,确保类ChatGPT的安全性和可控性。此外,使用者在对话过程中应避免提及敏感信息或重要数据,有效防范数据外泄。

5 结语

以ChatGPT为代表的AI技术爆发的时代,催化新一轮科技革命和产业变革,成为各行各业数字化、智能化转型升级的重要驱动力。国家科技计划项目管理工作中还存在着一些亟待突破的瓶颈,AI技术的出现将成为这些问题的突破口,以颠覆传统项目管理的模式,使项目管理者和评审专家从基础、繁重的事务性劳动中解脱出来,拥有更多的时间投身自己感兴趣、充满探索性和创新性的工作任务中,以进一步挖掘自身的潜能,促进个人的可持续发展。

以ChatGPT为代表的AI模型掀起技术狂潮之下,带来的不只是高效便捷,尚有一些技术性、伦理性和不确定性的难题亟待解决。因此,使用者应始终坚持新兴技术的工具价值和客体地位,通过理性、辩证地看待背后的危机和风险,明确使用限度,充分发挥类ChatGTP的正向价值,规避不利后果,使AI技术能够更好地服务于国家科技计划项目评审工作。

猜你喜欢
专家库专家科技
致谢审稿专家
科技助我来看云
专家库
科技在线
科技在线
请叫我专家
科技在线
专家面对面
电力终端智能检测专家库管理系统
云南省综合评标专家库系统搭建