王陶冶, 王欢
(广东省科学技术情报研究所, 广东广州 510033)
人工智能(AI)是当今世界最为闪亮的科技之一, 作为一项赋能技术, ChatGPT 等生成式人工智能工具不仅使人们的工作效率得到了极大提升,更是重构了人们的生活方式, 为科学事业开创了更广阔的天地。 但凡事都具有两面性, 人工智能也不例外。 频频发生的个人隐私信息泄露、 自动驾驶汽车失灵等事件, 被人工智能高速发展的旋风裹挟而来, 关注人工智能高光后的“阴暗面”显得愈发重要。 2023 年4 月, 中共中央政治局召开会议时强调, 要重视通用人工智能发展, 营造创新生态, 重视防范风险。 同年7 月, 联合国安理会召开会议, 首次正式讨论人工智能风险问题。 同年12 月, 欧盟出台全球首部人工智能领域的全面监管法规《人工智能法案》, 意大利、 德国、 美国等国家也均在制定相关法律法规, 以加强对人工智能领域的规范和管制。 在此背景下, 广东在紧抓人工智能发展的重大历史机遇并积极作为的同时, 也要主动应对新时期人工智能发展可能带来的负面效应, 不断提升人工智能伦理治理能力,推动人工智能良性健康发展。
学者们从不同视角对人工智能“阴暗面”涉及的问题开展了研究, 通过梳理文献资料发现, 关注点主要集中在两个方面。 其一, 人工智能技术应用具有负面效应。 学者们对人工智能负面效应的研究主要分为5 个方向: 一是人工智能技术伦理风险研究, 如纽约大学教授凯特·克劳福德[1]认为, 技术导致的伦理问题与社会和政治影响有很大关联, 如在人工智能技术的数据和隐私问题上,她认为数据并不是一种孤立的存在, 而是与社会、政治和文化环境紧密相关, 因此应对数据的透明度给予更多关注; 赵一秀[2]运用分析与综合法、案例分析法、 系统研究法对人工智能技术可能带来的伦理风险进行了阐述, 探寻了产生技术伦理风险的根源并提出应对策略; 陈小平[3]在归纳人工智能技术的伦理困境时, 将存在的伦理风险总结为技术失控、 技术误用、 应用风险和管理失误4类, 这些风险可以分别对应到现实场景中。 二是人工智能对人的发展的正负效应研究, 如李钰等[4]、 李心韵[5]研究人工智能技术的广泛应用对人的发展产生的正向效应和负面效应, 其表现为既可促进人类能力的多元发挥和全面提升, 又可导致失业危机, 阻碍人类能力的发挥。 三是人工智能对就业的影响研究, 如程曼丽[6]、 程永杰等[7]认为人工智能技术应用对就业产生较大影响,如破坏效应、 挤出效应和替代效应等。 四是人工智能对生产力的影响研究, 如马钰坤[8]认为人工智能可以重塑生产力并对生产力产生深远影响。五是人工智能对不同应用场景的影响研究, 如江婧等[9]从医疗应用领域切入, 提出可解释性人工智能导致伦理问题的根源及对策建议; 袁建[10]从广告内容智能化生产实现路径着手, 提出智能媒体技术产生内容庸俗化、 共情能力消减和公共性弱化等负面效应; 胡海兵[11]总结人工智能技术的发展对审计工作的正面效应和负面影响, 并提出降低负面影响的几种方式。
其二, 人工智能技术责任界定。 现有研究主要围绕人工智能事故责任问题展开, 如出现技术故障或意外事件时, 应由谁来承担责任、 如何界定责任界限等问题。 在这类研究中, 主要有两种观点: 一是认为人工智能技术是自主行为, 责任应由技术本身承担。 人工智能商业化先锋杰瑞·卡普兰[12]在《人人都应该知道的人工智能》中提出, 当人工智能技术拥有了一定的权利时, 就应该承担相应的责任。 二是认为设计、 制造和使用人工智能产品的人需要承担全部责任。 福田雅树[13]在《AI 联结的社会: 人工智能网络化时代的伦理与法律》中, 强调技术人员在人工智能技术与应用监管和责任认定方面的重要性。
由于算法偏见的存在, 人工智能技术在决策过程中可能会导致歧视, 给特定群体造成不公平待遇, 进而加剧社会不公。 在消费领域, 算法歧视侵害消费者权益的情况以大数据杀熟最为普遍,经营者利用互联网平台优势收集消费者日常消费数据, 依照一定的算法逻辑, 自动生成和输出有针对性的产品或服务定价, 使不同消费者对相同产品或服务支付不同对价, 侵害了消费者的合法权益。 在劳动场景中, 部分企业在招聘时会提前将性别、 年龄、 学历等条件在算法中预设, 让某一个岗位的招聘广告只能被符合预设条件的应聘者看到, 让很多用户直接失去获知该岗位的机会。
一方面, 由于算法决策的过程难以解释, 决策时可能出现算法偏离设计初衷的情况, 导致应用场景下的安全隐患。 比如, 人工智能被应用于医疗场景, 即便系统结合患者情况初步作出诊断,但仍无法排除系统失误的可能性, 也无法全面保障系统的可信性和安全性。 另一方面, 由于人工智能系统可能存在设计缺陷和技术漏洞, 易受到攻击, 尤其是在应对高复杂度场景时, 危险性也随之放大, 可能导致伤害性后果, 甚至威胁人类生命安全。 2015 年, 英国首例机器人心瓣修复手术中, 手术机器人出现运行故障, 不但缝错患者心脏位置, 还戳穿患者大动脉, 期间机械臂还几次打到医生的手, 该手术原本是一场AI 技术尖端医疗的展示, 结果却不尽如人意[14]。
目前诸多APP 和线上服务为了让人们在使用过程中得到更好的体验、 实现更加精准的信息推送, 往往是以使用者个人数据隐私让渡为前提,即APP 的使用前提是使用者必须同意运营方对其个人信息进行获取。 虽然我国已经相继出台《网络安全法》《数据安全法》《个人信息保护法》等法律法规, 但仍有一些APP 运营方和不法分子通过对个人隐私数据进行违规收集、 分析进而牟利甚至实施诈骗等行为, 威胁公民信息安全和个人隐私。2021 年, 滴滴出行APP 由于存在违法收集用户手机相册中的截图信息、 过度收集乘客人脸识别信息、 “家”和“公司”打车地址信息等16 项严重违法违规收集个人信息问题, 被应用商店下架处理并处80.26 亿元罚款[15]。
随着技术的日益成熟和广泛应用, AI 在许多领域展现出了强大的替代能力, 对传统行业的冲击不可避免。 翻译、 行政助理、 法务秘书、 编辑等传统脑力工作可能会面临被自动化和智能化取代的风险, 尤其是以ChatGPT、 Midjourney 等为代表的生成式人工智能工具的大规模兴起, 各种新应用如寒武纪时期生命形态大爆发般相继出现。除了视频生成、 问题回答、 音乐创作、 代码生成等领域, 制药公司也在计划利用AI 技术有针对性地辅助设计新药物, 目前已有生物技术公司利用AI 设计新抗体, 大幅缩短了临床前测试所需时间。2023 年4 月, 因AI 技术应用引致的失业问题开始在游戏行业显现, 一些游戏公司将AI 绘画引进工作流程, 大幅提升了设计工作效率, 一定程度上取代此前部分画师的工作。 另据高盛发布的报告指出, 随着AI 技术不断突破, 预计全球将有3 亿个工作岗位被生成式AI 取代, 其中律师和行政人员所受影响最大[16]。
一方面, 在如今大数据大算法时代, 人们虽然每天获得大量信息, 但由于所关注的信息往往是自己所感兴趣的, 且各类APP 也通过算法按用户偏好进行智能推送, 久而久之, 人们会陷入AI织就的“信息茧房”①信息茧房: 指人们的信息领域会习惯性地被自己的兴趣所引导, 从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。中, 进而引发思维固化、 认知结构单一、 获取知识的手段和能力退化、 对现实社会的真实感知淡化等问题。 另一方面, 智能助手、 数字人逐渐进入生活, 宠物机器人、 陪伴机器人等交互机器人也走入寻常百姓家, 用户可能在此过程中对机器产生依赖, 忽视现实情感,从而增加社交孤立感, 产生社交能力削弱、 社交脱节等问题。
在明确权利人方面, 随着生成式AI 进入应用爆发期, 其原始数据、 生成内容的版权归属及知识产权权利人归属是如今亟待明确的问题。 2023年6 月, 日本明确不保护AI 集中使用的原始材料版权。 在责任主体方面, 无人驾驶汽车、 智能机器人等AI 产品由于具有事前操作、 事中无人或少人以及危机处理能力较差等特点, 导致在归责时确认责任主体成为一大难题。 而且与AI 产品相关的责任主体众多, 包含产品研发人员、 生产人员、销售人员、 使用人员及相关监管部门等, 在使用AI 产品的过程中出现违法行为或对相关主体造成一定危害时, 责任主体确定成为亟须解决的核心问题。
数据集是机器学习的基础, 如果数据集本身缺乏代表性, 就不能客观地反映现实情况, 算法决策就难免有失公允。 数据采集方往往为了更便利、 高效地采集数据, 倾向于向更易获取数据的群体着手, 反映在数据集上就是在种族、 性别等方面分布不均。 Facebook 曾宣布, 经人脸识别知名数据集Labeled Faces in the Wild 测试, 其面部识别系统准确率高达97%, 但当研究人员查看这个所谓的黄金标准数据集时, 却发现数据集中男性占比近77%、 白人占比超80%, 这意味着以此训练的算法在识别特定群体时可能会出问题, 如在Facebook 的照片识别中, 女性和黑人很可能无法被准确标记。
工程师在进行数据标注时经常需要做主观价值判断, 这也是算法偏见的一大来源。 如ImageNet 作为世界上最大的图像识别数据库, 其大量图片被手动打上各类细分标签。 “失败者”“罪犯”等带有负面评价的标签及“男人”“女人”等中性标签都由数据标注工程师定义, 不同文化背景、受教育程度甚至个人感受都会导致偏见的出现。
一方面, 当前算法的可解释性不足, 为“黑箱”问题(Black Box Problem)所困扰。 目前, 虽然人们知晓一个算法模型的输入和输出, 但在很多情况下却难以理解其运作过程, 可解释性不足让人们难以预测算法的行为。 在医疗、 金融、 司法等与个人重大权益强相关的应用场景中, 人工智能不透明性的负面影响尤其突出。 另一方面, 当前以深度学习为代表的AI 技术普遍面临鲁棒性不足的问题。 深度学习往往依赖大量高质量数据和计算资源来丰富学习模型的参数, 但在训练数据有限的情况下, 深度神经网络的性能往往存在很大局限, 一些规模巨大的深度神经网络也容易出现拟合的问题, 使模型在新数据上的测试性能远低于之前测试数据的性能。 另外, 在特定数据集上测试性能良好的深度神经网络, 很容易被添加少量随机噪声的“对抗”样本欺骗, 激活模型的非鲁棒特征, 导致系统出现高可信度错误判断从而失灵。
模型训练需要“饲喂”海量数据。 就GPT 而言, 2019 年, OpenAI 发布了GPT-2, 其参数量为15 亿个, 数据集包含150 亿个tokens②token: 指文本中的一个最小单位。; 2023 年3月, GPT-4 问世, 其参数量已达1.8 万亿个, 训练数据除包含13 万亿个tokens 外, 还包含了许多epoch③epoch: 当一个完整的数据集通过神经网络一次并且返回一次, 即进行了一次正向传播和反向传播, 这个过程称为一个epoch。和数百万行指令微调数据。 海量数据需要研发方从多种渠道获取, 通常数据来源包含直接采集、 公开数据爬取和间接获取3 种方式。 无论通过哪种方式采集数据都会存在一些合规隐患, 如API 接口是否获得授权? 即使数据采集过程没有问题, 是否会存在潜在的数据滥用问题? 另外, 政务数据是否会被动机不纯的数据采集方用于欺诈、敲诈或不正当竞争? 此类问题都需要研发方在数据获取、 应用的每一个环节反复确认。
一是对就业具有替代效应。 AI 可替代一些相对简单且重复程度高的事务性工作, 如收银、 翻译等。 二是对就业具有补偿效应。 从以往的技术革命发展历程看, 随着颠覆性技术的涌现和应用,经济会同步走向繁荣并伴随出现大量新增就业机会。 麦肯锡调研了4 800 家中小型企业后得出结论: 相对每一个因科技效率而消失的就业机会而言, 互联网相应地创造了2.6 个就业岗位[17]。 所以, 尽管AI 的落地应用替代了一些重复性高、 难度低的工作机会, 但其天然的高执行率和高效率也将带动相关产业规模扩张, 进而激活市场对劳动力的需求, 间接补偿了技术进步替代的部分工作岗位。 三是对就业具有创造效应。 埃森哲咨询公司对全球1 500 多家使用或测试AI 系统的公司进行研究, 发现AI 的出现催生出了一些前所未有的工作机会, 如AI 内容审核员、 模型训练师等,这些就业机会的出现伴随着AI 技术爆发式发展,是AI 创造就业机会的佐证。
飞速发展的AI 技术是“信息茧房”形成的加速器。 相较于传统媒体, 新媒体通过算法代替用户过滤信息, 向用户不断推送其经常浏览、 点赞、转发的同类信息。 基于思维定式, 用户也会对此类信息感兴趣, 进而对其他信息愈离愈远乃至屏蔽, 机器系统据此再次缩小用户的兴趣圈子, 继续利用算法向其推送更具个性化的信息。 在这种循环之下, 用户与机器共同织就专属于用户自己的“茧房”, 并成功与外界隔离。 此外, 经济利益驱动是“信息茧房”形成的催化剂。 时下, 各类新媒体犹如雨后春笋, 各大平台为了增加用户页面停留时间, 提高转化率、 订单复购率等指标, 常常不顾用户个人利益, 披着“个性化定制”的外衣,在投其所好的服务中, 加速为用户织就“信息茧房”。
首先, 现有与人工智能治理相关的法律法规尚不健全。 法律具有稳定性和滞后性, 社会的需要和意见常常走在法律前面。 虽然我国和欧洲、美国等国家和地区分别落地或制定了《生成式人工智能服务管理暂行办法》《人工智能法案》等人工智能监管政策, 但生成式人工智能、 边缘计算等技术的高速发展使其引发的新问题不能全部在现有法律框架下找到解决方案。 其次, 人工智能治理挑战重重, 治理松紧度难以把握。 一方面, 人工智能技术助力实体经济智能化升级, 为经济高质量发展带来巨大动能, 因此, 在对其监管治理时要考虑放管结合, 为其创新发展营造宽松、 公平、高效的政策环境。 另一方面, 由于人工智能存在“阴暗面”, 隐私数据被无节制使用、 现存伦理秩序受到冲击和挑战等问题, 都是悬在AI 之上的达摩克利斯之剑, 随时可能爆发“爆炸式”或“踩踏式”风险。 因此, 人工智能治理也存在松紧两难的选择困境。
广东虽是数字经济大省, 但现有数据受技术与制度等因素制约, 共享难度大。 现有的大量行业数据掌握在特定机构手中, 形成“数据孤岛”,同时, 不同企业对数据的判定标准、 接口定义及存储载体也各不相同, 导致不同企业及行业的数据难以互通。 此外, 广东现有数据跟踪监管体系尚不健全, 进一步阻碍了数据融合、 共享和流通。虽然广东省内大量企业和部分政府部门成立了专门的数据管理部门, 但囿于数据再利用等方面尚未形成可量化、 可跟踪的管控体系, 导致大量数据封闭, 无法被企业或研究机构二次利用, 浪费了数据资源。
政策文件制定方面, 目前, 广东尚未出台针对人工智能科技伦理风险治理的政策文件, 现有的国家和地方性法律法规对人工智能领域不可控因素也尚未形成有效的预防机制。 标准化体系建设方面, 广东在AI 产品、 技术、 工艺和服务等方面缺乏相应规则和标准, 如应用接口尚未统一标准, 数据挖掘、 表征建模等方面缺少辅助工具等。
基础研究方面, 目前, 广东在AI 算法、 底层架构等方面尚未取得系统性突破, 高质量研究成果相对较少[18]。 同时, 现阶段省内AI 企业多处于应用层, 原创性理论研究和模型决策机理的研究较少, 无法弥补模型决策机制的理论缺陷和深度学习技术的应用缺陷。 关键核心技术攻关方面,尚未找到隐私保护和性能效用间的平衡点, 人工智能隐私保护和模型可信计算等技术均落后于美国等发达国家, 从弱人工智能到通用人工智能还存在很大距离。
在人工智能安全技术研究方面, 继续深入推动实施广东省重点领域研发计划芯片设计与制造、新一代人工智能、 网络信息安全等战略和重大、重点专项。 瞄准人工智能不可解释性和安全可信无法有效保障等痛点, 以人工智能旗舰项目为主导, 围绕模型安全、 隐私保护等领域部署一批项目, 争取突破人工智能“不可解释”“不可信”的局限。 在人工智能评测保障技术研究方面, 鼓励开展通用人工智能内容生成、 模型评测、 风险评估和监测预警研究, 研究适用通用人工智能的多维度评测方法, 确保大模型输出的准确性、 鲁棒性和安全性。
多渠道收集、 整合多模态中文数据, 将数据合规清洗后开源, 构建高质量、 高可用性的中文数据集; 搭建可信数据标注平台, 探索制定数据标注行业标准; 研制数据标注专业工具, 加快结构化数据处理, 提升广东人工智能数据要素规模和质量。 推动政务数据、 行业数据等公共数据分类分级有序开放; 鼓励高质量数据网站部分脱敏后有条件定向开放。 制定公共数据运营制度规范和技术标准, 建立公共数据交易平台, 构建数据确权、 数据质量评估、 数据定价全链条管理体系,盘活现有公共数据资源价值。
一是加快推动监管工具和管理流程创新。 支持建设人工智能安全监管平台, 围绕行业特点研发应用隐患监测和漏洞排查的智能化监管技术和工具, 构建人工智能安全监测预警机制。 鼓励省内创新主体优先采用安全可信的软件、 工具、 计算和数据资源。 积极向国家网信部门争取, 在通用人工智能创新特区推动实行包容审慎监管试点。二是加强网络服务安全防护和个人数据保护, 引导算力运营主体落实《网络安全法》《数据安全法》《个人信息保护法》等法律法规, 提升网络安全和数据安全防护能力。 三是提升人工智能技术伦理治理能力。 加强人工智能法治保障、 知识产权保护、 信息安全及科技伦理研究, 研发、 部署人工智能伦理治理公共服务平台, 引导人工智能良性、健康发展。 龙头企业和科研机构应积极参与人工智能全球治理, 加强人工智能伦理规范、 国际规则等方面的国际合作, 携手全球共同应对人工智能治理的新挑战。
围绕将广东打造成为国家通用人工智能产业创新引领地的总体目标, 加快推进实施“新一代人工智能”重大专项旗舰项目, 落实《“数字湾区”建设三年行动方案》。 建立相关部门共同参与、 协同配合的广东通用人工智能协同推进机制。 加强与省发展改革委、 工信厅、 省委网信办、 省政务服务数据管理局等相关部门的协同合作, 合力推动创新发展。 引导各地市持续强化人工智能工作部署, 指导广州、 深圳国家新一代人工智能创新发展试验区建设, 不断推动广东人工智能产业做大做强。
一是引进培育高端创新型人才。 充分发挥粤港澳大湾区区位和政策优势, 吸引全球高端人才来粤深耕发展。 充分释放省重点领域研发计划和高水平科研载体对人才的集聚作用, 引育人工智能领域高水平技术、 产业和工程人才。 引导优化高校学科建设, 培养通用人工智能、 人工智能安全等新兴技术需求人才。 进一步强化人工智能技术普及, 提升普通劳动者智能化技术通用技能,推动就业政策升级, 缓解劳动力替代压力。 二是进一步加强对外开放合作。 主动融入全球人工智能发展大势, 积极与国际主流科研机构开展人工智能前沿技术合作和学术交流。 利用粤港澳大湾区建设契机, 强化算力、 数据资源联通, 引导港澳创新主体主动参与广东人工智能技术创新发展,推动粤港澳三地在人工智能领域学术交流、 技术研发和产业链协作。 三是营造良好创新氛围。 持续举办高端交流平台、 学术研讨会和算法大赛等,引导更多人才参与广东人工智能创新创业, 不断提升区域创新活力。