人工智能发展的数据制度困境与应对策略

2024-02-08 00:00:00何波
数字法治 2024年6期
关键词:数据质量数据共享人工智能

内容提要:当前,数据已经成为人工智能快速发展的催化剂。党的二十届三中全会提出,要完善推动新一代信息技术、人工智能等战略性产业发展政策和治理体系,引导新兴产业健康有序发展;建设和运营国家数据基础设施,促进数据共享。从我国产业实践来看,相关数据法律制度在应对人工智能发展方面还存在一定的滞后性,导致数据“不能用”“不够用”“不好用”等问题,一定程度上制约了我国人工智能技术和产业发展。从国际社会来看,主要国家和地区积极通过立法修法、发布指南等方式为解决人工智能数据制度“瓶颈”提供法律依据和实践指引。面向新一代人工智能发展需求,我国需尽快调整完善相关数据法律规则,推动数据合法高效利用,为人工智能高质量发展提供制度支撑。

关键词:人工智能 数据制度 数据共享 数据质量

一、问题的提出

人工智能是发展新质生产力的重要引擎,正在成为整个经济社会发展变革的基础性力量。随着人工智能技术的快速发展和经济效用的逐步体现,算力、算法、数据作为人工智能核心三要素的重要性日渐凸显,“而在这三大核心要素中,数据值得特别关注”【丁晓东:《论人工智能促进型的数据制度》,载《中国法律评论》2023年第6期。】。大模型时代的到来,加速推动人工智能发展从以模型为中心向以数据为中心转变,数据资源成为人工智能尤其是大模型发展中最核心、最基础的要素。构建合理适宜的法律制度是促进人工智能健康发展的重要基础,立法通过明确权利和义务为人工智能的创新和规范提供确定性、激励性和指导性。【辛勇飞:《在法治轨道上推进人工智能高质量发展》,载《人民论坛·学术前沿》2024年第13期。】在数据领域,目前我国已经建立以《数据安全法》《个人信息保护法》等法律法规为核心,涵盖数据安全与发展、个人信息保护、商业数据流通等多方面的数据法律制度体系,【谢祎、何波:《中国数据法律制度体系研究》,载《大数据》2024年第1期。】也在《生成式人工智能服务管理暂行办法》等部门规章中规定了相关数据处理要求。人工智能技术的突破式发展对高质量数据提出了巨大需求,但现有的数据制度规则并未及时作相应调整,部分领域还存在制度空白,出现数据“不能用”“不够用”“不好用”等问题,导致当前人工智能技术产业发展中面临数据资源的“掣肘”。党的二十届三中全会通过的《中共中央关于进一步全面深化改革 推进中国式现代化的决定》提出,完善推动人工智能等战略性产业发展政策和治理体系,引导新兴产业健康有序发展;加快建立数据产权归属认定、市场交易、权益分配、利益保护制度,提升数据安全治理监管能力等。随着全球人工智能持续快速发展,我国亟须进一步构建完善数据合规处理、数据安全保障以及数据质量管理等相关法律制度规则,为人工智能创新发展提供有力法治保障。

二、人工智能发展的数据制度“瓶颈”分析

当前,人工智能发展正处在以大模型为代表的生成式人工智能阶段,大规模、高质量、多样性的数据集是提升人工智能大模型性能的关键。实践中,人工智能大模型训练数据来源主要包括公开数据集、企业内部数据、合作伙伴数据、购买第三方数据以及用户生成内容等。目前我国大模型企业在获取和使用高质量数据资源及语料库时,存在有效数据量不足、部分数据作为训练数据合法性存疑、数据质量无法保障等问题,成为制约新一代人工智能发展的数据“瓶颈”。

(一)安全保障规则不明确,数据“不能用”矛盾凸显

目前,我国相关法律法规对数据安全保护、数据收集使用规则等作了明确规定。例如,《网络安全法》规定任何个人和组织不得从事窃取网络数据等危害网络安全的活动,《个人信息保护法》明确了个人信息处理的合法性基础。随着人工智能技术的快速发展,诸如数据爬取合法性、公开个人信息的合法使用等问题不断涌现,但相关制度规则尚未及时作出回应调整,导致人工智能大模型在获取和使用数据时可能存在合法性问题,部分类型数据“不能用”问题突出。

其一,爬取数据行为的合法性不明影响人工智能大模型训练基础的建构。从互联网公开渠道获取数据是人工智能大模型训练数据的重要来源,如根据OpenAI披露的数据统计,GPT3的训练数据大多来自Common Crawl等网络爬虫数据集。【Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020a. “Language Models are Few-Shot Learners.” arXiv.Org. May 28, 2020. https://arxiv.org/abs/2005.14165.】然而,目前大量网站采用Robots协议、验证码登录等方式限制爬取行为,企业通过爬取数据进行人工智能大模型训练可能存在违法风险。从我国司法实践看,近年涉数据不正当竞争案例已显示出数据权益保护的复杂性,关于数据授权使用、设置Robots协议限制他人爬取数据、不同类型数据保护等问题仍处于讨论中。在监管立法方面,2024年5月国家市场监督管理总局公布的《网络反不正当竞争暂行规定》明确指出,经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据。【《网络反不正当竞争暂行规定》第19条规定:“经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行,扰乱市场公平竞争秩序。”】从司法和监管实践看,由于人工智能大模型训练中公开爬取数据来源多样、数量巨大,判断爬取数据行为是否合法变得更为复杂。此外,爬取数据的行为若产生危害计算机信息系统安全、数据安全等破坏性后果,还有可能被认定为相关刑事犯罪。由于爬取数据进行人工智能大模型训练存在这些合法性风险,人工智能训练数据集的构建面临法律上的不确定性。

其二,以个人信息作为训练数据可能侵犯个人信息权益。人工智能大模型训练数据来源广,可能包含大量个人信息。我国《个人信息保护法》《生成式人工智能服务管理暂行办法》明确了使用个人信息训练人工智能大模型的合法性基础,包括取得个人同意或者为履行法定职责或者法定义务所必需、为应对突发公共卫生事件或者紧急情况下为保护自然人的生命健康和财产安全所必需等情形。【《个人信息保护法》第13条规定:“符合下列情形之一的,个人信息处理者方可处理个人信息:(一)取得个人的同意;(二)为订立、履行个人作为一方当事人的合同所必需,或者按照依法制定的劳动规章制度和依法签订的集体合同实施人力资源管理所必需;(三)为履行法定职责或者法定义务所必需;(四)为应对突发公共卫生事件,或者紧急情况下为保护自然人的生命健康和财产安全所必需;(五)为公共利益实施新闻报道、舆论监督等行为,在合理的范围内处理个人信息;(六)依照本法规定在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息;(七)法律、行政法规规定的其他情形。依照本法其他有关规定,处理个人信息应当取得个人同意,但是有前款第二项至第七项规定情形的,不需取得个人同意。”】除法律法规明确规定的特定情形外,“告知—同意”被认为是处理个人信息的必需要件,但实践中存在个人同意形式化的问题,也导致了其他处理个人信息的合法性基础被忽视。从实践来看,在获取用户同意方面,由于大模型语料库可能包含的个人信息量巨大,逐一获得个人信息主体的同意十分困难。同时,对于使用个人同意公开的个人信息、训练人工智能大模型的行为是否属于《个人信息保护法》第27条规定的“在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息”存在不确定性,促进个人信息合理利用面临实践困难。

其三,以版权数据训练人工智能大模型可能构成版权侵权。人工智能大模型需要高质量训练数据作为性能的保证,但高质量的训练数据集可能包含大量版权作品。目前,关于人工智能大模型使用未获得著作权人授权的作品进行训练是否构成侵权已成为争议焦点,相关诉讼纠纷屡见不鲜。在域外,包括OpenAI、Stability AI、Meta、Anthropic等大模型公司均因在人工智能大模型训练中使用版权数据深陷纠纷。如2023年年底,《纽约时报》向OpenAI和微软提起诉讼,认为OpenAI在训练大语言模型时未经授权复制和使用了《纽约时报》的文章,构成版权侵权。【“起诉OpenAI和微软,《纽约时报》打响维权第一枪”,载环球网,https://world.huanqiu.com/article/4FwtTF1RV4f,2024年9月8日访问。】2024年2月,我国广州互联网法院对某人工智能公司在提供生成式人工智能服务过程中侵犯著作权人对奥特曼作品所享有的复制权和改编权一案作出生效判决。广州互联网法院认为,经营人工智能生成绘画服务的被告侵害了原告对涉案奥特曼作品享有的复制权、改编权,应承担停止侵害、赔偿损失等民事责任。判决书指出,“考虑到生成式人工智能产业正处于发展的初期,需要同时兼顾权利保障和产业发展,不宜过度加重服务提供者的义务”。【参见广州互联网法院(2024)粤0192民初113号民事判决书。】目前,产业界、学术界、法律实务界就人工智能背景下解释适用著作权法,特别是关于人工智能大模型在训练阶段使用版权数据是否构成“合理使用”、在现有法律规定下推进版权数据授权等问题进行了诸多讨论。

(二)共享流通规则不健全,数据“不够用”现象普遍

在人工智能大模型训练对巨量、优质数据需求增长的同时,产业界、学术界也提出数据“不够用”的担忧。研究机构Epoch估计,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。美国加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素(Stuart Russell)发出警告称,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。【参见邵文:《大模型潮即将耗尽全宇宙文本,高质量数据从哪里来?》,载澎湃网,https://www.thepaper.cn/newsDetail_forward_23865563,2024年8月26日访问。】数据流通共享是释放数据要素价值的关键,也是扩容人工智能大模型语料库的重要方式。“数据融合汇聚不仅是人工智能发展的基础,而且对消除人工智能偏见、促进社会公平具有重要意义。”【丁晓东:《论人工智能促进型的数据制度》,载《中国法律评论》2023年第6期。】目前,我国在数据共享、数据交易及数据开放等方面仍存在薄弱点和空白区,亟须打通数据共享流通在法律制度上的卡点堵点,“构建满足人工智能发展需要的数据开放、共享、流通、交易的模式”【《国家数据局党组书记、局长刘烈宏最新发言:首谈人工智能大模型》,载腾讯网,https://new.qq.com/rain/a/20240304A07DB600,2024年8月16日访问。】。

其一,企业间数据共享缺乏激励导致各自为据。头部人工智能企业很多也是传统大型互联网企业或平台企业,其基于原有互联网服务掌握了大量的数据资源,并以自有数据对人工智能大模型进行训练,在发展中形成了一定的竞争优势。与此同时,部分头部企业已明确禁止其他企业获取、使用其大模型数据。如谷歌公司、OpenAI等在其生成式人工智能服务使用协议中均明确规定,禁止利用其服务开发竞争性产品或服务,禁止未经允许爬取数据等。此外,也有互联网企业设置“栅栏”或“高墙”,防止其他企业特别是有竞争关系的企业获取其数据。【参见《淘宝宣布正式屏蔽百度搜索》,载新浪科技,https://tech.sina.com.cn/i/2008-09-08/17022443143.shtml,2024年8月21日访问。】互联网企业的这类做法有打造自身生态系统、增加竞争优势、增强安全等目的,但也导致行业数据孤岛现象加剧,数据无法互联互通,影响数据流动和利用。对于人工智能发展而言,此类情形已经造成了明显的影响。

其二,数据流通交易规则尚不健全未能适应人工智能快速发展。向第三方购买的数据、合作伙伴数据是人工智能大模型训练中的重要数据来源。据中国信息通信研究院《数据要素白皮书(2023年)》统计,目前场外交易仍是数据交易的主要形式。【参见中国信息通信研究院《数据要素白皮书(2023年)》第33页。】我国《数据安全法》中明确了国家建立健全数据交易管理制度,规定了数据交易中介服务机构的具体义务和相应的法律责任,但该法侧重于数据安全,较少涉及数据交易市场规则和具体制度。目前,数据场外交易在数据安全管理、数据定价规则、交易双方权利义务等方面缺乏明确规则指引,导致数据提供方、使用方难以就数据共享交易达成共识,或者存在数据定价不合理或不公平等问题,一定程度上阻碍了数据交易流通的实现,制约了大模型企业构建多样化训练数据集。

其三,公共数据开放不足影响人工智能大模型获取高质量训练数据。公共数据是人工智能产业发展和模型训练的重要数据来源。从全球范围来看,主要国家和地区深入推进公共数据开放,欧盟《人工智能法》前言中强调以欧洲共同数据空间为人工智能发展提供数据资源,【Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act) (Text with EEA relevance), Whereas(68).】美国商务部等适应人工智能发展提升公共数据开放水平和质量。【Request for Information: AI-Ready Open Government Data Assets, April 17, 2024,at https://www.commerce.gov/news/blog/2024/04/request-information-ai-ready-open-government-data-assets (Last Visited on Sept.8,2024). 】据《全球数据晴雨表》最新统计,我国公共数据开放排名第41。【Global Data Barometer, at https://globaldatabarometer.org/(Last Visited on Sept.8,2024). 】目前,我国立法层面仅有《数据安全法》对政务数据开放进行原则性规定,【《数据安全法》第42条规定:“国家制定政务数据开放目录,构建统一规范、互联互通、安全可控的政务数据开放平台,推动政务数据开放利用。”】但对于公共数据开放主体、范围、方式及法律责任等尚未出台具体规则,一定程度上影响了公共数据开放推进。

(三)质量管理规则不到位,数据“不好用”问题显现

数据是人工智能的基石,数据的质量关乎人工智能发展水平。高质量的数据集可以帮助人工智能大模型更好地理解和捕捉不同的概念、语义和语法结构,使模型在各种任务和领域中表现出更好的泛化能力,推动大模型的价值跃迁。【郭毅可:《关于人工智能大模型发展的思考与展望》,载《人民论坛·学术前沿》2024年第13期。】简言之,高质量数据是提升模型的准确性、稳定性和可解释性的关键。目前,对数据质量的管理要求主要停留在行业自律、标准规范等层面,相关立法对数据质量的规定较少,仅有《生成式人工智能服务管理暂行办法》规定选择训练数据要采取有效措施防止歧视,增强训练数据的真实性、准确性、客观性、多样性等。训练数据质量管理尚缺乏统一、可执行的标准,一定程度上影响了人工智能大模型训练质效。

其一,数据不准确问题突出。以低质量数据训练人工智能大模型会对模型能力产生破坏性影响,使人工智能大模型记忆有偏差信息,发生事实性错误,导致人工智能产生“幻觉”等问题。目前,人工智能大模型训练中大量数据是从公开渠道获取,或多或少存在噪音问题。标注数据的质量也会受到标注人员自身素养、文化水平等主观因素影响。此外,人工智能大模型采用“人类反馈强化学习”的训练方法,在缺乏对齐标准的情况下,反馈提供者的个人观点可能被人工智能大模型学习和加强,导致生成结果缺乏客观性。

其二,数据代表性不足。人工智能大模型训练中需要学习大量多样的知识和价值观层的数据,以保证人工智能大模型在全球化背景下实现多样性和独特性。但有研究显示,在全球网站中,英文占59.8%,而中文仅占1.3%。ChatGPT的中文语料库占比不足0.1%。【张欣:《生成式人工智能的数据风险与治理路径》,载《法律科学(西北政法大学学报)》2023年第5期。】除体量上的差距外,数据背后的价值观差异也是影响我国人工智能大模型发展的重要因素。例如,有研究指出,当询问对某些事件的评价时,ChatGPT可能生成蕴含西方价值观的内容。【张欣:《生成式人工智能的数据风险与治理路径》,载《法律科学(西北政法大学学报)》2023年第5期。】

其三,数据时效性难保证。时效性是数据质量的关键属性。错误或过时的数据可能导致错误的决策。但人工智能大模型通常使用历史数据进行训练,缺乏对最近发生的事情或正在发生的事情的了解。语料库中数据的时效性不足导致数据质量低,尤其针对新闻出版、法律或者金融等对数据时效性要求较高的行业而言,由于语料库中的数据没有及时更新,可能导致生成的内容缺乏准确性。【邓臻宇:《负责任的发展生成式人工智能的挑战及应对路径》,载《网络安全与数据治理》2024年第7期。】

三、国际社会的立法趋势与主要做法

当前,全球人工智能产业进入加速发展阶段,世界主要国家和地区纷纷加速战略布局,抢占人工智能发展高地。在数据方面,多个人工智能发展领先的国家和地区积极出台相关立法、指南文件,力图为人工智能发展提供更为充足、质量更高的数据资源。

(一)促进数据开放共享,充实人工智能数据供给

为促进数据的开放、共享和流通,向人工智能发展提供充分的数据供给,以欧盟、美国为代表的经济体在立法中对数据开放和流通进行了明确规定。在欧盟,2024年8月1日生效的欧盟《人工智能法》明确规定,欧洲共同数据空间为人工智能提供可信、负责、非歧视的高质量数据访问;提供或支持数据访问的主管部门为AI提供数据访问。2024年4月生效的《欧洲互操作法》中也指出,要建立跨境互操作的治理框架,加强欧洲公共部门间的数据跨境交换。【参见《欧洲互操作法》第1条。】此外,欧盟《数据法》明确了企业和个人访问、获取、共享数据的具体规则,《数据治理法》规范欧盟及成员国公共部门持有数据的再使用等,均为构建人工智能训练数据集提供了合法支撑。在美国,推动政府数据开放、促进数据流通一直是相关立法、政策、标准方面的发力点。2024年4月,美国商务部发布关于《人工智能就绪的开放政府数据资产》的信息请求,以改进政府数据资产的创建和使用,为生成式人工智能技术发展提供高质量数据。【参见Request for Information: AI-Ready Open Government Data Assets,https://www.commerce.gov/news/blog/2024/04/request-information-ai-ready-open-government-data-assets,2024年9月8日访问。】

(二)规范数据收集使用,完善人工智能数据处理

2024年以来,为解决人工智能发展中以相关类型数据作为训练数据合法性不明的问题,部分国家和地区出台相关指引、指南及法律解释,为人工智能合法合规收集使用相关数据提供规范指引。如2024年5月,荷兰数据保护机构发布《数据爬取指南》,【参见Scraping door particulieren en private organisaties, 载https://www.autoriteitpersoonsgegevens.nl/actueel/ap-scraping-bijna-altijd-illegaal,2024年9月4日访问。】为进行数据爬取时遵守欧盟《通用数据保护条例》(GDPR)要求提供具体指引。2024年6月,法国国家信息和自由委员会(CNIL)发布《AI系统开发的数据保护指南》,【AI system development: CNIL’s recommendations to comply with the GDPR, 07 June 2024, at https://www.cnil.fr/en/ai-system-development-cnils-recommendations-comply-gdpr (Last Visited on Aug.22, 2024).】从AI系统开发全周期入手,结合欧盟《通用数据保护条例》和《人工智能法》为相关技术人员、业务决策者等提供数据保护的具体指引,包括确认职责、明确数据处理的合法性基础。2024年6月,欧盟数据保护监督机构(EDPS)发布《生成式AI数据合规指引》,【Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, 03 June 2024,https://www.edps.europa.eu/system/files/2024-06/24-06-03_genai_orientations_en.pdf (Last Visited on Aug.22, 2024).】通过对人工智能是否涉及个人信息处理、何时进行数据保护影响评估等关键问题进行说明,结合具体实例,为欧盟机构使用和开发生成式人工智能工具提供数据保护的具体指导。

(三)强调数据质量管理,提升人工智能数据质量

随着生成式人工智能的快速发展,数据质量问题成为各国关注的重点,相关立法开始对人工智能训练数据质量进行强制要求,以数据质量为人工智能大模型质量提升提供基础保障。欧盟《人工智能法》明确高风险人工智能系统的训练数据集应当满足多方面要求:(1)应当遵循适当的数据治理和管理实践,如对所需数据集的可得性、数量和适用性进行事先评估,审查可能的偏见等;(2)应具有相关性、代表性、无差错和完整性,还应具有适当的统计学意义;(3)在预期目的要求的范围内,考虑高风险人工智能系统只在特定地理范围、行为或功能设置的特定特征或元素使用;(4)为了避免AI系统中的偏见可能导致的歧视,供应商应处理特殊类别的个人数据,以确保对高风险AI系统的偏见进行监测、检测和纠正。【欧盟《人工智能法》第10条。】此外,美国白宫科技政策办公室发布的《人工智能权利法案蓝图》也提出,人工智能的训练数据应当具有相关性、高质量并适合当前任务,应当对部署地的社群具有代表性,并经过历史偏见和社会偏见的审查等,跟踪和审查派生数据源,对敏感领域数据提供额外监督。【参见Bulueprint for an AI Bill of Rights,载https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf,2024年8月22日访问。】

四、人工智能时代数据制度的构建完善

近年来,我国高度重视网络法律规范体系建设,持续完善新兴领域立法,为人工智能规范发展夯实制度基础。下一步,面对实践中存在的数据制度“瓶颈”,建议顺应新一代人工智能技术快速发展浪潮,持续优化完善数据治理法律体系,调整和细化相关制度规则,为人工智能发展扫清数据制度障碍。

(一)完善促进发展的数据制度体系

人工智能时代的数据治理应把握发展和规范两条主线,明确安全底线,结合权益保护与产业发展需求,构建促进型数据制度。在方法上,以完善现有法规为核心,通过修改、解释现有法律规范,在保持法律体系的稳定性基础上,明确数据利用规范要求。在理念上,可考虑以鼓励创新为目标,关注数据权益保护和数据流通利用制度对创新主体的激励,以数据要素发展促进人工智能等行业创新。

(二)推动释放数据要素活力,用好存量数据

在提升训练数据量的问题上,分别考虑爬取数据、个人信息数据、版权数据的特殊性。可针对人工智能大模型爬取数据进行训练的客观需求,通过修订现行立法放宽对第三方数据服务商数据爬取的限制,对于商业数据及公众可以无偿获取的数据等明确制度要求,为人工智能大模型开发者合法的数据爬取和使用留出制度空间。在实现人工智能大模型训练中个人信息合法使用方面,可考虑在《个人信息保护法》框架下,针对人工智能大模型训练阶段、生成阶段、应用阶段个人信息保护的具体问题出台细则和指引,考虑使用已公开个人信息训练的合法性,帮助相关企业合法地研发、部署、应用人工智能大模型。在协调人工智能创新和著作权保护方面,可考虑通过拓展合理使用条款或完善授权机制等方式,允许企业出于发展人工智能的公共利益需要,在不影响作品的正常使用,不减损著作权人合法权益的基础上,使用作品进行模型训练。

(三)畅通数据开放共享机制,扩充人工智能数据体量

数据可谓人工智能时代的公共性难题,其症结在于如何在保护个体或企业合法权益的同时,实现数据的聚合与互联。【丁晓东:《论人工智能促进型的数据制度》,载《中国法律评论》2023年第6期。】为应对人工智能发展对巨量数据的需求,需进一步畅通数据开放、数据共享和流通的渠道,释放存量数据潜力。建议以立法明确公共数据开放要求,将更多公共数据投入人工智能训练过程中。可考虑加快从国家层面出台公共数据开放相关立法,明确公共数据开放范围、开放主体、开放方式等具体规则,编制公共数据开放目录及相关责任清单,推进公共数据开放利用,加速高质量公共数据在人工智能背景下进一步释放价值。以立法明确数据共享、数据交易合法性,促进企业间数据资源互通聚合。相关部门可出台规则指引、实践指南、最佳实践案例等,以行政指导、行业自律等方式支持鼓励企业间数据互联互通。此外,可由数据交易较为先进的地区先行探索,制定数据产权、数据流通、数据定价等相关规则、标准,引导和促进数据依法高效流通,让数据“供得出、流得动、用得好”,真正成为人工智能发展的催化剂。【《国家数据局党组书记、局长刘烈宏最新发言:首谈人工智能大模型》,载腾讯网,https://new.qq.com/rain/a/20240304A07DB600,2024年8月16日访问。】

(四)“软硬兼施”多维度提升人工智能数据质量

高质量数据可以更好地模拟世界,将其作为训练数据可以增强模型能力,提升模型准确性、稳定性、鲁棒性和泛化能力。在强化数据质量管理方面,需软硬兼施全方位提升数据质量管理水平。一方面,人工智能相关法律法规、政策文件可进一步明确数据质量要求,规范人工智能研发者、数据提供者、数据标注者等的数据质量管理义务。“对于生成式人工智能而言,研发者应就模型训练时的数据类型、数据来源、数据处理方式、数据质量、数据标注规则、减少数据中潜在偏见和歧视的措施,以及数据输入后可能对个人、系统以及社会产生的影响与后果履行全面的告知义务。”【张欣:《生成式人工智能的数据风险与治理路径》,载《法律科学(西北政法大学学报)》2023年第5期。】另一方面,我国相关主管部门、行业组织可通过发布实践指引、行业标准的形式,明确对具体行业、具体类型数据质量的具体要求。围绕数据标准化、数据合规化、数据完整性、数据一致性等要求,构建数据集质量评测基准体系,开发数据标注管理工具,为提升数据质量提供明确指引。此外,可探索构建数据标注行业管理制度,完善数据标注规则,包括标注目标、标注格式、标注方法以及数据质量指标等。同时,构建数据标注从业者的资格准入制度,针对数据标注、数据审核等不同职能明确不同的任职要求等。

五、结论

整体来看,大规模、高质量的数据资源对于以生成式人工智能为代表的新一代人工智能发展的重要性日益凸显。在持续探索构建数字经济时代数据基础制度的背景下,有必要重新审视我国现有数据制度体系,“将规制目标从权利保护进阶为公平使用,将规制路径由命令控制转变为包容审慎”,【张涛:《生成式人工智能训练数据集的法律风险与包容审慎规制》,载《比较法研究》2024年第4期。】在明确监管底线红线的基础上,通过优化完善个人信息处理、版权数据保护、公共数据开放等法律制度,强化数据爬取行为规范性要求,健全数据流通交易规则,促进数据合规流通,激发数据要素价值,为人工智能创新发展提供源源不断的优质数据资源。

Abstract:Nowadays, data has become the catalyst for the rapid development of artificial intelligence. The Third Plenary Session of the 20th Central Committee of the Communist Party of China proposed that we should improve the policy and governance system to promote the development of new generation of information technology, artificial intelligence and other strategic industries, guide the healthy and orderly development of emerging industries, and build and operate the national data infrastructure to promote data sharing. In terms of China’s industrial practice, the relevant data legal system in response to the development of artificial intelligence is still lagging behind, resulting in unusable, insufficient or low quality data, which have restricted the development of artificial intelligence and relevant industries. Internationally, many countries and regions are actively tackling the bottleneck of AI data system through amending laws and regulations and issuing guidelines to provide legal basis and practical guidance for AI development. To meet the needs of developing a new generation of artificial intelligence, China should promptly improve relevant legal rules on data, promote the legitimate and efficient utilization of data, and clear the institutional obstacles for the high-quality development of artificial intelligence.

[责任编辑 邢峻彬]

猜你喜欢
数据质量数据共享人工智能
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能与就业
IT经理世界(2018年20期)2018-10-24 02:38:24
数读人工智能
小康(2017年16期)2017-06-07 09:00:59
浅析统计数据质量
中国市场(2016年40期)2016-11-28 04:58:19
金融统计数据质量管理的国际借鉴与中国实践
时代金融(2016年27期)2016-11-25 19:02:25
浅谈统计数据质量控制
提高政府统计数据质量,增强政府公信力
数字化迎新系统宿舍分配模块的设计与实现
贵州大数据产业发展战略理解和实施建议
下一幕,人工智能!
南风窗(2016年19期)2016-09-21 16:51:29