李宇明
人机交际其实是“人-机-机-人”交际,分为3个环节。(1)“人-机”交际:人具有一定语言技术能
力,能够与机器展开对话;(2)“机-机”交际:机器设备之间形成信息沟通的网络,需要包括语言文字规范在内的各种技术标准的支撑;(3)“机-人”交际:机器具有一定的与人对话的能力。
“人-机-机-人”交际成为交际常态时,人在生活、生产的诸多领域都需要与机器进行语言合作,人类进入“人机共生”时代。在人机共生的时代,计算机有常见的五大语言行为:(1)自动翻译;(2)自动信息检索;(3)自动摘要和信息抽取;(4)智能写作;(5)聊天等社交活动。随着语言智能的发展,处在人机共生中的机器,其角色将从与人简单對话发展为人类的助手,即“AI助手”。为人类的特殊职业、特殊工作场景、特殊人群配置AI助手,已经是科技和社会发展的现实问题,ChatGPT的出现,把这一问题推到了社会关注的聚光灯下。
ChatGPT(有学者给了它一个音意结合的中文译名“柴语生”)这一生成式预训练语言模型,是由AI驱动的聊天机器人。它已经不是一般意义上的人机对话系统,而是一个以自然语言为交互方式的通用语言处理平台,是语言智能发展的一个新高度。它的出现令人惊令人喜,也引发了许多新思考。例如:
(1)ChatGPT的会话能力惊人,说起话来“滔滔不绝”,这似乎说明语言能力的获得不是靠(或不一定靠)规则学习,而是可以在数据中“习得”。这对于解释第一语言习得的奥秘会有新思路,对于第二语言教学会有新启发。
(2)大数据是ChatGPT发展的基础。对大数据进行科学的管理、利用成为科学问题,也是社会问题。国家组建数据局,一些大学积极发展语言资源/语言数据学科,是具有前瞻性的。
(3)ChatGPT主要运用的是网络数据。网络数据的量增长很快,但是其类型主要是书面语,模态比较单一;其内容多是大众领域的,一些特殊领域、特殊人群的数据难以自然增长,比如儿童成长数据、老年人的语言和生活数据等。ChatGPT滔滔不绝地讲的外行话、缺乏常识的话、知识贫乏的话等,都是因为网络上缺乏这类数据。这类数据可以称为“网络数据赤字”,就像稀有金属一样珍贵。有效收集、拥有这类数据,有效弥补“网络数据赤字”,具有战略意义。
(4)ChatGPT发展迅速,现在已经升级到GPT–4,在各种专业测试和学术基准上的表现几乎与人类水平相当。中国也研发出了“星火认知”“文心一言”等。ChatGPT发展所带来的伦理问题,也引起了世界的极大关注。这种语言智能产品对人类究竟意味着什么?对教育、科技论文的写作与发表、咨询产业、创意产业等一些社会行业意味着什么?对非英语语言、非英语国家意味着什么?国际上有许多人士甚至呼吁人工智能研发者停一停脚步,把一些问题想清楚了、把一些举措跟上去了再开始研发。这种呼吁也许有用,也许没人听,但是呼吁者的伦理学思考是非常有意义的,是对人类终极命运和人工智能终极发展的思考。
在人机共生时代,特别是在ChatGPT问世后的时代,如何对语言数据进行研究与管理、如何弥补“网络数据赤字”、如何为语言智能这匹飞马装上伦理学的马嚼子等,都是值得语言学界认真思考的重要问题。