宫斗闹剧背后，自定义GPT强在哪？

2024-01-19 04:19曾文仁

看世界 2023年25期

关键词：专属英语企业

曾文仁

2023年11月2日，英国米尔顿凯恩斯，萨姆·奥特曼（中）出席人工智能安全峰会

今年11月17日开始，人工智能领域明星初创公司OpenAI的管理层，上演了一出全球瞩目的“宫斗剧”，原行政总裁和董事局主席被首席科学家为首的董事局成员逼宫，火速以网上会议的形式通知解雇。

纷扰数天后，消息传出，被开除的山姆·奥特曼（Sam Altman）与另一名OpenAI的联合创始人格雷格·布罗克曼加入微软团队，原OpenAI的董事局成员则面临微软管理层、投资者和员工的巨大压力，被要求马上辞职，为挑起这闹剧下台负责。

当地时间21日晚间，OpenAI董事会又发文称，已原则上达成协议，山姆·奥特曼将回归公司，重新担任CEO一职，并组建新的董事会。

对于这场宫斗闹剧，有分析认为，这次冲突是由于原行政总裁重视利润导向，而挑事的董事会成员担忧AI的祸害，双方势同水火。回顾过去，这类“宫斗剧”在科创企业不算新鲜事，其背后大致反映着联合创办人理念的不同、公司治理架构的缺位，以及整体欠缺深思熟虑、企业文化缺失等问题。

公开GPT系统有数据泄露风险

回顾过去，OpenAI这家公司的成名之路依然耀眼。其去年11月面世的ChatGPT震惊全球，其文案生成能力，仿佛能取代依靠文笔维生的文字工作者。一年过去，OpenAI成为街知巷闻的科技明日之星，其背后主要投资力量微软的眼光更令人刮目相看。生成式AI及其背后支撑的大型语言模型（LLM），可算是2023年科技界的“显学”。

今年11月6日，OpenAI在其首届开发人员大会上，宣布推出GPTs，中文世界较多称其为“自定义GPT”。新推出的GPT可供用户使用自己的独有数据，调整ChatGPT成为专属的GPT，以配合特定的用途。

OpenAI强调，个人用户无须任何编程知识，就能创建专属的GPT，其成品甚至有可能透过OpenAI构建的GPT商店出售牟利。

相比起来，去年发布的ChatGPT是一个公开系统，理论上，任何使用者都有可能接触AI系统内的所有资讯—今年就曾发生过数起，粗心大意的员工为工作便利，将大量机密资料上传ChatGPT的新闻。这些员工希望运用AI的力量，协助翻译、校对、检查遣词造句和文法之用。

这实际上是严重的数据泄露事故，公司会因此违反数据主权、个人资料隐私保护等法规，有可能被监管机构追讨高达数十亿美元的罚款。数月前，韩国三星就曝出有员工将敏感的先进芯片制造数据上传ChatGPT的新闻，可见公开的GPT系统有可能为企业带来极大风险。

微软企业级GPT已入收成期

专属GPTs的推出，总算是回应商界数月来的诉求，让员工能够运用独有的内部数据，正当、合法地使用AI，来更大程度便利化日常工作；企业亦可取回数据的拥有和管理权，使之成为业务优势，他人无法通过ChatGPT取得数据，从而保护企业的竞争力。

新推出的GPT可供用户使用自己的独有数据，调整ChatGPT成为专属的GPT。

不过，自定义GPT的新闻和大众讨论度，与一年前的ChatGPT大相径庭，影响不可同日而言。究其原因，可能是一众科技巨头如微软，今年初已推出不少企业级GPT的产品，经过数月形成可实际应用的案例。OpenAI的新产品实际上是追赶者，而非突破性创新。

以OpenAI的“最佳拍档”微软为例，后者今年4月已推出“Azure OpenAI”服務，提供企业级GPT功能供企业用户使用，建立属于它们的AI工具。这项服务可供企业自行选择ChatGPT、GPT-4等大型语言模型，来训练其专属AI系统。

目前，中国香港已有企业使用该服务，成功开发客户投诉管理方案，多间虚拟银行、保险公司也在和客户沟通过程中使用类似方案；香港八所大学亦引入此方案，作为教育用途—不少微软的应用案例已踏入能获利的“收成期”，与OpenAI尚在概念的自定义GPT不可同日而语。

警惕生成式AI“以假乱真”

尽管GPT和LLM在技术上都不是新颖的发明，但它们令人惊讶之处，在于能快速查阅大量文献、档案，将相关的文字串连，完成有用的分析、学习和分享，产出貌似经深思熟虑的成果，质量甚至较一般人类的作品优秀。

与ChatGPT类似，自定义GPT最大的吸引点，仍然是为个人用户带来新奇的AI体验。以往，生成式AI成本较高昂，技术难以触及普罗大众，使用场景大多集中于大型企业的内部工作用途。ChatGPT促成了这项技术的普及化，能让一般用户以可负担的价格，运用GPT学习和投入到各种生活用途中去。

然而，ChatGPT这类通用生成式人工智能采用的数据，包含网络上大量未经核实的资料，产生结果的准确度和提出建议的质量成疑。理论上，只要错误的资料数量庞大且足以压倒正确的资料，通用生成式人工智能就可能会将错误的资料判断为正确。

现今网络上假新闻、伪资料盛行，若不加事实查证（fact check）而纳入ChatGPT的资料库，并视之与正确资料具备同等的价值，得出错误的结论便难以避免。

微软Microsoft 365 Copilot

这种高价值成品所依赖的，是企业经过多年实践考验的数据。

今年五月，美国纽约一名执业逾30年的控方律师，使用生成式AI准备诉讼文件，却被辩方律师团体揭发文件引用的6宗判例并不存在。经法官质问后，该名律师其后承认，曾使用ChatGPT研究判例，且没有意识到内容可能是假冒的。

该名律师辩护时，提供了多幅ChatGPT的截图，论及ChatGPT曾多次强调相关判例属实，并提供审理案件编号，更强调案件可于“信誉良好的法律数据库”中找到。该名“老猫烧须”的律师需接受法律行业的纪律聆讯，面临各种处罚。

此外，网上亦有人运用ChatGPT制订旅游行程，发掘热门的景点。然而，这类生成的计划全然不顾及人类的体力负荷、交通时间限制以及观光体验，提出的行程建议比近期流行的“特种兵旅游”更挑战人体极限。通用生成式人工智若不能仔细考虑各行各业的实际情况，提出建议的参考价值则需要打上问号。

专属生成式AI威力取决于数据质量

新推出的自定义GPT，总算是对上述通用生成式AI的弊端有所防范。企业若能根据高质量、可靠的数据，训练专属的生成式AI，其推论结果的参考价值将大大提高—而最可靠和真实的数据，莫过于企业运营多年的数据库，以这些数据训练的专属生成式AI，自然事半功倍。

专属生成式AI，将可协助员工和客户获得精确和切实可行的见解，既可减轻员工人工操作的负担，提升运营效率，更可提升客户体验，一举多得。

假若上述的美国律师能使用其律师事务所的自定义GPT而非ChatGPT，他更可能获得真确的案例，不至于将虚构资料呈上法庭，贻笑大方；旅游平台的专属生成式AI若能运用内部的数据，更能按照消费者的个人特征、喜好推荐及近期趋势，产生符合实际情况的旅行计划，就可以免于纸上谈兵。这种高价值成品所依赖的，是企业经过多年实践考验的数据。

能够运用独有数据，发现有意义的趋势并根据其采取行动，回应潜在市场需求，这就是“股神”巴菲特所说的“企业护城河”。具备数据及专属生成式AI“护城河”的企业，将能成为独霸一方的巨人，拥有独特且难以模仿的竞争优势。

在当下，最令跨国企业管理层乃至白领精英跃跃欲试的生成式AI，应该是微软的Microsoft 365 Copilot。要知道，微软是企业办公领域的巨头，拥有海量文件处理的数据及多年智能办公的经验，因此能推出高质量的专属生成式AI—单单只是其将Word文件转化设计为精美PPT的能力，节省的时间、人力和成本就已相当可观。

馬来西亚的大马银行在今年9月加入微软的试用计划，银行内三百名不同部门的员工使用该生成式AI，运用大型数据和文件库的资料制作报告，为客户和利益相关方撰写个人化内容，以及回应各种查询。

该集团首席运营官称，微软的AI工具能让他们的团队成员节省大量时间和精力生产内容，大幅提升工作效率；员工更能处理更具战略价值的事务，对该行的成长是重大改进。值得一提的是，Copilot背后使用的大型语言模型，正是OpenAI的GPT-4。

数据量差距影响AI生成内容

但按目前的发展现状，身处中文世界的用户，在生成式AI的应用上，大多数时间仍落后于欧美国家。所谓大型语言模型，首先需要能理解的自然语言，然而，多种自然语言的普及程度却不尽相同—无论是ChatGPT、Azure OpenAI或是新推出的自定义GPT，推出的系统很多时候首先普及的是英文内容的生成，让英语世界的用户尝鲜数月至一年左右，再尝试兼容法语、西班牙语、德语等欧盟语言，才开放给中文用户。

这种产品语言面市的次序，在跨国科技企业由来已久，这背后既是欧美实验室研发人员的习惯使然，也有商业和政治考虑，但更重要的是数据量的差别。英语是全球无可否认的世界语言，更是商业社会的主流语言，身处上海、北京、深圳、香港的跨国企业员工，都必须能听、看、读、写流利的英语，以便与国外的团队和客户沟通。

人口大国印度，更是有大量人群以英语为母语。英语的普及，使全球大量数据以英语产生，英语的生成式AI“威力”自然更强。因此，运用国外生成式AI产生的中文内容，质量总是较英语内容略逊一筹。

那么，国产的大型语言模型表现如何？的确，百度的文心一言、商汤科技的日日新等中国本土模型，是中文世界的领头羊。然而，会生产中文数据的人只有约14亿，远比全球会英语的人数少。

数据量的差距，让中文的生成式AI难与英语世界的竞争者并驾齐驱。中文世界的用户，似乎永远是生成式AI以及创新科技产品的“二等”甚至“三等公民”。

数据量以外，训练生成式AI更需要庞大的运算能力。数据中心、超级电脑乃至半导体芯片，都是构成算力的要素。中国大陆在这些领域与欧美世界差距甚大，而取得芯片的能力，近年屡屡为外国政府阻挠，因此国内生成式AI模型始终较弱，也不难理解。

因此，自定义GPT的发展，与AI和其他科技一样，受到技术、社会以及国际政治的制约。预测未来趋势时，需对全球社会、经济状态和技术发展做综合考量，方可提高准确度。我们不应只看到科技发展的可能性，也要对发展限制有一定的理解，这样面对未来世界变局时，方可游刃有余。

责任编辑吴阳煜 wyy@nfcmag.com