把中文AI牢牢掌握在自己手里

2024-08-26 00:00:00尹洁
环球人物 2024年16期
关键词:刘庆峰语音

2024年7月,胡国平在北京接受本刊记者采访。(杨皓 / 摄)

“刘德华为什么很少演反派?”

2023年9月,这个网络提问突然在各大社交平台火了,但火的不是关于演员的讨论,而是问题下面“驴唇不对马嘴”的回复,竟然是抨击谩骂中国科技公司华为的内容。

原来,“刘德华”和“为什么”两个词组的搭配,触发了境外某些网络人工智能(AI)识别出“华为”这个关键词,被输入过相关指令的AI水军蜂拥而至,大肆攻击华为,结果反而暴露了幕后操控者。

“通过这件事,我们可以判断出境外AI的中文水平不如国内。”认知智能全国重点实验室主任胡国平对《环球人物》记者说,“国内AI是不会犯这种低级错误的,因为我们拥有海量的中文语料,足以让AI正确识别词组和词意,而境外的中文大数据不够多,机器学习得不够深。”

被“卡脖子”之后

胡国平已经在智能语音领域深耕了20多年,他的另一个身份是科大讯飞联合创始人、高级副总裁。“要提高AI水平,必须有足够的文本和题型‘训练’机器,就像学生刷题一样,才能让它少犯错误。如果中国的互联网没有发达到一定程度,国内AI不可能发展得这么快。”

这种速度也招来了外部打压。与众多中国高科技企业一样,2019年10月,科大讯飞被美国列入出口管制“实体名单”,被限制从美国购买零部件。“比如小语种的语音合成软件,以前我们可以用美国的,但被列入‘实体名单’后,突然就断供了。我们必须在短时间内开发出替代产品。”胡国平对记者说。

被“卡脖子”的之所以是小语种,是因为我国的中文语音技术已经领先全球,英文等大语种也没问题。但小语种文本数据少,投入产出比不高,开发难度相对较大。

胡国平坦言,疫情防控期间是研发团队比较痛苦的阶段,因为需要到海外搜集小语种数据,请人录音,“突然这个人得新冠了,不能继续录了,我们就要另外找人”。

3年时间里,在中国科学院的支持下,研发团队克服了重重困难,突破了60个小语种的技术障碍。

同一时期,美国的科技公司正在进军大模型赛道。2022年11月,美国OpenAI公司发布了一款智能聊天机器人ChatGPT,引发全球轰动。在此之前,科大讯飞一直关注着ChatGPT的发展,其早期版本并不突出,但随着训练方法、超大模型和海量文本数据的结合,这款产品的智能水平飞速提升。

2024年6月,星火大模型V4.0发布。

2022年12月,科大讯飞决定研发“星火大模型”,胡国平担任项目攻关负责人,一场新的战役正式打响。之所以取名“星火”, 既有照亮前路之意,也有“率先燎原”的期待,更代表着力量、勇气和坚韧不拔的精神。经过全力攻关,2023年5月,讯飞星火大模型正式发布,之后不断升级,目前已到第四代版本。

“我们去年打了一场硬仗。”胡国平说。为了大模型算力集群能尽快落地,团队夜以继日地工作,顶着三伏天的高温进行机房改造。因为机房里没有空调,大家只能带冰块进去物理降温。之后的中秋节、国庆节,团队都没放假。2023年10月,首个国产万卡智能算力集群“飞星一号”正式启动。

“我们为什么会被‘卡脖子’?因为用外国产品用惯了,缺乏改变的动力。科技竞争不仅限于产品、企业,更是产业生态的竞争。美国的打压客观上给了中国发展自主生态的好机会。只有当你足够强大的时候,西方才会跟你和平共处,所以我们一定要扛过去。”

梦想萌发地

胡国平很少谈及家庭,但他坦言,自己受父亲影响非常大。“我父亲上学时成绩优异,在我们县一直是前三名,比他成绩差的都上了清华北大,但因为出身问题,他没能上大学。”在老家务农15年后,胡国平的父亲成了一名民办代课教师,先教小学,后教初中,转为公办教师后,又开始教高中。

“现在他已经81岁了,但每年高考试卷出来后,还会做一遍高考题。”在胡国平眼中,父亲是一个很纯粹的人,“我特别敬佩我爸,他既能教数学,干农活又非常拿手”。

2024年,胡国平(左二)及团队成员获得国家科学技术进步奖一等奖。

胡国平从小喜欢理科,上中学时成绩也在县里排前三名,父亲对他说“你一定要考一本”,他从此记住了“一本”这个词。

1995年,高考后填志愿,胡国平的成绩可以上清华北大,但他最终选择了中国科技大学(以下简称中科大)。“我们那里是个小县城,之前已经十几年没有学生考上清华北大了。我爸跟别人咨询后,觉得中科大的计算机专业好,离家又近。而且他当年报考的就是中科大,我考上也算圆了他的梦。”

上世纪90年代的中国,物质条件还比较匮乏,胡国平上中学之前没有出过绩溪县,高中毕业时没有出过安徽省。尽管中科大就在省会合肥,但从绩溪到合肥,他反而要出省——先坐火车到江苏南京,转车到安徽蚌埠,再转车到合肥。

走进大学校门,胡国平接触到许多“高人”和“牛人”,学习也变得更加主动。除了经常去自习室外,他还跟同学一起凑钱,买了一台486电脑,开始练习编程。

“那台电脑要9000多元,我们寝室6个人,每人凑1000多。当时每月生活费也就几百元,不够的只能跟家里要,再加上一些奖学金。”

读大三时,胡国平在老师的推荐下,进入中科大电子系教授王仁华的实验室,参与语音识别与合成技术的研发。“通俗地说,语音识别就是让计算机听懂人说的话,语音合成就是让计算机开口说话,相当于耳朵和嘴的关系。其中的关键在于分辨词组和多音字,比如‘轻舟已过万重山’,‘重’是多音字,我们要做的就是合成信号,让计算机知道该读什么音。”胡国平说。

当时,包括中文语音在内的技术主要掌握在IBM、东芝等美日企业手中,中国企业的电子产品如果想加上语音功能,只能找外国厂商购买。“其实我们的技术并不比西方落后,甚至还有领先之处,但因为形不成产业生态,技术无法落地,国内企业就被西方卡着脖子走。王仁华老师是中国AI领域的先驱和开拓者,他最大的心愿就是让中文语音技术掌握在中国人自己手里。”

在课题组,胡国平认识了比自己高五届的安徽老乡刘庆峰。刘庆峰本来可以保送清华大学汽车工程系,因为更心仪中科大,放弃了保送,以超过清华录取线40多分的成绩考入中科大电子系。大二时,他就被王仁华选入语音实验室,之后做出了多项关键技术创新。

1998年夏天,为了改变技术与产业脱节的局面,正在攻读博士的刘庆峰向王仁华提出创立一家公司,走技术产业化的道路。王仁华欣然同意,实验室的师兄弟们也纷纷响应,中科大网络论坛8个版主中的6个加盟进来,每个都是“学霸”级人物,最终组成了一支18人的创业团队,胡国平是其中之一。

“甘坐十年冷板凳”

创业之初,为了专心搞研发,团队将公司运营外包给了另一家企业,相当于对方设在合肥的研发基地。然而合作方毫无章法,今天要求团队做个语音听写软件,明天又要搞工商查询系统,结果产品做了不少,却没有一个做深做透,也卖不出去,团队疲惫不堪。

大半年后,成员们忍无可忍,集体对刘庆峰说:“要不你当CEO,要不我们就解散!”本来只想搞研发的刘庆峰,硬着头皮同意了。1999年,科大讯飞公司正式诞生。

2024年巴黎奥运会期间,中国记者(左)手持讯飞翻译机采访外国友人。

“那时的我们就是一帮穷学生,只会闷头研发技术,什么市场、营销、品牌都不懂。”胡国平回忆道,“公司成立的最初三四年,我们以为有了好产品就能挣钱,想得太简单了。”

他们做出了一款名叫“畅言2000”的电脑软件,能把语音自动转换成文字,还可以通过语音控制电脑。推向市场后,受到很多老年人的喜爱,因为他们不太会操作电脑、打字很慢。但产品还是赔钱,原因非常现实:一是当时盗版猖獗,正版软件一面世,盗版已经铺天盖地;二是老年用户经常需要售后服务,推高了成本,团队跑两三次售后,卖软件的利润就没了;三是大家都不懂营销,产品卖不出去。

经过几次挫折,公司始终未能真正打开市场,资金链几近断裂,最困难时账上只剩20万元。一些团队成员是放弃了出国留学的机会和外企高薪,拿着两三千元月薪加盟的。拼命努力却在短期内看不到结果,军心开始动摇。有人质疑:语音产业到底能不能做大?有人提议,既然语音业务赚不了钱,不如改做网络游戏甚至房地产,赚点快钱。

为了统一内部想法,刘庆峰将团队拉到合肥巢湖边上的半汤开了一次会。听大家七嘴八舌地说完意见,他只说了一句话:“如果不看好语音的前景,请走人!”全场立刻鸦雀无声。

“对公司来说,那次会议的意义,就像红军长征时的遵义会议。”胡国平说,“从这天起,我们明确了‘语音是唯一方向’的战略。绝大部分人选择留下,也不再有任何异议。”

硬实力的积累期注定比圈钱游戏的风口漫长。直到2010年,科大讯飞才真正实现语音识别技术的突破;语音评测业务则是从2002年起步,到2012年才大规模落地。

“如果是在其他公司,这些项目十有八九要被砍掉。上学时,老师就告诫我们,要有‘甘坐十年冷板凳’的精神。十年磨一剑,每年进步一点,从量变到质变。”胡国平说,“中科大是为了中国的科技发展而创立的,从这里走出来的人,普遍有种报国情结。我们能坚持下来,不偏航,归根到底还是王仁华老师那句话:一定要把中文语音技术掌握在中国人自己手里。”

在胡国平看来,科技竞争就像盖高楼,有的楼地基挖得浅、盖得快,但盖不高;有的楼光是打地基就需要10年时间,却可以盖到100层。“坚守是我们的内核。只要方向是对的,哪怕进步速度慢一些,也要坚守下去,直到拨云见日。”

科技竞争永无止境。胡国平常说的一句话是:可以爱上自己的工作,但不要爱上自己的工作成果。因为只有不断超越,才能持续向前。

“在语音技术方面,中美之间本来几乎没有差距了,我们甚至还领先一点,但美国凭借其政治力量、资本力量、人才力量,又拉开了一些差距。我们必须全力以赴,争取让星火率先燎原。”胡国平说。

编辑"陈佳莉/美编 苑立荣/编审 张建魁

胡国平

1977年出生于安徽省绩溪县,1995年考入中国科学技术大学计算机系,2007年获工学博士学位。科大讯飞股份有限公司联合创始人,现任认知智能全国重点实验室主任、科大讯飞高级副总裁。

猜你喜欢
刘庆峰语音
刘庆峰:创造千亿市值的AI语音拓荒者
第二语言语音习得中的误读
活力(2019年19期)2020-01-06 07:37:26
魔力语音
基于MATLAB的语音信号处理
电子制作(2019年14期)2019-08-20 05:43:38
基于MQ3与MP3的价廉物美的酒驾语音提醒器
电子制作(2019年9期)2019-05-30 09:42:10
对方正在输入……
小说界(2018年5期)2018-11-26 12:43:42
“科大讯飞”刘庆峰:创造千亿市值的AI语音拓荒者
“科大讯飞”刘庆峰:创造千亿市值的AI语音拓荒者
刘庆峰:让语音“飞”
华声(2018年5期)2018-06-21 06:18:44
科大讯飞刘庆峰:用人工智能改变世界
世纪人物(2018年5期)2018-05-08 17:27:50