文|王蕴韬
目前我国提供开放的人工智能语音语义服务平台现在越来越多,中国人工智能产业发展联盟(AIIA)前期已经梳理了将近20家企业,企业会把自己的技术,自己已有的数据积累,以及应用场景方面的产品或服务,打包成一个平台服务的形式,从而降低人工智能使用的门槛,人工智能服务平台化是大势所趋。
语音语义是现在较为成熟的人工智能服务平台,目前AIIA主要针对语音语义的功能性以及性能方面进行评测,虽然各家都有自己的特点,但背后的技术都相通,为了更好地规范发展,需要相关的评估评测工作。具体的工作思路是找到语音语义平台背后基础功能性模块,比如语音合成,包括声纹识别、语音识别、机器翻译、理解交互等,然后针对每一个模块来做相关的功能性以及性能评测。
人工智能更多的是依赖于海量的数据,各家的数据量非常大,但有效样本数非常小,真正能用的数据非常少。每个企业都有自己的数据标注团队、数据采集团队,但是人力、物力有限,最多一个企业能达到一百人的数据标注团队,但是一百个人每天能标注的数据也非常有限。并且,虽然现在各家都有数据标注团队,但每家的数据都没有能够达到互换交易共享的能力。如果能把大家收集到的数据做一个平等互换,这样不但节省了成本,而且对于自身业务提高也大有裨益。
目前整个数据集建设没有形成一定的规范,包括数据采集的规范、数据标注的规范、数据质量把控的规范以及数据交付的规范。由于缺乏这些规范导致各家使用数据的格式都不一样,就算是交换以后也不能用,所以AIIA也想通过在数据方面的规模化来为企业提供服务。语音语义在目前人工智能发展中最为成熟,AIIA现在想以语音语义为抓手,先从语音识别的数据做起,未来形成一系列的评测理论规范。除了企业,政府也有相当的考虑,国家主要的政策文件,都对数据集有了明确的要求,搭建公共服务数据集。
自从开源的项目管理模式兴起以后,计算机软件业才真正发展起来。开源分成三个层面:底层是基础技术,包括代码、工具、数据库等;上层是企业根据开源的底层技术打造的盈利性产品,包括定制化服务、基于开源软件提供的软硬件产品等;连接顶层和下层的桥梁是产业生态建设这一环节,把连接上层和底层的生态建设做好,对于整个产业非常重要。
国家到目前为止,整个开源生态并没有建设起来,目前很多企业都有自己的开源项目,都想把自己的项目贡献出去。企业掌握的程序虽然是开源的,但一旦涉及到盈利点,知识产权限制就非常严格。代码开放出去使用,并不意味着就能随心所欲,所以还是需要自己来建开源的生态。AIIA这一中立第三方平台,把开源框架搭建起来,协助大家把底层的基础夯实,把生态做好。
我个人一直在深度参与联合国国际电信联盟(ITU)的工作,作为全球范围内信息通信领域的权威标准化组织,ITU分成三大部门,分别是标准化部门、无线电部门和发展部门。标准化部门主要做信息通信相关国际标准的立项输出;无线电部门主要是涉及到频率分配;发展部门主要是为发展中国家提供交流合作的平台,通过项目的形式,把一些标准化的项目做好对接。我个人主要参加ITU标准化和发展部门的活动,ITU在标准化方面主要在做人工智能技术和网络技术相结合的标准研究,下一步也将进一步扩大涉及范围。
人工智能基础技术标准在国内是缺失的,AIIA会利用ITU的渠道,把工作放到联合国平台上,做出国际标准,虽然不具有强制性,但会以国际建议的形式呈现出来。参与建立国际标准,走在世界舞台上就比较通畅。希望更多的国内企业参与到国际标准建设中,人工智能是变道超车的好机会。
做人工智能的人才稀缺又昂贵,结果大家都在做相同的东西,就会存在同质化竞争问题。但是合理的竞争是必须的,不能一家独大,这对于产品迭代、用户体验都不利。竞争是有必要的,但需要避免恶性竞争,目前国内的人工智能公司,主要呈倒三角结构,大多数注重顶层应用,专注于底层基础设施和中间层算法的公司比较少。 2017年以来,经过大浪淘沙和去伪存真的过程,一些真正有实力的公司会逐渐地显现和得到重视,形成一定的规模。
从上层应用来看,智慧城市丰富多彩,但落到基础设施层,无非就是互联网、数据中心、传感器、数据采集和平台。通过有效的手段采集数据,然后通过可靠的传输网络传输到平台上去做集中化的处理。背后的技术非常成熟、相互通联;应用在不同的场景下,能产生很多不同的效果。
目前,智慧城市最多的应用是视频监控,视频监控如果真正能够做到预警或者对数据深度挖掘,都涉及到人工智能的技术。还有不同角度摄像头之间智能协同的问题。市政基础设施可以通过引进人工智能技术实现质的提升,但是实现质的提升需要克服三大障碍:第一是数据,没有人去收集数据,没有人去标注数据就没办法针对每一个场景有效搭建数据集;第二,数据整齐了,还需要搭建一整套平台,需要开发人员做开发;第三,系统建成以后,还需要运营人员运维;这些都是很大的投入。
在人工智能领域的贡献,尤其在顶级会议的贡献,我国贡献率已经达到了很高的水平,但是现在的情况是:企业去玩企业的,学术的去参加学术的,政府参加政府的,大家完全没有形成合力,没有形成一套机制。人工智能发展,更多的需要学术、产业、政府之间形成合力。这种工作的开展要依托于结合了政产学研用的行业组织、产业联盟。
从基础的技术储备来说,大家都想挣快钱,把基础性技术研究也都交给研究机构、高校,但是研究机构、高校不产业化,没有实力去真正做好底层的技术,而且做出的技术可能跟产业结合得非常浅。所以说还是需要鼓励企业,更专注于底层深耕。
人工智能尤其是区块链,炒作太猛烈,对整个产业来说并不是一件好事,热钱来得快去得也快,而且很容易对国家金融稳定造成威胁,人工智能的泡沫需要警惕。
对于人工智能探索已经经历了这么多年,到现在为止还没有做起来,很多的技术,比如传感器、网络等,都已经有非常长的一条利益链,要把它们打包融合在一起很难。