房晓楠
近年来,随着深度学习技术的不断进步,AI在加速落地。在这个过程中,作为人工智能技术的底层支撑,以数据采集与标注为主的AI数据服务行业也在进行着日新月异的变化。技术更硬核、准确率更高的专业化AI训练数据提供商开始成为行业主流。
人类创造了AI,AI正在改变人类
2020年,新冠肺炎疫情呼啸全球。
人工智能利用其优势在对疫情的动态监控、防疫信息的及时公布,以及病毒研究的技术支持方面发挥了积极作用,以科学技术为武器的“科技抗疫”行动引发广泛关注。不仅如此,由于受到疫情的影响,线下商业面临的多重困境更让企业意识到人工智能在其业务中的重要作用。今年6月,在澳鹏(Appen)全球发布的2020年AI现状年度报告《AI与机器学习的现状》中,近四分之三的被调研企业、组织表示AI对他们的业务而言至关重要,越来越多的企业开始将负责任的AI作为其实现业务成功的因素之一。
实际上,近年来随着技术的不断成熟,AI在不断地落地,与各行各业进行深度融合,如金融、医疗、零售、教育、安防等,AI商业化在不断加速。而在这个过程中,作为AI技术的底层支撑,数据采集与标注相较算法研究、算力提升、数据挖掘等方面,似乎一直以来都处在一个隐秘的角落,并没有得到太多关注目光。尽管在通常情况下,人工“喂养”数据的质量往往直接影响着算法的精度。
艾瑞咨询发布的2020年《中国AI基础数据服务行业发展报告》显示,“目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要加速落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法支撑,可以说数据决定了AI的落地程度,是商业化过程中重要的一环”。
算法为车,数据为油
如果把AI中的算法比作是车,那么数据便是油,想要车跑得更快、更好,该“喂”它什么样的油?这就是数据服务商在不断思考的问题,而作为成立于1996年,在数据服务行业探索了近24年的澳鹏(Appen)来说,对于这一问题有着自己的看法。
澳鹏(Appen)全球副总裁、大中华区总经理田小鹏博士在接受采访时表示,随着技术的不断发展,传统企业一定会走向AI的道路,在这条道路上,他们对于数据的需求相较于以往提出了更高的要求。
“第一是需要大量高质量的数据”。
田小鹏博士认为,当一个新技术开始从实验室走向商用,所需要的數据将呈现几何模式增长。而对于算法模型来说,当到了平台期的时候,如果想进一步提升准确率,就需要“喂养”更多的数据。“澳鹏(Appen)曾经做过一个研究,比方说当你使用1倍的数据,模型误差率可能是13%;使用2倍的数据,误差率就可以降到8%;使用4倍的数据,误差率可以降到5%以下。”一定情况下,算法模型的误差率高并不代表算法有问题,而是没有足够的训练数据,因此想要对算法进行大幅提升,需要大量的无偏见、准确的高质量数据,田小鹏博士解释道。
第二是数据的安全性、保密性、私密性及无歧视要求。
第三是要求采标一体化。
对于数据需求方来说,他们希望“一个公司不仅能够采集所需要的数据,还能够把数据很好地标注,在过程中不断地和算法工程师进行交流,应用‘小、快、灵方式不断满足客户的修正需求是客户的核心诉求也是澳鹏(Appen)的成功秘诀。”田小鹏博士认为,这个要求对AI的数据提供了非常广阔的要求,同时从某种意义上来说是对数据提供方所必需具备哪些超然品质提出了要求。
在不同的场景中对于数据的采集与标注要求是不一样的,“定制化”需求成为主流,数据提供方针对特定的场景要能提供特定的解决方案。田小鹏博士表示,澳鹏(Appen)作为一家全方位的AI训练数据服务商,能够提供文本、语音、图像以及内容相关性分析等服务,但这四类是不一样的。比如语音,市场上的智能音箱、自动驾驶中的智能语音交互等,这些都需要人通过语音与机器进行交互,因此在进行数据处理中首先需要知道该如何识别语言,然后是如何理解语言,最后还要考虑到语言的多样性。因为世界上不仅有各种语种,在中国还涉及到各种方言,比如苏州话、上海话、东北话等,以及每个方言中还分为各个分支。此外,在采集过程中还要考虑到采集的环境、采集的方式、机器采集时所需要的参数等,这些都需要针对特定场景中特定客户的需求“定制化”进行,因为这是获得最终的高质量数据的基本保障,是与算法的性能相关的。
“当你的数据越来越贴近真实的算法所需要的东西时,你的算法准确率就更高,AI就更容易实现与落地。”
用安全的数据拥抱负责任的AI
技术是一把双刃剑,AI也不例外。AI确实带来了便捷,但如果将其滥用,用在非法、错误的地方,将带来各种社会问题,特别是数据方面,这涉及到个人隐私以及各种安全问题。因此,我们希望AI是安全的、是可以信赖的,这需要多方面的共同维护。那么,从数据的角度出发,我们该如何用安全的数据拥抱负责任的AI?
在田小鹏博士看来,AI确实带来了便捷,但我们不可以滥用AI知识,尤其是用到非法、不健康的地方,“我觉得无论是在任何一个社会、任何一个国家,都要坚持的原则。”
一直以来,澳鹏(Appen)在数据的安全性、保密性、隐私性、无歧视方面,都希望能够做到业界标杆,而且也在引导业界不停地精进。田小鹏博士表示,澳鹏(Appen)在采集任何一个数据的时候,都是完全符合当地法规、制度要求的,而且都会征求数据被采集人员的同意,获得每一个人的承诺书。澳鹏(Appen)会告知对方,所采集的数据会被哪个客户应用?应用在什么地方?对方本人是否同意?只有在取得对方的同意时才会应用这个数据,否则是绝对不会用的,这是一种基本的个人隐私和数据保护原则。
另外,在进行内部数据处理的时候,澳鹏(Appen)会对接到的项目进行慎重考虑,当涉及到一些数据敏感性、隐私性,或者从商业道德角度来说是不对的时候,“我们就选择不做。”
田小鹏博士认为,数据的安全不仅仅涉及安全性、保密性、隐私性,还有很重要的一点就是对于数据来说,更要注重无歧视要求。
例如,最近外国媒体报道了一则新闻,在一些人脸识别软件中存在种族歧视,无法识别黑种人面孔。当把一个黑种人面孔输入进去之后,发现识别出来的是白种人,甚至连对美国前总统奥巴马进行面部识别时出现的也是白种人,这可以说是识别有问题,又或者可以说是白人更容易识别,而黑人不容易识别。其实,这些都反映出背后的训练数据还远远不足,AI最主要的基石就是大量的、高质量的数据。如果识别模型达不到高识别率,就不能将输入的面部图片真实地识别出来,而这些都是AI还需要不断提升、改进的地方。
“ 用AI来服务AI ”
2019年,全球人工智能行业发展依旧火热,由此而产生出的数据需求量也十分庞大。根据国际数据公司(IDC)2018年末的测算,2018年至2025年,全球的数据总量将由33ZB增加至175ZB。其中,中国的数据增长量将保持30%的增长速度,可以说是所有地区中增长速度最快的。同样,数据量的激增也催生出了数据服务行业这一庞大的市场。
艾瑞咨询2020年《中国AI基础数据服务行业发展报告》中的数据统计显示,“2019年中国AI基础数据服务行业市场规模可达30.92亿元,其中图像类、语音类、NLP类数据需求规模占比分别为42.5%、46.3%和11.2%;根据需求方投入情况和供应方营收增长情况推算,预计2025年市场规模将突破100亿元,年增长率为21.8%”。
面对不断火爆的市场,数据服务商又该如何提高自身竞争力,脱颖而出?善于使用AI技术是关键。
数据是油,助力人工智能这一加速数字化革命的发动机不断向前,同时,AI技术也在反哺数据行业。
AI在数据标注领域主要应用于数据采集后的处理环节,在数据采集中无论是图像还是语音数据都会出现重复样本或不合格的样本,如果单纯依靠人工进行抽查或是遍历每一个样本进行校验,那么在成本、准确率和时效性方面都会造成不足,通过使用计算机视觉和语音识别技术对采集到的样本进行初步识别,可在短时间内到达较高的校验正确率,实现几倍于人力的工作效率。
这正是澳鹏(Appen)的强项之一。
田小鹏博士表示:“目前澳鹏(Appen)基本上不会用纯人工进行数据标注,而是采用‘平台+人工的方式进行。”
例如在3D点云标注领域,如果一辆车在路上一直跑,最笨的办法是把100帧的数据逐个选出来,可能需要选1万张图片,然后对这1万张图片进行人工标注。假如标注1张图片需要100块钱,那么完成整个工作就需要100万,成本非常高。但澳鹏(Appen)可以做到在技术的加持下进行自动标注。因为这100帧都是对这辆车进行标注,我们可以找到第一帧进行标注,再在最后选一帧进行标注。比如对第1帧和第100帧进行标注,所以只需要标两帧。对于这100张图片,只需要对2张图片进行标注,然后用算法和平台自动地查找从第1帧到第99帧,自动实现对图片的标注。“这不是提升1%的生产效率,基本上是98%的生产效率。本来需要标100帧,现在只需要标2帧,实际上这是一个大幅度的提升。”
“我们澳鹏(Appen)本身也有很多AI科学家,他们本身就是在研究怎么样可以通过AI技术、机器学习(Machine Learning)技术、深度学习(Deep Learning)技术,让我们的平台用AI来服务AI,这个正是我们所做的。”田小鹏博士解释道。
从2017年进入中国,澳鹏(Appen)便决定在中国大规模发展。对于未来在中国发展的战略目标,田小鹏把它总结为两个方面。
“第一个是我们的五年规划,希望在2025年的时候可以做到10亿美元的收入,这就意味着我们会做到将近上万人规模的公司。真正开始在大中华区的市場,中国大陆、中国香港、中国台湾等提供各种各样的AI数据服务。”
第二个方面是不断扩大公司规模。澳鹏中国是一家独立管理、独立运营的公司。去年10月,澳鹏中国首个数据服务交付中心——澳鹏科技(无锡)有限公司正式成立,投资200万美元;今年5月,澳鹏数据科技(上海)有限公司正式成立,投资200万美元。“我们不断地在中国进行投资、进行发展。”接下来公司规模将向哪个城市扩展,也许是在大连。田小鹏博士透露,今年刚刚建成大连的服务交付站点,希望将来可以提供更多的面向日语、韩语、俄罗斯语,包括覆盖东北领域的公司。
目前,“中国AI几乎所有的头部客户,都是澳鹏中国的客户。包括你可以想到的大型Internet公司,全是澳鹏的客户。”而在未来,田小鹏表示,澳鹏还将向更多的行业迈进,不断砥砺前行,深耕细作。
处在技术大爆发与数字洪水的AI时代,谁掌握了更多、更精准的数据,谁的算法精度就会更领先一步。而作为高质量数据提供者的数据服务行业市场也已开始洗牌,竞争悄然开始。田小鹏博士觉得未来中国的AI数据服务行业也许出现行业“三巨头”,“那个时候我希望澳鹏(Appen)会是其中的一个。”