星尘数据:做数据标注领域的罗赛塔石碑

2023-05-30 09:09陈秀娟
汽车观察 2023年2期
关键词:星尘闭环工具

陈秀娟

通过自动标注算法技术、数据策略专家服务和数据闭环系统服务,最终实现行业AI的平民化。

在古老的埃及,考古学家在金字塔旁发现了一块罗塞塔石碑Rosetta Stone,这块石碑上同时刻有古埃及法老托勒密五世诏书的三种不同语言版本,让近代的考古学家得以有机会对照各语言版本的内容后,解读出已经失传千余年的埃及象形文之意义与结构。

如今,在中国,有一家创业型科技公司解决了人类语言和机器语言之间的转译鸿沟,立志于做数据标注领域的罗塞塔石碑,让大规模训练数据的机器学习成为可能。近日,AI数据服务商星尘数据在京举行春季媒体开放日暨Rosetta3.0平台上线发布会,Rosetta3.0平台正式上线。

发布会上,星尘数据创始人、CEO章磊提出了标注行业认知天梯,即初级认知是标注行业是“人力工厂”,服务商用相对初级的标注工具、项目管理和海量人力就能干活,招标时低价者中标,存在交付风险;中级认知是,对项目管理的难度和标注工具的复杂度有一定认知,投入工具研发和项目管理成本,研发周期长,管理难度大,数据迭代效率低;高级认知是,重视平台的技术实力,使用高度自动化的标注平台,且与数据服务商一起迭代数据闭环和数据策略。

“做一款工具好用的平台让每个标注员都来用”

星尘数据是一家提供AI数据标注和数据管理服务的企业,成立于2017年5月,其创始人、CEO章磊是海归数据科学家,先后在华尔街、硅谷工作十余年,曾在硅谷开发过世界首款股权投资机器人,在华尔街工作期间开发的底层风控算法曾被美国联邦储蓄局作为压测标准。

接受《汽车观察》记者采访时,章磊向记者谈起了创办星尘数据的初衷,是想做一款工具好用的平台让每个标注员都来用。原来章磊回国后创办的第一家创业公司是做自动化投资,需要做NLP(自然语言处理)算法,在与数据堂、龙猫、百度这些数据标注公司打交道过程中发现,这些供应商都不能满足他们的需求。“因为自动化投资需要数据侧和算法侧能够进行深入交流,也就是数据闭环,仅仅按每人每天进行数据标注并不能解决算法工程师的问题。另外,由于标注工具简陋不好用,标注员产能也不高,既无法满足企业的工期需求,也无法提高标注员的个人收入。”章磊说。

章磊指出,中国数据标注行业进入门槛较低,主导工具开发的人员通常并非算法科学家出身,因此很难开发出高效的预标注、辅助标注算法,更加困难的是设计相应的产品去承接算法思维,需要真正懂算法的人去带领团队开发标注工具和平台,提供数据策略咨询,打通数据闭环,真正满足自动驾驶算法侧的需求。

基于以上原因,章磊创办了星尘数据,在创立之初就确立了三个目标:首先,通过自动化标注提高标注效率;其次,通过提供数据策略专家服务,为客户创造更多的价值;第三,通过数据闭环让模型训练效果更好,数据标注量更少,提高標注性价比。

为此,星尘数据推出国内首个自动化标注平台Rosetta平台,平台提供数百个标注功能,可支持图像、点云、文本、语音、采集等在内的100+种主流标注场景。

第三方服务商优势会越来越明显

标注行业之所以会给人留下“人力工厂”的印象,是因为早期的数据标注自动化很低,以人力外包为主。人力标注具有随意性高、人与人能力有差别的问题,数据量很大的时候,很容易出错,返工率非常高,不能保证工时。

随着行业的发展,目前标注行业存在企业自建标注平台和人力基地、自建平台并通过外包人力工厂进行标注、企业与平台供应商合作等三种模式。在章磊看来,随着行业的不断发展,第三种模式将逐渐成为主流,专业的SaaS(自助建站)平台供应商角色也将越来越突出。因为,无论在自建标注平台还是标注团队管理方面,与优秀的第三方服务商相比,企业均不占优势。

具体看来,首先,这是由基础设施云平台化的大趋势决定的。在全球科技企业大规模裁员的背景下,数据工具链相关的infra部门往往是最先被裁减的。曾有知乎用户表示:“随着云平台和微服务的兴起,各家公司对infra工程师的需求是只减不增的。互联网公司自研基础设施的时代已经快要结束了,未来是云计算搭积木的时代。”

其次,自动化标注工具设计细节较多,需要不断完善。例如,自动化标注不仅需要拉框,还需要具备旋转功能;在进行2D/3D融合标注时,需要注意标注细节;开发BEV标注工具时,需要切换BEV空间和摄像头视角;开发4D标注功能,需要考虑时间维度等。因此,需要专业的供应商来提供标注工具的设计和开发。

再次,标注员学历普遍不高,参差不齐,可靠性差,需要流程管控。而专业的SaaS平台供应商则能够提供完善的供应商管理体系保障,Rosetta3.0平台上有精细的多维度数据统计功能、每日汇报功能、自动考试上岗功能,仅质检就有6种质检方法、100多种质检规则。对于质量控制问题,章磊举了一个例子:“如果算法置信度为0.51的错误怎么处理?如果算法质检不合格就驳回,会导致罢工。我们不仅有机器人质检,还有多维度的质检依据。”

最后,对于自动驾驶研发企业和机构来说,标注平台开发是成本中心,而对于平台服务商来说,则能够带来显著的利润。这种导向的不同也导致了双方的成本投入存在天壤之别,未来这种差距将会越来越大。据业内大厂评估,从零开始自建平台,要达到像星尘数据平台一样先进的水平,需要40名工程师投入两年的时间才能完成开发。“开发平台和工具非常耗费时间和成本,而这不是客户的核心竞争力,客户没有必要自己来做。”章磊进一步说。正因如此,章磊提出了标注行业的认知天梯。

标注行业的“救火队员”

星尘数据花了大量的时间和成本去开发平台和工具、打通端到端的数据闭环流程,在这期间,竞争对手把更多成本和精力放在销售上面,不惜低价抢单。但章磊认为,好的产品具有自传播性,用过星尘数据工具的标注员黏性很高,不愿切换平台再使用其他平台的工具;客户也是如此,供应商在竞标过程中以最低价中标,但在交付时却无法按时交付或者标注质量不符合要求,这时候只能找星尘数据来解决问题。尽管在商务方面起步较慢,但领先的技术优势符合标注需求越来越复杂化的趋势,星尘数据开始呈现反超特点。

章磊强调,星尘数据存在的目的不是要解决100%的数据标注,而是解决那部分难的、行业前沿的大规模的数据标注,这也是那些具有付费能力的大客户最大的痛点。他举例表示:“常规的激光雷达点云对空间描绘能力的细节程度在30万~80万点,星尘数据Rosetta平台的4D重建点云标注能力超过500万点,在标注处理能力上超出同行一个数量级,因此,在南方某家自动驾驶企业的4D标注招标项目中,多家供应商通过试标的方式进行竞标。在一张500万点的4D点云图面前,同行全军覆没,卡到蓝屏,星尘系统丝毫没有压力,仍在丝滑顺畅地进行标注。”

此次上线的Rosetta3.0平台进一步升级了平台能力。在算法层面,Rosetta3.0 提升了算法加持能力,新增 20+自研算法,点云标注效率较纯人工标注提升5倍+,支持机器人标注及质检,支持交互式标注以及算法实时反馈;增强了自动驾驶数据标注能力,3D 渲染50帧/秒以上,支持超长连续帧2 000+ 流畅标注,支持2 000W 点点云平滑标注,支持 BEV标注、3D重建标注、4D标注、毫米波标注;增强数据闭环支持能力,打通Data Ops和ML Ops 链路,通过API对接实时发现难例,帮助客户实现主动学习和强化学习;持续增强全方位、精细化质检能力,提供上百个行业通用质检规则服务和自研质检算法,为数据质量保驾护航,标注准确率可达99.9%;强化数据管理能力,支持多源异构数据管理、版本管理、标签管理、场景管理,支持数据可视化、数据场景挖掘、多模态检索等

在平台底层,Rosetta3.0采用微服务架构模式,系统具备更高扩展性和可用性,可支持数万人同时作业,并引入流式计算等大数据技术,提升平台数据实时处理能力;提供面向第三方的开放服务能力,通过Open API方式,和客户建立灵活的数据通路和算法服务通路,加速客户算法迭代速度;构建 5A 数据安全保障体系,从产品、技术双层面落地 5A 数据安全架构,实现端到端存储传输使用安全、信息隐私保护、数据隔离等。

据章磊介绍,除Rosetta 数据标注平台外,星尘数据还为客户提供Rosetta标注软件基础版、Rosetta标注软件高级版、Rosetta标注软件旗舰版、Rosetta App、Rosetta独立标注工具、开放平台Open API等众多产品形态,支持私有化部署和定制化软件,满足客户多样性需求。

推动AI平民化

谈及数据标注行业的痛点,章磊指出,在传统的数据标注流程中,算法人员制定数据标注规则,标注公司消化后再提供给标注团队。然而,在执行过程中,算法的思路并不能一次性达到最优化。另外,数据标注人员仅仅是一个“干活的”角色,并不能帮助更好地迭代算法效果。因此,算法侧时常会有一些不合理的规则导致成本飙升或难度大增导致难以执行。

此外,数据管理也是企业头痛的问题。如,数据通过硬盘传输,效率低且无法管理。还存在数据批次多、脏数据多、清洗后有效数据少、同类型数据重复标注的问题。“同一批数据,虽然L2和L4模型训练都用得上,但企业缺乏数据策略意识,数据复用性低,无形中增加了成本。”章磊进一步说。

在服务90%头部自动驾驶客户、经历上千个项目打磨后,星尘数据不仅沉淀出了行业领先的标注平台和工具,还培养出了经验丰富的数据策略专家。

章磊表示,数据策略中涉及大量前沿技术,既包括算法和数据相关的技术,如领域迁移、时空融合、数据增强、弱监督学习等,也包括以数据为中心的反馈迭代技术,如主动学习、强化学习、数据检索、数据安全、场景化数据生成、模型测试等。数据策略专家既要了解相关技术,也要熟悉产品,以专业性来服务客户。

章磊指出,星尘数据的数据闭环解决方案是Rosetta3.0平台的一大亮点。“全流程闭环式AI数据系统将成为主流,星尘数据为此提早进行研发布局。”

在一个完整的数据闭环训练中,客户可使用星尘数据提供的离线数据包进行基础版模型训练,星尘数据标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代,在经历几次迭代后,不仅沉淀了有效数据,还节省了数据成本。同时,星尘数据还可以在海量数据中找到真正有價值的数据帮助客户训练模型,并利用自有数据集评测模型效果。模型上线后,行车数据可用于模型迭代,形成数据闭环。该方案通过打通星尘数据标注系统和客户算法系统,实现主动学习、分批训练和动态发掘有价值数据,从而降低数据标注规模,节省标注成本。以Chat GPT语言模型为例,通过星尘数据的Rosetta3.0数据标注系统,客户可以将模型快速接入系统,通过API实时将结果显示在标注平台上,星尘数据专属基地的NLP标注员可以快速给出反馈。同时,奖励强化模型实时接收到反馈并进行训练,可以实现模型的高效训练并及时发现缺陷。据悉,该解决方案目前已进入POC测试环节。

对于未来,章磊表示,星尘数据希望做人类语言和机器语言之间的罗塞塔石碑,通过自动标注算法(auto-labeling)技术、数据策略专家服务和数据闭环系统服务,为全球人工智能企业特别是自动驾驶行业提供“燃料”,最终实现AI的平民化。

猜你喜欢
星尘闭环工具
波比的工具
波比的工具
星尘
星尘
准备工具:步骤:
“巧用”工具
单周期控制下双输入Buck变换器闭环系统设计
双闭环模糊控制在石化废水处理中的研究
星尘双肩包
最优价格与回收努力激励的闭环供应链协调