王碧清
2015年年底,上海张江一处20平米的房间内,十几个热火朝天的年轻人写下了第一行代码。2020年,上海达观数据(Data Grand)和这里的工程师们已走进了更多企业的视野。步入大数据时代,他们以文本智能处理技术助力企业破浪前行。
什么是文本智能处理?即通过自然语言理解、自然语言生成、知识图谱等人工智能领域方面的技术,实现文本的自动抽取、审核、纠错、搜索、写作等功能。
如今,达观数据已成为文本智能处理行业当中的引领者。保持创新、不断积淀,年轻的航船载誉而归——公司成为中国唯一入选2020 IDC创新者的文本智能处理企业、获中国智能科学技术最高奖“吴文俊人工智能奖”;而公司创始人陈运文凭借在人工智能领域取得的研究成果,入选为全球科学企业家200人名单。
不久前,陈运文获评共青团中央2020年“全国向上向善好青年”(创新创业)。他表示:“非常光荣,将继续努力,把产品技术推向更广的应用天地。”
陈运文低调而谦逊。在创业前,他已是科技部“万人计划”专家,后带领团队在数据挖掘方面的国际大赛之中斩获冠军,还在由国际计算机学会(ACM)主办的全球最高级别的国际数据竞赛中,以“社交网络推荐算法”在全球1000支队伍中获得亚军,创造了大陆企业15年来历史最佳战绩。
选择创业后,陈运文是笃定的:服务传统行业,为企业转型升级赋能。而探寻“AI+传统行业”的道路并非一日之功,但他走得不疾不徐、少见焦虑,更多地是一份坚定和惜时如金的水到渠成。
从复旦大学计算机系博士毕业之后,陈运文先后担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师。在软件开发的各类实战当中,他深感国内互联网企业技术水准的领先,但同时也注意到,“许多传统行业里面的计算机技术运用得相对落后,填写、核对文档等仍需手工完成。以技术提高传统行业的运行效率,我觉得这是非常有价值的事”。
在上海张江集团创业孵化器的一处20平方米的办公室,陈运文仍记得,那时和创始团队的不舍昼夜。尽管公司成立之初,云集了各大互联网巨头当中的风云人物,但由于新成立公司的知名度并不高,新鲜力量的补充步履维艰。虽然各方面的条件都很艰苦,但陈运文形容:“痛并快乐着,就像搭积木一样,看着想做的事情一点一滴地实现,心中的蓝图逐渐成形,充满着期盼,这种感觉还是很好的。”
那时,陈运文要考虑的是如何生存。“小公司没有知名度和客户,产品技术还在打磨,人员规模也很少。而创新创业都是从小公司一步步走过来的,如何发展壮大其实是非常困难的。”
创业之残酷,如穿越逆境寒冬。为了活下来,陈运文团队努力将每一项技术服务做到极致,把专项技術做出特色。“就像国际上许多巨头公司,例如日本专门做拉链的公司YKK,已有近百年的历史,他们把拉链做到世界第一。对于我们来说,就是把一项技术打磨成行业里面最好的。哪怕我们做的事情很小,也依然可以爆发出很强的生命力。”
陈运文团队最先实现了文档材料的自动化解析,可以从Word、PDF、Excel等文档中,实现精准识别和自动审核,受到了市场的欢迎,逐步建立起了口碑,也成为一些投资人眼中稳健、靠谱的优质项目代表。三个月时间,公司实现了盈亏平衡;三年的时间,公司实现了盈利。
积木一块一块地累搭,陈运文说,虽然道路暂时窄一点、黑一点,但心间自有光明。“我们常用的汉字虽然约有5000个,但汉字组合起来千变万化、语义丰富,如何让计算机像人一样去思考、理解、识别非常艰难,技术到今天为止,都不能说是成熟,还有许多问题和挑战。”达观数据团队在一年一台阶稳步壮大,在不断解决问题、保持创新之中,行至更加宽阔的智能时代。
作为人工智能领域中的独角兽,达观数据始终保持着稳步增长,不断升级迭代。在深耕NLP(自然语言处理)技术方面,陈运文已经带领团队建立了完备的语料库,获得了60余项发明专利。
2018年,达观数据获得了宽带资本1.6亿元的B轮融资,累积融资额超过两亿元,刷新了中国NLP融资纪录,发展驶入快车道。不过,陈运文始终保持着冷静而理性的态度,不疾不徐地布局、前进,“创业者要在恰当的时机正确引入、使用资本”,“做企业服务,要慢工出细活,着急不来”。这年,RPA(机器流程自动化)成为业界炙手可热的概念,由美国最先风行,并已获得许多场景当中的实际应用。而达观数据也开始从NLP(自然语言处理)发展到RPA阶段。
如何针对中文使用习惯,开发出适合中国企业的RPA产品,陈运文和团队开始了新一轮的征战。
在团队成员的努力下,达观数据成功发布国内首款自主研发集OCR(光学字符识别)与NLP(自然语言处理)于一体的RPA系列产品。RPA可以理解为软件机器人或虚拟劳动者,可以记录人在计算机上的操作,并可重复运行,全程严格监控以保障信息安全性。因为RPA的技术突破,RPA+NLP可以适应更多更加复杂的应用场景,让AI技术真正赋能金融、物流、零售、政务、医疗等行业的流程自动化,从而创造价值。
比如,针对国际结算系统自动开户这一实际应用,RPA软件首先可以通过自动识别已上传的公司营业执照信息,自动完成登陆国家外汇管理系统、获取客户信息、登陆国际结算系统、代填客户信息并开户,极大地加速、准确且优化地完成金融系统相关工作流程。
陈运文坦言,国内的智能文本行业目前仍处于早期的技术产生、中期的推广应用发展阶段,虽然诸如中国银联、招商银行、工商银行等企业都已经开始使用达观数据的产品,但整体来看还不是通用的级别,市场仍然广阔。“我们可能很容易理解外卖、共享单车等的运行逻辑,但对于智能文本处理,让大家理解这项技术的价值,并且可以使用它,还需要下功夫。”
谈及人工智能技术的“数学气质”,这位本科就读于数学系、后获得复旦大学计算机博士的“80后”创业者表示:“表面上看是文字处理问题,实际上确实都是数学问题。汉字的排列组合背后都是数学的概率、组合。用数学化的方式去解读文字的规律,还是非常有意思的。”
在陈运文上海的办公场所,每间办公室的名字都来自于数学的一种算法或模型:最大熵、傅立叶、贝叶斯网络……“数学还是非常神奇的,定理、规律非常优雅”,他希望给团队伙伴们创造一种良好的技术氛围,“走到哪里都像走在数学公式里一样”。采访当中,陈运文总会提到团队之间的“牺牲和支持”、“配合与成就”,而求真、务实的企业文化,将大家凝聚在一起,共同耕耘、共同期待未来枝叶繁盛。
正如陈运文喜欢的一本书《文明之光》中提到的计算机的“无所不能”那样,“如果说工具是人类手脚的延伸,那么计算机就是人脑的延伸”,陈运文希望,未来有一半的日常文档资料是由达观数据所支持的机器人助手去完成,人们从繁重的工作中解脱出来,去做更多更有创造性的工作。