黄语晴
赶着2012年的大数据、深度学习浪潮,尹程果加入腾讯,做了一名数据研究员,工作是处理与个性化推荐相关的数据挖掘与算法设计—按照更职业一点的说法,他其实是位“数据科学家”。
“数据科学家的关键工作在于預测,拿历史的数据来预测美好的将来。”尹程果说。在近6年的工作里,他持续在做同一件事:根据数据去预测人们喜欢什么。
从前线业务人员那里拿到物品信息和用户行为信息后,他和团队就开始工作了:结合腾讯平台的数据资源,对每个用户做精细的画像刻画,然后运用机器学习与数据挖掘,设计个性化推荐的算法模型。
这个过程描述得专业一点,就是要完成从数据清洗、数据落地、机器学习到模型上线的多个步骤。
整个过程中,尹程果需要把握的两个关键问题是用户画像是否精准,以及算法平台是否通用。
从学校跨越到工作,学校所学的“漂亮公式”与实际应用之间其实存在鸿沟。所以在胜任这份工作之前,尹程果经历了大多计算机专业的学生都经历过的瓶颈。最初,当他把学校所学的实验指标套入工作实践,用来评估模型时,受到了产品人员、业务人员、用户对推荐是否准确的质疑。
“这时候就很迷茫,觉得自己用的是学校里所学的常规的,或者是业界公认的算法,为什么得不出我想要的效果?”尹程果说。他只好不断自我反问:为什么使用这个算法?这个算法的效果为什么更好?它的原理是什么?
在思考算法的过程中,尹程果发现学校学到的算法方案都需要满足一些特定的前提条件,一旦前提条件不满足,算法就会失效。
类似的问题也存在于尹程果想要把人的自然语言处理成数据语言的情况。比如,学术界有一些通用的关键词提取方法,但这些提取方法在用户原创内容(User Generated Content,UGC)视频中不起作用,而尹程果发现,用户在UGC视频中的描述文本都非常随意,传统方法无法做到有效提取。这种情况下,尹程果只能带领团队根据具体的业务特性分别设计解决方案。
“一些在学术界很漂亮的模型公式,在工程应用中很可能被‘打脸。机器学习最后要反馈于业务,所以一定要考虑实用性。”尹程果说。如今,数据量级已达到千万甚至亿级,一些常规算法更需要进一步优化。
尹程果团队开发的智能推荐已经被腾讯作为一个服务产品推向市场。这时候,他又面临着一个新问题:外部不同客户的业务需求各有特殊性,他们该如何让个性化推荐形成一种通用的能力输出,以提高与不同业务方的合作效率和效果?这也是做个性化推荐的数据科学家们共同面临的新难题。
在尹程果眼中,数据科学家必须保持对数据的敏感性,“数据在你面前,不是一个个数字。作为一个数据科学家,你看到这个数据第一眼,就应该敏感地发现这个里面可能有某种规律存在。”
C=CBNweekly Y=Yin Chengguo
C: 数据科学家需要具备哪几种能力?
Y: 一是要对数据有敏感性,二是对数据要有很强的提取能力,三是要具备统计分析的能力,四是要具备将数据可视化的能力。在腾讯这样的公司,数据科学家还需要具备一定的软件开发、算法调优能力,以便负责算法和模型的落 地。
C: 数据科学家的晋升路线是什么?
Y: 先是初级研究员,需要最基本的技能。然后是高级研究员。评选高级研究员的时候,会看你能否用有效率的方法解决问题、对这些问题的分析是否到位,以及解决的方法合不合适。高级研究员之后是专家研究员,再往上就是科学家了。
C: 数据科学家未来的工作趋势?
Y: 对于个性化推荐这一领域,后面的趋势一定是数据更多,以及实现迁移学习。迁移学习是指把数据串联起来,形成统一的数据能力,在不同业务之间找出它们的共性,形成一种更完美的推 荐。