白剑波
我今天分享的题目是从数据到知识的“智”变,这个智是人工智能的智。我们的客户分为三大类:政府、企业和媒体。这些客户在自己业务领域里都有独特的需求,我们为他们提供解决方案。如何打通数据孤岛?如何提升政府办事效率?这是政府客户的一些需求。如何能够从海量数据里挖掘出有价值的信息?什么叫有价值的信息?如何能够洞察这个市场里面的用户?如何根据行业政策分析和解读进行精准营销?这是企业客户的一些需求。如何能够得到自己所关心的领域里的热点资讯?对于原创文章,如何进行版权保护?这是我们媒体客户所面临的一些需求。
针对客户需求,我们的策略是什么呢?从数据到知识的“智”变。在过去的发展过程中,智慧星光在数据采集、数据处理(特别是非结构化数据处理,包括文本数据、图片数据、视频数据)等方面做了大量工作。
基于此,我们现在要把这些数据融合起来,这些数据不仅包括我们从公开渠道采集到的互联网数据,同时也包括我们获得的第三方数据,或者是客户通过他们的渠道获得的第三方数据以及客户内部的数据。我们对这些汇聚融合之后的异构数据进行挖掘,结合我们构造的知识体系建立知识图谱,为客户提供知识层面的价值观,帮助客户做更好的决策。
在智慧星光的数据系统里可以看到,我们对几乎所有的互联网公开数据做了采集工作,我们自己配置高效的爬虫系统,覆盖了超过10万家网站。对于社交媒体,包括百度贴吧数据、微信公众号数据,这些都做了采集。同样,我们对于App数据也做了采集,包括新闻App以及其他生活娱乐类的App。对于电视台节目,我们也做了一些监测,针对这些内容里面的语音我们会转成文本,对里面的关键词进行匹配。同时,我们对多语种的境外数据媒体也做了监测,这些数据构成了星光数据平台的基础。据统计,每天采集到大约1.5亿条数据,实时进入星光数据平台。
采集到数据之后,如何做处理呢?在星光数据平台架构上,最底层是我们的采集系统,除了对互联网公开数据进行采集之外,还支持客户内部的数据采集、原生的数据库系统的采集以及类似于静态文件的数据采集。数据采集之后,对数据做加工清洗,进入后续的处理流程。我们主要对其中的文本数据做多样化的处理,再进入我们的数据管理系统。数据管理系统构成了我们多元数据融合系统的关键部分,这里面我们对元数据进行管理。如何把不同来源的数据融合到一起,进行有效管理,对于异构数据能够进行统一查询,并按照客户给出的条件,在一个统一的查询界面里对所有数据进行查询,给出最后的结果,这是我们构造的多元异构数据融合系统能够实现的功能。这个系统通过API的方式,对上层的应用提供数据管理的接口、数据查询的接口等,这些接口同样可以提供给我们的合作伙伴和客户去使用。
数据融合处理中非常关键的就是文本处理,我给大家带来一个概念,叫星光文本大脑。简单的理解就是包括了星光数据平台里面所有的数据,我们的模型团队将过去所积累的模型、通过半监督训练方式所得到的知识体系,以及通过超过500亿条数据进行深度学习训练出的知识体系,结合到一起,构造一个知识体系。任何数据经过星光文本大脑都可以进行全面的文本分析,帮助我们将数据变成知识。
从数据到知识的变化过程中还有一个非常重要的环节,就是实时图计算。星光的实时图计算引擎可以支持超过十亿个节点、百亿条以上的计算,同时还是一个实时计算,可以完成秒级的计算,并且在这里可以非常方便、灵活地創建各种各样的关系。比如,我们在电商里面交易的数据、用户行为的属性数据、社交媒体里人和人之间的关系数据等,都可以通过星光图计算引擎进行有效的计算,并且在这里还提供了一个分析平台。
我们还给大家带来了一个IGraph平台,这是可视化的知识管理平台,结合了数据、文本挖掘和图计算引擎。目前来讲,IGraph平台已经实现了几个行业的应用,包括旅游行业,电商平台数据里面的家电行业、手机行业的应用。我们首先构造行业知识图谱,这依赖于我们采集到的数据,经过星光文本大脑进行非结构化数据处理,经过星光图计算引擎计算和分析,最后得到我们客户想要的结果。从数据到知识,星光给客户提供了大量的、及时而全面的精准信息服务。这些信息服务都是点状的服务,客户在进行决策的时候需要的是知识,需要上升到一个更高层面的知识来帮助他去做决策。
从传统上来讲,智慧星光提供舆情监测服务,这也是我们目前客户基数最大的一条业务线。我们所提供的核心产品就是舆情秘书,为客户提供全面的互联网舆情信息监测产品,这个产品目前有超过2.5万家用户在使用,正式签约付费用户在4000家左右。围绕舆情秘书这个监测产品,我们同时还提供另外一个产品,就是舆情专家。舆情专家可以帮助客户去解决这些问题。它包括舆情信息的发现、预警、研判、态势感知等,可以提供决策支持。
(根据演讲内容整理,未经本人审核)