金星
今天我跟大家分享的主题是“创新技术助力政务大数据”,关键词就是创新,看到“创新”这个词很多人的感受都会不一样,或者有的人觉得这是老生常谈的话题,但其实我们平时谈的创新大多是一些微创新,我今天想讲的是真正的创新,跟微创新不一样。
大数据创新从何做起
也许很多人都会怀疑我们国人到底没有实力做真正的创新,我不做论断,可以谈一些现实情况。中国有很多技术实力可能较弱,如底层的芯片、操作系统,但是有一些地方我们其实要比国外强很多,比如报表。国外报表都是很简单的,就像银行的清单。但是我们国家的报表是非常复杂的,格式复杂,条目多,上面是表格,中间是图,这样的报表在世界上很罕见,几乎找不到。
我们润乾是做什么的呢?过去18年一直在做数据计算模型,解决大数据计算的核心难题,一是如何提高效能,把那些复杂计算变得简单。二是怎么做得更快一些,提高效率。三是解决商业逻辑中面临的人工成本的问题。我们真正的盈利是在技术创新上或者说数学模型算法上。
信息技术的发展其实是跟需求的驱动有很重要的关系,互联网时代,到后来计算机用的多了,需要把数据连通起来,互联网解决这个问题之后要打通各种数据,数据多了以后需要挖掘出价值,有更大的利益。
可以看到现在的趋势就是大数据和人工智能,这很多人都听说过,但是我们很多时候没有搞清楚大数据和人工智能的关键,是数据量大吗?大是它的特点,或者说很重要的特点,但最重要的特色并不是大。
那么真正的人工智能、大数据最重要的特色是什么呢?是数据计算。其实20年前一些大型的银行、运营商的数据量也非常大,但是当时的数据并没有现在复杂,需要的算法也很简单。现在的数据类型非常复杂,而且用户的需求也发生了变化,比如要根据每个人的消费情况总结出他的消费习惯,甚至预测消费行为,或者说要分析出哪一片区域或者哪一个年龄段消费能力最强、贷款能力最强等。
政务大数据的现状是什么呢?我理解有几个特点:1.几十个政府部门的共享数据模板;2.上千甚至更多的数据库表,上万甚至更多的共享数据字段模板;3.人口、法人、空间地理、宏观经济、城市资源等多个基础数据的数据模板和数据元;4.物联感知数据、信用数据、开放数据、公共服务数据、社会治理网格化数据、电子证照等多个主题数据库的数据模板;5.人口、法人、空间地理、宏观经济、物联网业务分析模型。针对这些现状,概况一下有两大业务需求:一是成百上千个常用数据需求处理作业;二是数据量巨大、数据源众多。我们的解决方案是引入数据计算层—集算器。
集算器的创新应用
我们在经营报表的过程中,总能碰到用户希望我们协助开发复杂报表。久而久之,我们发现,报表的复杂性不仅体现在格式上,而更多的是在数据方面,数据库中的数据距离要呈现出来的数据还非常遥远,经常需要很多步骤的复杂运算才能得到。而报表工具只能解决呈现环节那一步的少量计算,对于进入报表工具之前的数据计算则无能为力。这导致了虽然有强大的报表工具来解决格式及呈现环节的计算问题,而报表开发却依然很难的现状。对此,润乾总结分析各种数据计算问题,设计了一套新的数据模型和相应的程序语法,能够更简捷地描述报表数据源准备的算法,这就是集算器的由来。
集算器IDE是专门为数据处理和开发设计的编程环境。集算器Server(集算服務器)是运行在Java平台上的数据计算型中间件,嵌入式接口为工程提供了便利的集成性,服务式接口为工程提供了高效的扩展性。
集算器作为专业的报表数据源准备中间件,将复杂的计算从报表剥离出来,有效降低开发难度、提高开发效率。集算器脚本可以与报表模板一起管理,能有效降低应用管理的复杂度。
集算器是一款拥有完全自主知识产权,安全可控的软件。在设计目标上,集算器希望提升两方面的效率:计算的描述效率和计算的执行效率。这两个效率非常重要,如果描述效率太低,就意味着开发成本太高,很难写出程序进行计算;而如果执行效率低,则需要运行很久才能得到结果,那实用价值也就会打折扣。
集算器的下一步是数据库和数据仓库,将演变成和传统关系数据库/数据仓库正面竞争的产品。数据库是指主要用于交易业务(OLTP)的产品,而数据仓库则用于分析业务(OLAP)。目前许多商业数据库把这两个功能整合在一个产品中,但事实上这两种需求有相当程度的矛盾性,放在一起会出现顾此失彼的现象。OLTP更强调事务一致性、高并发但单任务数据量不大、计算复杂度也低;而OLAP则不需要考虑事务一致性、低并发但单任务数据量大、计算复杂度高。
(根据演讲内容整理,未经本人审核)