中国工商银行软件开发中心 夏知渊 袁 一 张宝华
大数据及人工智能实验室按照“探索智能科技,打造智慧金融”的指导思想,深入开展大数据技术框架、大数据服务云平台、机器学习、自然语言处理、图像识别等大数据及人工智能领域新技术的研究与探索,根据应用前景推动新技术落地实施,致力于使金融数据的分析越来越科技化、多样化与智能化,促进金融创新和银行信息化发展。
在大数据处理能效显著提升与人工智能快速渗透的时代背景下,金融决策平台搭载人工智能技术,使金融数据的分析越来越科技化、多样化与普适化。金融数据作为大数据中最具含金量的数据源,受到越来越多的重视。为了把握趋势,在金融领域保持领先地位,大数据及人工智能实验室构建了大数据技术框架、大数据服务云平台、人工智能机器学习平台三大研究体系。
实验室研究梳理大数据领域的基础技术组件、基础服务组件和配套服务组件的组合与封装,明确大数据技术框架范围和各技术组件的定位。在存储引擎、计算引擎和基础设施三个方面进一步增强,通过引入新型的组件来提升大数据平台的技术支撑能力,以产品组合的方式解决原先单一产品专业化程度偏高、无法满足各种灵活的数据使用场景的问题。致力于提高大数据服务云的易用性,以达到快速、灵活的设备供给,来满足业务快速增长的需要。
大数据服务云平台在建设过程中以“全、快、准、共享”为原则:(1)按数据原始结构标准,将行内外各类分析数据纳入数据湖,提升分析数据的覆盖面;(2)面向客户经理、分析师提供秒级的画像信息服务,提供毫秒级的实时计算,满足事件式营销、实时推荐、风险防控能力;(3)利用全领域客户画像,结合客户聚类、行为分析精确定位客户需求,提供合适的产品推荐;(4)基于大数据服务云,在云上的各应用系统对不同专业数据实现互通,形成全领域的信息共享。
实验室在提升对象存储平台服务效率和可靠性,开展数据仓库平台转型,推进流数据技术研究,提升风控、统计等处理时效,提升大数据服务云服务能力等方面开展大数据服务云平台建设工作。旨在通过大数据服务云建设,可以更好地支持未来大数据发展数据多样化、服务能力实时化、算法引擎智能化、技术平台云化的四大趋势与要求。
实验室紧跟人工智能相关前沿技术步伐,实现机器学习、自然语言处理、图像识别等人工智能技术在我行反欺诈领域、智能客服等领域原型验证和试点应用,取得一定业务效果。结合我行业务实际,完成我行机器学习平台建设规划,以自主研发为主,引入商用平台为补充,集成机器学习、自然语言处理、图像识别等技术,搭建适合我行的机器学习平台。结合各垂直应用领域特点,基于机器学习平台构建语义分析、图像识别等原子服务,降低各垂直应用使用机器学习平台门槛,使其无须关心人工智能技术和底层算法的实现,只需关心业务场景分析及基于服务构建业务应用即可,推进机器学习平台在各垂直领域的应用,助力智慧银行建设。
在明确的研究方向指引下,实验室以“研究——原型——落地”为研究思路有条不紊地开展研究工作,在各领域均取得了阶段性的成果。
扎实基础研究。实验室对大数据框架下商业、开源、自研的技术组件包括分布式存储与分析技术、实时流计算技术、在线数据读写、基础组件等进行业界技术跟踪,对各组件的适用场景、工行现状,组件交叉关系、发展规划等进行梳理研究,完成工行大数据技术框架综述研究,进一步明确了大数据技术在我行的规划思路。
推进原型落地。实时计算引擎方面,在大数据技术框架体系中通过自研的方式建立起了一套实时计算引擎,解决了一系列底层技术问题,并将每个业务模型都抽象成“输入、处理、输出”的数据流处理流程,上层业务系统在使用时只需要关注业务逻辑的实现,并通过简单配置就可以完成业务模型的部署。目前该计算引擎已在我行的流数据处理平台应用中投入使用,支撑了包含余额提醒、事件式营销、电子银行实时交易反欺诈在内的多项业务模型,在主机减负、营销、风控领域都起到了重要的支撑作用。
对象存储平台方面,为了支撑会计影像系统总行集中上收工作的开展,在大数据技术框架中自研出了一套支持双园区双活的分布式对象存储服务框架。通过将多个业务数据(小文件)合并在一个大文件中进行存储,实现了对千亿级对象的存储能力。该技术框架已于2017年7月在新一代电子影像系统中上线,目前已有包含融e联、融安e信、物联网,以及原EAP会计档案系统中的总行类数据接入到对象存储平台中,在今年年底前还会完成将青海、山西、河南3家试点分行的数据上收工作。
扎实基础研究。在非结构化对象存储平台和IT数据池应用方面,以网点柜员凭证影像扫描及查询流程为例,自主研发了业务端到端请求全链路跟踪系统,该跟踪系统基于实时日志采集方案,并通过准实时批量分析,能够快速地发现造成业务请求失败的根本原因。
在流数据处理平台技术研究方面,运行新技术提升ATP应用的交易监控时效,从原本分钟级监控提升为秒级监控。基于流数据处理平台的平台化研发模式,研发黑名单碰撞服务。截至2017年10月,累计为网银、手机、实物黄金、平台个人结算账户等11个应用提供毫秒级黑名单检测;支持企业级反欺诈实现国内外网银和手机银行登录、动账异常交易拦截;支持企业级业务运营实现操作风险监控;配合支付清算应用将主机人民币跨行地区业务量统计迁移至流平台,降低主机378MIPS资源。
推进原型落地。在个人客户画像应用方面,基于大数据云平台建立个人客户画像,目前已投产近100个个人客户标签、约200余个个人客户指标,并提供通用画像、各专业画像侧面、画像模板定制等前台功能。通过数据服务化方式,将标签和指标信息推送给PBMS、融e联等渠道对接,向个人客户经理提供全景客户画像可视化分析,提升我行营销人员了解客户、定位客户的能力。
通过融e联渠道向客户提供“我在工行”增值服务,提升客户黏性,推进大数据在零售领域的深入应用,助推我行零售业务营销模式转型。基于客户画像,实现信用卡预审批授信名单的自动化筛选功能,为融e借等授信提供支持。
截至7月末,个人客户画像融e联段“我在工行”功能近一个月的累计使用客户数已超过160万,日均使用用户数达5.7万;全行客户经理通过传统PC端和融E联渠道,累计使用客户画像次数达到268万次。
对公客户画像应用方面,基于大数据云,已投产法人客户风险画像,实现担保风险、行业风险等15大类、32项法人客户风险特征标签,为贷前、贷中、贷后提供数据服务支持。已投产公司客户营销画像已进入研发阶段,实现11大类客户指标,抽象21个客户标签,形成单个公司客户及集团客户的客户画像,并提供相应的产品营销推介方案。
机构客户画像应用方面,基于大数据云,已投产同业客户风险画像,提供基于客户画像的同业客户风险视图、大数据分析等功能。已启动同业客户营销画像研发,计划提炼同业客户相关56个产品的指标,为同业客户营销视图提供支持。
风险防控方面,企业级反欺诈管理平台基于大数据服务云实时计算服务进行平台化研发,在2017年完成了电子银行事中监控的框架建设,陆续迁移和投产了境内境外网银监控、电话撞库监控,目前日均接入交易量1800万笔/天,峰值TPS480笔/秒,平均响应50ms以内。此外,在大数据服务云上部署了黑名单碰撞服务,实现了微黄金等11个应用的黑名单实时检测,为风控名单下主机奠定了坚实基础。
基于大数据服务云的离线分析平台,2017年先后建立了反欺诈数据集市,风险部欺诈事件库、特征库、模型库、名单库建设,信用卡账户逾期检测模型、电子银行客户历史交易特征等数据分析功能,为提升反欺诈平台数据分析能力,风险模型计算精准度起到了关键作用。2017年截至9月12日,欺诈覆盖率为61.43%,识别精准度为25.02%,避免客户资金损失1.08亿元。
结合开源和商用机器学习框架,自主搭建符合我行要求的机器学习平台,集成机器学习、自然语言处理、图像识别、图计算以及GPU等技术,构建语义分析、图像识别等服务,分别推进其在智能营销、风险防控、智能客服、智能投顾等领域的垂直应用,提升我行人工智能服务水平,助力智慧银行建设。
在机器学习平台建设方面,深入研究开源、商用机器学习平台,并将其运用到智能营销、反欺诈等场景中,后续将基于开源H2O机器学习框架自主搭建我行机器学习平台,并实现其在智能营销场景的落地应用。
在GPU技术研究方面,深入研究GPU工作原理及CUDA底层实现技术,并将其运用到金融计算密集型场景,实现性能提升。例如将涉及蒙特卡罗模拟计算的资本压力测试性能提升15倍;将其运用到大数据处理中提升3倍查询性能。后续将建设GPU服务云,为机器学习平台及其他金融密集计算场景提供计算资源。
在自然语言处理方面,深入研究语义分析相关技术和产品,并将研究成果应用于手机银行语音导航、转账要素识别等智能客服场景,以及运管查询查复场景,进一步提升智能客服的智能化服务水平,降低运管人力资源成本,后续将基于机器学习平台构建自然语言处理相关服务,实现智能客户机器人等垂直应用。
在计算机视觉方面,启动OCR手写体识别研究及原型验证工作,后续将基于机器学习平台实现OCR识别技术等图像识别技术并进行服务化,为运管集中业务处理平台凭证文字识别等场景提供图像识别服务。
在图计算技术研究方面,通过产学研方式,与清华大学合作研究,开展Gemini高性能图计算技术研究及在我行转账反欺诈场景的原型验证工作,将图计算挖掘的图特征作为机器学习特征的补充,提升机器学习模型的准确率,后续将图计算技术与机器学习平台对接,提升机器学习平台的智能分析和预测能力。
遥望未来,大数据及人工智能实验室将继续开展大数据及人工智能领域的前瞻性研究,以扎实的技术研究快速推进应用成果的转化,将服务业务、服务客户作为最终目标。
支持一体化、精细化、智能化的客户营销、业务运营、全面风险管理体系,打造大数据拳头产品,建立个人、公司、机构客户画像及其在营销和风险管理中的应用,将画像数据时效性从T+2提升至T+1,并在业务运营等领域实现风险防控从T+1向准实时的提升。大力提升我行经营管理和风险控制水平。
构建“数据湖”,支持历史数据的按需保留和下游应用的按需访问,实现贴源数据的集成共享,完成大数据核心应用从TD平台到大数据服务云的全部迁移,进一步提升兼容性、时效性和便利性,实现成本可控;通过资源隔离与双园区部署,提升服务云高可用性。
主动跟踪大数据、人工智能等新技术的发展动态,实现GPU、图计算、深度学习、自然语言处理(如语义分析)、计算机视觉(如图像处理)等技术的自主掌控能力提升。加大业务价值挖掘。依托我行丰富的大数据,对标国际领先的开源机器学习平台,构建我行自主可控的、具备企业级能力的高性能机器学习平台,为业务系统提供高性能智能运算服务,拓展在客户营销、风险防控、产品创新、客户服务、经营管理等领域的应用。