邓胜利 钱倩文 夏苏迪 汪璠
( 武汉大学信息管理学院,武汉,430072)
大数据已成为国家基础性战略资源和数字经济时代的新引擎。随着技术与应用的成熟,大数据与人工智能的结合已成为新的趋势,大数据管理与应用领域将成为大数据与智能化的桥梁。当前,大数据技术已广泛应用于情报服务[1]、个性化推荐[2]、 医疗保健[3]、金融[4]等领域,驱动社会经济创新发展。与此同时,大数据技术的广泛应用带来了大数据杀熟、个人信息泄露以及数据安全等问题[5],因此亟需通过数据治理对数据管理的权力进行控制,在增加数据价值的同时将与数据相关的成本和风险降至最小化[6]。
在此背景下,2022年7月8日-13日,由武汉大学信息管理学院主办,武汉大学大数据研究院、武汉大学信息资源研究中心协办的武汉大学首届“大数据管理与应用”研究生暑期学校以线上线下相结合的形式举办。本次暑期学校面向大数据领域研究者搭建学界与业界理论研讨与实践探究的高水平交流平台,邀请了来自国内外20多名知名学者和行业专家,采用专题报告、学术论坛、案例分析和方法训练等方式,聚焦大数据管理与应用的核心领域,系统深入地呈现大数据领域研究的发展现状与拓新,推进相关领域的学术研究、行业交流与纵深合作。本次暑期学校吸引了来自国内20多所高校的61名研究生参加学习,以期培养学员在大数据研究与应用方面的技术认知、先进思想和创新观念,促进其在大数据领域研究方向的发展、研究主题的深化和研究方法的突破。
本文以“大数据管理与应用”暑期学校交流内容为主线,结合当前大数据领域的研究现状,将此次暑期学校的内容总结为大数据技术与计算社会科学发展、大数据领域应用、大数据安全、大数据治理、大数据学科建设五个方向,按照“技术发展——应用实践——问题剖析——治理防范——学科建设”逻辑脉络,循序渐进地展现大数据核心领域的最新进展与成果图谱,下文将做详细阐述。
计算社会科学是指利用先进的计算和信息技术等对复杂的人类行为及社会运行进行深入精细的跨学科研究[7]。随着大数据技术的快速发展和数字社会的迅速崛起,计算社会科学迎来全新的发展前景。结合这一主题,暑期学校的专家围绕舆情大数据、应急大数据、夜光遥感大数据和科技大数据分析挖掘等做了主题报告。
“数据决定命运,算法决定未来”,大数据资源的获取、存储与处理至关重要。大数据的数据来源包括共有数据(谷歌图书等)、自有数据(舆情大数据、社交媒体大数据等);大数据的存储平台包括谷歌云等,可实现数据集成、数据共享等功能;大数据的处理平台包括BigQuery、阿里云等,可实现数据插入、查询、增加、删除等功能。龚为纲副教授研究团队在涉华舆论[8-9]、民粹主义[10]等舆情大数据分析挖掘方面取得了较为丰硕的研究成果。他着重介绍了其研究团队在西方涉华舆情方面的研究,认为美国涉华舆情将中国建构成专制主义的、人权问题突出的、对西方充满挑衅和威胁的形象,全球网络空间中的新闻信息传播同时表现出“核心——边缘”结构和“文化圈群”结构[8],世界上的主要区域文化圈群包括儒家文化圈群、拉美圈群、欧洲圈群等,不同文化圈群与媒介霸权具有不同的交互关系。上述发现有助于提升未来我国对外传播的有效性和针对性。
通过大数据分析挖掘人类行为规律并对其进行预测,具有可推广性强、成本低等优势。应急大数据的分析挖掘已成为计算社会科学的重要研究方式,可以有效降低应急决策的不确定性,实现决策的科学化、民主化[11],在应急决策管理方面发挥着重要作用[12]。
大数据驱动的应急决策框架包括获取应急大数据(手机定位、灾害遥感、互联网遥感、互联网大数据等)、大数据群体行为分析(疏散、撤离、应急反应、行为模式挖掘、行为预测等)、应急决策(应急响应、应急救援、公共卫生干预等)、政策评估(管控效果、经济影响等)四个部分,且形成了良性闭环。近年来大规模移动通信、社交网络与卫星图像等大数据不断被创新地应用到自然灾害应急管理、流行病传播建模等应急决策研究中。例如,在自然灾害应急管理方面,通过海地地震大数据分析挖掘难民的流动轨迹、聚集位置、行为预测等信息,为应急救援、物资调配等提供决策支撑;在流行病建模方面,通过大数据技术对非典、埃博拉、新冠肺炎疫情等流行病的传播规律进行建模分析,实现传播预测、风险评估等效果。
夜光遥感通过获取地表城市灯光、渔船发光、油气井燃烧发光等夜间灯光亮度辐射值,能够客观地反映夜间人类社会经济活动强度[13]。宏观层面来看,全球夜光遥感大数据可以反映出人口分布、财富分布、城市发展变迁等社会经济差异情况;微观层面看,某城市夜光遥感大数据可以反映城市道路、光污染、犯罪率等社会运行状况。夜光遥感大数据已广泛应用于社会经济参数估算[14-15]、城市化和区域发展评估[16-17]、光污染分析[18]、渔业监测[19]、宗教和文化分析、火点监测[20]等人类社会活动的识别与揭示。
李熙教授研究团队在夜光遥感大数据的分析挖掘方面成果突出。例如,在社会经济参数估算方面,分析了2020年2月—4月COVID-19疫情初期美国20个大城市夜光亮度变化的空间格局、衰减特征和用地类型差异,展示了夜光遥感在监测公共卫生防控措施带来的城市社会经济活动变化的作用[14];在城市化和区域发展评估方面,采用简单阈值法与城市夜间灯光指数法揭示了粤港澳大湾区的城市空间形态[16],基于可见光红外成像辐射仪(VisibleInfrared Imaging Radiometer Suite,VIIRS)月度夜光遥感影像数据揭示了巴基斯坦的区域发展规律[17]。
科学范式的发展分为四个阶段,分别是以科学实验为模型的经验科学、以经典数学理论为模型的理论科学、以计算机仿真和模拟为模型的计算科学和以大数据挖掘为模型的数据密集型科学[21]。科技大数据有助于深入理解科技创新系统和大规模集体智能系统,从而为科技政策、科技评价、科技人员的科技决策提供指导实践。使用科技大数据探究科学行为背后的机制方面[22],涌现了大量科学学研究成果。夏昊翔教授团队的研究主要聚焦三个方面:①在科技领域知识地图构建方面,融合文献的文本内容特征与引用关系特征,并结合深度图神经网络模型与文档表示学习提出了新的学科领域知识结构探测框架,提高了领域知识结构探测效率及可识别度[23];②在科技人员知识探索模式与机理方面,发现科研人员在领域间的探索模式呈现出大量的短距离转移与少量的长距离转移的特点,并探究了科研人员主题转移的促进因素和抑制因素;③在科研协作网络结构形态方面,发现“富人”俱乐部与跨协作社区“多元”俱乐部成员的H指数、篇均引用量等表现更佳,但从论文突破性指标上看,跨领域协作“多元”俱乐部成员表现更高。
大数据技术已经渗透到人们日常工作、生活、学习的各个方面,在金融风控、司法辅助、生物医学、期刊建设、企业管理等领域和行业得到了广泛的应用,在促进科学研究发展和助力智慧行业建设等方面发挥了重要作用。
作为大数据与人工智能技术的重要组成部分,知识图谱是一种揭示实体之间关系的语义网络,具有语义处理能力与开放互联能力,为问题解决提供了技术支撑[24]。近年来我国金融风险事件日益涌现,如何通过金融股权网络构建与结构特征分析、金融机构股东持股比例计算、股权网络与控制权网络识别、金融控制平台与资本系识别[25],实现股权“穿透式”监管,协助金融主管部门进行系统性金融风险的识别、防范与化解成为亟待解决的问题。洪亮教授研究团队以概念层、实例层“知识关联”特征为核心[26],融合全量的金融机构和工商注册企业股权数据,构建了亿级结点的股权知识大图[27],具有Top-K控制权路径查询、穿透式股权网络查询、资本系分析、交叉持股分析等功能,可实现金融大数据管理、金融风险识别与预警等目标。
2021年,国家专门设立了十四五“社会治理与智慧社会科技支撑”等专项,已将智慧司法放到重要战略位置。当前司法人工智能技术发展面临“法律思维”瓶颈、“可解释性”瓶颈和“可计算性”瓶颈。大规模亿级裁判文书的公开为民商事司法裁判知识发现提供了基础,使得司法裁判可计算化成为可能,促进了民商事司法裁判知识可计算化的“准三段论(大前提-小前提-结论)”实现。大数据和人工智能技术为法官提供基础的司法辅助工作,适应了提高诉讼效率的需求。王竹教授研究团队在司法辅助领域取得了较为丰硕的研究成果,例如构建了司法案件案情知识图谱,为类案精准推送提供语义支撑[28];基于迁移学习方法,提出了一个基于法律事实的适用法条推荐模型,为证据推送、量刑预测提供支撑[29]。
生物医学大数据包括组学模态(基因组、蛋白质组等微观数据)、影像组态(MRI图片、CT图片等非结构化图像数据)、文本组态(门诊记录、检验报告、医生经验知识等数据)等模态数据[30]。生物医学大数据具有体量大且快速增长、类型和结构复杂、整合分析要求高、信息价值大而密度小、对真实性要求高、专业性强、生命周期长等特点[31]。生物医学大数据的应用面临疾病长尾多发、样本异质不均、数据非标孤立、模态多模密集、标注稀疏有噪、任务复杂多样、安全脆弱不稳等挑战。随着生物医学大数据的快速积累、数据存储和管理软硬件基础设施的发展、生物信息和计算机技术的成熟,大数据技术在疾病预防、疾病诊断、疾病治疗、健康管理等生物医疗领域的应用日趋广泛[32],推动了语音录入病历、医学影像自动判读、临床辅助诊断[33]、健康管理疾病预警、医疗机器人、药物筛选和开发等场景的优化发展。例如,Esteva等[33]基于卷积神经网络算法对临床影像大数据进行学习来训练临床诊断模型,从而辅助临床医生实现对患者的高准确率诊断。
大数据时代,合规合法地构建期刊数据资源,尊重作者版权,促进学术论文的合理使用,是我国学术期刊数据库实现转型发展的重点。国际上文献数据库构建主体包括出版商、学协会、集成商等,构建方式包括自行建设数据库和搭建期刊元数据信息集成检索平台,构建类型包括全文数据库、引文数据库、文摘数据库、科研分析工具、专利数据库、资源发现系统等,集数据、版权、工具于一体,具有资源类型多元化、服务功能丰富、融入科研过程等优势[34]。
目前,我国学术数据库面临的发展困境包括版权模式、独家授权模式、定价机制、版费标准、产品模式、学术机制、开放进程、议价能力、社会属性等九大发展困境[35]。我国学术期刊数据库应从强化知识内容行业治理、树立期刊社的全文经营主体地位、收费标准透明化、强化知识服务特色、构建多元化评价体系和开放机制、加快开放进程[34]等方面转型。
数据智能是数字经济的驱动引擎,使得企业决策更灵活高效,深入社会行业实践的方方面面[36]。
百分点集团首席数据科学家杜晓梦做了题为《数据智能与行业应用》的报告,认为大数据、人工智能等新一代信息技术在公共安全、能源监测、金融安全、零售预测等行业均具有重要的应用价值,促进了各行各业的智能决策与实践发展。此外,大数据分析可将单点的、局部的、低水平的数据加工成具有应用深度与广度的数据,驱动了企业的精准营销、智能推荐、智慧决策、智慧服务。
华为大数据科学家孔柏林做了题为《华为大数据分析与应用实践》的报告,认为大数据在企业业务运营、用户洞察、广告投放、搜索、个性化推荐、产品体验改进等场景得到了广泛应用,推进了数据赋能型企业的数据资源化、数据资产化和数据资本化,激活数据价值释放,促进了企业数字化转型和智能化管理决策。
大数据在为各领域、各行业提供可用信息、管理决策依据的同时,也给信息安全带来了新的挑战,隐私侵权、数据泄露、平台垄断、虚假信息等问题层出不穷,日益成为威胁个人权利、行业发展和国家安全的重要问题[37],因此对大数据时代下的安全保密现状及其防范实践进行探究已成为学界和业界共同关注的话题。
大数据时代模糊了密与非密的界限、改变了“保”与“放”的范围、泄“密”渠道愈加多样化,为安全保密工作带来了挑战[38]。
大数据环境下信息化应用的普及和数据关联挖掘技术的成熟大大增加了数据安全风险,个人隐私、商业秘密、国家秘密安全受到巨大挑战,失泄密事件涌现,保密工作面临着严峻形势。例如,美国启动了棱镜计划、上游计划等项目,通过直接读取微软、谷歌、苹果等网络巨头的数据库和监控骨干网络流量,获取互联网用户的电子邮件、聊天日志、搜索记录、网络社交等数据,经过深入的大数据关联分析,洞察到隐藏在大数据表象背后的重要情报,对我国公共数据安全乃至国家信息安全造成巨大危害[39],因此,应构建集人防、物防、技防于一体的安全保密综合防护体系,从保密人才队伍建设、宣传教育培训、保密监督检查等角度采取防范措施,以降低失泄密风险和减少不必要的损失。
大数据技术具备对分散信息进行收集、定向挖掘、逻辑推导和综合分析等特点,易导致敏感信息的提取及重要数据泄露,可能对安全保密工作造成重大影响和威胁[40],因此进行安全保密防范实践、搭建数据安全管理体系已成为企业持续发展的必要之举。
《信息安全技术——大数据安全管理指南》规定了职责明确原则、意图合规原则、质量保障原则、数据最小化原则、责任不随数据转移原则、最小授权原则、数据保护原则、可审计原则等原则,明确了数据分类分级、大数据活动安全规范、大数据安全风险评估等要求,为企业做好大数据安全管理提供了依据和准绳。在此背景下,企业需构建集多级数字化管控、信息化管理、数字化基础支撑环境等于一体的信息安全管理体系,做好业务功能、客商管理、合同管理、生产管理等全领域、全环节的大数据安全管理工作,实现安全大数据的及时获取、实时分析、风险评估、风险预警和应急解决等目标。
大数据治理是用数据说话、用数据决策、用数据管理、用数据创新的管理机制。大数据治理在所有权层面做出权责安排,主要体现为决策机制、激励与约束机制、监督机制[41],这些有助于规范数据应用、防范数据风险、解决数据安全问题。相关学者聚焦大数据治理标准化路径框架构建、政府大数据协同治理、“智能+”背景下的数据治理等进行了大数据治理方向的探讨。
通过综合集成不同大数据治理定义中的核心概念,发现对大数据治理的认识存在三个层次[42]:①宏观层,即多维度考虑大数据治理活动要素及其要素关系,进而构建概念体系和体系框架;②中观层,包括业务驱动与数据驱动、信息治理计划、数据全面质量管理的部署;③微观层,包括管理策略和过程、测评数据质量和数据的可用性、技术工具应用的大数据治理行为。
构建数据治理标准化路径框架,对整体提升国家治理体系和治理能力现代化建设水平具有重要战略意义和学术价值。安教授研究团队对三大国际权威标准组织ISO、IEC、ITU-T发布的标准文件中关于数据治理的核心概念进行分析,从多维度(数字政府、数字经济、数字社会)和多层级(宏观、中观和微观)归纳了美国和欧盟数据治理标准化协同路径的实施方案[43],构建出面向数字政府、数字经济和数字社会的数据治理标准化协同路径分析模型。这有助于推动我国构建数字治理标准化协同战略,促进多元主体共同参与数据治理标准建设。
国家和地方层面正在加快部署推进政府数据流动,让政府数据有序进入市场是政府数据赋能数字经济升级的起点[44]。我国政府数据流动的方式主要有三种:①政府数据共享,包括因履行职责需要使用其他政府部门数据和为其他政府部门提供本部门数据的行为;②政府数据开放,指政府在可允许开放的数据范围内(不涉及国家秘密、商业秘密和个人隐私),面向社会提供原始性、可机器读取、可供社会化再利用的数据集的公共服务;③政府数据授权运营,即政府授权一定主体通过市场化方式运营政府数据,促成外部主体的使用。目前,政府数据流动面临共享动力不足、数据开放有限、政府数据授权运营没有形成共识等表层困境,以及数据权属不清、层级之间相互掣肘、流动组织不成体系等深层困境[45],可以从协同确立政府数据权属、以纵向协同联动横向协同、协同推进三种流动方式等方面推进政府数据流动协同治理。
赵杨教授主持了该学员论坛,学员以小组合作和主题汇报的方式,聚焦企业数据治理、在线健康数据治理、信息资源数据治理等话题,围绕各领域数据治理的问题不足、优化措施等维度,对“智能+”背景下的数据治理进行了阐述。赵杨教授认为在人工智能技术的赋能下,数据治理呈现出数据内容更加丰富、数据处理更加快捷、数据管理更加高效、数据决策更加科学、数据服务更加精准等新特征,因此应重点从加强顶层设计、推进依法治数、打破数据壁垒、强化风险防控以及注重技术创新等方面来推进人工智能背景下数据治理工作的开展[46]。
特聘副研究员张帆、副教授黄永主持“数据智能驱动的管理决策”学员论坛,引导学员聚焦场景、问题、方法、应用四个方面展开汇报。①在场景方面,学员围绕智能阅读、智能档案、智能医疗、智能驾驶等场景展开汇报;②在问题方面,学员分享了算法歧视、算法绑架、算法趋同、信息堵塞、重复数据、数据缺失、虚拟数据等数据治理问题;③在方法方面,学员分享了战略坐标图、神经网络算法、图表示学习、图嵌入、知识图谱等数据分析方法;④在应用方面,学员分享了大数据在企业管理、金融投资(例如华为云系统化投资平台——Fathom)、临床辅助决策(例如百度灵医智惠CDSS临床辅助决策支持系统)、政府管理决策(例如成都“数据-决策一体化”建设)等不同领域的具体应用。两位老师提出应该从加强数据治理立法建设、完善数据市场机制、构建数据协同治理体系框架、提高公民信息安全素养等角度进行数据治理,在保障数据安全的基础上促进数据价值释放,驱动数智管理决策和数字经济可持续发展。
计算机科学家、图灵奖获得者Peter Naur于1974年首次提出数据科学(Data Science)概念,他认为数据科学是一门基于数据处理的科学[47]。快速发展的数字化社会面临着数据科学专门人才和具备数据素养的其他人才的巨大缺口[48],大数据学科建设成为时代之急需。大数据学科建设一方面强调理论探讨,回应数据科学的内涵、外延和建设实践等问题,另一方面注重数智化时代的信息系统实证研究方法的培训和科研实践。
数据科学是一门具有跨学科属性的科学,其核心问题是从数据中提取知识以获得对问题或现象的重要见解,涉及收集、管理、分析、呈现等大数据生命周期全部方面的理论、方法和技术。数据科学的工作范式涵盖了解问题、收集和集成原始数据、根据数据创建和选择模型、测试部署模型、结果可视化、撰写报告等流程,已广泛应用于教育、零售、医学等领域。
基于德尔菲法对数据科学教育进行特征分析,发现“以人为本”是数据科学教育的核心特征,而“以人为本”的数据科学教育需要落脚在注重数据意识与数据素养的塑造、以问题与情境作为解决数据问题的驱动、建构可持续可解释的数据解决方案三个方面[49]。吴丹教授研究团队在收集并分析来自全球iField学校的96个数据科学研究生课程信息的基础上,构建了以人为中心的数据科学研究生课程模型,涵盖数据驱动的方法和技术,领域知识,数据法律、道德和伦理,个人特质的塑造和发展四个方面[50]。
罗欣教授介绍了提出问题、文献综述、确定理论、选择研究方法、数据收集与分析、撰写文章等科研规范流程,总结了偏好同质化分析方法、盲目追求过新研究主题等常见研究误区。好的理论具有逻辑严密性、可解释性、简洁性、可证伪性等特点,理论的选择需要解释某一研究问题的独特性和普遍性,并最终回归现实问题的解决。
学员通过小组汇报的方式,从研究方法、研究思路、理论支撑、模型构建、数据收集、数据分析等方面分享了论文阅读心得。罗教授进行了总结与展望,强调采用多元研究方法和数据来源、收集充分的实验数据、选择恰当的研究对象、注意不同子研究的衔接性等在科研实践中需要考虑的问题。
为期6天的“大数据管理与应用”暑期学校以多元的教学形式、丰富的学术交流活动向学员和学者展示了大数据学科的研究特点和发展动向,帮助学员开阔了学术视野,为学者搭建了一个学术交流的高质平台,有助于促进学者面向国家战略需要,在信息资源管理学科基础上,守正创新,继续开展大数据技术与计算社会科学发展、大数据应用、大数据安全、大数据治理、大数据学科建设等研究,不断拓展大数据学科的研究领域与视野,创新大数据学科的研究方向、主题、方法与技术,推动数据科学领域研究的创新发展,为大数据的学术研究与教育发展持续作出贡献。