殷佳 梁玉成
(中山大学 社会学与人类学学院,广东 广州 510275)
人口学是一门高度依赖数据与方法的学科。人口学家使用创造性技术,利用创新方法处理挑战性数据的历史是学科发展进步的重要推动力。尽管公元前2000 多年就有关于人口数量和特征的调查登记活动,但基于数据的人口分析直到1662 年Graunt 出版《关于死亡表的自然的和政治的观察》时才真正出现。他利用伦敦教区公布的人口自然变动数据,运用数学工具和简单统计方法,编制了第一张反映人口出生和死亡规律的生命表,提供了人口分析的基本思路,奠定了人口学的基础[1]。长期以来,对人口系统内部生育、死亡、迁移各要素的分析及其与社会、经济等外部要素互动规律的探讨,主要依赖于政府或统计机构的人口普查、抽样调查和人口登记数据,注重使用特定的人口学概念、测量指标与统计方法[2]。数据的拓展与方法的创新在不同时期为人口研究的发展注入了生机,为人口现象的研究带来了机遇和挑战。
20 世纪90 年代,互联网的传播和计算机技术的快速发展推动人类迈入数字时代。社会生活在数字环境中发生,大量的社会互动以互联网为媒介,由此形成和积累了关于个体行为与人类社会的海量数据。这些在规模、形式、产生范围和速度上呈现爆炸式增长的数据统称为大数据,数据收集、传输、存储和计算能力的根本性转变为大数据的生成和分析奠定了基础[3]。大数据的本质是社会行为的集合[4],因此核心人口事件如生育、结婚、死亡、迁移等都潜藏在这些数据中,人口统计特征则可以借助技术手段从数据中提取,进而对人口规模、结构、分布及其变迁进行推测估计。对大数据的充分挖掘和利用将有助于更广泛深入地了解世界各地历史和当代的人口动态。大数据掀起了一场“数据革命”。它对社会科学的颠覆性创新不仅在于提供了新数据,更重要的是它以前所未有的广度、深度和规模利用、收集和分析数据的能力[5]。结构复杂、形式多样的大数据需要新的收集方式、分析技术和可视化方法,同时还要形成基于大数据的新研究思维与研究路径。
本研究尝试在人口学视域下,讨论数据革命为人口研究带来的新机遇。首先从数据生产与收集方式转变上区分了传统的调查设计数据与当前的数字痕迹数据和未来的生成性数据,然后聚焦痕迹数据,根据数字化程度的高低将痕迹数据划分为电子存档数据、设备感知数据与网络平台数据三个类型。接着归纳了痕迹数据在人口研究中的应用,在核心议题迁移流动、生育行为态度、死亡与健康研究上的深化,在研究对象上的拓展。然后讨论了痕迹数据在人口研究中的应用思路,在研究视角上拓展了时间和空间维度的分析,在研究方法上突出多种来源数据的结合,在研究实践上更具时效性的痕迹数据有利于提升研究成果的应用范围和应用价值。最后本研究从数据获取和使用的角度指出了痕迹数据带来的一系列挑战,这些挑战要求在制度层面推动建设现代化的数据生态系统,制定明确的数据开放共享政策和流程。本研究希望展示痕迹数据的价值,为推进数字时代的人口研究提供新思路和新视野。
数据革命最明显的特征是数据规模与形式的指数级增长,本质是数据生产方式的转变,亦即数据收集与存储能力的提升。随着互联网成为人们日常活动的工具和平台,基于网络的所有活动都能被实时记录,手机、摄像头等智能设备也具有捕获与记录人类行为活动的能力,由此产生了大量出于与研究无关的目的而意外收集的痕迹数据。痕迹数据的大规模出现和应用是社会生活数字化的必然要求和结果。相较于传统以研究为目的、通过科学系统的调查收集的设计数据,痕迹数据的生成过程和属性特征反映了数据生产方式的根本性转变。 当前,人工智能技术的跨越式发展为数据生产提供了新的契机,基于Transformer 架构的大语言模型(Large Languge Models,LLMs)经过大量数据的预训练,可以模拟真实人类的反应和行为,自主生成有关人口行为的大量数据,这类生成性数据有别于设计数据和痕迹数据的生产方式,将极大地影响未来的社会科学研究。
如果从数据的规模大小、存储难度和分析复杂性看,人口学对大数据并不陌生。人口统计的特殊性使得人口数据的规模与人口数量紧密相关。1962 年,美国人口普查局向研究人员提供了1960 年人口普查千分之一的微观数据样本,自此基于人口普查的大规模微观数据开始被创建和利用,这一数据对社会科学具有重大创新意义,很快成为人口研究的基本工具[6]。当前,明尼苏达大学的综合公共使用微数据集(IPUMS)是世界上最大的人口微观数据库,可以为学界提供网络公开可访问的自1960 年以来共计103 个国家和地区的547 项人口普查,超过10 亿条匿名综合微观数据样本。在大多数国家,人口大数据[7]仍然遵循相对传统的数据生产方式。以我国的人口普查为例,它以人口研究为明确目的,依据人口理论预先创建具有指定目的和用途的问题,由国家和地方统计局主导,采用科学系统的调查、抽样和估计方法,通过表格式问卷收集数据,由普查员在特定时点进行入户访问或由被调查者主动填答。普查数据要求全面准确,尽力包含全国范围内的所有常住人口和家庭,数据质量和信息比极高。人口普查的高昂成本和执行难度,使得调查通常每五年或十年一次,可直接访问的公开数据一般为区县一级的汇总数据。传统的数据生产方式面临着成本上升、响应率下降、时效性低、政治干预、隐私泄露等问题[8],多个国家开始使用卫星遥感技术、互联网自主填报、电子设备登记、手机信令数据、行政登记系统等来辅助或替代人口调查。
过去二十年,互联网、手机、传感器等数字技术的广泛传播和使用,产生了大量关于人类活动的数字痕迹数据,即一般指称的大数据。这类规模巨大、种类复杂、速度可变的新型数据的生成,一方面是由于智能设备对非在线生活进行数字捕获、记录和存储的能力增强,例如人们用手机拨打电话被识别形成通讯位置记录、日常用水电气产生能源消费和灯光数据、历史留存的报纸书籍被扫描为数字形式,城市公共场所摄像头进行持续视频记录等,智能设备建构了一个日益密集的数字环境,使得社会生活被更广泛地记录和监测。另一方面人类日常生活愈发依赖以互联网为媒介,几乎所有的在线活动都能被平台自动捕获和记录,例如人们使用网络搜索引擎、在线地图导航、线上购物、社交、发帖等都会留下不同形式的数字痕迹,互联网建构了一个广阔的数字空间,能自动跟踪记录空间内的行为数据,在日益广泛的数字生活中形成有关人类活动的自我测量。相较传统数据生产方式下的设计数据,痕迹数据的产生并非以研究为目的,而是社会生活数字化的副产品。痕迹数据由智能设备或在线平台所属的多个企业机构进行收集存储,能够对在线发生的行为进行动态、持续的实时测量,数据范围则与不同地区和群体对数字技术的使用能力和应用范围密切相关,政府、公众等第三方可以通过协议或有偿支付从平台获取数据。痕迹数据具有数字、文本、图像、网络、音频等多种形式,内容通常是庞杂多变、混乱模糊的,容易受到故意或无意的操纵,从不同平台获取的数据相互之间难以协调且标准化程度极低。
2017 年,Transformer 算法将深度学习推入大模型方向,人工智能迎来新的发展范式,五年后ChatGPT 的发布标志着生成式人工智能(Generative AI)的成熟与应用,其拥有了更趋近于人类的语言、理解、学习、推理和创造能力。与过往的分析式AI 只能根据已有数据进行分析、判断和预测不同,生成式AI 能够更加准确的捕捉语言中的复杂关系,以自然语言进行处理、生成和交互,经过对类型丰富的海量数据的学习演绎,更近似地模拟人类的反应和行为,根据指令完成各种任务,生成文字、图像、视频等多样内容和数据。这意味着大语言模型可能替代真实人类生产并收集数据,作者将这种由AI 主体(AIagent)产生的数据称为生成性数据。生成性数据由研究者主导,根据研究目的自行设计数据的范围、内容和收集时限,借助开源大模型完成数据的生成和收集过程。已有研究使用大语言模型构建AI主体,基于观察(记忆)、计划和反思的架构让主体具有自主生成行为的能力[9],可以对这些生成式AI 主体赋予不同的人口特征、家庭环境、流动偏好等,实现人口行为的可信模拟,通过设定、调整模拟环境和交互场景探索行为模式和行动结果,验证人口研究领域的诸多理论假设,同时为社会预测和政策评估提供决策依据。大语言模型与基于主体的建模(ABM)的混合可以使AI 主体具备类似人类的认知和决策能力,在一个基于现实经验的自主演化的未来或平行世界中进行人口现象的模拟,获取难以在现实中收集的人口数据或测试一些高风险项目。此外,基于可靠透明的训练数据、算法模型、提示词工程和基准选择,大语言模型还可以提供趋近真实的调查数据、生成研究假设,提升研究的普遍性和广泛性并减少偏差[10],有效的生成性数据将能准确捕捉不同人口群体的特征和观念,反映现实总体。未来,基于大模型的生成性数据在社会科学研究中的应用可能改变研究者的角色,重塑科研格局与研究方法。表1 对设计数据、痕迹数据与生成性数据代表的三种不同的数据生产方式进行了比较。由于生成性数据尚处于兴起阶段,本文主要是对痕迹数据在人口研究中应用价值和思路的探讨。
表1 人口学视域下三类数据的生产方式比较
痕迹数据庞杂多样,涵盖基于智能设备和互联网收集到的一切内容,对数据类型的全面概括超出了本研究的范围。回顾利用痕迹数据进行研究的各类文献,使用的数据集极度分散且多样,具体的数据源也存在更新或消失。本研究从数据的生产过程视角,提供了一个关于痕迹数据的模糊分类。首先是传统的纸质记录如家谱、书籍等被数字化,形成电子存档数据;其次是手机、摄像头、遥感系统等智能设备的使用产生的设备感知数据;最后是人们使用互联网进行搜索、社交产生的平台互动数据。三类数据的生产数字化程度存在由低到高的差异,在属性特征上也略有不同。
2.2.1 电子存档数据
信息储存经历了从纸质媒介向电子媒介的转变,出于对信息长期保存和商业开发等多种目的,企业、组织、学术团体等多方力量正积极推进纸质记录的电子化,尤其是历史文化资料的数字转录。在大量的电子存档数据中,可用于人口研究的痕迹数据以行政登记数据、在线家谱数据和文献计量数据最为典型。行政登记数据是国家出于行政管理目的收集的包含人口特征的数据,如户籍管理、婚姻登记、出生登记、学籍登记、医保信息系统数据等,登记系统的数字化使得数据收集与分析成为可能,但这些数据的公开和使用仅面向特定的研究群体。在线家谱数据,被认为可能是第一个具有数百年历史的大数据[11],涵盖了漫长时期的人口记录。家谱资料一方面来源于家谱书籍、人物志、遗嘱、讣告、教会记录等历史文献和口述家谱的音视频文件的数字转化,另一方面是通过协作社交网络以众包方式由用户主动上传、在线编修家谱[12]。家谱数据以数学图形结构呈现了宗族成员的亲属关系和谱系信息,可能包含的人口信息有姓名、血统、性别、出生日期、死亡日期、婚姻状况、配偶和子女情况以及社会经济特征[13]。Kaplanis 的研究展示了在线家谱数据的研究潜力,基于8600 万份个体公开的Geni 资料,经过广泛的清理和验证建立了530 万个独立谱系,通过提取准确的人口统计信息研究了人类长寿的遗传结构和迁移模式[14]。文献计量数据,包含了每年数百万份科学出版物的数据以及早年纸质期刊的数字转录,具有作者的简介、隶属关系及地址信息。隶属关系数据可用于分析各国研究人员的科学合作和流动性[15],使得对活跃科学家的迁移研究更加跨学科、可扩展、纵向、及时和全面。
2.2.2 设备感知数据
各式各样的智能设备终端实现了对人类行为及其环境的实时动态监测,手机、传感器、摄像头、飞行器等对发出的不同信号进行捕获识别,将其转化为数字形式进行存储、传输和处理。手机信令数据和遥感影像数据是该来源类型中运用最频繁的两种数据。手机信令数据,是一个在国家范围内具有较高覆盖率、代表性的大数据。手机使用本身可以作为个体社会经济地位预测的指标[16],来自手机的详细通话记录包含时间戳和通话持续时间、通话发起者和接收者的标识符以及通话期间访问的信号基站位置等信息,使用手机上的APP 或应用程序,在定位服务开启的情况下也会产生时间和位置信息,对手机用户定位信息的收集产生了百度迁徙大数据、腾讯位置大数据等公开数据库。手机数据的丰富性和准确性使其在研究和实践中有着极高的价值。遥感影像数据,是从高空接收来自地表的各种信号,然后通过扫描、摄影、传输和处理,形成对地面各类事物和现象的监测和识别。夜间灯光数据就是利用前沿遥感技术生成的一类数据,DMSP-OLS 和NPPVIIRS 是目前使用最多的两个数据库。大量的实证研究发现夜间灯光数据与人口分布之间存在着显著相关性[17],为区域人口估算和人口空间动态变化研究提供了新数据,广泛用于人口经济活动监测、灾后管理、城市化评估和流行病学中。
2.2.3 网络平台数据
互联网建构的数字空间使得人们基于互联网的几乎所有行为都能被跟踪和记录,日常生活中越来越多的部分在数字空间中完成,社交媒体平台数据和网络搜索查询数据被广泛用于人口学研究。社交媒体平台数据,包括来自Facebook、Twitter、新浪微博等社交媒体平台由用户公开共享的信息。这些平台允许个人、团体和组织通过创建、修改、共享和参与用户生成的内容来协作、连接、互动和构建社区[18],全球社交媒体用户正在高速增长,用户规模接近50 亿。社交媒体帖子的信息内容可以被分解为:用户个人资料,文本、图像、声音、视频等内容,发布时间戳,由位置共享或帖子内容反映的地理信息,以及其他用户的分享、评论和点赞。社交媒体数据可以用来捕获人类行为的各个方面,尽管存在数据质量和代表性问题,但基于社交媒体数据的人口统计与研究仍然拥有巨大潜力。网络搜索查询数据,由搜索引擎或社交平台对大规模用户的主动检索行为进行记录,生成包含搜索内容关键词、使用语言、位置识别的搜索查询历史日志,百度指数和谷歌趋势是两个最典型的处理后的指标数据。网络搜索数据可以用来反映特定关键词的搜索趋势、用户的兴趣需求、舆论注意力以及人群特征等,这默认了搜索记录与人口特征、行为和状态的特殊关联,可以用来进行特定群体规模估计和生育、自杀、移民等人口行为和趋势研究。
中国人口规模巨大的现实条件和政策干预下生育水平从高到低的快速转变构成了人口研究的独特背景。21 世纪以来人口发展面临着从规模限制到结构均衡的历史性转变,人口特征集中表现为生育水平持续低迷、人口老龄化进程加快、人口跨区域高频流动[19]。生育、死亡、迁移等人口行为研究的具体内涵发生了变化,要求加快人口动态现象的测量,理解人口过程的产生机制和影响后果,揭示人口变动的实质和规律。数字时代,个体与网络和智能设备的交互留下大量的记录数据,在社交媒体平台中的互动也产生了与人口行为相关的海量信息。研究者可以及时、快速、低成本地从丰富的痕迹数据中找到与议题相关的数据,从而对人口行为的具体表现、变化趋势、公众态度、影响因素等进行深入研究。相较理论指导下信息有限的设计数据,痕迹数据可以提供对人口行为和现象更加广泛全面的认识,有利于传统人口议题的深化和拓展。
动态的迁移行为测量对明确的时间、空间及其变化提出了苛刻的要求,传统的设计数据存在测量难、追踪难、成本高、响应率低等问题,难以提供有关人口迁移规模、结构与模式的真实可比数据,数据稀缺使得人口迁移研究进展迟缓。从移民规模估计的存量和流量指标看,存量是特定地区在特定时点存在的移民总数,而流量反映的是一定时期内进入和离开特定地区的移民数量。存量数据主要来源于人口普查,多数国家每十年一次的普查频率使得数据难以覆盖更多的时间点,并存在严重的滞后和漏报情况,流量数据则间接通过移民存量随时间变化推测得出,导致流量与存量数据的错位。移民定义和统计口径的差异进一步影响了数据可比性,例如有些国家直接使用出生国或国籍而非迁移事件来定义国际移民。我国独特的户籍制度在测度国内移民时,将居住地与户籍所在地跨越区县一级行政单元定义为流动人口,导致难以区分迁移人口、流动人口和返迁人口。尽管年度全国性流动人口动态监测的抽样调查数据提供了丰富、高频率的流动人口研究资料,但仍然存在流入地主动登记数据大量漏报,移民统计问题设置不一致[20],人户分离难以反映现实的迁移流动事件和过程等问题,干扰了对人口迁移和流动规模、强度、方向的准确估计[21]。当前仅经合组织(OECD)国家能提供可比的年度双边流动数据,通过对申根信息系统、签证信息系统的打通和数字化,由出入境部门或统计机构对行政登记信息进行汇总公布,实现对人口流动情况的跟踪监测,但行政数据是对证件变动的事件记录,不一定能反映实际的流动行为。基于互联网平台或智能设备生成的痕迹数据,为补充传统的移民数据源并提高迁移测量提供了机会,有利于更好地监测和跟踪人口流动并记录其迁移行为。
包含地理位置标记和时间戳信息的痕迹数据可以用于估计移民的流量和存量,并对某一国家或地区的移民数量变化、迁移率趋势进行预测。在流动性日益增强的迁移时代,痕迹数据实时连续的追踪记录提供了活跃用户在个体层面的流动轨迹数据,详细展现了个体在一定时期内的迁移流动过程,进而在宏观层面形成人口迁移的多种模式,尤其是能有效识别临时流动、循环迁移和返回迁移,增进对国际和国内迁移模式的认识。Zagheni 等利用Twitter 上用户推文中的地理定位数据,估算了一定时期内经合组织国家之间和内部的人口迁出率趋势[22]。使用雅虎电子邮件中IP 地址信息估计国际流动模式和用户跨国迁移的可能性,还可以根据用户自我报告的性别和年龄信息分组估计迁移率[23]。对人口迁移意愿、迁移方向和规模的预测也可以使用网络搜索数据,Böhme 等使用谷歌趋势数据衡量和预测了原籍国向OECD 国家的移民意图、目的地选择和流动规模的短期趋势[24],还可以用来预测特定地区人口的迁移意图和随后的移民流量[25],与调查数据的对比验证了痕迹数据对“真实迁移意图”的良好预测效果。平台用户相对人口的覆盖率与数据来源的可靠性会影响预测的准确度,兰德公司对欧盟劳动力跨国流动的研究报告指出社交平台数据用于测量和估计国家之间的劳务移民存量具有较高准确度,对流量的估计准确度较低[26]。
在国家内部的迁移研究中,手机数据可以用来估算实时的、准确的、高精度空间的人口规模和移民规模,被广泛用于国家内部人口规模与流动模式的研究,绘制人口流动和活动图等,尤其是在经济发展水平较低、调查统计不完善的国家和地区。Boy 使用土耳其电信的手机通话详细记录(CDR)对难民的研究指出注册电话时的身份证明文件可以对特定群体进行标记,通话记录的时间、数量和位置信息可以被用来估计特定群体或特定区域的人口密度,探索个体或群体的沟通模式和移动轨迹,每个基站的人口估计可以建立有关群体隔离、孤立和同质性等融入指标[27],评估移民在目的地国的社会融入情况。Blumenstock 使用手机通话记录数据观察到卢旺达内部高比例的临时和循环迁移[28]。国内公开的类似数据有腾讯和百度的位置大数据,基于大规模用户在平台APP使用中共享报告的地理位置信息,实时提供城市间人口的流动规模汇总数据。赵梓渝等构建了人口流动的关系矩阵,刻画了春运期间全国人口在东部与中西部城市间省际循环流动的空间集聚与扩散过程。网络分析技术被用于分析城市之间人口流动的网络特征[29]、空间格局[30]及其演变。专项数据库如LinkedIn[31]、引文索引数据库[32]还提供了对特定职业人群的迁移模式研究的数据。社交媒体平台的互动数据可以分析迁移意图、社会融入与隔离、公众对移民和难民的情绪态度等移民相关议题。越来越多的研究证明了痕迹数据的潜力,可以增进对与迁移、流动和移民相关现象的理解,对痕迹数据应用价值的广泛认同取代了怀疑,数据创新成为移民研究的重要内容,并被写入安全、有序和正常移民的全球契约中。
与人口变化相关的外部因素通常涉及经济、社会、环境、心理等多个方面,已有的人口理论从行为决策的成本收益、个体化产生的家庭观念转变、性别观念与角色地位、社会制度和文化[33]等方面解释了人口转变的发生,但对实际现象的解释有限、存在争议,实证研究不多且结论不一致。设计数据难以满足对人口过程进行深入研究的需求,主要表现在:问卷设计中变量设置有限,限制了研究的分析范围和结果,很难进行理论创新;问题的设置和提问方式影响限制了受访者的答案,容易谎报漏报;概念操作化存在差异,对情绪态度、价值观文化等主观类问题的测量不准确、不全面;一般以研究对象为调查对象,缺乏对与之有关系的配偶、朋友、家庭等的调查了解。人口普查的问题数量有限,因此人口过程研究的数据主要来源于大型专项抽样调查,例如中国妇女社会地位调查、中国老年社会追踪调查、全国流动人口动态监测调查,难以避免样本代表性不高、抽样误差、调查响应率低、追踪困难等问题。痕迹数据提供了更加丰富的人口行为的背景信息,这得益于多渠道的数据收集方式和多模态的数据收集形式,根据关键词对特定来源的网络和社交媒体平台的信息检索能够获得大规模与人口行为相关的互动数据,在一定程度上反映了个体在真实世界中的行为和观念态度,相较抽样调查中的一问一答,用户主动展示的信息更加丰富,内容更为广泛,促进了对微观人口过程的洞察和理论创新。
3.2.1 生育态度与行为研究
对全面二孩、三孩背景下生育率持续走低的原因探索和对策研究是当前人口研究的重点。痕迹数据可以及时反映当前或近期的生育行为和意愿状况,Letchford 指出人口统计指标如出生率的变化可以通过在线搜索内容的差异进行识别,针对美国谷歌搜索用户的研究显示,随着出生率的增加,有关怀孕信息的搜索数量会增加,当出生率下降时,有关宠物的搜索数量会增加,这些词语的搜索量与生育指标间存在显著相关性[34]。与妊娠和分娩相关的搜索活动揭示了生育行为的群体和背景差异,Ojala 等结合谷歌搜索数据与美国社区调查数据探讨了生育的意义,指出生育选择因个人和夫妇的不同偏好、社会经济地位以及文化和制度背景而存在很大差异,例如怀孕期间乘飞机与高收入生育有关,亲子鉴定与非婚生育有关,宗教信仰与青少年生育有关[35]。社交媒体互动数据中包含了大量个体层面有关生育的行为原因、情感态度、主观感知等的文本图像数据,对研究生育意愿、观念文化具有丰富价值。李婷等基于新浪微博和网易新闻有关生育政策或生育水平的新闻评论数据,讨论了大众生育态度倾向的变迁,使用情感分析、机器学习等方法对文本的态度倾向进行分类,结果显示2012 年以来大众生育态度的倾向从积极转为消极,对低生育意愿的表述从行为态度表达转向强调房价、子女教育和工作等客观条件,生育意愿转变更多受客观限制而非观念影响,分省市生育情绪与地方生育水平的强相关性验证了生育态度倾向分析的有效性[36]。Mencarini 等使用Twitter 上2014-2017 年约300 万条过滤后的意大利推文探讨了与生育和育儿相关的意见和语义取向,关注生育和父母幸福感之间的关系,结果显示父母在谈论与孩子的日常生活、成为和作为父母有关的话题时,表达出积极的情绪,但有时也会感到恐惧、惊讶和悲伤,在关于孩子的未来、生育、政治和父母行为的推文中,负面情绪占据主导地位,父母积极情绪的比例与生活满意度和宏观的区域生育水平之间存在显著相关性[37]。社交媒体庞大的文本量具有一定的群体代表性,自发展示的观念和行为更加真实详细并可以进行长时间的追踪,进一步反映特定空间和时间范围内的变化。
3.2.2 死亡与健康研究
20 世纪末,中国完成了第一次人口转变,自此人口死亡率始终维持一个相对稳定的低水平状态,人口预期寿命缓慢增长,随后中国快速进入人口老龄化过程,与死亡直接相关的人口研究关注死因分析和健康研究。当前我国的死亡数据主要来源于人口普查,由受访者主动报告过去一年本户的死亡人口信息,数据容易受到受访者记忆偏差、个人意愿以及调查中的样本偏差等诸多因素的影响,准确性低且无法提供死因信息。中国老年健康影响因素跟踪调查、中国老年社会追踪调查等大型抽样调查提供了有关健康方面的信息,但研究变量、调查群体有限,调查员与受访者互动的调查方式也在一定程度上回避了与死亡相关的问题,由此导致在死亡水平估计、死亡模式与死因分析等研究中缺乏真实有效数据。
部分国家为了加强人口管理,通过建立完善的民事登记系统,形成了对出生、死亡等人口事件的详细记录,是人口学死亡研究的主要数据。在医学和生命科学领域,对痕迹数据的收集、挖掘和使用已经极为成熟和普遍,来自医疗系统内部的患者病历、健康记录、医嘱、医生处方、医学影像、药房、保险、实验等临床和管理数据的电子化产生了可以用于研究的丰富资料,可以估计特定疾病如心血管、癌症、糖尿病等的死亡率,预测自杀意图和行为,对精神疾病的诊断、治疗和临床后果进行预测等[38]。在医疗系统外部,保险公司的索赔数据可以用来预测老年人的死亡率,改进死亡风险模型[39]。从报纸、殡仪馆和社交媒体网站中收集的讣告数据包括死者的性别、家乡、年龄、死因等信息,可以用来监测癌症死亡率,得出癌症死亡的的年龄分布、地理空间和时间趋势[40],研究生育次数与患癌风险的关联[41]。使用搜索查询数据可以进行疾病监测,获取与自杀相关的行为信息并进行趋势预测。社交媒体平台的互动表达如推文数据可以监测死亡的主要原因及其与流行病、慢性疾病和药物使用之间的关联[42];对用户发帖的语言模式、情绪特征等文本信号的建模可以用来识别个体和群体层面的抑郁、焦虑、压力等心理健康状况和情绪变化,研究指出负面社会关系和情绪的语言模式会提高死亡风险[43];推文中包含的大量个体健康数据可以用来探索特定疾病的空间分布和变化[44];还有学者使用Facebook 点赞量预测了区域层面的死亡率、疾病和生活方式,在研究和估计健康结果和健康行为上有着良好效果[45]。
在传统基于问卷的入户调查方式下,很难获得有关堕胎、性行为、歧视、家暴等敏感议题在行为、态度和观念方面的真实回答。普遍存在的谎报现象,主要是由于受访者主动报告的问卷填答方式,使他们在回答时不自觉得考虑与问题相关的社会评价标准,从而做出符合社会期望或自身利益的回答,而调查员与受访者之间的互动方式也会导致避免尴尬的谎报。此外,敏感小众的议题一般不会出现在大规模人口调查中,数据收集渠道有限。互联网为敏感议题的讨论提供了公开自由匿名的环境,个体更愿意在网络平台上暴露真实想法[46],主动参与相关讨论,而痕迹数据自动捕捉和记录了用户在数字空间中公开的一切活动。研究人员可以从网络搜索、社交媒体、新闻评论等多个渠道基于关键词直接获得有关敏感议题的大量数据,高效便捷的推进研究。Reis 利用网络搜索查询数据,讨论了与堕胎相关的搜索量、堕胎率和堕胎政策之间的关系,认为堕胎的互联网搜索量与当地堕胎率成反比,与当地对堕胎的限制成正比,表明居住在禁止堕胎地区的人们会转向互联网来了解如何在其他地方获得相关服务。
少数群体主要是传统调查方法难以接触的人群如非法移民、高流动性群体,以及科学抽样下由于人群规模较小导致代表性不足的少数族裔等。互联网和手机的广泛使用为这些少数人群的研究提供了多样的数据获取渠道,例如通过手机发送简短的调查可能是跟踪欠发达地区农村人口健康行为的有效手段[47]。欧盟内部通过在数据库中纳入指纹、面容等生物识别信息,实现了在数字环境下尤其是入境口岸对非法移民的识别与流动监测[48]。社交媒体平台通常容纳了多样化的人群,他们在网络上进行互动、分享日常、浏览信息、发表观点、寻求帮助,产生了丰富多样的在线社区。对美国社交媒体使用情况的报告指出,非西班牙裔黑人和西班牙裔美国人的互联网使用情况总体上与白人大致相当,在某些社交媒体如Instagram、Whats App 上,非西班牙裔黑人和西班牙裔美国人的用户数比白人用户更高,这表明少数族裔不仅在网络平台上相较现实中的出现率更高,而且在某些情况下比例过高[49]。现实中少数群体在网络空间内的高度聚集使得更容易进行数据收集与研究。
大规模人口调查的数据通常每年或每几年收集一次,发布的时间滞后,很难对调查时间外的年份和近期状况做出准确描述。截面数据通常关注宏观层面某一时点人口规模结构的研究,难以对微观层面个体人口行为随时间的变化情况进行跟踪,这就产生了在不同时间点对同一群体进行持续性观察和测量的需求。学者们通过在截面调查中加入回顾性调查,或定期对同一人群进行追踪调查来收集这类数据[50],但面临受访者记忆失真、不准确、选择性回忆导致的偏差,或者是成本高昂,追踪成功率和响应率低等问题。痕迹数据能够对大规模群体进行长期、持续、实时的行为追踪,获得即时、连续、准确的数据,进而克服自我报告中的回忆偏差,帮助减轻受访者的负担。
在时间尺度上形成精确到分钟、小时、日、月的细颗粒数据,能反映宏观总体或微观个体在当下和一段时间内的状况和变化,为打破传统人口研究的时间限制提供了大量机会。例如基于智能手机的传感和日志功能,可以招募志愿者对其日常活动进行追踪记录,包括沟通社交行为、娱乐消费行为、网络平台使用情况、移动性、总体电话活动、白天和夜间活动等。利用这些记录,可以研究个体的日常行为模式,预测个人的性格特质[51]、精神状态[52]、健康状况、流动模式[53]等。大规模群体的手机数据收集还能预测实时的社会经济状况[54]、识别和监测集体性事件[55]、实现实时的人口动态管理、进行特定区域的人口流量估计等。还可以基于时间变化本身发现个体的行为规律或事件的发生规律,例如一天中白天与夜晚的活动差异,一年中出生人口、流动人口的季节性波动、网络舆情爆发的时间规律等。
在微时间尺度的另一端,痕迹数据增强了在一个以年、时代、世代和朝代为单位的宏时间尺度下进行长期和历史人口研究的能力,这些数据源于历史文化资料的数字化产生的电子存档数据的爆炸式增长。政光景等基于在线逝者纪念文本数据,使用具有全国代表性的死亡人口数据进行加权,从而描绘了近现代中国百年的死亡人口分布形态,以及性别和寿命结构分布[56]。家族谱系数据则将个人与其父母以及更远的祖先和在世亲属联系起来,提供了有关社会经济特征、家庭生活安排和人口行为等诸多信息,可以用来研究一个家族或一个朝代的人口出生与死亡模式,人口寿命与遗传结构、家庭迁移模式、婚姻距离等。陈熙使用族谱数据分析了一个家族延续和消亡的情况,指出家族支脉的绝嗣现象极为普遍[57]。基于清帝国皇族谱系数据的研究揭示了两代以上的社会流动性,社会经济地位不仅影响后代的社会经济地位,而且影响后代的数量[58]。
空间是建构人口学概念的基础,也是研究的重要维度。传统人口普查并没有收集与样本对应的空间位置信息,而是使用数据收集单位即区县一级行政区划作为调查数据汇总的最小地理单元和分析单位。因此在进行人口规模、结构、分布、迁移等研究时,人口学者偏好将将人口数据放在行政空间而非地理环境空间中,且大多是省级或市级层面的分析。互联网、手机的使用,以及遥感技术、卫星定位系统和地理信息系统的快速发展改变了人口在空间上的分布研究和建模方式。从数据收集与应用的角度看,这种改变主要体现在两个方面:一是基于遥感的地理影像数据,具有更高的空间分辨率和更精细的面积尺度,并将土地利用、地形地貌和夜间灯光等多类型数据融于地理数据中;二是手机、互联网、社交媒体平台等基于信号站或卫星定位服务提供的用户即时地理位置数据。。前者促进了基于遥感影像数据的区域人口估算和人口空间分布模拟,后者促进了人口估计以及在此基础上的人口迁移和流动研究。
使用道路、河流、坡度、土地利用和夜间灯光等遥感数据建立模型,可以对人口的空间分布进行模拟,将传统的行政空间与地理空间相关联,产生空间分解或网格化的人口估计数,作为更准确地代表人口分布的空间图。基于夜间灯光数据的中国人口密度模拟显示灯光强度信息与灯光区内部的人口密度高度相关[59],能够直接反映人类活动差异,用于预测短期不同范围的人口规模[60]。结合人口普查数据,可以将粗粒度的人口数据分配在0.5km×0.5km 的地理网格中[61],生成人口网格分布图,为区域人口估计提供更高的空间分辨率,在此基础上,还可以进行人口分布的空间规律研究。实时生成的地理位置信息将时间与空间紧密关联,为进行人口迁移研究提供了丰富的数据来源。手机信令数据已被验证可以用来估算准确的、高精度空间的人口规模,被广泛应用于研究个体层面的人员流动模式、或在宏观层面建立流动网络,分析流动格局,这些研究大多集中于特定城市或社区或某个群体。此外,网络平台数据中的地理定位信息提供了对多区域、多国家之间进行比较研究的可行性,Facebook、Twitter、雅虎等网络社交媒体平台在多个国家拥有大量用户群体,抓取这些群体哪些个人信息与行为活动数据是由平台所属企业决定的,但内容是由用户自行理解并生成的。传统数据生产方式下,建立标准化的调查问卷,协调调查并推动跨国比较的量化研究实践往往难度很大,不同国家对于特定概念的理解和测量经常是模糊不一致的。同一网络平台以统一的信息收集方式获取来自不同地区和国家用户群体的数据,为国家和区域之间的比较研究提供了更便捷的途径。
数据生产过程与数据收集渠道的差异使得数据集在代表性、广泛性、变量深度、分析方法上各有不同。不同来源数据的结合,能够弥补单一数据源在数据丰富度上的欠缺。人工智能技术可以对非结构化痕迹数据中包含的特征信息进行自动提取和汇聚,基于深度学习的计算机视觉技术能精准识别照片中的个体,通过分析面部特征获得年龄、性别、种族等人口统计信息,以便将提取到的特征变量与调查数据或文本数据相结合。Zagheni 等使用面部识别软件将人口统计信息添加到Twitter 数据中,用来补充和改进研究数据中人口统计特征的缺失。对照片中的互动场景和人物关系的识别分析,可以补充家庭结构、亲密关系、社会网络、人际互动等研究的数据内容。Berry使用婚礼照片分析跨种族友谊模式和种族关系,检验了同化过程和群体边界等理论假设[62]。卫星图像和城市景观照片的识别和地理信息系统分析,可以为其他数据添加空间和场景维度的数据,提高人口分布研究的空间分辨率,促进对社会隔离、城市化进程等的研究。
痕迹数据与设计数据的结合,可以增强对研究问题的解释和预测,数据之间的交叉验证有助于提升结论的稳健性和可靠性。痕迹数据通常是非抽样数据,不具备设计数据的统计推断功能。尽管手机信令数据得益于极高的移动电话普及率,相较其他数据来源更加准确可靠,但大多数痕迹数据都不具有对人口总体的代表性。这种代表性偏差来自两个方面:一是生产数据的用户群体,通过网络社交平台提取的样本仅包含那些经常访问互联网并且也选择提供相关话题信息的个人,这导致用户的选择性偏差;二是收集数据的平台企业,在选择收集用户的哪些信息时使用的算法机制以及平台自身的数据基础设施都可能带来数据偏差。痕迹数据和设计数据的结合能够对这些偏差进行评估和纠正,已有许多模型和技术被用来提升使用非概率样本进行总体估计时的准确性。当基线人口数据已知时,将来自官方的统计数据视为基本事实,对网络数据进行校准。在使用电子邮件数据来衡量国际迁移率时可以考虑建构互联网数据与真实数据之间的函数关系来调整估计值,解决因不同空间和人口群体的互联网普及率变化而产生的偏差。使用游戏平台用户数据估计民意调查结果,基于受访者人口统计特征的多级回归和后分层方法可以获得与全国范围和各州的代表性数据相似的结果。当缺乏真实数据时,在不了解偏差的大小和方向的情况下,可以根据数量的相对变化,采取双重差分法估计数据变化趋势,获得人口指标的变动估计。使用网络数据进行估计和预测的有效性受到学界和政府机构的高度重视,已有研究证明了从数字痕迹中提取的数据可以比传统调查更快、更具成本效益的方式提供有价值的信息。只是如何从丰富的痕迹数据中获得可靠的结论仍然在方法创新上有着巨大的空间,这也意味着人口统计学者可以在这方面做出更多的贡献。
痕迹数据的收集方式还启发了研究者进行在线实验、在线调查以及借助手机、应用程序、传感器设备等对一定数量的个体行为进行追踪调查。数据收集方法的结合能够以极其精细、成本低廉的方式收集个性化数据,对测量和理解微观层面的行为模式、健康状况、社会互动也有极大帮助。心理健康研究已经大量使用电子传感设备对个体的情绪、活动、睡眠、运动状况等进行追踪和测量,智能手机中的传感器或佩戴运动手环可以识别身体活动并将其归类为是步行、跑步还是爬楼梯等,这种体力活动的测量可以用来研究老年人的社会隔离,随身麦克风中监测得到的语音量可以用来评估抑郁症和社交活动[63]。一项对手机记录数据与调查数据的有关社交距离测量的比较研究发现,自我报告会明显夸大身体距离,并且记忆更偏向于最近发生的事件和更生动的事件[64]。使用智能平台和设备的数据收集可以实现准确记录,改进研究的测量方式,避免自我报告数据的各种回忆偏差和系统性偏见,为复杂问题的研究提供更加灵活有效的手段。
人口统计数据是政府循证决策的基石,不仅对人口系统内部的生育政策、积极老龄化战略有直接影响,还与社会福利、医疗卫生、教育、经济发展、劳动就业等社会生活的各方面息息相关。社会治理与政策制定需要及时、准确、全面的人口数据,人工智能技术的快速发展使得痕迹数据的规模和可用性大大提升,政府的行政登记数据与其他来源的痕迹数据的结合能够在广泛的社会问题上提供更加及时和细节的信息。相较设计数据,痕迹数据的及时性和广泛性在推进人口与社会动态的监测预警,突发事件的应急管理,对特定行为群体的精准识别和干预上具有突出的实践价值。
数字时代人们使用手机、乘坐公交、刷卡支付、收发快递等日常活动都会生成数字记录,这些不同来源数据的集合可以通过构建算法模型实现特定区域实时人口的规模与分布估计。相较设计数据,实时人口动态监测能探察微小的时间尺度和空间维度下的人口动态,应对人口流动性日益增强、流动速度不断加快的统计与治理困境。实时人口估计能够提供细粒度的人口规模和流动特征,提供以小时、日、月、季度为单位的人口数量估计,发现人口变化的昼夜、周期和季节性规律,识别特定区域人口密集与稀疏的变化,发现居住工作的空间模式,监测集体性事件的发生,为人口服务管理和智慧城市治理提供数据支撑。韩国统计部门使用痕迹数据绘制了劳动人口在通勤时间和工作时间的移动轨迹,提供了每个城市、县和社区在工作日、周末和每月基础上的实际人口数和流入流出数量的可视化地图。我国的北京、上海、深圳、广州等城市也逐步建立了实有人口的动态监测系统,推动城市人口与社会的数字治理与智慧管理。
痕迹数据的及时性还可以对一些突发性事件进行监测、预警和评估,例如地震、洪水等自然灾害,战争、恐怖袭击、疫情等危机事件。新冠疫情期间,痕迹数据在区域疫情现状、人口流动模式、疾病扩散情况的分析、评估和预测中发挥了极其重要的作用,为突发性事件的监测、预警和响应提供了数据支持。痕迹数据可以在事件发生前通过观测指标的变化趋势预测事件动态,欧洲庇护支持办公室结合谷歌趋势数据和传统数据源来监测人口流出国的情况并预测欧盟的庇护申请数量和趋势,以应对可能发生的难民涌入,联合国难民署基于人工智能算法根据商品市场价格、降雨量和暴力冲突等预测索马里难民规模的预期数量与短期趋势。在事件发生后,痕迹数据可以及时有效地提供人口动态和社会经济状况的监测,对事件的影响和后果进行综合评估,增强政府的应急管理和救援能力。在俄乌冲突和巴以冲突中,痕迹数据被广泛应用于流离失所、伤亡人口的区域识别和结构规模估计,以便国际社会了解冲突的实时影响、准备物资并支援。对2015 年尼泊尔地震后9 天内手机用户的活动轨迹的分析,揭示了震后人口流动模式的演变以及返回受影响地区的模式[65]。此外,痕迹数据的实时连续特征还能对政策执行前后的效果进行快速评估和响应,优化政策的制定过程,行动者建模方法还可以制造多个虚拟现实场景对政策效果进行模拟评估。
多来源渠道的痕迹数据包含了极其广泛的人口与社会行为,从方法和数据上提供了对特定人群的识别和干预。对于因冲突、贫穷、位置偏僻等原因,普查触及不到或难以开展的国家和地区,遥感影像和手机信令数据可以用来识别人口规模、居住状况及其变化,还可以衡量次区域层面的国际移民,绘制跨境社区之间的流动图。在我国,两类数据与行政登记数据的结合已经应用于人口普查摸底和农村扶贫开发等。在线平台的数十亿用户覆盖了大量传统设计数据难以观察和测量到的群体和行为,可以用来监测患有抑郁症、自杀倾向、残疾等存在身体或心理疾病的人群动态,调配医疗资源,提供社会和政策支持;对集体行为、社会舆情等进行及时控制和干预;对非法移民的迁移网络和支持链条进行介入和打击。丰富的人口和行为痕迹信息为政策的制定和行政干预提供了契机,数字化程度的日益加深将迎来一个全景敞视的人类社会。
痕迹数据为人口研究提供了丰富的可能性,也带来了一些新的挑战,这些挑战集中于如何规范地获取可用于研究的广泛的痕迹数据,问题的核心是数据所有权和使用权的分离与界定。从数据所有权看,原始的痕迹数据是由使用特定服务或技术的个体或组织(用户)生成的,他们在提供信息时通常不会意识并了解到数据将被如何使用、对自己有怎样的影响,痕迹数据的大规模和复杂性使得知情同意的基本原则难以实现,带来了数据使用的伦理问题和对隐私保护的担忧。数据所有者很难对企业如何使用和处理个人信息数据进行监督,数据的开放和共享则可能加剧隐私泄露和安全风险。从数据使用权看,痕迹数据的收集依赖特定的网络平台或智能设备,平台运营商或设备服务商对个体数据进行汇总和处理,进而形成了大规模可用于研究的数据集。这使得企业占据了数据的所有权,在是否公开、如何公开数据以及数据的具体内容上掌握着主动权和控制权[66],导致了所有权与使用权的错位。研究人员和学术机构通常不具备数据收集条件,使用网络爬虫技术收集数据时也面临着法律风险。数据的社会价值与商业价值之间存在着矛盾,企业出于商业机密和竞争优势的考量一般不愿意将数据共享给研究机构,企业对数据的垄断影响着研究数据获取的数量和质量。
数据获取方式也对研究的准确性、实用性、全面性和可靠性产生了制约。相较设计数据有固定的框架和问题,企业在数据收集中对信息的选择、标记和定义影响了数据的内容形式和用户的表达方式。在数据收集和生成的过程中很难区分数据结果是系统错误产生的还是潜在行为发生了变化,例如对于文字、图像等的识别错误。企业常常为了优化服务或改善运营对数据处理和呈现依赖的算法程序进行变动和调整,这会改变用户行为以及行为的记录方式,导致不同时期呈现的数据和同一标签字段内容的生成机制存在差异,算法本身可能也有潜在的歧视和公正问题。不同平台的受众群体有差异,数据收集的内容和方式也有不同,可能存在用户统计特征和标签定义的差异,这对将多个来源渠道的痕迹数据进行链接和交互形成了挑战。痕迹数据来源于用户,但用户并不等同于独立真实的个体人,一个人可能拥有多个账户,账户背后可能是组织、机构或机器人操控的,个人或组织也会对表达的信息进行歪曲,并试图操纵系统或平台来实现自身的目的[67]。因此在痕迹数据的使用中需要进行谨慎甄别,警惕生成数据的平台的社会背景和算法程序变化。
如果说数字时代,人口研究迎来了一场数据革命,那么这场革命应当包括三个层面的转变。在数据来源上,数据生产和收集方式的改变产生了爆炸式增长的痕迹数据,前沿计算方法和人工智能技术提升了数据存储、管理和分析的能力,使得海量的痕迹数据可以用于人口研究。在数据应用上,痕迹数据的使用要求形成数据驱动的探索性研究取向,建立痕迹数据与设计数据结合分析的能力和数据素养,整合研究方法以提升研究结论的预测与解释能力,聚焦微观的人口过程以理解行为的驱动机制,构建微观行为与宏观结构的连接以推进对第二次人口转变的理解,拓展研究的时空维度以丰富研究内涵和研究议题,提升人口研究的政策应用与实践价值。在数据建设上,从制度层面建立完善的、现代化的数据生态系统,制定明确的数据开放共享政策和流程,促进企业、政府和学术机构的合作共享、联合生产,探索数据的匿名化和脱敏技术并加强问责制和透明度,缩小数据收集和使用能力差异造成的数字鸿沟,提升政府数字治理与循证决策的能力并增强对统计系统的支持。 展望未来,人工智能技术的跨越式发展正在对社会科学研究产生新一轮冲击,人口研究的视野将随着技术革命的推进不断更新扩展,从过去的设计数据到当前的痕迹数据再到未来的生成性数据,数据革命带来的研究机遇的把握需要个体及学术共同体具有更加开放包容的心态和挑战创新的精神。