邓萍萍
面对海量测试任务和众多白帽,如何进行个性化、精准化运营是当前众测平台面临的难题。目前,用户画像由于其灵活、高效的检索优势,已被各领域深度推广。本文将详细剖析众测用户画像的构建流程,并通过画像对平台业务进行全面分析和精准定位,实现众测平台个性化运营。
(一)用户画像的定义
Alan Copper最早提出,用户画像是指通过差异化的呈现方式描述用户真实数据而形成的目标用户模型。简单来说,用户画像是通过抽象用户的社会属性、生活习惯和消费行为等信息形成标签化的一个用户模型,即用户的信息标签,它是实现海量数据分析的必要手段。
随着互联网和大数据技术的深入发展,平台越来越关注怎样利用大数据实现精准服务以提升运营效率和用户感知度,作为一种分析和预测客户、精准定位客户群体的有效工具,用户画像被广泛应用于金融、社交、电子商务等各领域。
(二)众测用户画像
随着网络技术的前进和信息化的发展,安全漏洞已成为引起网络信息系统脆弱性的主要原因,如何检测和修复漏洞成为网安的重要工作,网络安全众测应运而生。
众测平台利用互联网“众包”模式发布安全测试任务,并授权社会上有安全渗透测试能力的白帽志愿者们完成,最终依据测试成果向白帽发放赏金。通过引入悬赏机制,众测平台吸引和激励广大白帽主动挖掘漏洞,以便及时发现和修复漏洞,增强企业的网络安全的防御能力。
随着人们对通过众包方式发掘网络安全漏洞的需求越来越高,众测平台收集的漏洞数量也呈爆炸式增长,琳琅满目的众测任务和漏洞隐患使得任务发布方和白帽应接不暇。然而,众测成果很大程度依赖于白帽的参与度与技能水平,如何利用用户画像技术对平台海量的白帽的用户行为及漏洞信息数据进行分析,以使众测平台由信息服务向知识服务转型,为众测开展提供便利,是我们目前急需解决的问题。
用户画像的构建过程一般可以分为数据收集、标签建模和画像构建这三步。
(一)数据收集
数据收集是指采集、整理用户的基础信息、业务行为、网站行为等数据。为了更精准地分析数据,我们最好同时收集用户行为数据和发生该行为的场景信息。数据收集完毕后,需要补充采集数据中缺失的部分,订正错误的部分,以便提升后续分析的准确性。
我们把用户数据分为静态、动态两类:静态数据是用户的基本属性,相对稳定,一般不会变化;动态数据则变化较快,会随时间和空间变化而变。
众测平台的数据收集主要关注平台白帽、漏洞和资产三个维度,见图1。
1.白帽数据收集
主要来源于平台注册的所有白帽信息,包括:白帽的性别、年龄、归属公司等基础信息;报名的众测、挖洞的目标资产、提交漏洞时间、挖洞的工具技能、提交漏洞数量、有效漏洞级别、获得的积分等业务行为数据;平台注册时间、登录频次、登录时间段、浏览收藏的页面、评论互动的模块等网站行为数据。
2.漏洞数据收集
主要来源于平台收集的所有漏洞信息,包括:漏洞是否有效、提交时间、状态等基础信息;漏洞资产类别、漏洞类型、漏洞等级、漏洞积分、被发现工具/技能等业务行为数据;漏洞所属资产、所属任务、归属责任单位、提交人等漏洞归属数据。
3.资产数据收集
主要来源于平台发布众测任务的所有资产信息,包括:資产地址、资产类别、资产所属单位等基础信息;资产涉及的众测任务、资产任务参与的白帽、资产被测试的工具/技能、资产被发现漏洞的类型、资产被发现漏洞的级别、资产被发现漏洞的数量等业务行为数据;资产录入的时间、资产发布众测任务的次数/频度等网站行为数据。
(二)标签建模
标签是基于用户数据剖析提炼后,人为规定并高度概括的、能精确体现用户的某种特性的用户特征标识。
标签建模阶段,我们对采集到的数据进行统计、聚类分析等,以抽象出短文本化标签,再逐级分类形成基本信息、内容偏好、行为特征、心理特征和社交网络等高度精炼的标签模型。需要注意的是,本阶段主要考虑大概率事件,如果可能,需要通过数学算法尽可能排除用户的个别偶然行为数据。有了标签,我们可以简单、直观的了解用户的某些特征。
众测平台可利用大数据模型对前期收集的众测数据进行分析,形成相应白帽、漏洞和资产的用户标签。比如:我们可根据白帽在漏洞挖掘的过程中的行为记录,细粒度的分析其用户特性,形成一定的白帽标签,便于后期分析白帽特征的基本属性;白帽根据各自擅长和偏爱的领域,也被打上特定的标签;以往提交的漏洞记录,会帮助完善这样的用户标签;根据用户的标签属性,组建不同类型的专家支撑队伍,用于支撑后期不同类型的重点保障任务。
(三)画像构建
用户画像是对用户各类特征标签进行分析、提炼、集合,从而构建出的用户模型,是实际用户的虚拟模型。对用户的行为习惯或者特定属性进行提取分析,就是给用户打标签的过程;当一个用户被打的标签足够多时,就产生了用户画像。
一个成功的用户画像构建则可以精准还原用户信息。该阶段在分析标签建模结果的基础上,采用差异化的展示效果来呈现用户各个维度的标签。
1.构建白帽画像
对白帽提交漏洞报告质量、擅长挖洞工具、偏爱资产类型/区域、综合挖洞能力等进行数据建模,并根据白帽提交的漏洞报告质量、擅长挖洞工具、偏爱资产类型/区域、综合挖洞能力等标签属性,进行推送相关竞赛的推送和活动、培训的组织,用于支撑后期不同类型的重点保障任务。
2.构建漏洞画像
根据漏洞有效性、高危比例、漏洞资产分布、漏洞区域分布、漏洞适用的工具等进行数据建模,并根据漏洞的特征和分布情况,对用户和资产进行相关安全风险信息的推送。
3.构建资产画像
对资产归属、资产主要的攻击类型、资产风险级别、资产活跃度、关注的白帽群等进行数据建模,并根据资产的风险级别、受影响的攻击类型和被关注的白帽群,进行相关的安全竞赛和风险评估活动的推荐,以保障资产的安全。
用户画像已经渗透到我们社会生活的方方面面,不断运用于各行各业中。安全领域也在积极探索用户画像对众测平台业务运营的潜能,特别是在目前安全众测业务需求日益精准化、个性化的市场环境下,众测用户画像已经被安全业内广泛运用,发展前景得到广泛的认同。
众测平台最初基于粗放型运营模式下,给所有白帽选手都推送同样的众测任务,所有的任务发布方无法了解承接任务的白帽群体的技能水平,众测运营内容及方向完全由运营工作人员把握,这样的运营是粗颗粒的,精准度不高。
通过对众测用户画像的分析,众测平台可以定位每个独立白帽、资产、漏洞的特征属性,根据用户个人独特偏好或需求提供众测用户相关内容,可开展基于个人推荐的个性化运营。比如:可深入理解白帽的需求,洞察他们的兴趣以及个性化偏好等,分析白帽群体的潜在价值空间,从而提供个性化、精细化的测试任务推荐;对任务发布方推送资产风险威胁、众测发布推荐和适合任务的白帽群体;在此过程中,把用户画像真正利用起来,以做出针对性的运营。这种个性化运营的方式不仅最大程度的提高了业务的精准性,同时也大大提升了众测的用户体验和活跃度。
作者单位:中通服咨询设计研究院有限公司