杨臻
摘 要:基于大数据时代人才培养新要求,设计基于文本标引的数据挖掘实践教学系统,创建模块化的数据挖掘工作环境,使学习者能在平台完成数据收集、数据预处理、数据标引、数据可视化的数据挖掘全过程,得到基于数据标签的分析结论。系统提供的基于文本标引的数据挖掘算法环境既降低了对学习者算法编程能力的要求,又培养了学习者的数据挖掘思维与数据挖掘实践能力,适用于各个专业领域的初学者及商业用户应用于营销决策。
关键词:文本标引;数据挖掘;教学系统
1 系统开发背景
数据挖掘,从广义来讲泛指从大量的数据中提取有意义的新知识的过程,发现数据背后隐藏的可应用于实际的有益信息,产生于应用且面向应用。数据挖掘的核心步骤主要包括数据收集、数据预处理、数据转换、知识挖掘、模式评估,主要任务在于描述当前数据的一致性属性或基于当前数据预测未来趋势走向,融合了人工智能、模式识别、机器学习、数据可视化等多领域理论与技术,是助推大数据时代发展的一项核心技术,更是当下国内外信息技术研究领域的热点。在大数据时代的今天,越来越多的商业领域运用数据挖掘开展决策分析能力也愈加成熟,有專家指出,在可预见的将来,数据挖掘将成为21世纪人才必备的技能要求。教育部发布的《教育信息化2.0》行动计划中明确提出人工智能、大数据等技术的迅猛发展“将深刻改变人才需求和教育形态”,培养能运用数据思维分析问题、应用数据挖掘手段解决问题的人才将是我们开展新时代人才培养的新目标。
2 系统设计
本系统数据挖掘过程的实现基于文本标引算法,基本思路为通过设计判定图为采集的文本数据源打标签的方式将提取数据关键属性深入挖掘内在联系,再通过数据可视化方式将挖掘结果呈现,实现了数据从收集到挖掘的全过程。对于系统用户而言,大大突破了对专业的局限和对算法能力的要求,在明确挖掘目标的前提下,用户可运用本系统各模块功能搭建面向主题的数据挖掘环境,完成自定义的数据挖掘项目,获得深度分析报告。
基于文本标引的数据挖掘实践教学系统由数据采集、数据标引、数据存储、数据可视化四个模块构成,各模块实现的具体功能如下:
2.1 数据采集模块
数据采集模块完成数据的采集与清洗工作。首先进行目标人群的抽样,可按兴趣、年龄、关注产品、共同评价等方法根据需求进行抽样,数据来源于各类社交网站等在线平台。例如可采集关注某品牌的人群、购买使用某产品的微博用户,参与提问回答某问题的知乎用户等。抽样完成后,根据清洗规则进行目标数据清洗,比如限制发微博数>500条的用户、排除蓝V用户等规则,获得有效目标人群,再据此采集该群体公开的基础用户信息及历史微博,完成数据采集工作。本模块采集的所有数据都将存储至数据存储模块。
2.2 数据标引模块
数据标引模块主要通过绘制判定图完成对已采集数据打标签的工作。收集数据后,通过打标签的方式为数据标注关键属性,从而进行下一步用户画像的描绘。判定图是打标签工作的核心内容,是数据挖掘过程中的核心环节。在数据标引模块具体实现的功能如下:
(一)梳理知识和语料
采用知识树模型构建层级式知识框架实现目标的所有相关组织知识间的因果关系或从属关系。树结构作为知识内容的表示形式,结构要尽可能适应所要承载内容的要求。其中,根节点表示组织的目标知识,条目表示知识树节点上的词或短语,叶子为层级结构的末端节点。在这基础上对知识进行分门别类,快速、准确地定义知识的分类并对每一个目标知识进行细分。借助于知识树的构建,知识可以在一棵树上不断的积累,分门别类的进行保存,便于知识定位。
(二)确定数据的资源类型
在此部分需完成:(1)了解数据挖掘的业务目标,即利用数据达到的目的,是产品改进,还是舆情监控、竞争对手分析等,明确判定图的主题名称;(2)针对业务需求,通过搜索引擎、微博、专业的论坛和网站等,搜索与主题相关的数据,确定哪些空间(资源类型、网站)的数据符合需求;(3)确定用于标引数据的判定图的资源类型。
(三)构建集合的文本标引规则
基于以构建知识树细分标签维度,总结知识的逻辑关系,即能够标引该类数据的关键特征知识。如通过看提及明星的数据,可以总结该类数据主要的明星名称类特征词+人物形象类修饰词,两类特征词同时出现在一句话中。基于此,针对目标人群的特征词知识树梳理,可整理出形如“兴趣偏好-娱乐-体育-乒乓球-乒乓球赛事-乒乓球运动员”的多维度多层次知识条目。
(四)判定图绘制
在获得文本标引规则后,判定图提供了可视化的需求输入交互界面,可将对数据的操作需求表示在判定图中。系统支持判定图的绘制及调优,工作逻辑见图1。
(1)创建新任务,开启新的判定图任务画布。
(2)依据文本标引规则,在判定图画布上添加节点。
创建判定图时系统默认提供根节点,根节点名称默认和监测任务名称一致。根节点可以设置任务的基本属性:节点名、资源类型、企业库专有数据、数据输出类型等。根节点不可以删除,且名字不能为空。除根节点外,绘制判定图的主要节点有逻辑节点与模式节点。
逻辑节点包括判定节点、联合判定节点及排除节点:
①判定节点
满足什么条件,就能判定是什么,表示逻辑判断“或”的关系,可用来分解分析维度,可以理解为分类。通常放置在根节点、联合判定下,后边可以连接其他模式节点和逻辑节点。
②联合判定节点
同时满足两个以上条件,就能判定是什么,表示逻辑判断“与”的关系,即同时满足多个条件的时候才输出一个结果。通常放在根节点下,后边只能添加判定节点和非判定节点。判定表示必须满足的条件,非判定表示必须不满足的条件。
③非判定节点
满足什么条件,就不能判定什么,表示逻辑判断“非”的关系。只能添加在联合判定节点下,和联合判定下的其他判定节点同时使用,后边可以添加模式节点和逻辑节点。
模式节点包括特征词节点与汉堡包节点:
①特征词节点
特征词节点是填写关键词的地方,只有此处填写的词/属性才会参与到互联网的搜索,匹配文本中出现的特征词集合,并且排除出现在歧义词串中的情况。特征词可以是一个集合,匹配可以设置三种类型(分词、变形、正则)和匹配位置(起始、结尾、等于)。匹配不仅可以直接扫描字符串匹配,也可以对文本串先进行分词,再匹配,还支持文本串的变形识别、间隔的模糊匹配。匹配不仅可以直接扫描字符串匹配,也支持正则表达式的匹配。
②汉堡包节点
汉堡包识别模式可以识别文本中同时出现两个或多个子串的情况,如:“某某品牌***服务态度***不好”。汉堡包模式可以设置两个子串之间的距离、两个子串出现的顺序,以及子串中不允许出现的子串。汉堡包节点不能直接跟在表达“与”关系的联合判定节点下面,只能跟在判定节点或排除节点后。
(3)建立判定图的逻辑结构
构建判定图的逻辑为:根节点下—>联合判定节点—>判定节点和非判定节点—>特征词节点和汉堡包节点,其中汉堡包节点下可以添加并集节点和特征词节点。
(4)为数据打标签
分析输出数据,给节点打上标签,这样在单条测试和看数据的时候就能知道具体是任务下的哪条分支的数据。
(五)判定图调优
调优是判定图构建完成后,通过实时/回溯系统获取数据,按照标签、命中线索逐条或批量验证数据的标签是否准确,补充及删除特征词、修正语义判定规则并修改判定图的过程。处理方法包括:
(1)检查判定图标引逻辑:检查逻辑是否过严:如汉堡逻辑距离过近;检查特征词是否够全:是否收入了标引所需的特征词;修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效等。
(2)检查采集配置是否全面:检查是否部署了数据所在信源;检查是否部署了相关采集词。
2.3 数据存储模块
数据存储模块主要存储数据标引模块生成的三类数据:
(一)目标用户的基础信息数据库:目标人群的年龄、地域、职业、性别等基础信息。
(一)标签数据库:针对目标用户标引的数据源标签,由数据标引模块的文本标引规则生成。
(三)动态数据库:动态数据的存储,如微博的点击数、评论数、点赞数等动态数据。
2.4 数据可视化模块
利用数据可视化工具进行数据的统计及可视化图表展示,便于分析报告的生成。
3 系统应用
以本系统为某美妆品牌用户的兴趣爱好维度画像为例,
(一)采集微博数据源:选取提及该品牌用户微博id,去除广告数据、企业账号,且限定发微博数大于100条,最终获得品牌用户id 2000个;采集每位用户微博数据100条,共计200000条数据。
(二)设计兴趣爱好维度判定图及调优,为数据源打标签。
(三)将标签数据导入可视化分析工具,获得可视化数据,由此可描绘出该品牌用户画像:
(1)用户年龄与地域分布
该品牌用户女性占绝大多数,年龄集中分布于18-30岁区间,18-22岁年龄段用户比例最大;地域分布与微博用户分布一致,多集中于经济较发达地區,而经济相对落后省市覆盖率较差,说明该品牌推广实现全覆盖还需进一步努力。
(2)用户特征关键词
用户自我认知标签很多,其中“美食”“旅游”“娱乐”“名人明星” 是最高频的标签,可见该品牌用户对于自我满足感较为看重,物质享受和精神享受都是他们不可或缺的诉求。
(3)用户关注美妆品牌分类
用户关注的美妆品牌多为欧美品牌,其中也有提及平价品牌(一般社交媒体的晒单多倾向于高级品牌),说明这个客群用户注重美妆产品性价比,会根据产品功效甄选最优产品。
(4)用户妆容及穿衣风格
用户的妆容多为cos妆和裸妆,开发彩妆产品时可参考cosplay角色特点以及自然青春的妆容要求。服装风格多为正式装和瑞丽风格,勾画出用户外在形象应为一群追求时尚和自然妆容且散发都市气息的年轻人。
(5)用户常用出行方式及养生行为
用户多采用自行车、房车和电动车等便利交通工具出行,对保健、运动等养生方式比较关注,说明该品牌用户是一群爱自由、爱生活的年轻人。
(6)用户业余爱好
用户多活跃于摄影、歌咏比赛等文艺活动,且多关注小说、童话等文学类型,说明该品牌用户内心丰富,富有生活情趣,且有浪漫主义色彩。在做产品开发时,建议无论在产品外观或产品寓意方面都赋予产品丰富的内涵来吸引用户。
4 应用效益
在商业应用层面,本系统支持为企业用户收集公开信息描绘消费者画像,进而为客户获得、客户保持、个性服务、交叉销售等方面提供决策参考。
在教学应用层面,本系统应用于教学实践中,为学习者创建了界面友好的数据挖掘工作环境,实现了数据从收集到预处理、到算法实施再到数据可视化的数据挖掘全过程。学生在掌握数据挖掘基本概念与意义、了解数据挖掘工作步骤及各项步骤具体意义的基础上,在本系统工作环境下完成的数据挖掘任务可分为两项子任务:一是在实训指导书或系统手册的指导下完成系统各模块参数设置;二是面向数据挖掘主题梳理判定图逻辑,为目标数据打标签,再通过可视化方法生成最终挖掘结论。可见,本系统创建的工作环境维护了数据挖掘的全过程,判定图的设计环节弱化了算法编程要求,但同时依然需要用户对挖掘需求与语义逻辑充分理解,合理弱化了学习难点,为各专业领域学习者开展数据挖掘实践创造了更为平等的学习机会,适合各专业领域初学者培养数据思维解决问题的能力。
参考文献:
[1]王光宏, 蒋平. 数据挖掘综述[J]. 同济大学学报, 2004, 32(2):246-252.
[2]教育部关于印发《教育信息化2.0行动计划》的通知 http://www.ict.edu.cn/p/liaoning/tzgg/n2018050811145.html