基于大数据的服饰风格影响分析

2020-12-14 03:00刘艳婷刘静伟
染整技术 2020年11期
关键词:分词形容词服饰

刘艳婷,刘静伟

(西安工程大学,陕西西安 710048)

在科技飞速发展、信息传播手段不断更新迭代的当今社会,人们面临严峻的信息膨胀化和碎片化的问题,如何从大量的信息中准确地获得想要的资讯信息成为迫切需求,如何从大数据中挖掘隐含的知识理论也是当今时代的热点。服饰作为个人审美品味的载体,个人的服饰风格就是一种自我的表达方式,随着经济发展和人民生活水平的提高,消费者对服饰需求的个性化要求也越来越明显,服装个性化定制的生产销售模式越来越普遍,服装风格作为感性知识,其影响因素十分复杂多变,迄今为止对特定服装风格的研究有专家访谈、用户问卷调查等多种实验手段,一般运用意象尺度法设立分级量表,通过感性工学的方式对风格进行量化,或者运用专业数据挖掘软件对问卷调查的结果进行各个设计要素的聚类计算[1-6]。本研究以网络大数据为分析来源,运用智能语义分析方法进行主题服装的风格分析,细化和提取各种不同的风格词汇,确立不同风格的特征因素,为服装设计者和服装文化研究者提供参考。

1 服饰风格数据的采集

本次数据采集遵循篇章性和个性化原则,服饰风格影响因素的不确定性需要综合篇章内容进行数据分析,从而计算提取相关因素,因此数据采集成篇的描绘唐代服饰的网络文本数据,本研究以唐代服饰的网络文本数据为实验对象,采集网站选择现今几大主流自媒体平台来源选择现今几大主流自媒体平台:百度百家号、网易号、东方号、搜狐号、头条号、微信公众号、简书、新浪博客、腾讯公众号、北京时间号、大鱼号、一点号、大风号、趣头条[7-8]。自媒体作为一个随着时代科技发展兴起的信息传播方式,其区别于传统媒介的特征是更具个性化、便捷化和年轻化,受到广泛欢迎。近年来,各大自媒体平台发展迅速,极大地方便了广大群众的自我表达[9-10],其数据可以作为一个丰富庞大的调查对象。

采集工具的选择遵循便捷化原则。数据需求来源广泛,不同平台的网页结构不尽相同,网页里还存在许多与篇章内容无关的元素比如广告图文,因此需要一款适合所有网页结构且能自定义对象数据位置的爬虫软件。本研究选用八爪鱼采集器对各大自媒体平台进行以主题词为中心的文本采集,针对不同网站设计自定义爬虫的采集模式:输入需要采集数据的网页网址,手动定义其中不同网址所需数据的网页X-Path,采集器自动识别和采集所有同类XPath的数据。这种方法可以有效避免和减少数据噪音。本实验以“唐代服饰”为采集主题词,对采集来的结果再进行筛选去噪去重,最终采集结果如表1所示。

表1 自媒体平台采集文本数量汇总

2 数据分析

文本数据分析的前提是汉语分词,在分词的基础上再进行不同词性词汇之间的相关性计算和提取。因为唐代服饰是具有传统特色的服饰,含有许多不常用且未被收录在分词核心词典里的专有名词(未登录词),分词系统必须能识别这些专有名词并进行准确分词。目前,多数分词算法都采用规则和统计相结合的方法,目的是降低统计对语料库的依赖性,可以充分利用已有的词法信息,同时还能弥补规则方法的不足。现在经常使用的方法是利用词典进行初次切分,得出切分结果后,用其他的概率统计方法和简单规则消歧进行未登录词的识别。因此,本次分词采用的是NLPIR-master大数据语义智能分析平台(Natural Language Processing and Information Retriev⁃al Sharing Platform),NLPIR分词法(Chen et al. 2014)利用词典匹配进行初词切分,得到词切分图后,利用词频信息求词图N条最短路径的N最短路径法进行分词,自动识别人名、地名、机构名等未登录词、新词标注以及词性标注[11]。

用NLPIR软件对采集来的文本中所有候选词语进行切分标注后,使用词频、词性和互信息等多特征进行融合,综合计算提取关键词[12],得到的唐代服饰领域关键词词表包含词语(word)、词性(part of speech缩写POS)、权重(weight)和词频统计(frequency),系统默认词汇以权重值高低排序,结果如表2所示。

表2 关键词提取结果(部分)

3 分析结果

3.1 唐代服饰关键词提取

对采集来的文本关键词进行分析,根据中科院计算所制定的汉语词性标记集对提取的关键词词性进行分类观察,结果发现关键词一般都是名词(n)与动词(v),还包含少量的形容词与副词;而介词和助词等在汉语中一般不能表述具体的意义,因此本实验选择忽略不具备本次服饰研究意义的词,如“可以”“一个”“开始”“成为”等。对服饰风格的相关影响因素进行具体总结可以得到两大类服饰风格相关因素:(1)“颜色”“色彩”“造型”“图案”“装饰”等构成服饰设计的重要因素;(2)“时代”“地位”“制度”“民族”“思想”等构成服饰社会背景的重要因素,两者综合可以构成一个朝代服饰风格的基因。各因素具体占比按词频和权重高低依次排列,结果如表3所示。

表3 自媒体数据中与服饰风格相关度最高的因素

由表3可以看出,词频和权重排列在前的有形象、时代、图案、颜色/色彩、造型等因素,下面分别就这几方面的关键词再进行语言统计分析。

3.2 唐代服饰风格影响因素语言统计分析

运用NLPIR-master软件对采集文本进行语言统计,语言统计功能是在完成文本分词的基础上针对切分标注结果,系统自动地进行二元词语转移概率统计(统计两个词左右连接的频次即概率)和二元词对信息熵,其中共现频次是指两个词以前后顺序同时出现的频率,二元词对信息熵是指这两个词包含的信息广度[11]。本次统计共得到二元词对总数为22 7735对,从结果中除去不具备完整参考意义的单字和代词,再对几个具体因素进行检索,结果如表4、表5所示。

表4 自媒体数据中与“图案”“造型”搭配最高的词语排序表

续表4

表5 自媒体数据中“颜色”高搭词以及高频使用颜色排序表

以上各个方面的特征也是大众对唐代服饰形成的一个普遍印象。同样对“形象”“时代”进行检索,排序结果如表6所示。

表6 唐代服饰风格影响因素总结(部分)

3.3 唐代服饰风格的审美特征

风格本质上就是描绘事物及人的状态及属性特征。汉语中的形容词正是用来描写或修饰名词或代词,表示人或事物的性质、状态、特征、属性和情态的词,因此本研究对关键词表中的形容词进行了整体研究,发现以“a”为词性标注的形容词共803个,另以“an”为词性标注的形名词共97个,以“z”为词性标注的状态词共98个,其中形名词和状态词也是形容词的一种词类。表7为形容词作为风格特征词汇表。

表7 自媒体文本中风格词汇表(部分)

关于形容词的聚类,早期在国内,朱德熙先生将词的形式和意义结合起来,把形容词分为性质和状态两类。性质形容词通常与类名相组配以表述一类事物相对恒定的属性;状态形容词一般与个体名相组配以表现个体事物相对暂时的情状[13]。

而后学者在此基础上进行丰富细化,《现代汉语分类词典》(A Thesaurus of Modern Chinese,简称“TMC”)中把形容词分为性状、性质、情状、才品、知觉和形貌6大类[14-15]。为了更清楚地了解唐代服饰风格的特征偏向,本研究依据此词典把以上描述唐代服饰风格的形容词进行聚类,结果如表8所示。

表8 自媒体文本中风格词汇分类(部分)

4 结论

(1)以“唐代服饰”为主题词的大数据语义分析实验从自媒体平台数据中提取得到两大类服饰风格相关因素:①“颜色”“色彩”“造型”“图案”“装饰”等构成服饰设计的重要因素;②“时代”“地位”“制度”“民族”“思想”等构成服饰社会背景的重要因素。

(2)语言统计结果中,“形象”“时代”“颜色”“造型”等具体因素的高频共现词皆属于唐代服饰中的典型特征,数据显示高频共现词与盛唐以及武周时期的唐代服饰相关内容居多,重点相关人物有唐玄宗、杨贵妃和武则天;对女性、妇女、仕女、侍女、女子和贵妇等女性形象的服饰关注度高;服饰相关图案种类涉及动植物图案和几何图案,其中缠枝花卉图案出现频次最高;对服饰颜色最主要的描述特点为鲜艳、绚丽、艳丽,红色是唐代服饰的代表性颜色。

(3)结合服饰专业特点进行分析,得到了服饰审美特征分类:性质、性状类形容词多描述唐代服饰整体客观给人的风格感受,如华丽、曼妙、华贵;形貌知觉类形容词多描述服饰造型的形状,体量、外观颜色或者面料上的触觉,如丰满、轻薄、鲜艳;才品类形容词多描述穿着此种服饰的人群展现出来的才情与品味,带有情感色彩,如飘逸、自由、大胆;情状类形容词多形容服饰时代背景的样态以及人们当下的情感期望,即时代繁荣发达,人们生活美好。经相关史料查询可以验证这些描述基本符合唐代服饰风格特征。

(4)此种方法对采集和分析主题服饰的风格特征具有一定的可行性,希望能给服装文化研究和设计工作者以参考。

猜你喜欢
分词形容词服饰
动物“闯”入服饰界
认识形容词
分词在英语教学中的妙用
听诸子百家讲“服饰穿搭”
从《长安十二时辰》看唐代服饰
结巴分词在词云中的应用
结巴分词在词云中的应用
形容词
聚焦现在完成进行时