基于语料大数据的“潮”文化特征计算与分类

2020-04-10 06:43陶晨杨剑平苏淼鲁佳亮

丝绸 2020年2期

陶晨杨剑平苏淼鲁佳亮

摘要：为解决目前对于“潮”文化的特征缺乏完整阐释的问题，文章利用文化计算方法进行潮文化的特征采集、计算与分类。利用网络爬虫技术进行基于互联网的潮文化语料大数据采集，并通过中文分词与过滤处理获得潮文化的特征词;然后通过词频统计进行特征量的计算，实现特征强度的量化，并提取了前100个特征供后续分析;接着分别采取基于词义、词频的分类，梳理出潮文化的五个特征子集，并提取了潮文化的核心，针对特征子集进行阐述和分析，展现了潮文化的内涵与形式。探讨了潮文化的特征结构，揭示了潮文化与大众时尚的辩证关系，有助于理解当下时尚文化的多样性及动态规律。

关键词：文化计算;潮文化;大数据;流行;时尚;特征;量化

中图分类号： TS941.13;G202文献标志码： A文章编号： 10017003（2020）02004106

引用页码： 021108DOI： 10.3969/j.issn.10017003.2020.02.008

Computation and classification of tide culture features based on corpus big data

TAO Chen1， YANG Jianping1， SU Miao2， LU Jialiang2

（1.College of Textile and Garment， Shaoxing University， Shaoxing 312000， China; 2. International Silk Institute，

Zhejiang SciTech University， Hangzhou 310018， China）

Abstract： Aiming at the issue of lacking comprehensive elaboration on the features of the tide culture， this study employs the method of culture computation to carry out feature collection， calculation and classification for the tide culture. First of all， the web crawler technology was used to conduct the corpus big data collection from the Internet， and the feature words were obtained by Chinese word segmentation and filtration. Then， the feature quantity was calculated by word frequency statistics to achieve the quantification of the feature intensity. Besides， the first 100 features were extracted for followup analysis. Next， feature classifications based on word meaning and word frequency were performed respectively to comb out the five feature subsets plus one core subset of the tide culture. Elaboration and analysis were carried out for these subsets， and the connotation and form of the tide culture were exhibited. This study has inquired the structure of the tide culture and investigated the dialectical relationship between the tide culture and the mass fashion， contributing to the understanding of diversity and dynamic law of todays fashion culture.

Key words： culture computation; tide culture; big data; trend; fashion; feature; quantification

近年來，“潮人”“潮装”“潮品”“潮牌”等一些词汇流行起来，并逐渐成为服饰流行与时尚的尖端部分。然而“潮”作为一种文化现象目前还处于亚文化或次文化地位[1]，对潮文化的考察构成了中国时尚文化研究的独特视角。中国潮文化的源头可追溯到20世纪八九十年代日本原宿地区新浪潮艺术家们的时尚态度[2]，而后陆续传入韩国及中国港台地区，在21世纪初开始进入中国除港台以外的其他地区。有研究认为潮文化是街头文化在新时期的体现[3]，通过“潮装”表现来自日韩和西方的人文、地域、种族概念，将原本出现在街头角落的事物（如HipPop、涂鸦、滑板运动等）带入主流时尚界，形成了独特的自下而上的发展模式。对香港潮文化的考察表明，“潮品”是符合流行循环规律、走在社会思潮前端的一类原创品牌，而本土文化元素是其独特的表达形式[4]。相关研究还考察了陕西关中地区传统文化元素[5]、佛教道教绘画图案[6]及传统纹样与波普艺术的结合[7]在中国“潮牌”服饰设计中的体现，探讨了欧美、日本及中国TShirt潮品在设计元素和设计理念上的异同[8]。

另一方面，时尚文化元素的朝夕变换，使得以社会调查、资料搜集和知识整理为手段的传统方法，在潮文化的内涵与表现形式上，难以得出全面的、与时俱进的结果。而随着互联网和社交媒体的不断深入，海量时尚文化信息在网络上积聚，形成了巨大的、公开的、不断更新的大数据源，为实施潮文化计算创造了基础条件。文化计算就是利用现代计算方法，从文化载体（文字、图像、视频等）上提取数字化特征，并进行分析、重建和展示的过程[9]。文化计算领域最近一次重大进展是哈佛大学的Aiden和Michel对谷歌数字图书数据进行的研究[10]，该研究通过海量文本中单词或人名随时间变化的频率，推导出了一些重要历史文化事件和趋势，证明了利用大数据处理手段筛选出文化特征的可行性。

文化计算领域取得的成果，为潮文化的计算和分析提供了基本方法和工具，而传统研究考察了潮文化的源头和传播路径、与街头文化的关系及与传统文化的结合等方面，形成了对潮文化的基本认知，为开展潮文化的特征计算与分析提供了先验知识。本研究在文化计算框架内，通过互联网进行文化大数据的采集，进而实施潮文化特征的计算与分类，以便阐释当下潮文化的内涵和结构。本研究的总体技术路线如图1所示。

由图1可见，本研究首先采集互联网上潮文化语料文本，形成潮文化的语料大数据;然后从语料库中提取特征词，并通过词频计算将其转化为量化的文化特征;最后结合潮文化的先验知识，对文化特征进行梳理与分类，得到潮文化的特征子集，形成潮文化的特征体系。

Computation and classification of tide culture features based on corpus big data基于语料大数据的“潮”文化特征计算与分类

1语料采集

一般地，某一主题下的语料文本可以使用人工方式从书籍、报纸、电视、网络等媒体上采集，当采集到的语料达到一定的规模，能够基本覆盖或代表人们在某一主题上产生的所有言论，就形成了该主题下的语料库。考虑潮文化的特点，它是一种走在潮流前端、嬗变中的时尚文化，其时尚属性与即时性特点不容忽略。当今时代，互联网已成为全球第一媒体，亦是流行与时尚的策源地，因而潮文化的语料采集必得以互联网为首要信息来源，并使用高效的自动化采集手段以满足数据的即时性要求。本研究利用主题网络爬虫技术[11]，以国内知名门户网站为起点，实施潮文化语料的大规模采集。

类似于使用搜索引擎，使用主题网络爬虫的关键是提供一个或多个主题词，主题词的选择对语料采集的结果有很大影响。在本研究中，最容易想到的是以“潮文化”作为主题词，但实际在有关“潮”现象的各种描述中，多数不会将其上升到文化层面或提及“潮文化”，另外“潮文化”还指“潮汕文化”“钱江潮相关历史及文化”等与本研究无关的内容。因此，若以“潮文化”为主题词，一是所获语料将不能取得对既定主题的高覆盖率，二是可能引入大量与本研究无关的语料，从而削弱语料库的针对性。同样地，也不能以“潮”作为主题词，因为“潮”有着它的本意（如潮水、涨潮），也有本意基础上的引申意（如学潮、思潮、寒潮），这两类用法在有关“潮”的词语中占据很大的比例，然而都不是本研究意欲采集的对象。

因此，要选择合适的主题词，必须对潮文化具有一定的了解，知晓潮文化的呈现途径或方式。就目前而言，潮文化主要是通过“潮人”“潮装”“潮品”“潮牌”这四种途径呈现的，它们是提到各种“潮”现象时难以回避的词语。本研究将这四个词语作为语料采集的主题词，以新浪、网易、搜狐三个国内门户网站的时尚频道（分别为fashion.sina.com.cn、fashion.163.com、fashion.sohu.com）为起点，利用网络爬虫技术进行多线程大规模主题文本的采集，共爬取21568个网站的735542个有效网页，获取文本94411兆字节（MB），构建起潮文化的语料大数据，如图2所示。

语料库中语料需要进行预处理，才能为下一环节中文化特征的提取所用[12]。预处理的目的是从语料文本中提取有意义的词语，预处理的过程主要包括分词[13]和停用词过滤[14]两个步骤。图2中的示例是利用Jieba分词工具和百度停用词表对语料文本进行处理的结果。分词是中文语料处理的特有技术，由于不存在类似英文句子中单词之间的空格，从中文句子中提取词语要借助分词技术。该技术是通过统计字与字相邻共现的频率或概率，计算成词的可信度，作为词语分割的依据。常见的中文分词工具包括开源的Jieba分词软件、清华大学的THULAC分词系统、北京理工大学的NLPIR分词系统等，本研究采用了开源的Jieba分词工具。分词完成后，语料文本转变为词语集合，还需要对词语集合进行过滤，以去除其中的量词、连词、介词、语气词、标点符号等意义不大的词（或称为“停用词”）。词语过滤依据一个中文停用词表（Stopword table），该表中记录所有的中文停用词。常用的停用词表有百度停用词表、哈尔滨工业大学停用词词库、四川大学机器学习智能实验室停用词库等，考虑到潮文化的当下性，本研究采用了更新频率较高的百度停用词表。

2特征提取与量化

在本研究中，利用语料库中的词语来代表潮文化的特征，并将特征的强弱进行量化。在上述经预处理的潮文化语料库中，对各个词语出现的次数进行统计与归一化处理，并根据下式计算其词频（F）。

F/%=NNmax×100（1）

式中：N是该词语在语料库中出现的次数，Nmax对应语料库中出现次数最多的词语。

词频越高则认为该词语与潮文化的关联度越高。在这里，语料库中所有词语都看作是潮文化的特征，没有特征与非特征之分，但各个特征有强弱之别。排除“潮人（Fmax=1）”“潮装（0.4726）”“潮品（0.4027）”“潮牌（0.6483）”四个主题词，得到词频最高的前100个特征词为：自我（0.9192）、日韩（0.9064）、个性（0.8687）、年轻（0.8676）、时尚（0.8399）、韩国（0.7928）、女装（0.7857）、卷边裤（0.7571）、CLOT（07395）、男装（0.7364）、中性（0.6976）、品牌（0.6967）、卫衣（06895）、多元（0.6871）、牛仔裤（0.6721）、混搭（0.6569）、日本（06466）、小众（0.6410）、原创（0.5995）、00后（0.5959）、直播（0.5959）、風衣（0.5944）、率性（0.5912）、潮男（0.5856）、嘻哈（0.5679）、Real（0.5625）、自然（0.5484）、95后（0.5251）、自信（0.5087）、Bape（0.5071）、炫酷（0.5005）、Supreme（04752）、粉丝（0.4527）、Large（0.4526）、Boylish（0.4396）、市场（0.4380）、EVISU（0.4344）、非主流（0.4293）、游戏（04235）、宝宝（0.4210）、二次元（0.4165）、中国（0.4142）、暴力熊（0.414）、兔公爵（0.4066）、牛津鞋（0.4032）、Gentlewomen（0.3962）、街拍（0.3901）、ACEG（0.3836）、大众（03814）、风格（0.3764）、LILBETTER（0.3674）、美颜（03602）、叛逆（0.3577）、设计（0.3541）、耳饰（0.3443）、自黑（0.3408）、快闪（0.3391）、态度（0.3377）、拽猫（0.3271）、死忠（0.3192）、90后（0.3013）、Oversize（0.2983）、姿态（02956）、滑板（0.2927）、文化（0.2777）、变革（0.2742）、经历（0.2616）、限量（0.2501）、派对（0.2472）、男友式（0.2392）、涂鸦（0.2351）、THETHING（0.2234）、欧美（0.2216）、生命（02191）、街头（0.2122）、香港（0.2091）、80后（0.1984）、台湾（0.1982）、开端（0.1966）、路人（0.1951）、VisVim（01593）、交集（0.1559）、消费（0.1510）、自行车（0.1033）、高级（00964）、妖孽（0.0963）、话题（0.0706）、前端（0.0677）、话语（0.0507）、镜头（0.0306）、服装（0.0301）、达人（0.0250）、卡通（0.0228）、Undefeated（0.0202）、StayReal（0.0190）、社会（0.0169）、亮点（0.0149）、目光（0.0126）、风景（0.0077）、传统（0.0045）。根据其词频大小置于相应半径的圆周上，生成潮文化的词云图，如图3所示。

在图3的云图中，圆心位置代表“潮文化”，特征词的半径与其词频反相关，即词频越高则特征词到圆心的距离越小。词云图可看作文化特征的可视化形式，它直观地揭示了潮文化的特征（词语）及这些特征的强度（词频）。

3特征梳理与分类

根据特征词涵义和特征量大小，本研究对潮文化的特征进行梳理和分类，得到潮文化的特征子集，建立潮文化的特征体系。

3.1特征词梳理

根据特征词涵义，从上述100个特征词中可梳理出五个特征子集，如表1所示。一个特征子集代表某一类文化特征，描述潮文化的某一个方面，所有特征子集构成了潮文化的特征体系。

表1梳理出了“精神内涵”“年龄结构”“载体形式”“文化生态”和“商业品牌”五个特征子集。由表1可见，潮文化其背后的精神主要是表达自我、追求率真、反大众化，其中特征词“自我”拥有最大的特征量0.9192。潮文化尚未取得与主流时尚同等的被接受程度，导致其现阶段最大的诉求是“发声”或“自我表现”，强烈的自我表达愿望也印证了其目前的亚文化或次文化地位。如今流行与时尚被商业操控已是不争的事实，大众时尚的本性是“逐利”而非“求真”，时尚的逐利性使得时尚背后宝贵的精神要素（如永不停留、永不满足）常被剥离从而服从于商业目的，而当下潮文化最引入注目的闪光点正是其求真（率性0.5912、Real 0.5625）的本性。理所当然地，潮文化也就成了反大众化的典型，对大众时尚的对抗既是其追求率真的结果，也是其表现自我的手段。总之，“表达自我”是诉求、“追求率真”是本性、“反大众化”是手段，当前潮文化与主流时尚的相对地位，既限定了它的影响与边界，也培育了它独特的个性。

在年龄结构上，显然潮文化是年轻人的文化，其拥趸主要为00后、95后和90后（00后、95后、90后、80后的特征量之比约为6︰5︰3︰2），其消费能力不及30周岁以上的中青年人，因而难以追随主流时尚，但却因此创造了属于年轻人自己的时尚文化。在载体形式上，其最主要的文化载体是服装服饰，并且崇尚混搭、中性化、原创性，服装服饰以外的潮文化载体形式还包括直播、嘻哈、二次元、街拍、快闪等。值得注意的是，“男装（0.7364）”和“女装（0.7857）”的特征量几乎不相上下，在“潮男（0.5856）”的词频半径内，没有对等的第二性别特征词，这暗示了性别平等的、甚至是男性主导的时尚，在现代流行文化史上独树一帜。这一点在女装中性化倾向中亦可得到印证，前100特征词中提及两种中性化风格，即“Boylish（0.4396）”和“Gentlewomen（0.3962）”。“Boylish”亦称“Street Boylish”或“男友式”，指年轻女性模仿街头男孩或男友装扮而形成的着装风格;“Gentlewomen”指成熟、优雅、绅士化的青年女性装扮及精神气质。这二者都是带有男性特征的风格，但在“Boylish”“Gentlewomen”及“男友式”的词频半径内没有对等的第二性别特征词，再次证明了潮装和潮文化的男性倾向。

在文化生态方面，考察潮文化与其他文化对象的关系，可以发现其主要受日韩青年文化的影响。中国传统文化元素在前100个特征词中沒有得到体现，在100个特征词之外，存在“脸谱（0.0124）”“功夫（0.0104）”“书法（0.0101）”“诗词（0.0047）”等特征词，表明现阶段潮文化还未能与中国传统文化深度结合。

在商业品牌方面，前100个特征词中提及时尚品牌共15个，反映了潮文化已在一定程度上被商业化。前10大潮牌中，国产品牌占6个（其中香港2个），反映国产时尚品牌在潮文化市场中占据主导地位。潮牌的兴起预示着潮文化被商业接受、被大众时尚同化的命运，这既是潮文化的内在诉求得到满足的过程，也将是失去其独特性、沦为消费时尚的过程。

总之，从词义的角度进行特征词的梳理和归类，可得到潮文化的若干个特征子集。必须承认，判断一个特征词属于哪个特征子集，具有一定的主观成分，有时是没有标准答案的。表1给出的特征体系仅是一种可能的情况，或相对合理的分类。若要回避主观判断，则可通过特征量聚类来提取特征子集。

3.2特征量聚类

通过聚类分析来考察特征词自然成类的情况，图4给出了对前30个特征量利用分层法进行系统聚类过程中形成的树状图，其横轴是特征词序号，纵轴代表归一化的分类距离。由图4可见，在虚线a所示的位置上存在可信度较高的自然二分类，在虚线b所示的位置上存在自然三分类，在虚线c所示的位置上存在五分类。

从考察二分类的情况看，由图4可看出特征词“1自我”“2日韩”“3个性”“4年轻”“5时尚”为一类，其余为另一类，因此可得到两个特征子集。结合潮文化词云图（图3），可确认前一子集为潮文化的核心子集，从而潮文化的文化核心可表述为“一种受日韩文化影响的、追求个性和自我的青年时尚文化”。

也可在虚线b、c位置上进行三分类或五分类，来划分更多的特征子集。这样得到的特征子集和前文中通过特征词梳理得到的特征子集有所不同，前者是基于词义的划分，而后者是基于词频的。在基于词频的划分中，各特征子集之间存在不断接近潮文化核心的递进关系。

4结语

本研究利用“潮人”“潮装”“潮品”“潮牌”四个主题词进行基于互联网的潮文化语料大数据采集，获得了高质量的潮文化语料库;从语料库中提取特征词，并通过词频反映文化特征的强弱，实现了文化特征的量化;通过基于词义的梳理，得到潮文化的五个特征子集，揭示了潮文化“表达自我、追求率真、反大众化”的精神内涵、与当前大众时尚的相互作用和关系，及其在服装服饰载体上的表现形式及特点等;通过基于词频的聚类和分类，获得了潮文化的核心子集，将潮文化的核心凝练为“一种受日韩文化影响的、追求个性和自我的青年时尚文化”。本研究从不同角度提取潮文化的特征子集，形成潮文化的特征体系，阐释了潮文化的内涵与形式，可为理解当下时尚与流行的发生及演变提供重要的参考。

参考文献：

[1]张淼. “潮牌”服饰文化现象解析[D]. 长春：长春工业大学， 2012.

ZHANG Miao. The Culture of Fashion Wearing [D]. Changchun： Changchun University of Technology， 2012.

[2]田一汐. 试析日本文化多样性在原宿文化中的体现[J]. 学园·教育科研， 2012（13）： 3738.

TIAN Yixi. A trial analysis on the Japanese cultural diversity in the Harajuku culture [J]. Academy·Educational Research， 2012（13）： 3738.

[3]郭城城. 我国街头服饰的流行与发展研究[D]. 西安：西安工程大学， 2012.

GUO Chengcheng. Study on the Spreading and Development of the Street Fashion in the Country [D]. Xian： Xian Polytechnic University， 2012.

[4]卜憧. 香港潮牌文化探析[D]. 北京：北京服装学院， 2016.

BU Tong. A Research on Hong Kongs Tide Brand Culture [D]. Beijing： Beijing Institute of Fashion Technology， 2016.

[5]黄腾. 关中地区文化元素在潮流服饰设计中的应用研究[D]. 西安：西安工程大学， 2014.

HUANG Teng. Study on Applications of the Guanzhong Area Culture Elements in the Tide Fashion Design [D]. Xian： Xian Polytechnic University， 2014.

[6]李猛. 佛教道教绘画图案在潮牌服装图案设计中的应用研究[D]. 西安：西北大学， 2013.

LI Meng. Applications of Duddhist and Taoist Paintings in the Pattern Design of the Tide Fashion Brands [D]. Xian： Northwest University， 2013.

[7]赵晨卉. 基于传统纹样的波普艺术与潮牌服饰设计的应用研究[D]. 杭州：浙江理工大学， 2015.

ZHAO Chenhui. Applications of the Traditional PatternBased Pop Art in the Tide Fashion Design [D]. Hangzhou： Zhejiang SciTech University， 2015.

[8]徐欣怡. 国内外潮牌T恤设计对比研究[D]. 上海：东华大学， 2013.

XU Xingyi. A Comparative Study of Chinese and Foreign Fashion Brand TShirt Design [D]. Shanghai： Donghua University， 2013.

[9]趙海英，贾耕云，潘志庚. 文化计算方法与应用综述[J]. 计算机系统应用， 2016， 25（6）： 18.

ZHAO Haiying， JIA Gengyun， PAN Zhigeng. Review on the methods and applications in cultural computing [J]. Computer Systems & Applications， 2016， 25（6）： 18.

[10]MICHEL J B. Quantitative analysis of culture using millions of digitized books [J]. Science， 2011， 331（6014）： 176182.

[11]于娟，刘强. 主题网络爬虫研究综述[J]. 计算机工程与科学， 2015， 37（2）： 231237.

YU Juan， LIU Qiang. Survey on topicfocused crawlers [J]. Computer Engineering and Science， 2015， 37（2）： 231237.

[12]苗夺谦，卫志华，张志飞. 中文信息处理原理及应用[M]. 北京：清华大学出版社， 2015.

MIAO Duoqian， WEI Zhihua， ZHANG Zhifei. The Theory and Applications of Chinese Information Processing [M]. Beijing： Tsinghua University Press， 2015.

[13]黄昌宁，赵海. 中文分词十年回顾[J]. 中文信息学报， 2007， 21（3）： 819.

HUANG Changning， ZHAO Hai. Chinese word segmentation： a decade review [J]. Journal of Chinese Information Processing， 2007， 21（3）： 819.

[14]化柏林. 知识抽取中的停用词处理技术[J]. 现代图书情报技术， 2007， 2（8）： 4851.

HUA Bolin. Stopword processing technique in knowledge extraction [J]. New Technology of Library & Information Service， 2007， 2（8）： 4851.

收稿日期： 20190327; 修回日期： 20191206

基金项目：浙江省哲学社会科学规划项目（19NDJC128YB）;浙江省软科学研究计划项目（2020C35024）

作者简介：陶晨（1981），男，讲师，主要从事丝绸文化计算与大数据分析的研究。通信作者：苏淼，副教授，52478223@qq.com。