面向电商领域的旗袍知识图谱构建与实证研究

2024-09-20 00:00:00宋丹章银萍伍洪健袁理健
现代电子技术 2024年8期
关键词:细粒度知识图谱旗袍

摘" 要: 为挖掘旗袍服饰要素的关联关系与隐藏价值,构建一个基于电商数据的细粒度旗袍知识图谱,并开展实证研究。旗袍知识图谱采用自底向上逐层构建的方法,首先根据先验知识设计细粒度本体模型,为后续工作提供逻辑基础;然后采集并预处理原始数据,通过知识抽取、知识融合规范化数据,进行实例填充,完成数据层设计;最后将数据存储到图数据库,实现可视化。在此基础上,围绕旗袍、服饰要素以及用户人群开展深度挖掘、知识推理,借助图分析算法在社区检测、相似度和要素关联上展开实证研究。结果表明:旗袍知识图谱蕴含服饰要素之间隐藏的关系,能够挖掘内在的语义信息;旗袍服饰要素和用户人群之间存在一定的知识关联性,进而辅助设计与销售决策。

关键词: 知识图谱; 旗袍; 电商数据; 细粒度; 知识抽取; Neo4j图数据库

中图分类号: TN911⁃34; TS94.19" " " " " " " " " "文献标识码: A" " " " " " " " " " 文章编号: 1004⁃373X(2024)08⁃0025⁃06

Construction and empirical research of cheongsam knowledge graph for

e⁃commerce domain

SONG Dan1, ZHANG Yinping2, WU Hongjian2, YUAN Lijian2

(1. College of Computer and Communication, Hunan Institute of Engineering, Xiangtan 411100, China;

2. College of Textile and Clothing, Hunan Institute of Engineering, Xiangtan 411100, China)

Abstract: In order to explore the association relationship and hidden value of cheongsam clothing elements, a fine⁃grained cheongsam knowledge graph based on e⁃commerce data is constructed and empirical research is carried out. The cheongsam knowledge graph is constructed layer by layer from the bottom up. A fine⁃grained ontology model is designed based on a priori knowledge to provide a logical basis for the subsequent work. The raw data is collected and pre⁃processed, and they are normalised and filled by means of knowledge extraction and knowledge fusion to complete the design of the data layer. The data are stored in the graph database to achieve the visualisation. On this basis, deep mining and knowledge reasoning are carried out around cheongsam, clothing elements and consumer populations, and the empirical research is carried out with the help of graph analysis algorithms on social detection, similarity and element association. The results show that the cheongsam knowledge graph contains hidden relationships between clothing elements, and is capable of mining the intrinsic semantic information; there is a certain degree of knowledge correlation between the dress elements of cheongsam and the consumer population, which can assist in design and sales decisions.

Keywords: knowledge graph; cheongsam; e⁃commerce data; fine grain; knowledge extraction; Neo4j graph database

0" 引" 言

《“十四五”信息化和工业化深度融合发展规划》指出:要加快推动数据赋能全产业链转型,形成以市场为主导、以企业为主体、以用户为中心的价值创造格局[1]。受此影响,旗袍等服饰行业进入蓬勃发展阶段,电商市场规模逐渐扩大,积累了海量数据,特别是服饰要素数据。服饰要素数据具有价值突出、来源广泛等特点,因此,高效管理和利用服饰要素数据有助于电商企业进行服装设计和销售决策。

知识图谱是一种用结构化表示人类知识的方式,具有“图”“数”的双重性质与特征。与传统数据技术相比,知识图谱具备更强的发现和关系表达能力,能够揭示实体隐含的规律和趋势,产生新知识,增强数据分析能力,提供智能化、即时性服务[2⁃3]。

知识图谱最早由Google公司于2012年5月发布,旨在实现从文档互联到实体互联的转变,增强用户搜索质量和体验,近年来,知识图谱已从单一语言发展到多语言和多模态,并得到了广泛应用[4]。在个性化推荐上,Wen等在服装知识图谱的基础上,利用Apriori和Top⁃N算法生成服装推荐结果,解决冷启动和数据稀疏问题[5];张理想等构建粗粒度女装知识图谱,为用户提供搭配灵感和决策信息[6]。在故障风险分析上,董晓辉等利用知识图谱整合故障数据,为矿井提升机故障诊断提供支撑[7];T. Takko等提出一个网络风险知识图谱和知识挖掘框架,以供安全专家预测和衡量网络风险[8]。在智能检索和问答上,鞠斐等设计版刻古籍纺织图像知识图谱,实现跨模态数据整合和应用[9]。

由于从服饰要素这一视角构建细粒度旗袍知识图谱的研究较少,故本文探索构建有价值、可复用的旗袍知识图谱模型。本文主要工作有:

1) 根据先验知识设计细粒度本体模型,构建领域术语表,明确实体和关系的类别和定义。

2) 爬取实时电商数据,通过预处理获得样本数据,并对其进行知识抽取和知识融合,规范语义表示,获得实例数据并填充。

3) 使用Neo4j图数据库存储旗袍知识图谱,并借助图分析算法展开实证分析,挖掘更深层知识,为企业提供辅助设计与销售决策,捕捉用户意图。

1" 旗袍知识图谱的构建

电商场景的研究过程涉及调研、电商数据抓取、处理以及存储等。旗袍知识图谱从层次上可划分为模式层、数据层与存储层三层。模式层是描述某一领域的抽象模型,提供知识图谱框架和逻辑基础;数据层是对模式层的实例化,负责存储所有实体、属性和关系的实例数据;存储层是开展下游任务的关键。旗袍领域知识具有较强的专业性,故本文选择自底向上构建旗袍知识图谱[10],构建流程如图1所示。

1.1" 模式层设计

模式层通常是用本体模型进行管理,以形式化方式明确实体和关系,并说明如何在图谱中组织、链接以及更新实体和关系。本体模型应满足无二义性、易用性和可读性的要求,使数据在广度和深度上无冗余。首先结合旗袍领域先验知识确定领域术语,构建领域术语表[11⁃13];然后以“旗袍本体”为父级概念,逐步细化下一级概念和联系。

旗袍知识图谱的本体模型如图2所示。

实体与关系的类别和定义分别如表1和表2所示。

1.2" 数据层设计

1.2.1" 数据采集和预处理

以“旗袍”为关键词,抓取淘宝平台前100页的旗袍数据,有针对性地采集相关参数,剔除存在缺失值的异常数据。如图3所示,付款量数据量级差异大,分布集中在[0,1 000]。

由于大量级与常量级数据不易进行对比,因此对数据进行归一化处理,将其映射到[0,1]。以单品热度指数为量纲,经过聚类算法将单品分成低热度、中热度和高热度,并把高热度单品作为研究样本,聚类结果如图4所示。单品热度指数的计算公式为:

[x*=x-xminxmax-xmin," xlt;1" 0001," " " " " " " " " " x≥1" 000] (1)

式中:[x]表示单品每月付款量;[x*]表示单品热度指数。

1.2.2" 知识抽取

与通用知识图谱面向粗粒度不同,旗袍知识图谱面向细粒度,对实体、关系以及属性的刻画较为精确,而提供更具体的语义关系,需要人工注释。知识抽取包括实体抽取、关系抽取和属性抽取。实体抽取即从数据中获得实体信息。实体实例通过商家定义或者商品详情页的介绍来确定,表述不清或者缺失部分则由人工进行补充。关系抽取是发现实体之间的语义关系,将关系映射到实体关系三元组上。属性抽取也是一种特殊的关系抽取,因为属性是一种特殊的实体,是对实体的完整描述。属性类型有名称、商品ID、所属店铺、商品价格、所属类别等。

1.2.3" 知识融合

知识融合是在语义层次上对知识进行组合、推理与创新的过程。上一步抽取结果存在歧义性、多样性、模糊性,不能直接利用,因此需要知识融合来提高知识复用度。知识融合需要解决的问题有同义不同构和主被动关系。同义不同构是由于中文语法结构和词汇用法的特点存在含义相同而实例不同的情况,通常需要人工统一处理,避免冗余知识的出现,提高图谱质量。例如,“袖型”以长度划分类别,而“中袖”和“五分袖”同义,将两者进行对齐,仅保留后者。此外,主被动关系是成双存在的,例如“包含”与“从属于”等,因此在关系抽取时仅保留单向关系,便于后续的分析任务。

1.3" 存储层设计

存储层采用类型表和关系表的结构对数据进行纯文本化存储,并持久化为CSV文件,使用“LOAD CSV”包将数据导入Neo4j图数据库,实现可视化。旗袍知识图谱的局部可视化界面如图5所示。

2" 基于旗袍知识图谱的图分析算法

旗袍知识图谱具有网络聚集成群的特征,本文选择合适的图分析算法重点挖掘旗袍和服饰要素的关系及用户人群信息,推理在电商场景下关于旗袍领域的更深层知识。

2.1" 社区检测

通过社区检测揭示旗袍知识图谱的网络特征,从而划分用户人群。社区检测采用鲁汶算法来获得最优社区模块度[14][Q],具体公式如下:

[Q=12mijAij-didj2m," "ci=cj0" " " " " " " " " " " " " " " " " " " " " " " "] (2)

式中:[m]是边的数目;[Aij]为节点[i]到节点[j]边的权重;[d]为节点度数;[c]为节点社区标签。

2.2" 相似度分析

相似度分析是根据节点空间距离来挖掘风格相似旗袍之间的知识关联性。由于文本数据是离散型,100个节点代表100维空间,难以直接计算,因此采用快速随机投影方法进行相似度分析。快速随机投影是一种基于随机映射矩阵的嵌入方法,将高维向量映射到低维空间,保留向量之间的拓扑结构和语义信息[15]。将高维向量映射到二维空间的计算公式如下:

[Nt=D-1⋅St×d2mβ×R] (3)

式中:[S]为邻接矩阵;[D]为节点度矩阵;[t]为迭代次数;[R]为随机映射矩阵;[β]为归一化强度,平衡节点度对嵌入结果的影响。

由此,节点的二维向量表示为[Ntm,1,Ntm,2],空间距离[l]的计算公式为:

[l=Ntj,1-Nti,12+Ntj,2-Nti,22] (4)

2.3" 要素关联分析

要素关联分析用于判断整个网络或者子网络中服饰要素的关联情况,从而推理出消费趋势。要素关联分析采用特征向量中心性或度中心性这两个衡量指标[16],若要素节点具有较高中心性,则与其他要素节点耦合关系较强。

度中心性[Cdegree]和特征向量中心性[Ceig]计算公式如下:

[CdegreeVi=dVij=1nSi,j] (5)

[CeigVi=λ-1j=1nSi,jCeigVj] (6)

式中:[V]为节点;[λ]为常数;[CeigVi]为节点[i]所有相邻节点的中心性加权和。

3" 实证分析

3.1" 社区划分

面向电商服务,对旗袍知识图谱进行社区检测,其中一个子社区代表一种用户人群。将所有节点和边投影到GDS图,计算最大模块度[Q=6],即有6种用户人群。

3.2" 旗袍相似度分析

使用快速随机投影来生成从图中捕获拓扑信息的节点嵌入,并计算每一旗袍实体对的距离值。对距离值较近的旗袍实体对进行分析,对应图像如图6所示。实体对A(旗开得胜,迷宫格)的距离值为0.001 7,两者色彩红艳,十分喜庆;其次是实体对B(锦鲤折桂,锦鲤记梦),距离值为0.044 9,两者在细节有所差异,前者缘饰为一绲一嵌,盘扣为小花蕾扣以及一字扣,后者为嵌细条、葫芦扣,但纹样均为锦鲤和桂花,寓意锦上添花。根据原始材料,实体对A和B中四款旗袍是围绕高考主题推出的,因此针对考生家长群体,具有美好寓意的纹样和喜庆色彩的旗袍更容易成为畅销单品。

3.3" 核心要素关联分析

以要素标签为约束条件,检索每一类要素子图,分别计算子图节点的特征向量中心值,结果如表3所示。

通过总体分析可知,服饰要素中心值前5名分别为高圆领、分身分袖、大圆襟、一字扣和印花,中心值分别为0.681、0.670、0.640、0.635和0.602。这说明领型、结构、襟型、盘扣以及表现手法能够有效影响用户购买旗袍的行为。分别对要素分析可知:从领型、襟型和盘扣上,一般默认采用高圆领、大圆襟和一字扣,极少采用其他类型;从结构上,大多用户不追求古法无省结构,而是喜欢分身分袖;从色彩上,绿和白等浅色系深受用户喜爱;从纹样上,有花纹、竹纹、树叶纹等植物题材,其中花纹应用最广;从袖型、衣长和开衩位置上,一般选择四分袖、过小腿和高开衩,方便活动;从纹样和面料上,多为非天然的印花面料;从缘饰上,选择绲边和嵌细条的简单工艺,追求实用。因此,针对主流消费群体,在设计和生产旗袍时,考虑以{高圆领、大圆襟、一字扣、分身分袖、浅色系、花纹、四分袖、过小腿、高开衩、印花面料、绲边}的组合,以满足日常生活需求为出发点,工艺不必追求复杂,兼具舒适度和美感。

3.4" 子社区要素关联分析

在消费多元化与个性化趋势下,除考虑主流趋势外,更要关注小群体需求。无袖受众度不高,是小群体偏爱的服饰要素。以无袖的社区标签为约束,查询同一子社区的所有节点,无袖、素襟、珠扣、无缘饰、水滴领和过小腿具有较高的度中心性,分别是9、8、7、6、6和6,从而推理出无袖用户画像,即喜欢{无袖、素襟、珠扣、无缘饰、水滴领、过小腿}。由此可见,针对喜好无袖的小众群体,可设计{无袖、素襟、珠扣、无缘饰、水滴领、过小腿}的要素组合。

因此,对于多样化的小众群体,可以依据群体偏好,结合子社区要素的关联关系进行定制化设计与服务。

4" 结" 语

知识图谱蕴含领域知识与拓扑结构,提供了一种数据管理和整合的新途径。本文基于电商数据,从中抽取并融合旗袍领域知识,逐层向上构建了细粒度旗袍知识图谱,利用图分析算法展开实证研究。结果表明:

1) 在用户人群分析中,社区划分能帮助刻画用户画像,进而为精准营销、个性化服务提供支撑;

2) 在市场分析中,根据旗袍风格相似度可预判单品未来趋势;

3) 在旗袍服饰设计中,侧重全局核心要素,迎合主流群体喜好;挖掘子社区核心要素的关联关系,满足小众群体的需求。由此可见,旗袍知识图谱与数据有机融合,在应用上能为企业提供旗袍服饰设计与营销决策支持。

未来研究将聚焦旗袍服饰领域,利用不同来源和产业链不同环节之间的数据构建多层次知识图谱,实现知识图谱互联互通,打破数据孤岛效应,更好发挥“图”“数”之间的协同促进作用。

注:本文通讯作者为宋丹。

参考文献

[1] 工业和信息化部.“十四五”信息化和工业化深度融合发展规划[EB/OL].[2021⁃11⁃17].https://www.gov.cn/zhengce/zhengceku/2021⁃12/01/content_5655208.htm.

[2] JI S, PAN S, CAMBRIA E, et al. A survey on knowledge graphs: representation, acquisition, and applications [J]. IEEE transactions on neural networks and learning systems, 2021, 33(2): 494⁃514.

[3] 封皓君,段立,张碧莹.面向知识图谱的知识推理综述[J].计算机系统应用,2021,30(10):21⁃30.

[4] HOGAN A, BLOMQVIST E, COCHEZ M, et al. Knowledge graphs [J]. ACM computing surveys, 2021, 54(4): 1⁃37.

[5] WEN Y, LIU X, XU B. Personalized clothing recommendation based on knowledge graph [C]// 2018 International Conference on Audio, Language and Image Processing. Shanghai: IEEE, 2018: 1⁃5.

[6] 张理想,李沛儒,夏明.基于知识图谱的女装相似款匹配及搭配推荐[J].北京服装学院学报(自然科学版),2023,43(1):41⁃49.

[7] 董晓辉,郭庭甫,朱海江,等.面向矿井提升机的故障知识图谱构建与应用[J/OL].计算机工程与应用:1⁃10[2023⁃11⁃16].http://kns.cnki.net/kcms/detail/11.2127.TP.20230713.1324.012.html.

[8] TAKKO T, BHATTACHARYA K, LEHTO M, et al. Knowledge mining of unstructured information: application to cyber⁃domain [EB/OL]. [2023⁃04⁃18]. https://www.xueshufan.com/publication/3198600300.

[9] 鞠斐,王强.以版刻古籍纺织图像为核心的知识图谱设计与应用[J].图书馆论坛,2023,43(10):126⁃138.

[10] 付雷杰,曹岩,白瑀,等.国内垂直领域知识图谱发展现状与展望[J].计算机应用研究,2021,38(11):3201⁃3214.

[11] 王赛赛,陈敏之.基于本体的连衣裙款式检索研究[J].丝绸,2021,58(9):67⁃72.

[12] 刘咏梅,韩天琪,张向辉,等.无省旗袍的结构设计方法[J].纺织学报,2020,41(6):99⁃104.

[13] 朱博伟,刘瑞璞.旗袍三个发展时期的结构断代考据[J].纺织学报,2017,38(5):115⁃121.

[14] BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks [J]. Journal of statistical mechanics: theory and experiment, 2008(10): P10008.

[15] CHEN H, SULTAN S F, TIAN Y, et al. Fast and accurate network embeddings via very sparse random projection [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. [S.l.]: ACM, 2019: 399⁃408.

[16] NEGRE C F A, MORZAN U N, HENDRICKSON H P, et al. Eigenvector centrality for characterization of protein allosteric pathways [J]. Proceedings of the national academy of sciences, 2018, 115: E12201⁃E12208.

作者简介:宋" 丹(1976—),男,湖南长沙人,博士,教授,研究方向为认知智能、智能优化建模与分析。

章银萍(1997—),女,广东潮州人,硕士研究生,研究方向为中文信息处理、知识图谱。

伍洪健(1997—),男,湖南娄底人,硕士研究生,研究方向为深度学习、图像处理。

袁理健(2001—),男,湖南株洲人,硕士研究生,研究方向为中文信息处理、知识图谱。

猜你喜欢
细粒度知识图谱旗袍
Classic option,stylish choice
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
红外技术(2022年11期)2022-11-25 03:20:40
细粒度的流计算执行效率优化方法
高技术通讯(2021年1期)2021-03-29 02:29:24
我来说说旗袍美
基于双线性卷积网络的细粒度图像定位
旗袍找不同
新少年(2017年6期)2017-06-16 02:08:04
近十五年我国小学英语教学研究的热点、问题及对策
基于知识图谱的产业集群创新绩效可视化分析
智富时代(2016年12期)2016-12-01 16:28:41
支持细粒度权限控制且可搜索的PHR云服务系统
基于知识图谱的智慧教育研究热点与趋势分析