自建语料库在跨境电商数据化运营教学中的应用研究

2023-09-18 00:51卢燕红
天津中德应用技术大学学报 2023年4期
关键词:数据分析跨境电商

摘  要:将语料库工具引入跨境电商数据化运营实践教学中,引导学生按照自建语料库的路径进行语料的采集、整理、分析,为跨境电商文本撰写、选品、运营、库存管理等提供可靠的统计数据,进而摆脱对直觉经验的依赖,同时也弥补了跨境电商实践教学成本高、数据分析难度大的现实困难,提升学生自主学习能力。

关键词:自建语料库;跨境电商;数据化运营教学;数据分析

中图分类号:G712    文献标识码:A     文章编号:2096-3769(2023)04-036-06

随着市场竞争加剧,流量和获客成本日益上涨,海外消费者需求逐渐升级,早期跨境电商行业“铺货+直发”的粗放模式在新形势的冲击下已然举步维艰,精细化、数据化运营成为卖家的必由之路。所谓数据化运营是指通过数据化的工具、技术和方法,对运营过程中的各个环节进行科学分析,为数据使用者提供专业、准确的行业数据解决方案,从而达到优化运营效果和效率、降低运营成本、提高效益的目的[1]。跨境电商行业新发展对职业院校跨境电商人才培养也提出了新的要求。跨境电商实践教学从传统的以平台模拟为主要特征的1.0 阶段,历经了以综合训练为主要特征的2.0阶段,进入到现如今以数据化运营为主要特征的3.0阶段[2]。

一、跨境电商数据化运营教学困境

(一)运营实战资金要求高

目前主流跨境电子商务平台的入驻门槛越来越高:学生需要注册公司,缴交一定的费用才能在平台注册开店,但对于绝大多数学校来说,为所有学生提供开店资金是不现实的。此外, 进货、发货、广告营销等环节都需要额外的资金投入,即便个别学校采用“真实平台、真实货源、真实物流”的实战模式来支撑实践教学[3],后续还面临因运营不善导致亏损,或者因违反平台规则导致闭店等财务风险。这些费用由谁承担都是复杂的问题,客观上降低了在学校进行大规模跨境电商实战教学的可行性。

(二)模拟软件真实数据缺位

在无法通过实战获取数据进行运营分析的情况下,院校往往通过购买模拟软件来满足实训需求。市面上绝大部分模拟软件仅能提供模拟平台注册、商品刊登、订单处理、物流发货和客户服务等基本操作。虽然能让学生对跨境电子商务流程有一个基本的认知,但因无法产生真实的订单,更没有大量的交易数据支撑学生进行数据分析,因而无法检验学生实训成效,更无法满足3.0时代的跨境电商教学需求。

(三)数据分析技术门槛高

对跨境电商来说,从海外市场调研、类目入驻,到选品、定价、库存管理、广告优化等都需要数据的驱动。在实际运营中,跨境电商卖家往往购买第三方数据分析软件如Jungle Scout、船长BI等来辅助数据分析,但是这些付费服务在学校基本无法实现。虽然python等爬虫程序也可用于数据采集,但是对于没有开设此类课程的院校和没有一定计算机编程知识的学生来说,技术门槛高,学习周期长,落实起来难度很大。笔者认为只有通过免费且上手快的语料库软件可以在一定程度上解决跨境电商数据化运营教学中成本高、技术难和仿真度低的问题。

二、跨境电商语料库研究现状

语料库是指按照一定的语言规则,运用随机抽样的方法,收集自然出现的连续语言,运用文本或话语片段而建成的具有一定容量的电子文本库[4]。立足于大量真实的语言数据,语料库进行系统而穷尽的观察和概括所得到的结论有着无可比拟的实证意义[5],因而被广泛运用于语言学研究和英语教学研究中,如英语词汇、翻译、写作教学等。目前将语料库用于跨境电商教学的研究比较少,笔者在万方数据库同时输入“语料库”和“跨境电商”这两个关键词,仅有11篇相关期刊。经仔细梳理,发现仅2位学者研究语料库在跨境电商语境下的翻译功能,如杨娟娟[6]提出基于跨境电商的汉日双语语料库建设策略,邹幸居[7]提出建立基于农产品跨境电商语料库的机器翻译系统的搭建方案。也有学者通过自建语料库来分析跨境电商文案的语言学意义,如陈兰香、黄奕云[8]从系统功能语法角度分析了亚马逊网站耳机类产品的词汇特点和语篇特征,赵帮华[9]则以认知语言学为理论框架,分析标题构式的特征及其形成的认知机制。

三、语料库在跨境电商数据化运营教学中的使用

从文献综述可以看出语料库用于跨境电商数据化运营教学研究尚未引起学者们的普遍关注。即使有学者关注,也普遍认为跨境电商文案策划是一种翻译活动,同时也认为语料库在教学中也仅限于文本撰写。笔者认为这些观点存在一定的局限性。首先,跨境电商文案的撰写超出了汉英互译的范畴。不同于一般翻译活动,只需将来源语准确地转换为目的语即可,对于以吸引消费者下单为主要目的跨境电商文案来说,除了准确性,还要追求适应性和有效性。例如,一个女装卖家在1688网站上找到“王XX同款四扣针织衫四杠百搭显瘦修身马卡龙开衫”,“高级感穿搭韩系扭结斜领露肩针织上衣修身内搭毛衣女”和“条纹韩系风毛衣女秋冬宽松套头慵懒风外穿显瘦针织毛衫上衣早秋外”这几款货源。如果他將这些标题直接翻译成英文,需要先回答“这位王性女明星以及韩系穿搭在欧美国家是否也享有巨大的影响力?”和“在国内大行其道的‘慵懒风‘高级感是否同时满足海外消费者的诉求?”这些问题。如果答案是否定的,那么这样的标题只会让海外消费者不知所云,也无法获得较好的搜索排名。因此,语料库不应仅被当作一种翻译工具,它应被用来帮助卖家进行数据分析,从而撰写适应海外消费者语言习惯和搜索习惯的跨境电商文案。其次,语料库在跨境电商数据化运营实践教学中的作用不仅限于文案的撰写。语料库工具因其语料真实丰富且易于检索分析等优势,纠正了传统的直觉经验方法,让使用者转向基于统计的方法[10]。借助语料库工具的词频分析、搭配分析以及文本回溯等功能,可以洞悉海外消费者的购物偏爱以及了解某些类目的大卖家市场占有率等,为制定分析行业容量、选品、营销策略和库存管理提供非常有益的思路。基于上述优势,笔者提倡自建跨境电商语料库,为学生进行海外市场调研、选品、文本撰写等提供数据依据,弥补院校因资金和技术门槛无法开展以数据化运营为主要特征的跨境电商实践教学的缺憾。

四、自建跨境电商语料库的路径

自建跨境电商语料库的一般程序为确定分析目标——确定语料来源——建立语料库——分析语料,如图1所示。

(一)确定分析目标

跨境电商运营人员的典型工作任务包含海外市场调研、选品、上架、产品优化,营销活动策划、客户服务、新品开发等。在进行数据分析前,运营人员应该首先确定分析目标,才能确定建设何种语料库。如果是上架新產品,需要涉及产品的标题、卖点、详情文案撰写;如果是为了优化产品,则需要建设商品评价语料库,从中分析在售商品的优点和痛点,为新品研发提供思路。

(二)确定语料来源

语料库能对跨境电商数据化运营分析起到多大帮助,关键在于语料来源的权威性和代表性。当代语料库语言学家辛克莱教授(John Sinclair)指出:“任何语料库研究的起点都是语料库的创建。语料库中应该收集什么语料以及如何组织所选的语料几乎决定了后续所有的事。语料库有多好,研究发现就能有多好。”[11]

跨境电商语料库来源首先应该是世界知名的跨境电商平台,如亚马逊、eBay等。需要注意的是,跨境电商平台上的卖家极有可能是非英语母语使用者,如速卖通平台的绝大部分卖家来自中国,他们产品文本中可能存在不规范的英文表达。因此,采集语料时,需要选择某种类目下头部商品的信息(如亚马逊的BSR榜单),以此保证语料来源能够真实地体现海外消费者的需求和倾向。

(三)建设语料库

跨境电商平台上产品的文本信息主要包含标题、卖点、产品详情、常见问答、消费者评论等,因此可以相应地建立商品标题语料库、商品卖点语料库、商品详情语料库、商品评价语料库及常见问答等语料库,以满足不同的数据分析需求。

尽管辛克莱教授指出“语料库应该越大越好,而且还要保持持续增长”[12],但不同于基于海量语料发现语言特征和规律的语料库语言学,跨境电商实践中自建语料库的规模无需和专业语料库比肩。正常一家跨境店铺在售产品数量动辄几百上千且更新换代很快,为每个产品都建设体量庞大的语料库是不切实际的。正常情况下采集同类下销量前100或者200的商品信息即能提供足够的参考范本。

(四)分析语料

利用语料库进行数据分析时主要进行词频和搭配分析。词频分析能帮助跨境电商运营直观观测到消费者喜好,但是单个词的频率分析还不足以揭示所有规律,还需要分析词的搭配。搭配是指“两个或两个以上的词在文本中短距离内的共现”[13]。弗斯(Firth)认为,搭配词之间是一种“结伴关系”,它们之间的“密切性”不仅体现在搭配时同时出现,而且也体现在其意义表达上的紧密相连[14]。通过计算在跨距内每个词的频数分布,从而确定搭配强度,为跨境文本撰写提供思路。

五、自建语料库用于跨境电商数据化运营教学案例

下文以孕妇裙为例,展示自建语料库的具体步骤,以及语料库在海外市场调研、选品及文本策划等方面的应用。

(一)自建语料库

首先确定数据分析的目标:调研亚马逊平台上畅销孕妇裙,确定选品方向,同时为产品标题和卖点的描述提供关键词库。随后,指导学生进入其所售商品对应的亚马逊Best Sellers in Maternity Dresses(孕妇裙畅销排名),手动采集排名前100产品的标题和卖点描述,自建“孕妇裙标题语料库”和“孕妇裙卖点语料库”。

(二)词频分析

1.分析品牌占有率

跨境电商产品标题的第一个词多为该产品的品牌词。采集和分析品牌词词频能够折射出大卖家市场占有率情况,以及小卖家挤进畅销榜的概率。本文使用AntConc3.5.8语料库软件,将“孕妇裙标题语料库”按照词频从高到低排序,选出词频大于等于2的17个品牌,详见表1。

转换成图2可以清晰看出孕妇裙类目前100品牌尚未形成垄断,除了Smallshow占有10%的市场份额外,其他的品牌占比都仅在2~4%之间,44%的品牌只出现一次,因此,新卖家进入的空间较大。

2.分析消费者喜好

标题是搜索引擎抓取产品的第一要素,折射了消费者的购物喜好。因此畅销榜的产品标题可以作为选品的重要参照。本文将“孕妇裙标题语料库”按照词频从高到低排序,去除介词、连词、助词等虚词后,选出词频大于等于5的51的个单词,并翻译成汉语,如表2所示。

从标题中我们可以得出亚马逊平台上比较受欢迎的孕妇裙是长款的,词频为77(long 41次,maxi 36次);修身显瘦款,词频为46(bodycon 22次,fitted 9次,slim 9次,fit6次);适合拍照的,词频51(photoshoot 25次,photography 16次,photoshoot 5次);使用场景为派对,词频为(babyshower 45次,wedding 7次,party 5次)。从上述分析中我们看出欧美女性喜欢长款而且修身的,能够在各种派对中拍出好看照片的孕妇裙。我们还可以从“孕妇裙卖点语料库”中进一步挖掘消费者的喜好,比如说面料,从表3 我们可以看出,氨纶、聚酯纤维和人造纤维最受欧美消费者喜爱。

从上述分析我们可以发现,如果学生在选品时从中国女性的消费习惯出发,以宽大舒适、透气性良好、吸汗力强、防暑保暖与穿脱方便为原则,以全棉质地为首选,注重实用、可以兼顾哺乳的孕妇裙,那么所选商品与目标市场消费者的需求相去甚远,就无法打开销路,成功出海。基于自建语料库的词频分析,可以帮助学生更加精确了解海外市场,养成数据选品的良好工作习惯。

(三)搭配分析

词频表仅提供单个单词的出现频次,无法提供词组的搭配关系,信息不够完整。例如,表2中shower一词出现45次,如果翻译为“沐浴”会使人困惑,甚至会出现错误的选品方向。进行搭配分析,会发现该词是babyshower(宝宝派对),这样就明晰了孕妇群的使用场景。再以neck(领子)为例,仅分析该词的词频意义不大,因为体现不了消费者喜欢哪一种领型。此时,需要指导学生进行搭配分析。在语料库工具中以“neck”一词为节点词,搭配跨距设定范围为L1-R0,遴选词频≥1的实词搭配词,结果详见表4。可以看出,V领最受欧美消费者青睐,这也为选品提供了思路。

(四)综合分析

综合上述两个语料库中词的频次和搭配分析,再依据关键词、属性词、流量词等类目进行分类,我们最终还可以整理出孕妇裙标题关键词词库。

学生可以从表5中选择与自己所售卖产品属性相符的高频词汇来优化原有标题,从而增加标题的匹配度和搜索曝光概率。

六、总结

通过自建跨境电商语料库,一方面缓解了职业院校数据化运营教学成本高、数据分析难度大的现实困难,同时将抽象的理论转为实践操作,将被动学习转化为主动学习,让学生从被动的二手知识的接受者变为一手知识的探索者。这符合了高职学生的学情特点,进一步激发学生的学习兴趣。最重要的是,培养了学生的数字素养、数字技能、数据意识和数据思维。

参考文献:

[1]廖润东,肖旭,张枝军. 跨境电商B2C数据运营[M].北京:电子工业出版社,2021:2.

[2][3]邹益民.GERASIMOV RUSLAN. 跨境电商实践教学存在的问题及未来发展趋势[J]. 对外经贸,2021(02):115-119.

[4]杨惠中.语料库语言学导论[M]. 上海: 上海外语教育出版社,2002:333.

[5]梁茂成,李文忠,许家金.语料库应用教程[M]. 北京:外语教学与研究出版社,2010:3.

[6]杨娟娟. 基于跨境电子商务网站的汉日双语语料库构建策略研究[J]. 语文学刊,2016(10):18-19,81.

[7]邹幸居. 机器翻译在农产品跨境电商场景的应用研究[J]. 湖北开放职业学院学报,2020,33(19):177-179.

[8]陈兰香,黄奕云. 基于语料库的亚马逊平台耳机类产品说明语的语篇特点[J]. 韶关学院学报,2021,42(04):94-98.

[9]赵帮华. 跨境电商平台商品标题构式的认知语言学阐释——以阿里巴巴平台的迷你裙标题为例[J]. 成都师范学院学报,2017,33(02):88-92.

[10]胡春雨. 语料库与商务英语词汇研究[J].广东外语外贸大学学报,2011,22(02):55-58.

[11][12][13]Sinclair,J. Corpus, Concordance, Collocation[M]. Oxford: Oxford University Press,1991:13,18,170.

[14]Firth J R. A synopsis of linguistic theory 1930-1955[C]//Palmer F R. Selected Papers of J. R. Firth 1952-59. London:Longmans, 1968:182.

The Role of Self-built Corpus in the Teaching of Digital Operation inCross-Border E-Commerce

LU Yan-hong

(Minjiang Teachers College,Fuzhou, Fujian 350000, China)

Abstract: The paper tries to discuss the introduction of corpus tools into the practical teaching of cross-border e-commerce data operation, guiding students to collect, organize and analyze corpus according to the path of self-built corpus, and providing services for cross-border e-commerce text writing, product selection, operation, inventory management, etc. Reliable statistical datacan helpget rid of the dependence on intuitive experience, and at the same time,make up for the practical difficulties of high cross-border e-commerce practical teaching costs and difficult data analysis, and improve students' independent learning ability.

Key words: Self-built Corpus; Cross-border E-commerce; Data-based Operation Teaching; Data Analysis

收稿日期:2023-03-05

作者簡介:卢燕红(1984),女,福建龙岩人,副教授,硕士,研究方向为跨境电子商务、修辞学。

猜你喜欢
数据分析跨境电商
关于对跨境电商店铺名的研究
跨境电商与电子商务以及传统外贸电商的对比分析
河南郑州港区跨境电商发展的相关问题分析
“互联网+”背景下温州传统外贸制造业转型研究
我校如何利用体育大课间活动解决男生引体向上这个薄弱环节
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于读者到馆行为数据分析的高校图书馆服务优化建议