王婵娟
摘 要:本文首先介绍了淘宝宝贝标题分词的意义和常用方法,然后阐述了深度学习的分词技术,通过深度学习的分词技术提高宝贝标题分词的准确性,最后通过对相似的热销宝贝的标题分词对比,进一步提高宝贝标题的搜索有效性。
关键词:深度学习;分词技术;标题优化
一、深度学习分词技术介绍
深度学习的概念源于人工神经网络的研究。人工神经网络思想来源于大脑机制的探索,即对大脑思维能力的研究和模仿。神经网络理论与相关技术就是为了实现思维的认识机能而发展出来的,长久以来,它都是这门学科的基本任务。
自2006年以来,Geoffrey Hinton在深度学习上获得了重大突破,他与他的深度学习理论将人工智能带入了一个新的时代:认知计算。认知计算的目标不再是寻求显示问题的最优解或在给定的数据结构上进一步提高搜索性能,而是把算法领域扩展到了探索大脑的深度机制—认知机制方面。
含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。
这些新生的算法在自然语言处理领域同样获得了巨大的成功。
中文分词是个比较经典的问题,一般工业界中文分词方案都是基于规则。
1.基于规则的常见的就是最大正/反向匹配,以及双向匹配。
2.规则里糅合一定的统计规则,会采用动态规划计算最大的概率路径的分词
以上说起来很简单,其中还有很多细节,比如词法规则的高效匹配编译,词库的索引结构等。
深度学习方法为分词技术带来了新的思路,直接以最基本的向量化原子特征作为输入,经过多层非线性变换,输出层就可以很好的预测当前字的标记或下一个动作。在深度学习的框架下,仍然可以采用基于子序列标注的方式,或基于转移的方式,以及半马尔科夫条件随机场。深度学习主要有两点优势:
1.深度学习可以通过优化最终目标,有效学习原子特征和上下文的表示;
2.基于深层网络如 CNN、 NN、 LSTM等,深度学习可以更有效的刻画长距离句子信息。
二、 淘宝搜索与宝贝关键词:优化
买家使用淘宝应用,往往使用搜索框查找希望购买的商品,淘宝搜索是连接商家与消费者的核心,是卖家需要关注的重点。淘宝SEO全称“淘宝搜索引擎优化”,是指按照淘宝搜索引擎的规则,来设置优化宝贝,从而使得宝贝排名靠前,进而获取更多流量的一种技术。
淘宝SEO的核心内容是关键词:搜索优化。商品标题的关键词:优化是重点,宝贝的标题是与买家搜索关键词:联系最大且最直接的一个,买家输入的关键词:,会在宝贝标题中进行匹配,一个优秀的宝贝标题可以带来更多的搜索展现。
宝贝关键词:优化需要注意的点和常用方法包括如下内容:
1.在书写淘宝宝贝标题的时候,一定要符合宝贝真实属性,避免堆砌关键词:,讲求实事求是。标题中所包含的关键词:,一定是在宝贝属性中真实具有的。比如:标题中写“中长款”,在商品属性中“短”就属于属性不相关。
2.一般来说一个宝贝标题最多支持60个字符,总共包含30个汉字。在搜索关键词:时,系统首先对输入的关键词:切词,比如搜索“新款休闲裤”,淘宝系统会将这个词切分成:“新款休闲”,“休闲裤”,“裤”,“休闲”,“新款休闲裤”,“新款 休闲裤”。被切分后,系统将切分的词与系统数据库中的字典比较。原则上只要标题中含有切分后的词,在搜索时都有可能被展现。
3.将关键词:放到淘宝指数里面,查看其搜索指数。
4.关键词:还可以包含类目主关键词:,属性关键词:,长尾关键词:,如何挖掘关键词:还包括从淘宝搜索下拉框挑选一些推荐的搜索热词,使用生意参谋市场行情中的搜索词查询,或者使用淘宝指数来了解淘宝搜索热点,定位消费人群,研究细分市场。淘宝指数包括通过市场趋势,市场细分,排行榜来了解关键词:排名及变化情况。或者从直通车关键词:词典里面挑选关键词:。
5.有了关键词:,需要有序地排列這些关键词:,构造合适的标题。一般来说包括标题包括营销词+类目词+属性词+核心关键词:。
三、深度学习分词技术应用到标题优化
淘宝后台当前越来越多地使用深度学习算法来搜索用户感兴趣的宝贝,因此使用深度学习分析过的标题能够更好地匹配淘宝后台的搜索算法,提高宝贝展现率。
主要通过两个方面来优化:
1.分词准确性
采用深度学习后,相比传统的分词,能够极大提高分词的准确性,贴近词语在句子中的合适位置。本文采用了两种采用了分词技术的系统来对标题进行切分。一个是百度人工智能自然语言词法分析工具[1]。
以淘宝中一款宝贝[2]为例,其宝贝标题如下:
kumayes 秋季韩版宽松圆领套头撞色爱心针织毛衫爱心减龄毛衣女
使用百度词法分析工具对该宝贝标题分词后,分词词性如图1所示。
另一个分词工具是哈工大的语言技术平台[3],用其对同一款宝贝标题进行分词得到的结果如图2所示。
从上面的百度和哈工大语言平台可以看到,两个工具对词语的分词效果结果一致。其中“爱心”出现了两次,宝贝管理人员可以考虑优化标题,只保留一个“爱心”关键词:。
2.同相似宝贝标题的分词对比(以百度平台的为例)
淘宝宝贝[4]标题如下:
标题:2018秋季韩版学生宽松圆领套头撞色甜美针织毛衫女爱心减龄毛衣潮
对该标题进行分词分析如3所示。
根据淘宝中竞品的情况,尤其是一些热销品,看看他们的标题命名是怎样的。使用分词分析平台,可以对每个词进行词性分析,例如名词,动词,形容词。通过向热销品参考,达到优化标题的目的。
以下通过两个竞品宝贝进行分析对比。
竞品1[5]:
kumayes 秋季韩版宽松圆领套头撞色爱心针织毛衫爱心减龄毛衣女
其在百度平台的分词结果如图1所示。
竞品2[6]:
标题:2018秋冬新款韩版女式平面纯色高翻领针织打底毛衫修身套头毛衣
百度分词工具分析结果如图4所示。
其中,在分词词性中,m表示数量词,t表示时间名词,n表示名词,a表示形容词,v表示普通动词,vn表示名动词。通过对比自拟的宝贝标题和竞品的宝贝标题词性,可以通过优化词性,来达到标题优化的目的。
四、总结
由上文可知,利用深度学习分词技术为宝贝标题分析及SEO中的标题优化提供了新的分析手段,可以通过进一步的研究分析如何根据爆款标题指导制作标题。
参考文献:
[1]百度人工智能自然语言词法分析工具:https://cloud.baidu.com/product/nlp/lexical
[2]淘宝宝贝:https://item.taobao.com/item.htm?spm=a219r.lmn002.14.6.4cd75b624FbMAw&id=576354597258&ns=1&abbucket=7#detail
[3]哈工大语言技术平台:http://ltp.ai/demo.html
[4]淘宝宝贝:https://item.taobao.com/item.htm?spm=a230r.1.14.34.185e2fc7pCCtyc&id=578189753845&ns=1&abbucket=7#detail
[5]竞品1宝贝:https://detail.tmall.com/item.htm?spm=a230r.1.14.6.34d4466fN5OkeJ&id=577399581385&cm_id=140105335569ed55e27b&abbucket=16&sku_properties=20509:28383
[6]競品2宝贝:https://detail.tmall.com/item.htm?spm=a230r.1.14.10.5da225b5rypyKZ&id=575633483211&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=7