基于BERTopic模型的用户层次化需求及动机分析*
--以抖音平台为例

2023-12-23 03:51柳卓心昊陈飞扬
情报杂志 2023年12期
关键词:聚类分类文本

刘 洋 柳卓心 金 昊陈飞扬

(1.武汉大学信息管理学院 武汉 430070;2.武汉大学大数据研究院 武汉 430070)

0 引 言

短视频是一种内容元素丰富的创作内容。用户出于自身的信息需求动机,会产生多样的参与行为。然而,现有文献对于短视频平台用户需求动机的研究主要基于定性分析方法,例如访谈和问卷调查,导致方法的普适性不足[1-2]。除了用户的主观评价之外,用户生产成内容(user generated content,UGC)本身也具有深入了解用户行为的价值[3-4]。其内容一般具有更加丰富和多维的属性,通过定量分析用户短视频内含信息,可以得出更为普适性强的结论。

基于此,本文以国内主流短视频平台“抖音”用户参与生成的标题文本与点赞数量为基础,从内容视角出发,深入探索和挖掘短视频平台中所蕴含的用户话题和需求特征,以及当今多种多样的社会事件在短视频平台中所展现的影响强度。同时,本文结合不同的需求理论,分析用户体现出的层次需求和动机。

1 文献综述

过去的短视频用户需求研究主要是从心理学和行为动机的角度出发,运用问卷调查、深度访谈和理论模型构建等方法来研究短视频用户的内在需求,方法较为单一。在已有研究中,丁迈等[5]人通过针对超过5 000份反映国内短视频用户内容偏好和有效内容的问卷调查,直接提炼出“知识学习”等需求,同时利用内容丰富性和深度等指标间接揭示了用户的内容需求;Lu Xing等[6]人基于使用和满足的理论,对28份访谈结果进行分类编码,通过内容分析得出用户的娱乐消遣、保持潮流和满足信息需求等用户需求;郭新茹等[7]出于行为动机相关理论,通过推测行为需求来挖掘用户需求;其基于认知盈余理论,对抖音、美拍和哔哩哔哩等平台的用户进行问卷和访谈分析,从内容生产者和接收者两方面阐述了用户需求,包括自我实现、身份认同和表达欲等。

在社交平台中,用户参与行为主要表现为活跃的互动与内容创造,如点赞、评论、转发、分享等[8]。从形式上来看,短视频用户的参与行为具有多种不同的表现方式。戴宝德[9]将短视频用户参与行为划分为三类:浏览行为、互动行为和创造行为。a.浏览行为包括阅读文字、观看短视频以及搜索、保存等行为;b.互动行为包括点赞、留言、评论、回复、转发等行为;c.创造行为包括制作并发布短视频、参与平台活动等行为。用户根据自身的信息需求,以此形成相应的行为动机,从而在社交平台上产生一系列参与行为。因此,不同的参与行为是用户需求最为直接的反映。以往学者在研究社交媒体用户参与行为时,大部分采用理论模型构建和心理学等研究思想,通过问卷调查、深度访谈、内容分析等方法,分析用户的行为特征、需求和动机。但上述方法存在着样本数量过少或是个人主观性过强,结论泛用性较差等一系列问题。因此,另一部分研究使用LDA、Topic2Vec等主题聚类模型,基于社交媒体真实数据做主题抽取,以避免因样本数量过少或个人主观性过强而出现的结论客观性问题。如陈姝等[10]基于LDA模型进行微博文本与用户兴趣的概率主题分布的训练,对用户转发行为影响因素进行研究;徐月梅等[11]提出基于Topic2Vec的词向量表达方式,引入卷积神经网络分析新闻主题演变规律。

综上所述,针对短视频平台用户需求与动机的研究大部分都是在数据的小样本进行需求分析,缺乏大量用户数据的支持,且未能从多种用户参与行为角度完成分析,无法对短视频用户需求的整体层次和演化规律进行概括和总结;部分研究使用LDA、Topic2Vec等主题聚类模型来避免因样本数量过少而引发的结论客观性问题,但LDA模型注重挖掘文档中词的共现规律,对短文本的处理效果不佳[12];Topic2Vec模型对短文本有一定的处理结果,但上下文联系能力依旧有限,需在数据预处理阶段手动对样本进行特殊处理。

BERTopic模型是基于BERT模型提出的文档主题聚类方法,对短文本有良好的处理效果,且能够加入时间变量分析主题变化趋势,使用BERTopic模型方法对上述反映用户参与行为的视频数据进行主题挖掘,既符合研究需要,也避免了个人主观判断对行为研究的影响,并拓展了研究角度。 鉴于此,本文收集了一定时间范围内抖音平台真实的视频发布和互动数据,并引入了BERTopic模型,且样本以短文本为主、覆盖全面、代表性强;研究希望从用户创造行为与互动行为两个视角进行讨论分析,并探究其在时间维度上的变化规律。

2 研究设计与相关理论

2.1 数据获取与预处理

抖音如今已经成为全世界最为流行的短视频社交平台之一。因此,本文以抖音短视频作为研究对象,时间选择2021-2022年岁末年初之际,该时间段内社会事件数量较多,内容较为丰富;数据使用了由抖音公司提供的2021年12月-2022年3月期间每日发布的全部短视频信息,包含每一个短视频的发布者ID、标题、发布时间与点赞数。在对数据进行初步的清洗去重后,对记录中的“标题”文本数据进一步处理:依照停用词表去除文本停用词,并使用JIEBA库对标题文本进行语句分词;考虑到分类结果中形容词、副词、连词等一系列无关词汇对分类结果不会造成语义理解上的模糊,因此通过使用JIEBA词性标注后,仅筛选保留名词、专有名词、时间词、名形词、名副词与名动词,并将分词结果按照原文本顺序保存。部分采集数据信息与预处理后结果如表1所示。

表1 短视频采集信息样本示例

最终数据包括了自2021年12月16日至2022年3月14日期间89天内,共计2378129条视频记录。

2.2 主题模型

2.2.1 主题聚类

传统的主题聚类方法多使用隐含狄利克雷分布(Latent dirichlet allocation,LDA)主题分类模型[13]。LDA模型虽然在处理文本分类问题中已经可以提供具有意义的结果,但传统机器学习方法是浅层次的特征提取,对于文本背后的语义、结构、序列和上下文理解不够,模型的表征能力有限[14],且该缺陷在短文本分类中体现得更为突出。因此,其不能很好地处理短视频标题文本分类的任务。

深度学习技术取得突破性进展,以谷歌公司推出的自然语言处理模型BERT(Bidirectional Encoder Representation from Transformers)[15]为代表:该模型使用MLM(Masked Language Model)来对双向的 Transformers 编码器进行预训练,生成深层的双向语言表征,具有强大的语言特征提取能力,从而解决了文本在语义结构与顺序上的理解问题。同时,BERT也在多项NLP基准测试中均取得了惊人成绩[16]。

2021年,Maarten Grootendorst基于BERT模型提出了一种完整的文档主题聚类方法:BERTopic模型[17]。BERTopic模型是一种主题聚类无监督深度学习模型,该模型的优点在于其为各种语言模型提供使用方案的同时,不需要预先设置大部分的模型超参数,模型在训练过程中可以自行动态调整,同时给出最优聚类结果。该模型算法过程大致可概括为:通过BERT预训练模型实现文本向量嵌入,再使用UMAP(Uniform Manifold Approximation and Projection)降维算法[18]降低嵌入向量维数,并对结果矩阵使用HDBSCAN算法[19]进行聚类,从而得到各个主题簇。对于每个簇,使用C-TF-IDF(Class-TF-IDF)方法评价该聚类中各个候选主题词的重要性,最终得到每个聚类结果的关键主题词,即主题分类结果,具体过程见图1。该模型在与其他相似模型中具有更出色的表现[20]。

图1 BERTopic模型结构

主题一致性(Topic Coherence)被认为是衡量主题模型效果的重要指标之一[21]。为衡量不同模型之间的效果,本文使用主题一致性作为不同模型对文本分类后效果的评价指标。本文随机从总文本集中抽取了10万条文本数据作为样本,分别使用LDA模型与BERTopic模型抽取样本上的主题词,并计算在各个主题数量下的主题一致性指数,其结果如图2所示。在不同的主题数下,BERTopic模型均表现出了显著高于LDA模型的一致性指数,证明了BERTopic模型在本文数据集上同样表现出色。因此,本文在主题提取技术中,最终选择了BERTopic主题聚类方法来进行文本分类处理。

图2 模型主题一致性对比

文本的主题分类的具体过程为:首先,以预处理后文本作为模型输入,以词向量形式对文本表征后,按照BERTopic模型结构对整体文档集进行词嵌入、降维、聚类等算法流程,得到总主题分布簇;接下来,为各个文档主题簇使用C-TF-IDF算法提取最大概率分类主题词作为主题标签,得到文档集主题。

2.2.2 主题演化

主题演化DTM(Dynamic Topic Modeling)[22]作用在于观察文档内不同主题在时间变化的影响下产生的内容演变。本文通过使用每条记录的主题标签与时间标签,依据文档发布时间划分时间间隔,并对相同主题进行归类统计,以主题内主题词作为内容代表,从而得以研究各个时间段内主题内容构成的演化过程,以及在节日重大事件影响下的社会聚焦热点的迁移过程。通过观察、分析用户对于主题的关注演化过程,可以反映用户的需求演化过程,从而分析用户需求的结构组成与行为趋势[23]。

2.3 用户需求层次

马斯洛需求层次理论[24]是行为科学领域的重要理论之一,从抽象化的层次角度描述了人的一般需求与行为动机。该理论认为人的需求可被描述和概括为5个层次,由低到高分别为:生理需求、安全需求、社交需求、尊重需求和自我实现需求五大层次。对于短视频社用户而言,该理论具有一定的通用性。然而,想要更加准确描述短视频用户的需求层次,需要结合互联网实际情况,在该视角下对理论内涵进行进一步的阐释,将理论对于现实行为的需求描述拓展至对用户信息行为的需求描述。因此,各个层次的具体解释如下:

生理需求,即人为维持生存所需要的基础需求,包括衣、食、住、行以及人们日常生活中的不可或缺的物质需要。在本文主题下,可体现为美食发现、鞋服衣装等物质相关内容;

安全需求,即人自身为了保证自身安全所产生的一系列需求,是用户为了提升自身安全感、舒适感而产生的一系列需求,在本文主题下,可体现为身体安全,住房安全,出行安全等。健康运动,游览出行、好物购买等主题;

在上述的两层需求中,用户主要表现为一种通过短视频平台获取衣食住行方面的物质信息的行为。在互联网语境下,其可被解释为一种用户的信息搜寻行为(Information Seeking Behavior)[25]。因此,对于短视频平台用户而言,上述两层需求可被统一解释为信息搜寻需求。

社交需求,即人对于融入团体,与社会中他人交流相处的需求。在本文主题下,可体现为社交问候、家庭职场、旅行、婚姻等主题;社会认同理论认为,群体认同将为归属于群体中的个体带去情感与价值意义,成为交互过程中的“资本”[26]。在互联网语境下,双方互动分别表现为个体发布面向特定群体的视频,群体则以点赞等形式做出认同反馈。因此,个体寻求社交需求满足的过程可被解释为一种社会认同需求。

尊重需求,包括了对自我能力认可,对知识、成就抱有自信的内部心理需求以及对于他人赞同、肯定与尊重的外部心理需求,在本文主题下,可体现为对于个人观念、价值以及生活方式渴望被他人认可的展示欲与表达欲;在互联网语境下,体现为用户有意识的对自身情感的表达,进而寻求外界的认同与调节,可以认为是一种情感满足需求[27]。

自我实现需求,即为人类需求中最高层次需求,其往往在于实现自我理想抱负,发挥个人价值等目标。在本文主题下,可体现为于文化、艺术、远大理想的追求与对于文化产品摄取的精神满足。在互联网语境下,短视频平台促进了用户对于文化作品的接纳与创作,因此,这种对精神满足的追求可被解释为一种用户的文化参与行为[28]。因此,上述需求可被解释为文化参与需求。

同时,可以将五大层次的前两层概括为低级需要,后三层概括为高级需要[29]。在分析用户的发布内容时,该理论可用于划分用户发布内容所反映的不同需求层次,其具体结构如图3所示。本文将使用经过重新阐释的马斯洛需求层次理论对短视频标题内容进行剖析,进一步解释不同动机之下用户的具体创造行为以及所反映的短视频用户需求层次。

图3 互联网视角下的马斯洛层次需求理论

3 结果与讨论

3.1 创造行为需求分析

本文首先对整体数据集进行话题检测。由于所收集的抖音短视频文本数据量较大,因此在实际过程中,先将数据集等量划分为4个子数据集,每个子集容量为600 000条记录;再对每一个子集进行单独分类:对于每个数据集,经过多次实验测试,发现在确定主题数为50个时可得到主题含义最为明确的分类结果,子集的分类结果如表2所示。完成对4个子集共计200个主题的分类后,再对所有主题进行人工分拣与关键词合并;对于合并后主题,分别取出其对应主题下文档集,人工评判主题词是否能够表征该类文档主题,并就结果咨询相关专家意见,经过多位专家的审阅和讨论,得出主题下文档集有高度一致性,主题表征符合对信息用户需求的一般认识,能够代表分类下文档主旨,证实了其正确性和可靠性。最终得到总数据集的共计27个合并主题分类结果及其占比,其中包含23个日常主题与8个社会事件代表主题。对分类的主题结果,去除含义相近与重复词语,并使用马斯洛需求理论来解释、划分其背后的用户需求层次(结果如表2和表3所示)。

在文档分类结果中,用户的生理需求包含美食、鞋服两个主题,共计占比16.15% ;安全需求包含好物、数码、疫情、健身、汽车5个主题,占比11.24%;社交需求包含社交、出游、婚礼、宠物、职场、诈骗、游戏7个主题,占比13.49%;尊重需求包含情感、美妆护理、两性、乡村4个主题,占比30.54%;自我实现需求包含文娱(视频类)、文娱(音乐类)、教育、舞蹈、战争5个主题,占比10.14%。同时,社会事件包含了春节、北京冬奥会、情人节、妇女节、元宵节、网络节日二月二十二日、元旦与腊八节8个主题事件,其中多为节日类主题,共计占比18.43%。

综上所述,对于内容发布者而言,用户在低级需求上的表达(生理需求与安全需求)占比为40.88%,而用户在高级需求层次上的表达占比达到40.68%,二者分布相当。在所有需求层次中,尊重需求体现内容占比最多,达到了30.54%,是5种需求中数量最高的层次表达。该需求具体内容以情感哲理为主要内容,视频多为有关个人情感、人生哲理等方面讨论,是用户展现自身生活感悟,表现表达欲的体现(如表4所示)。该层次内容说明了抖音用户对于高需求层次内容的强烈表现动机,另一方面,说明了多数用户低层次需求已经得到满足。

表4 情感哲理主题部分视频标题展示

结合时间序列分析,在研究时间段内,由于2022年3月4-5日为我国“两会”召开时间,导致抖音平台加强了内部审核,致使视频数在当天大幅下滑,造成数据偏差。除去以上影响之外,在正常时间段内,可以观察到各个需求层次占比较为稳定,较少出现大幅度波动。尊重需求层次占比在长时间内一直占据每日视频的大部分内容,即尊重需求始终为主要需求,分布范围约在0.3%~0.4%之间,平均每日占比0.38%;其次为安全需求视频,约在0.2%~0.3%范围内波动,平均每日占比0.24%;最后,社交需求、生理需求与自我实现需求三种层次内容视频占比相似,均位于0.1%至0.2%波动,平均每日占比分别为0.15%、 0.11%~0.12%。综上,短视频用户正在将个人需求从生理需求、安全需求中转变,将创作动机提升为以尊重为主要需求的内容,尊重需求动机是目前抖音短视频平台驱动用户创造行为的主要需求动机。同时,作为最高层次需求自我实现需求,目前占比仍旧较少,推测主要用户群体的创造行为需求目前还未达到最高层次。

3.2 社会事件分析

社会事件指的是在社会中形成, 并借由各种传播媒体进行传播, 最终引起广泛社会关注并形成一定效应的事件[30]。从文档主题分类结果中,识别出一类特殊的主题分类,其本身不在马斯洛层次需求的范围内,而是针对现实世界的事件、节日话题进行讨论的社会事件主题,分别为春节、北京冬奥会、情人节、妇女节、元宵节、网络节日二月二十二日、元旦与腊八节。其中,按照话题视频数目排序,讨论度峰值从高到低分别为春节(12567)、情人节(7477)、妇女节(3742)、元宵节(3156)、二月二十二日(2808)、冬奥会(1572)、元旦(1548)与腊八节(410)。在社会事件发生时间内,该主题讨论显著地改变了时段内的视频构成,如春节期间关于节日的讨论达到了当天总视频数的72%。然而,考虑到社会事件及其仪式习俗对现实生活的特殊影响后,未发现上述社会事件下用户的发布需求层次分布有显著变化,仅春节小幅降低了用户尊重需求视频占比,提升了安全需求层次视频占比。因此认为,抖音短视频用户的发布需求较为稳定,社会事件的影响较为有限。另外,在日常时间内,可认为抖音用户的发布需求层次会维持在一定比例范围内,具有较强的稳定性。

3.3 互动行为需求分析

除了每日发布视频以外,用户同时也会在短视频平台进行浏览与互动,展现用户的低层次参与行为。考虑到用户的观看量并不能准确反映用户自身对于特定话题的参与意向与需求,因此使用用户对视频点赞数作为用户对某话题主动参与程度的衡量标准。用户的发布视频占比、话题点赞的占比如表5和6所示。

表5 用户发布视频数量占比分布

表6 用户主题点赞数占比分布

对比视频发布行为和点赞行为的需求层次占比,可以发现关注程度的差异。在发布视频中,用户表现出了对于尊重层次的高比例关注度,达到了30.5%,而对于更高层次的自我实现需求类视频关注较少(10.1%)。而在用点赞数量中,用户除了关注尊重层次视频之外(23.7%),同时提高了对于自我实现层次的关注程度(23.2%)。在关注度差异化最为明显的自我实现层次视频中,文娱类视频是该层次中的主要部分(7.5%),是用户在非创作行为下的主要关注对象。该类视频标题如表7所示。

表7 文娱主题部分视频标题展示

4 结论与建议

4.1 结 论

用户在短视频平台的创造行为具有丰富的话题范围与层次分类。研究发现用户的短视频创造行为主要聚焦于22个日常主题与8个社会节日主题,在互联网视角下,基于马斯洛需求层次理论划分为5个层次。

a.在创作过程中,用户在尊重需求层次上的关注程度最高,以该层次中的情感哲理话题类视频为代表,展现了以抖音平台为代表的用户已经大部分脱离生理、安全等低层次需求,向高层次需求迈进。同时,用户体现的差异化层次需求在长时间具有较为稳定的分布,即能够稳定地保持由高到低的尊重需求、安全需求、社交需求、自我实现需求、生理需求的关注顺序;生理需求作为需求层次的底层需求,已成为短视频平台讨论关注度的最低点。

b.用户对于社会事件有着较高的讨论度。在事件发生当日与其临近时间范围内,用户对于事件本身的讨论具有较高的热度,事件的发生显著地改变相关时段内的发布视频内容构成。然而,社会事件对于用户不同需求层次的关注程度影响十分有限,日常发布视频所体现的需求层次在社会事件发生的同时依旧保持稳定比例分布。

c.用户在发布视频时和点赞互动的关注热点存在差异。用户在自身进行发布视频时,更关注尊重层次需求,然而在浏览视频并进行点赞互动时,对于自我实现需求的关注程度显著提升。二者虽然存在关注方面的差异,却均展现了对于高层次需求的关注,即尊重与自我实现,这一点与马斯洛认为高层次的需求比低层次的需求具有更大的激励价值,即人的积极性和热情是由高层次的需求激发的结论相符[29]。

同时,本文仍存在不足之处:

第一,本文虽然结合互联网实际情况,对马斯洛需求层次理论进行了进一步阐释,但其理论本身具有局限性:未来研究应聚焦于总结提出新一代的需求理论框架,以更加充分地契合当下的互联网用户需求研究。

第二,本文分析以抖音平台短视频作为研究对象载体,使用数据来源较少,将来可将研究拓展至快手、火山、好看视频、微视等其他短视频平台,增强理论适用性。

第三,本文分析方法亦存在局限,分析主要使用BERTopic模型提取主题,并结合马斯洛需求层次理论分析数据的数量、特征。未来可以通过结合调查问卷、访谈等方法来获取用户主观意愿,尝试结合多种数据源,对研究结论进行多重验证。

4.2 建 议

基于本次研究发现,现对短视频平台提出以下两个方面的建议:

对于平台用户而言,首先,相比生理、安全层次的需求,用户对尊重、社交层次的需求及创作量更大,具体地,用户展现了对于情感、心理、人情世故、文化的高关注度与表达欲望,因此,针对用户的特殊情感需求的产品、视频、文化创作具有广泛的潜在市场,在未来面向大众的心理情感视频创作、针对个体用户的心理辅助与咨询服务可能成为下一个互联网增长风口。此外,用户对实时社会事件有着高讨论度,在事件发生临近时间范围相关视频数量与点赞总数有着较大的增长,因此创作者可以捕捉这一变化,针对特定节日调整创作重心,满足用户对社会事件相关讨论的需求。

对于平台自身而言,用户对不同需求层次的差异化关注具有不均等的特点,关注度主要集中于较高层次的需求,且这一需求比例在长时间内较为稳定,因此可以综合考虑用户的需求层次比例,通过提供视频推荐,优化用户的短视频需求满足过程,引导用户向高层次需求推进。同时,用户对不同需求层次的视频点赞数与发布数比例有所差异,即不同需求层次视频的需求与创造不平衡,因此,平台可以根据不同需求层次视频的供求差异动态调整视频推送机制,以满足用户关注而未受满足的需求,或探索可以进一步开发的需求层次。最后,平台同样可以根据特定社会事件邻近时间范围的需求、发布量变化优化推送、审核等的机制,以适应变化的视频分布。

猜你喜欢
聚类分类文本
分类算一算
在808DA上文本显示的改善
分类讨论求坐标
基于doc2vec和TF-IDF的相似文本识别
数据分析中的分类讨论
基于DBSACN聚类算法的XML文档聚类
教你一招:数的分类
基于高斯混合聚类的阵列干涉SAR三维成像
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
一种层次初始的聚类个数自适应的聚类方法研究