基于自然语言处理技术的线上头脑风暴讨论工具的研究

2024-01-24 23:33黄海平杨睿
电脑迷 2023年20期
关键词:精简头脑风暴

黄海平 杨睿

【摘  要】 线下会议往往效率不高,占用了大量的时间。文章设计了一款基于自然语言处理(Natural Language Processing,NLP)技术的线上讨论工具,以实现节省时间、成本及提高效率等目标。用户通过使用该工具能够在线上完成类似于头脑风暴的讨论。工具主要具备以下三大功能:自动精简用户输入内容,使之满足字数限制;依据关键词热度推送参与者发言,供其他参与者参考;推荐热门关键词,以便参与者快速地参与到讨论中。

【关键词】 自然语言处理;线上头脑风暴;关键词提取

一、研究意义

生产生活中经常需要举行线下的集会讨论,线下会议往往效率不高,会耗费大量的时间。文章设计了一款基于自然语言处理技术的线上头脑风暴讨论工具,将“头脑风暴”的讨论模式迁移到网络上,充分发挥其集思广益的优势,使参与者能够随时随地进行讨论,提高工作效率。

基于自然语言处理技术的头脑风暴讨论工具会提取参与者发言内容的关键词,推送更有价值的内容,使当前的讨论主题一目了然,进而产生更多有价值的想法。

二、应用场景分析及功能设计

(一)应用场景需求介绍

针对线上头脑风暴讨论,设想以下三类应用场景中的需求和应对方案:

1. 公司会议需求

每个公司都需要利用集体讨论会议来解决各种问题,线上头脑风暴讨论工具提供线上交流环境,有利于利用碎片化时间来解决单一问题(如利用通勤时间进行团队早会),从而避免造成时间与场地的浪费,大大地提高工作效率,满足公司会议的各种需求。

2. 团队集体讨论需求

在工作团队或者是学习团队中,往往由于人情世故的亲疏或成员性格原因,不能够通过集体讨论充分征集成员的意见及想法。线上头脑风暴讨论工具提供的匿名讨论方式可以使用户充分地阐释自己的观点和想法,形成了“畅所欲言,无所顾忌”的局面,为团队提供了更广泛的思维延伸的方式,能就某一问题讨论得出更为全面、更具深度的解决方案。

值得一提的是,工具的智能推荐发言功能可以有效得出参与者对某个方案的真实认可程度。

3. 居民区业主需求

生活中,会出现居民区业主需要集体进行商讨、决策的情况。线上头脑风暴讨论工具提供的讨论方式——“匿名发问,文明发言”,既方便业主间互提意见,又不影响业主之间的关系,避免产生负能量,在提高邻里间交流效率的同时,维持了良好的关系。线上头脑风暴讨论工具提供的记录与智能推荐发言功能可以更好地征集业主们对物业的意见建议,可以直接导出提交给物业,从而提升沟通效率。

(二)功能设计

根据对应用场景的分析,线上头脑风暴讨论工具功能可分为四个模块:

1. 展示全部参与者发言;

2. 推送热门发言;

3. 推荐热门关键词;

4. 发言及内容一键精简。

三、相关技术介绍

(一)核心算法选择

为了减少人工成本和时间成本,同时可以利用更丰富的数据进行训练,应当优先考虑无监督的关键词抽取算法。当前广泛使用的无监督抽取算法有TF-IDF(Term Frequency╞Inverse Document Frequency)算法与TextRank算法。TextRank适合较长的待处理文本,可以直接使用该文本进行关键词提取,不需要相关的语料。待提取关键词的文本较短时,如只有一个句子,就需要借助语料数据计算各个词语的权重。考虑到头脑风暴讨论参与者的发言普遍比较短,所以选择提取关键词选用TF-IDF算法,实现一键精简则运用TextRank算法。

(二)具体实现框架

线上头脑风暴讨论工具选择PyTorch作为具体实现框架。PyTorch是一个基于Python语言的深度学习框架,提供灵活、高效、易于学习的方式来实现深度学习模型。PyTorch最初由Facebook开发,被广泛应用于机器视觉、自然语言处理、語音识别等各个领域。

PyTorch的核心思想是使用张量(tensor)来表示数据,这使得PyTorch可以轻松地处理大规模的数据集,并且可以在GPU上进行加速。

四、解决方案设计

(一)文本预处理

文本预处理是指去除数字和符号则是为了减少噪声干扰,保留有实际意义的词语,主要包括三个步骤:

1. 分词,即将文本的序列重新组合,分解为以词语为基本单位的序列。较常用的方法有基于词典匹配或者基于统计和深度学习。

2. 纠正拼写错误,使用的主要算法和模型有Noisy Channel Model、贝叶斯。

3. 停用词的过滤,在进行NLP的应用时,往往要把文本中的一些无关紧要的词给去掉,如“啊”“了”“的”,这就是所谓的过滤停用词。主要的方法是进行词表匹配。

(二)关键词提取

线上头脑风暴讨论工具选用TF-IDF算法完成关键词的提取工作。

1. 计算TF

TF-IDF算法中的词频(Term Frequency,TF)是指某一个特定词汇在实际任务句子中出现的次数。TF通常会被归一化,一般表示为选定词汇的数量mdt与文本总词汇数Md的商tfdt=mdt/Md。

2. 计算IDF

文本中存在很多对文本意思表达贡献不大的词汇,可以使用逆向文件频率idft计算某特定词汇在文本中的重要程度:idft = log(N/(nt+0.1))。其中N为句子总数,nt为含有关键词t的句子数,idft式所表达的意义是:当文本中每句话都包含某个特定词汇时,N≈nt,idft计算结果接近0(nt加上0.1为防止分母为0),说明该词汇不重要。

3. 计算词汇权重

文本中某词汇的TF-IDF权重可表示为:

wdt=tfdt×idft

综上所述,权重wdt越大说明该词汇在文本中越处于关键地位。

4. 提取关键词

计算每个单词的权重后,根据排序选择关键词。

(三)文本精简

TextRank算法是将文本词汇看作是图的节点,利用句子间关系建立邻接矩阵。根据目标的不同,TextRank 可以实现关键词提取(Keyword Extraction)和关键句提取(Sentence Extraction)两类任务。TextRank 提取关键句,实现文本精简的算法流程一般分为以下步骤:

1. 构建关键句图

明确任务目标,并将与任务相对应的词汇添加为图的节点(vertice)。将词汇间关系添加为图中连接节点的边(edge),可以是有向边或无向边,带权重边或无权重边,完成邻接矩阵的建立。

2. 计算节点权重

根据迭代公式,迭代计算各节点的权重,直至权重收敛。

3. 提取关键句子

根据最终得分对节点进行排序,根据排序结果提取top-k作为关键句。

关键句提取任务中,邻接矩阵考虑的是句子间的相似度。

五、驗证实验

为验证线上头脑风暴讨论工具性能,设计如下实验并进行结果分析:

(一)准备处理对象文本

为测试前文所设计的文本关键词提取、计数及精简的效果,文章随机选择了如下新闻资讯作为处理对象文本:

绿美广东公共服务平台上线发布会暨绿美广东定向越野体验赛活动在梅州举办。活动将体育与绿美广东建设相融合,传承弘扬“岳山造林”精神,认真落实省委“1310”具体部署和实施“百千万工程”的有关要求,正式上线绿美广东公共服务平台,发布了“6.30助力绿美广东生态建设”公益募捐项目,进一步凝聚绿美广东生态建设的强大力量。现场600多名绿美广东定向越野活动参与者纷纷响应号召,积极参与“6.30助力绿美广东生态建设——我为家乡添片绿”活动,积极认捐认养,践行爱绿植绿护绿,共建共享绿美广东生态建设成果。

活动由省农业农村厅、南方报业传媒集团主办,梅州市人民政府、省体育局、省林业局指导,南方农村报社、广东省户外运动协会承办。

活动举办地梅州客天下,曾经是一处废弃的采石场,通过坚持不懈的绿色改造,走出了一条绿水青山就是金山银山的路子,如今的世界客都,青山环抱、绿水长流。

(二)提取文本关键词

使用Python的jieba库实现TF-IDF算法,提取文本中的关键词。

将对象文本赋值给text变量,之后调用extract_tags()函数,函数代码主要分为中文分词、计算词频TF、计算IDF,以及将所有词的值进行排序得到关键词集合等四部分。将函数的topK参数设置为5,即表示提取关键词数为5个。

对其排名前五的关键词进行提取,可以得到了以下五个词:绿美、广东、生态建设、活动、梅州。可以看到实验结果符合预期。

1. 词频统计

构造Python模块进行文本处理,统计各个词出现的次数。统计词频所需的文本数据比较庞大,可以选择网上下载的垃圾短信数据集进行实验,首先进行分词处理并且去除停用词,不同的是,在分词之前先去除一些该数据集特有的干扰项,如呼叫号码、日期以及url标签。使用Collection模型的Counter类来进行词频统计,最后会返回一个字典类型。用items()将其转换为列表,然后用sort方法进行排序,最终进行词频统计,部分结果如下:“元”1255次,“中国移动”1199次,“助手”1020次,“流量”829次,“冲浪”819次。

2. 文本精简

基于jieba库构造Python模块实现对关键句的抽取,实现对邻接矩阵的构建,并且通过迭代计算各个节点的权重值。对节点的权值进行排序,抽取权重值排在前两位的句子作为文本精简结果。

最后,抽取权值排名前二的句子作为文本摘要,结果如下:

绿美广东公共服务平台上线发布会暨绿美广东定向越野体验赛活动在梅州举办。活动将体育与绿美广东建设相融合,传承弘扬“岳山造林”精神,认真落实省委“1310”具体部署和实施“百千万工程”的有关要求,正式上线绿美广东公共服务平台。

实验结果符合预期。

六、结语

在生产生活节奏不断加快的背景下,文章对一款基于自然语言处理技术的线上讨论工具开展研究,将头脑风暴的讨论模式搬到线上,能够有效避免频繁召开线下会议造成的时间浪费,提高了工作效率。该网络讨论工具具有的推送关键词以及精简发言功能使用户能够更好地开展线上讨论。

参考文献:

[1] 李舟军,范宇,吴贤杰. 面向自然语言处理的预训练技术研究综述[J]. 计算机科学,2020,47(03):162-173.

[2] 赵京胜,宋梦雪,高祥,等. 自然语言处理中的文本表示研究[J]. 软件学报,2022,33(01):102-128.

[3] 王颖洁,朱久祺,汪祖民,等. 自然语言处理在文本情感分析领域应用综述[J]. 计算机应用,2022,42(04):1011-1020.

[4] 李晓芬,樊静东,韩安东,等. 绿美广东公共服务平台上线[N]. 南方日报,2023-10-30(A01).

猜你喜欢
精简头脑风暴
头脑对对碰
头脑对对碰
头脑对对碰
头脑对对碰
时常精简多余物品
一种面向应用的流量监测精简架构设计
《风暴中奔跑的树》
玩转脑风暴
可怕的大风暴
2015A/W暗黑风暴来袭!