基于LDA模型分类的中美欧人工智能发展比较研究

2022-11-02 13:02周松兰冷希宇
科技与经济 2022年5期
关键词:发文影响力数量

周松兰 冷希宇

(广州大学经济与统计学院,广州 510006)

21世纪以来,随着计算机运算速度及存储技术的发展以及互联网的普及,人工智能的发展驶入快车道,人工智能科技论文发表的数量与日俱增。人工智能的发展对于经济的高质量发展以及转型升级起到助推作用,若能抓住人工智能兴起的机遇,将有助于中国在科技领域实现进一步地突破。在这种情况下,中国政府于2017年颁布《新一代人工智能发展规划的通知》,着力于打造人工智能发展的先发优势。

随着人工智能研究热潮的兴起以及人工智能研究成果的逐渐丰富,对于人工智能发展水平的评价研究也不断涌现。在具体的评价研究过程中,大多数论文从人工智能专利角度进行分析,陈军等从专利角度对我国的人工智能发展状况进行了分析[1]。而在论文主题探索领域,冯佳、张云秋,谭春辉、熊梦媛根据文本分析的研究思路,利用LDA模型对人工智能论文按照主题进行了划分[2-3]。

本文在以上研究基础上,利用人工智能论文数据作为分析对象,用自然语言处理中的LDA模型实现论文主题的自动分类,并测算不同国家在人工智能不同主题方面的研究水平。

1 LDA模型人工智能论文分类

1.1 数据来源

本文选择人工智能相关的学术论文摘要、作者国籍、被引用数量作为分析的数据字段,借鉴李兴耀[4]的方法,选择中国计算机协会推荐的4本A类人工智能学术期刊《Artificial Intelligence》《TPAMI》《IJCV》《JMLR》中的论文数据作为数据源。获取数据的方式为在Web of Science中检索这4个期刊,查询得到这4个期刊所有的论文,按照全记录方式采集,并去除含有缺失字段的数据,保存剩余的论文数据,一共有10 182篇论文。

1.2 LDA主题建模

1.2.1 LDA主题建模介绍

从WOS上获取数据后,借鉴Xie T和Qin P[5]的方法,对得到的数据进行筛选。首先,摘要被认为可以代表一篇论文的基本观点,因此需要将每篇论文对应的摘要分离出来,形成一个文本。其次,由于计算机能识别的最小信息单元是单词,因此需要对文本进行分词,将每个文本转换成一条词向量,并对单个词汇进行词形还原。再次,需要去除此词向量中与论文核心观点无关的词汇,以及词形还原后的无关词汇,从而得到每篇论文的最终词向量。最后,借鉴Stevens K等[6]的方法,利用一致性指标求得论文的最佳主题数量。一致性指标的计算公式为:

coherence(v)=∑(vi,vj)Vscore(vivj,ε)

(1)

score(vi,vj,ε)=log[p(vivj)+ε/p(vi)p(vj)]

(2)

式(1)和式(2)中v是描述主题的一系列词汇;ε是平滑因子,按照经验该值取1;vi,vj分别是属于v中的任意两个词汇;p(vi,vj)表示vi和vj共现的概率。一致性指标与句子相似性呈正相关,通过计算句子中词汇共现频率获得,因此一致性指标越高越好。本文选择一致性指标最高的主题数为本文分类的主题数。

根据一致性指标确定得到论文的主题个数后,进而可以得到每篇论文对应的主题概率分布以及不同主题的词汇概率分布,并可以对论文进行分类。上述数据处理具体过程如图1所示。

图1 利用LDA算法论文分类流程图

1.2.2 LDA主题建模过程

由前文所述的数据筛选的方法可以得到不同论文摘要对应的词向量,利用LDA模型对这些词向量进行训练可以得到不同人工智能论文的分类情况。根据Wei X和Croft W B[7]的研究,训练设置的参数为:选定主题范围为1~50,设置超参数α=50/K,β=0.01,其中K为主题个数,同时设置训练次数为500次。对各个论文摘要生成的词向量利用LDA模型进行训练,并计算每个主题数对应的一致性,当主题数为12时,一致性达到最大为0.495 39,因此选择论文的主题数为12。接着根据LDA模型生成的各主题的词汇概率分布,可以得到各个主题对应的主题词,对各主题词进行解释所得结果见表1。

如表1所示,一共将论文分为12个小类别,并为了方便后续的统计研究,将这些类别按照语义合并为4个类别,分别为机器学习与底层算法、自然语言处理、计算机视觉及智能机器人4大类,其中机器学习与底层算法为人工智能的基础层,自然语言处理、计算机视觉和智能机器人为人工智能的应用层。

表1 主题分类情况表

1.3 中美欧人工智能发展情况比较分析

1.3.1 中美欧人工智能发展总体情况

本文统计了2001—2020年各国人工智能论文的数量,由于采集的每篇论文中包含对应国家,因此可以将论文按照国家进行分类,并将时间划分为5个时间段,对各个国家不同时间段发表论文数量进行统计,并选取发表数量排名前10位国家的论文数量如表2所示。

表2 中美欧各国人工智能论文发表数量

由表2可以看出,发文量前10位的国家在过去20年中发文量总体保持增长态势,美国的发文数量总体保持轻微上涨,中国的发文数量则一直处于快速上升的趋势,甚至在2017—2020年中国人工智能的发文数量为世界第二位,并与美国的发文数量接近。

1.3.2 论文活动力指数、论文影响力指数计算方法

本文根据周松兰[8]在新兴技术差距测度模型的研究成果,根据不同研究主题,计算不同国家在不同阶段的论文活动力指数、论文影响力指数,以便比较各国人工智能研究水平。论文活动力指数PpAI(paper activity index)用于衡量不同国别、不同领域论文的发表数量占比,其计算公式为:

(3)

式(3)中,Tij为i技术领域j国发表论文数量;nt为全体对象数。

论文影响力指数PpCI(paper citation index)用于衡量不同国别、不同领域论文的影响力大小,其计算公式为:

(4)

式(4)中,CTij为i技术领域j国发表论文被引用数;Tij为i技术领域j国发表论文数。

1.3.3 中美欧人工智能论文活动力指数、论文影响力指数测度

由LDA模型可以计算得到不同论文的对应的分类,并根据2001—2020年所有论文的分类、对应国家,按照式(3)计算得到不同国家、不同主题的论文活动力指数(PpAI),同理可以根据2001—2020年所有论文的分类、对应国家以及每篇论文的引用次数,按照公式(4)计算得到不同国家、不同主题的论文影响力指数(PpCI),计算结果如表3所示。

总体来看,中国在人工智能不同领域的论文影响力指数与论文活动力指数在5个时期内呈现逐年上升的趋势,在机器学习与底层算法方面,中国的论文活动力指数、论文影响力指数分别从2001—2004年的0.05、0.73上升到2017—2020年的0.18、1.52。同期美国的论文活动力指数、论文影响力指数分别从2001—2004年的0.40、0.68下降到2017—2020年的0.34、0.54。在其他国家中,加拿大、法国在该领域的表现较好,2017—2020年间的论文影响力指数分别达到了1.97,1.13。由此可以看出,中国在机器学习与底层算法领域发展迅速。

在计算机视觉领域,中国的发展较好,论文活动力指数、论文影响力指数分别从2001—2004年的0.08、0.63上升到2017—2020年的0.32、1.09。同期美国的论文活动力指数、论文影响力指数分别从2007—2020年的0.47、1.29下降到2017—2020年的0.20、0.72。在其他国家中,加拿大、英国的发展较好,论文活动力指数在2017—2020年均达到了0.11,论文影响力指数在2017—2020年分别达到了2.08,1.23。由此可以看出,中国在计算机视觉领域的科研水平在过去的20年间快速上升。

在自然语言处理领域,中国目前的发展处于上升态势,论文活动力指数从2001—2004年的0.05上升到2017—2020年的0.12,说明发文量快速上升,但是论文影响力指数缓慢下降,甚至出现停滞的情况,同期美国的自然语言处理活动力指数缓慢下降,论文影响力指数上升。在其他国家中,英国、法国的论文活动力指数较高,2017—2020年分别达到0.19,0.15,而加拿大、德国、澳大利亚的论文影响力指数较高,2017—2020年分别达到1.25,1.22,1.33。由此可以看出,相较于欧美国家,中国在该领域的发展还有较大的提升空间。

在智能机器人领域,中国的论文活动力指数、论文影响力指数从2001—2004年的0.03、1.72上升到2017—2020年的0.09,2.44,说明发文量快速上升,影响力也在逐渐上升。同期,美国在这一领域论文活动力指数及论文影响力指数从2001—2004年的0.52、1.37下降至2017—2020年的0.26、0.55,说明美国在该领域的发文数量与影响力逐渐下滑。其他国家中,加拿大在2017—2020年间的论文活动力指数达到0.14,澳大利亚、英国、法国和瑞士的论文活动力指数分别为4.81、1.09、1.07、1.74。由此可以看出,中国在该领域的论文影响力逐渐上升,但是论文的发文数量仍然占比较小。

由表2、表3可以看出,中国的人工智能水平在近几年大幅度提升,主要原因是发文量的迅速上升,2017—2020年间中国人工智能发文总量相较于2001—2004年间的发文量涨幅达到604%。同时中国论文的被引用次数增多,说明人工智能论文的发文质量也在上升,特别是在计算机视觉领域、机器学习与底层算法领域中,中国的论文发表数量与质量均实现较大程度的提高。与此同时,美国的人工智能论文发表数量保持相对稳定,但是论文活动力指数在不同人工智能主题中出现了下滑,说明美国的人工智能论文发表数量的占比出现下滑。而在论文影响力方面,美国在机器学习与底层算法、智能机器人、计算机视觉领域也均出现下滑,仅仅在自然语言处理方面呈现上升趋势。而欧洲国家、澳大利亚以及加拿大的论文活动力指数则保持相对平稳或上涨,原因在于这些国家的论文发表数量大幅度上涨,例如加拿大、英国和法国2017—2020年间人工智能发文总量相较于2001—2004年间的发文量涨幅分别为42%、129%、107%。而在论文影响力方面,不同国家的表现不尽相同,例如在计算机视觉领域加拿大和英国表现出色,2017—2020期间论文影响力指数分别达到了2.08和1.23;而在机器学习与底层算法领域,加拿大和法国表现较好,在2017—2020期间分别达到1.97、1.13。

表3 中美欧各国人工智能论文活动力指数、影响力指数

2 结论与建议

在过去的20年中,中国在人工智能领域发展迅速,无论是在论文的发表数量还是论文的影响力方面都有着较大幅度的提高,中国作为该领域的一个追赶者,在人工智能领域实现了跨越式的发展。具体表现为两点。

第一,美国、加拿大及欧洲等地区在人工智能领域的论文发表数量有上升趋势。同时欧洲、加拿大和澳大利亚的论文发表占比也呈现上升的趋势,但是美国论文发表数量占比呈现缓慢下降的趋势。

第二,中国近年来在人工智能领域论文发表数量迅速增加,同时在机器学习与底层算法、智能机器人方面的论文影响力逐渐增加,这说明中国在人工智能领域的影响力逐渐增加,并在世界范围内保持一定的领先优势,这种技术领先为中国在其他领域的技术赶超提供了值得借鉴的样板。

根据本文的研究成果,提出3点建议:

第一,继续鼓励高校参与人工智能的相关研究。中国人工智能技术起步晚,但是发展迅速,这与高校的科研工作者积极参与人工智能的研究密不可分,应该继续鼓励高校科研工作者积极参与人工智能的研究,促进中国在人工智能领域的发展。

第二,加快大数据产业生态的建设。人工智能的应用需要大量的数据作为支撑,需要在确保数据安全的基础上推进大数据产业的建设,推进数据的共建共治共享。

第三,促进人工智能与产业的融合。目前人工智能技术的产业转化程度还偏低,可以鼓励人工智能与产业的融合,提升人工智能的产业化水平,利用人工智能技术促进实体产业的发展。

猜你喜欢
发文影响力数量
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
统一数量再比较
天才影响力
黄艳:最深远的影响力
头发的数量
3.15消协三十年十大影响力事件
传媒不可估量的影响力
我国博物馆数量达4510家