丁浩 孔令圆 刘清 胡广伟
摘 要: [目的/ 意义] 本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/ 过程] 通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层, 充分考虑字符的位置信息和上下文语义信息, 并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征, 同时采用双向长短时记忆网络BiLSTM 和多头注意力机制来学习文本的长距离依賴信息, 再利用条件随机场CRF 获得全局最优标注序列。[结果/ 结论] 本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验, 模型的Precision 为92 2%, Recall 为92 0%, F1 值为92 11%, 均优于其他基线模型, 说明本文模型对于中文农业命名实体识别更精确。
关键词: 自然语言处理; 命名实体识别; 农业文本; 信息抽取; BiLSTM; CRF
DOI:10.3969 / j.issn.1008-0821.2023.11.011
〔中图分类号〕TP391 1 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 11-0135-11