王鑫 公安部第一研究所
随着当前社会动态化、信息化的深入发展,社会形势日益复杂,各种重大突发案事件时常发生,而公安机关的实战警力不足、部门各自为战、信息闭塞滞后等问题也日益突出,传统的单打独斗式警务模式已经难以满足各地公安保卫政治安全、打击违法犯罪、维护社会稳定的实战需求。作为社会治安“晴雨表”的警情数据明显增多,积累了大量反应社会治安情况的信息,亟需以科技信息化手段作为支撑,为合成作战指挥提供有针对性和有效性的决策信息。本文基于NLP(Natural Language Processing)自然语言处理技术,构建多维数据深度挖掘分析服务在公安行业的应用,实现自动提取结构化要素、挖掘海量数据潜在信息、多维度关联分析等功能,推动NLP技术与公安信息分析研判业务深度融合。
国内各级公安指挥中心目前已经形成了长期、广泛和有价值的数据。随着科学技术的发展,已经开始对各类数据进行整合和相应的分析,但目前主要还是以数据的汇聚、类别、时间段等传统方式进行统计分析。为了深挖数据中关键的信息,建立多维数据深度挖掘分析服务,将自然语言分析技术应用于公安信息分析研判,并支撑合成作战业务落地应用,有效将公安业务工作与通用技术相结合的方式,将是未来发展趋势。
利用NLP技术对公安数据进行深度挖掘和分析,主要满足如下实战需求:
一是探索数据隐性关系,基于文本记录信息,全量解析各类信息中实体和主题词,发现不同信息间的人物关联、地点管理、组织机构关联等隐性特点,并与相关联的应急预案匹配。
二是发现时间联动规律,提供时间维度的数据细节统计,呈现按照年、月、日、时段等不同粒度时间周期上,全量数据的分布情况,提供按照关键字、主题词、区域等维度的筛选。
三是发现数据聚类特点,针对不同分类的信息,以类型为单位探索挖掘此类数据在时间、地点、关键要素等方面的特征。
通过梳理公安信息分析研判业务,基于NLP对数据进行句法分析、中文自动分词、词性标注、文本分类、信息检索、信息抽取等关键技术,建立文档语义向量化模型和分类语义模型。本文着重论述语义标注训练方法管理、分析服务处理流程制定、语义关键词自动提取、分类模型训练等重点内容,实现多维数据深度挖掘分析服务对海量数据快速、准确的全量解析,确保对每一个事件进行准确、高效的指挥调度。
为进一步提高准确度,除了对模型进行调优外,人工纠偏是一个重要的环节。通过数据信息标注管理,监督机器学习,在人工干预下为机器提供样本参考,样本越准确、越多,机器进行学习后的效果就越好、准确度更高。在人工进行类别选择纠偏标注后,被纠偏事件进入事件训练库成为样本,提升事件分类的准确性。语义标注管理需包括:
(1)随机聚类标注管理:在所有的数据中随机选取可用户自定义数量条数提供给用户,并提供与该事件信息相近的多个分类类别,用户可以单一或者批量提交数据分类类别进行纠偏标注。
(2)分类联想标注管理:通过分类类别进行数据联想聚类纠偏标注。
(3)反向剔除标注管理:对数据的分类类别进行反向选择,通过反向选择提高数据信息分类的准确性。
多维数据深度挖掘分析服务通过接口管理模块实时接入各类信息,语义提取案事件要素信息、日期时间、地址信息等,同时智能匹配对应预案,交由预案分类模型进行案事件分类分级。
NLP多维数据深度挖掘分析服务提供历史数据查询和日志查询接口,通过数据分析管理、多维数据查询管理模块进行可视化呈现;对于新类型、未识别、识别不准的数据,通过语义标注接口,作为优化模型自学习的输入,持续提升模型准确性和完备性。
首先对数据文本进行关键词语义提取,涉及到热词识别/文本聚类,命名实体识别(包括日期时间、地址)。
其次根据数据信息分词结果进行特征语义提取,计算特征权重,输入训练好的预案匹配分类器模型,选择最高匹配度预案以及关联预案。对于预案中涉及案事件定级的关键词与数字,比如伤/亡人数、是否有外籍、事发区域、事发时间等,通过正则表达式技术进行规则语义提取,使用决策树模型对案件进行定级。
为实现案事件处置预案精准匹配,利用机器学习技术,对预案中关键名词、数字、规则进行标注,制定标签模板,输入训练文本进行分词,自行标注或基于规则的自动标注。完成数据准备后进行特征提取,输出特征权重,通过权重与标签模板的运算,调整分类器的参数,形成案事件处置预案分类模型。
通过构建多维数据深度挖掘分析服务,对多年的警情历史数据进行训练,并在某地市级公安机关成功应用。
1.文本多标签分类
将文本输入机器学习流程之前,确保文本清洗和向量化步骤已经完成,使用NaiveBayes分类器和支持向量机分类器来辅助完成分类任务。自动甄别基于多个分类树形成的训练语料,结合使用SVM、DT、Xgboost等算法,一条数据可能有多个标签,每个标签可能有两个或者多个类别,对每一类警情训练一个文本分类模型。
2.文本多级分类
根据用户归类汇总形成的分类树,系统利用训练警情数据在不同类别分支之间的关联关系,拆分成特征工程和分类器两部分,在训练和推理过程中feed模型需要的数据,在学习层级信息的时候使用fine-tuning微调技术,将上层标签信息微调的方式传到下层标签的学习中。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签,从而实现在分类预测结果结合输出类别的路径类别,例如预测类别为Y,如果C同时隶属X类,则预测结果同时包括X类和Y类。
1.地址词识别
训练地址识别语义模型,将识别粒度从“省市区街道地点”的5级体系扩展到“省市区、商圈、街道、地点、楼层门牌号、方位距离”的8级体系,通过多子任务共同约束的方式,滤掉非法字符,根据分词后的词性得出概率以及词典元数据对地址文本进行地址切分。对切分结果进行地址标注,并获得最优的地址等级标注序列。同时根据上下文校正标注序列,并输出最优标注结果。
2.时间词识别
基于语义模型对输入文本进行语义分析识别技术,从文本数据中析取带有时间类语义的文本数据,辅助识别各种时间表示格式,推断不同场景下的时间语义词汇。
3.名词识别
名词识别模块包括分析主题模块、关注词汇模块、分词服务模块、索引服务模块以及名词分析模块。分析主题模块,用于确定分析数据源、定义分析主题、定义分析字段的域以及定义每个域的数据类型,产生主题数据结构;关注词汇模块,用于确定需要关注的潜在名词,形成关注词汇表列;分词服务模块用于根据主题数据结构语义提取相应域中的数据信息,并根据关注词汇表序列对数据信息进行分词,产生词元序列;索引服务模块中的索引关系生成单元用于记录词元序列中每个词元在对应域中的索引位置和记录每个词元对应的数据信息,生成词元索引文件;名词分析模块根据词元索引文件生成名词关联信息,且根据每个词元的协同概率生成置信度。
4.单位名称识别
分类利用地域识别模型、行业特征词识别模型以及CRF模型组合形成单位名称识别模型,提供单位名称识别接口服务。
5.实体词使用分析
对临时提供的实体词进行使用次数统计,根据使用或出现频次变化对实体词的数量进行管理,统计分析不同实体词在不同数据分类的应用场景下的适配性,避免无效数据对系统性能造成负面影响。
1.关键词识别
本服务采用三种识别模型:
有监督模型:作为二分类问题进行处理,判断文档中的词和短语,提供已经标注好的训练语料,利用历史语料训练关键词语义提取模型,对文档进行关键词抽取。
半监督模型:只需要少量的训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词语义提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
无监督模型:不需要人工标注的语料,利用机器学习方法发现文本中比较重要的词作为关键词,进行关键词抽取。
2.关键短语识别
提取典型的、有代表性的短语可代表文本的关键内容。先利用停用词表生成候选词,再计算各个候选词和短语的得分,基于序列标注模型的方法,转换成核心成分识别问题。通过观察到的文档集合,基于按不同应用场景的语料数据使用无监督的联通权重的图神经网络训练方法形成模型,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序,加入利用词语在文章中首次出现的位置作为特征,分析当前输入数据的可表示主题的最佳短语。
3.热词关联识别
基于历史警情数据进行语义分析,以30日为时间窗口,连续滚动建立每周关键词和停用词库,对获取的实时文本内容进行自动分词,解决新词和不规则词在警情中口语化表达的问题。根据关键词出现的频率和时间远近程度计算其热度值,之后依照该词的热度值,利用贝叶斯多维分类模型对比每周热词排行榜,获得热词的关联趋势。
在实战中通过真实数据对该模型进行迭代验证和纠偏,其文本标签分类准确率达95%,对地址、时间、名词、单位名称等实体识别准确率达97%以上,为上层警情研判系统提供稳定、可靠的多维数据分析服务。
本文将NLP技术运用在公安研判分析工作中,根据业务实战需求,构建基于NLP的多维数据深度挖掘分析服务,首次提出并定义了地址、时间、名词、单位名称等实体识别类服务接口,并在实战中得到较好的验证结果。同时,逐步建立了数据中关键信息要素标签体系,推动NLP技术在公安实战中的深度应用,为侦查破案、维稳处突、服务民生等工作提供强大的技术支撑,有效提升公安工作效能,不断助力智慧警务建设。