基于融合时空数据的车辆加油行为多视图深度异常检测框架

2019-12-23 07:19丁景全马博李晓

计算机应用 2019年11期

丁景全马博李晓

摘要：车辆加油时空数据多源异构、关系复杂，现有成熟的异常检测方法难以对时空离散的加油活动数据进行分析，因此提出基于融合时空数据的车辆加油行为多视图深度异常检测框架。首先基于统一概念模型（UCM）对静态信息和动态活动数据进行关联融合管理，然后从空间视图、时间视图和语义视图角度对时空数据进行编码和转换，最后基于三种视图构建深度时空异常分析检测框架。车辆加油时空数据集上的实验结果表明，多种异常检测方法在融合时空数据上均可取得更低均方根误差（RMSE），平均降低10.73%，所提方法比现有主流方法中结果最好的长短时记忆网络（LSTM）的RMSE降低19.36%。在信用卡欺诈公开数据集上的实验结果表明，所提方法较之逻辑回归模型，马修斯系数（MCC）提高了32.78%。以上实验验证了所提方法的有效性。

关键词：时空数据;车辆加油;数据融合;异常检测;深度学习

中图分类号：TP391.4

文献标志码：A

Multiview deep anomaly detection framework for

vehicle refueling behaviors based on spatiotemporal data fusion

DING Jingquan1，2， MA Bo1，2，3*， LI Xiao1，2，3

1.The Xinjiang Technical Institute of Physics and Chemistry， Chinese Academy of Sciences， Urumqi Xinjiang 830011， China;

2.University of Chinese Academy of Sciences， Beijing 100049， China;

3.Xinjiang Laboratory of Minority Speech and Language Information Processing， Urumqi Xinjiang 830011， China

Abstract：

The multisource heterogeneity and complicated relationships of spatiotemporal data of vehicle refueling bring great challenges to existing anomaly detection approaches. Aiming at the problem， a multiview deep anomaly detection framework for vehicle refueling based on spatiotemporal data fusion was proposed. Firstly， the static information and dynamic activity data were correlated， fused and managed based on Unified Conceptual Model （UCM）. Secondly， the spatiotemporal data were encoded and converted according to spatial view， temporal view and semantic view. Finally， a deep anomaly detection framework was constructed based on the above multiviews. The experimental results on vehicle refueling spatiotemporal dataset show that all anomaly detection approaches tested can achieve an average decrease in the Root Mean Square Error （RMSE） by 10.73%， and the proposed multiview spatiotemporal anomaly detection framework can obtain a decrease in the RMSE by 19.36% compared to LSTM （Long ShortTerm Memory）， which gets the best results in thestateoftheart methods. And the Matthews Correlation Coefficient （MCC） of the proposed method on the credit card fraud dataset is increased by 32.78% compared with that of Logistic Regression model. All experimental results demonstrate the effectiveness of the proposed anomaly detection framework.

Key words：

spatiotemporal data; vehicle refueling; data fusion; anomaly detection; deep learning

0 引言

異常检测是指从数据中找出不符合期望预期模式的问题，这些不相容的模式在不同的应用领域中有着差异性的称呼，如：异常（Anomalies）、离群点（Outliers）、不一致观察（Discordant observations）、例外（Exceptions）、偏差（Aberrations）等，其中，异常和离群点使用最为广泛，有时也可交替使用[1]。异常检测在真实场景下有着广泛的应用，如金融领域的欺诈检测、网络安全中的入侵检测、工业生产领域的缺陷检测、动态网络中的事件检测以及视频中的活动监控等[2-8]。

时空异常检测属于异常检测的子领域，目的是从一个连续时空范围内的活动中，挖掘出不符合期望预期的各种模式。与单纯的时间序列异常检测不同，除了考虑时间的周期性和趋势线之外，还需将空间的距离和空间的层次放在同一个框架内进行度量和计算。

具体到加油领域，时空异常是指在一定地域范围内不间断的加油活动中，偶发的、可疑的、不同于常规规律的可能对安全稳定造成潜在威胁的加油行为。如同一辆车在短时间内多次加油或同一个人在短时间内多次购买散装油，均可能蕴含着潜在威胁。因此，亟须开展车辆加油领域的时空异常检测分析研究。该问题主要面临如下几个方面的难点：

1）加油异常难定义、难标注、正负例数据严重不均衡;

2）加油数据地域分布离散、广泛，具有数据多源异构性和物理空间离散性，难以直接用于异常检测分析;

3）由于数据本身的时空粒度多变性特征，难以通过单一技术框架进行分析处理。

针对上述问题，本文提出了基于融合时空数据的车辆加油行为多视图深度异常检测框架，工作主要包括3个部分：1）基于自主构建的统一概念模型，对加油时空多源异构数据进行关联和融合;2）从空间视图、时间视图和语义视图三个视角，对时空加油数据进行特征抽取;3）通过统一的深度学习框架，将上述多种视图通过统一的深度学习框架进行训练，实现加油时空数据的异常检测。图1为本文方法的总体流程，其中CNN表示卷积神经网络（Convolutional Neural Network）、LSTM表示长短时记忆（Long ShortTerm Memory）、GCN表示图卷积网络（Graph Convolutional Network）。

1 相关工作

由于加油领域数据的特殊性和敏感性，文献中鲜见相关研究。Fujimaki等[9]针对航天飞船故障难以建模的问题，提出只针对正常数据进行建模，再去检测测试集中异常的方案;文献[10-11]通过半监督方法，利用大量的未标注数据和少量的标注数据构建分类器，从而更好地解决特定的异常检测问题。上述方法处理真实场景下异常检测问题的思路可以给我们带来一定的借鉴意义，但也存在一定的局限性。首先，上述方法虽能在一定程度上解决异常定义和发现的问题，但同样也会带来假异常率居高不下的副作用;其次，上述方法主要针对时序数据进行处理，未提出对时空数据进行有效分析的方案。因此如何有效地定义和发现时空异常成为了异常检测领域的一个研究难点。

再者，加油信息在物理空间以人、车、加油站相关的多元形态（时序数据、空间数据、图像数据、天气数据等）呈现，具有数据多源异构性、物理空间离散性和时空粒度多变性的特征，需要对离散、多模态的异构时空数据进行融合分析。目前数据融合的方法在解决某一具体问题时，往往需要考虑多种来源、多种模态的数据，且临时对数据集合进行组装的处理方式难以复用。数据库领域的研究多采用模式映射的數据集成方法[12-13]，对多源数据进行融合;在机器学习和人工智能领域，研究者则采用了知识图谱和概念模型的方式对知识进行关联和融合[14]。无论是传统的数据集成方法还是较新的知识图谱方法，均是对静态的数据和知识进行组织，如何对动态数据和知识进行管理以及如何对融合数据的多维特征进行表示尚无成熟的解决方案。

在时空异常分析与检测方面，目前不同的技术或算法大多仍聚焦于较为单一的数据类型和业务特点，并不具备较好的迁移性，当将这些方法用于处理加油领域数据时都具有技术上的偏向性或缺陷：Zhang等[15]针对时空数据的独特属性设计了一种端到端的深度学习框架，并用于交通流量预测;Cheng等[16]的研究表明，通过综合使用空气质量监测站、兴趣点（Point Of Interest， POI）、路网等多模态数据并配合注意力（Attention）机制，可以提升城市空气质量预测效果。虽然上述研究针对不同时空数据分析应用场景提出了具体的解决方法，但在如何应对复杂应用场景下的多源异构时空数据异常分析与检测方面，尚待开展进一步的研究。

由上述分析可看出，对于面向实际应用的异常检测问题，往往需要具体问题具体分析，且由于数据模态的差异性和数据来源的多样性，难以通过一种模型或框架进行分析处理。基于此，本文提出了一种基于融合时空数据的车辆加油行为多视图深度异常检测框架。首先，对涉及多种模态的加油行为数据进行关联和融合，从而将同一对象（加油车或加油人）来自不同加油站的所有加油行为在时间和空间维度上进行合并;然后，分别通过空间视图、时间视图和语义视图对不同模态的特征进行处理，并通过注意力池化层对各个视图的特征进行融合;最终，实现提升加油异常行为检测准确率的目标。

2 基于统一概念模型的时空数据融合建模

为了有效解决跨领域、跨系统的数据重用和共享问题，本文采用了一种形式化和可重用的数据表示方式，对数据模型和数据间的关联关系进行管理，从而形成数据网络以实现融合与共享。数据融合建模过程主要包括统一概念模型（Unified Conceptual Model， UCM）的构建与生成、以及图实例数据的自动转换。

2.1 统一概念模型构建

在车辆加油业务领域中，人、车辆、加油站之间存在大量的关系和活动。基于图数据（Graph Data）的表达能力和现实世界的事物规律，首先构建由概念（Concepts）、属性（Properties）、关系（Relations）、活动（Activities）、实例（Instances）五要素构成的五元组元数据模型，再建立多源异构数据与该元数据模型的映射模型，从而完成多源异构数据到图数据的统一映射过程。概念对应现实世界中的事物抽象，并包含时空属性;实例是概念的具体对象;关系用于建模现实世界对象间的显式关联与隐式关联;实例在时空维度上的变化则通过活动进行表示。概念、实例、关系、活动均可包含多个属性。

由底层数据到五元组元数据模型的映射如图2所示。

基于统一的概念知识表示，开放动态环境下的概念模型构建将采用主动学习（Active Learning）的方式，结合领域专家知识和人机交互反馈，通过自顶向下和自底向上的混合模式融合跨领域多源数据，实现统一概念模型的构建和动态扩充。主要流程如图3所示。

2.2 图实例数据自动转换

以统一概念模型作为数据抽取与转换依据，每条待融合的新数据首先转换为一项图数据实例，通过将数据的原始来源和唯一标识符信息作为元数据属性进行存储，从而保证数据的可追溯性。对于每项实例数据，都需要融合到已存在的实例图中，借鉴实体链接的思想，将每项待融合的数据看作一个识别到的新实体，将已存在的图实例数据作为知识库，通过改进的候选实体（Candidate Entities）排序算法进行实体链接操作，进而完成数据关联与融合过程，如图4所示。

候选实体排序方面，采用多特征融合的方法进行。具体选取的特征包括本地特征（local Similarity， lSim），上下文特征（contextual Similarity， cSim）和全局特征（Global Similarity， coh）。

本地特征采用分布式词向量word2vec进行表示，通过抽取待融合数据节点及其属性的文本内容，训练词嵌入模型，作为实体排序的第一个打分项。

对于上下文特征，采用嵌入主题模型lda2vec来进行表示。主题模型可以对文档的潜在语义和主题进行有效建模，而词向量技术可以对上下文信息进行有效建模，因此将二者结合，既考虑到了上下文信息，又兼顾到本地信息。为了对上下文特征进行建模，首先定义一个目标函数：

L=∑ ijLnegij（1）

其中，Lnegij表示word2vec中的负采样方法，负采样如式（2）所示：

Lnegij=lbσ（cj·wi）+∑nl=0lbσ（-cj·wl）（2）

其中：cj表示上下文向量，wi表示目标词汇的词向量，wl表示负采样词汇的词向量。

对于全局特征，采用一种基于图的方法进行刻画，其中s和e表示需要计算相似度的一对节点，CONTRe（m，c）表示所有对相似度计算起到贡献作用的节点集合。

cohs（e）=cSim（s→e）·lSim（s）（3）

CONTRe（m，c）=

{（m′，arg maxc coh（m′，c）（e））∈V，m′≠m}（4）

coh（e）=∑s∈CONTRe（m，c）cohs（e）（5）

这样最终的打分以及实体选取和消歧过程通过式（6）、（7）计算得到：

score（e）=coh（e）+cSimavg·lSim（e）（6）

disambiguation（m）=argmaxc∈Cm score（m，c）（7）

3 多视图深度时空异常检测框架

完整的加油活动涉及多种类型的数据，包括人、车辆、加油站的基本信息、前端设备采集的图像、加油活动自身产生的时序数据和空间轨迹数据，以及外部因素数据如天气、节假日等。现有的异常检测方法大多只适用于上述数据中的某一种类型，很难对加油活动所涉及的全部数据进行分析处理。

进一步的业务分析可以发现，上述数据可分为静态数据和动态数据两类。在本文的研究中，将人、车辆、加油站的基本信息、前端设备采集的图像等数据归类为静态知识型数据;将加油活动产生的时序数据和空间轨迹数据，以及外部因素数据如天气、节假日等数据归类为动态活动数据。对于静态知识型数据，通过前述的数据融合治理和联合嵌入表示学习两种技术手段，可预期达到归一化和低维数值化的效果并可用于后续计算。对于动态活动数据，构建一种基于多视图的深度时空异常检测模型框架，将时序数据、空间轨迹数据连同静态数据一起作为模型的输入，来判断模型的输出是否为异常。具体地，将上述数据划分到3个视图，分别是空间视图（Spatial View）、时间视图（Temporal View）和语义视图（Semantic View），整个框架的算法流程如下所示。

算法1 基于数据融合的时空异常检测框架训练过程。

输入来自不同加油站的原始数据; 领域专家辅助知识输入;天气、兴趣点、路网等外部数据;

输出训练好的时空异常检测框架。

程序前

// 构建统一概念模型

1）

结合领域专家知识，构建UCM//基于UCM进行数据融合

2）

forS（1≤S≤N） stations

3）

for refueling recordsrin station Sn

4）

run Graphbased Entity Linking

5）

end

6）

end//融合完成的基于圖结构的加油数据集

7）

D ←

8）

forobjecti（a vehicle or a person） do

9）

apply CNN to learn spatial features//抽取空间视图特征

10）

apply GCN to learn semantic features//抽取语义视图特征

11）

for 1≤t≤T do

12）

apply LSTM to learn temporal features

//抽取时间视图特征将三种视图进行组合

13）

combine the latent features by attention pooling layer for time t

14）

put an training instance into D

15）

end

16）

end

17）

initialize all learnable parameters θ in the framework

18）

repeat

19）

randomly select a batch of instances Db from D

20）

find θ by minimizing the objective with Db

21）

until stopping criteria is met

程序后

空间视图处理加油活动中产生的空间轨迹数据。首先对轨迹图像进行CNN卷积操作，降低处理维度，抽取关键特征，然后再对卷积后的输出进行全连接作为空间视图的输出。

具体地，对于一个图像Yit∈RS×S×1，CNN卷积模块会将其作为输入Yi，0t送入K个卷积层处理：

Yi，kt=f（Yi，k-1t*Wkt+bkt）（8）

其中，Wkt和bkt是CNN模块中待训练的两组权重和偏置参数，经过K层卷积后，通过flatten层将输出Yi，kt∈RS×S×λ转换为向量sit∈RS2λ，最后通过全连接层压缩sit的维度，输出Spait。

时间视图处理加油活动中产生的时序数据和天气等外部数据。首先将空间视图输出、时序数据和外部数据拼接组成一组时序输入送入LSTM卷积神经网络，时间视图的输出是模型判断的下一时刻的状态。

语义视图处理加油活动涉及的人、车辆、加油站信息和图像等静态数据。首先从融合数据中提取人、车辆、加油站的基础信息及对应的关联关系，然后将静态数据转换为一组低维向量表示的形式，用于后续处理，如图5所示。

其中，静态数据的表现形式是以图（Graph）结构存储的融合数据，具体地，图嵌入表示主要通过图卷积网络（Graph Convolutional Network， GCN）实现，将图G=（V，E）作为输入，目的是通过图卷积网络学习得到图中节点的特征表示。对于每个节点i，特征表示为xi，则所有节点可以组成一个N×D的特征矩阵X（N是节点的数量，D是特征的数量）。对于图的结构，则可以通过邻接矩阵A表示。模型的输出表示为Z，是N×F的特征矩阵，F表示输出层每个节点特征的数量。

每层神经网络进而可以通过下述非线性变换得到：

H（l+1）=f（H（l），A）（9）

其中：H（0）=X，H（L）=Z，L是GCN中层的数量。一个简单的f（·）形式如下：

f（H（l），A）=σ（AH（l）W（l））（10）

其中：W（l）表示神经网络中l层的权重矩阵，σ（·）表示非线性激活函数，如ReLU（Rectified Linear Unit）。

模型会将时间视图和语义视图的输出进行拼接，并再次通过注意力池化层进行权重计算，生成一组输出后送入损失函数，从而完成深度时空异常检测框架的训练过程，损失函数的定义采用如下形式：

L（θ）=∑mi=1（yit+1-it+1）2+γyit+1+it+1it+12（11）

其中，it+1表示模型输出预测标签，yit+1表示实际的数据标签。θ表示模型需要训练的所有参数，γ是模型的超参数。

4 实验与分析

4.1 实验配置

为了验证所提方法对加油时空数据异常检测的有效性以及所提方法的通用性，本文选择在中国某省份汽车加油数据集和信用卡欺诈公开数据集[17]上进行实验，前者为本文所需解决应用场景的真实数据集，后者为带有异常标签标注的公开数据集。实验机器系统为ubuntu14.04 64位，CPU 72核，型号为Intel Xeon Gold 6140 CPU 2.3GHz，内存256GB，显存96GB，Python版本为3.6，Keras版本为2.0.8，数据库为MongDB 3.0。

4.2 实验数据集

4.2.1 车辆加油数据集

实验数据选取某省份1个月内的所有加油记录，为了保证实验的准确性，去除了数据中部分无效数据，并选取在1个月时间周期内，加油次数大于3次的所有相关数据，其中每条记录主要包括唯一性标识、加油人员身份证号码、加油站编号、车牌号等信息。相关数据項全部进行脱敏加密处理，数据规模为505-643条。特征提取方面，对数值型特征进行归一化处理，非数值型特征进行数字编码后再归一化处理。同时收集该时间范围内路况、天气等数据作为外部因素导入，并最终得到可靠的实验数据集合。

原始数据无标签标注，通过专家经验、预置规则并结合人工判断的方式，对约10%的数据进行了标注。实验结果验证方面，通过抽取20%结果配合采集的图像人工复检的方式进行验证。

为了验证本文所提异常检测框架在预处理后的数据集上的有效性，通过与一组现有异常检测方法进行比较评估，采用均方根误差作为评价函数，对预测结果进行评价：

RMSE=1m∑mi=1（yit+1-it+1）2（12）

其中：it+1和yit+1分别表示预测值和实际值，m代表样本总数。

4.2.2 信用卡欺诈数据集

信用卡欺诈数据集包括了某两天内各个时间点的284-807 笔交易记录，其中492笔交易已标注为欺诈行为。数据集定义欺诈因素共28项，另外两项数据是交易金额和欺诈标签。数据集划分方面，从数据集中的正常值取80%作为训练集，将剩余20%的正常值以及全部异常值（欺诈行为）作为测试集。

由于异常检测数据集一般均属于正负例非均衡数据集，马修斯系数（Matthews Correlation Coefficient， MCC）能够有效衡量不平衡数据集，为了验证所提方法的有效性，本文将MCC作为信用卡欺诈数据集上的性能衡量指标。其具体公式如下：

MCC=

TP*TN-FP*FN（TP+FP）*（TP+FN）*（TN+FP）*（TN+FN）（13）

其中：TP（True Positive）表示挖掘出的样本为真实异常实例的数量，TN（True Negative）表示挖掘出的样本为真实正常实例的数量，FP（False Positive）表示挖掘出的样本为假异常实例的数量，FN（False Negative）表示挖掘出的样本为假正常实例的数量。

4.3 實验结果与分析

4.3.1 车辆加油数据集实验结果分析

在车辆加油数据集上，选择雅虎开源异常检测框架（Extendible Generic Anomaly Detection System， EGADS）[18]中的移动平均模型（Moving Average Model）、统计模型（Naive Forecasting Model）、回归模型（Regression Model）、季节模型（Olympic Model）、指数平滑模型（Double Exponential Smoothing Model）以及循环神经网络LSTM作为基线对比系统。通过在未融合原始加油数据和已融合数据上运行基线方法和所提方法，对比均方根误差（Root Mean Square Error， RMSE），进而衡量数据融合和所提异常检测框架的有效性，实验结果如表1所示。

从实验结果中可以观察到所有方法在融合后数据上均取得了更低的均方根误差，均方根误差平均降低10.73%，说明数据融合作为数据治理的一项步骤和方法，可以有效提升数据质量，为后续分析带来性能提升。另外从表1中还可看出，本文所提异常检测框架取得了最好的性能，较之基线方法的最好结果降低了19.36%的均方根误差。原因主要在于基线方法均是对时序数据进行异常分析处理，未能融合其他类型数据如图像、空间数据、天气数据等，也从一定程度说说明，能够处理多种数据类型的方法可以在实际异常检测分析中取得更好的效果。

4.3.2 信用卡欺诈数据集实验结果分析

在信用卡欺诈数据集上，选择在此数据集上表现效果较好的逻辑回归（Logistic Regression）模型与本文所提方法进行对比分析，MCC实质上表示真实结果与预测结果二元分类之间的相关系数，并返回介于-1到+1之间的数值。结果越接近+1，表示预测越精确，-1则表示预测结果和真实结果完全不一致，0表示模型效果接近于随机预测。实验结果方面，逻辑回归模型取得的MCC值为0.230-0，所提方法MCC值为0.305-4，所提方法较之逻辑回归模型，在MCC上取得了32.78% 的性能提升，验证了所提方法在信用卡欺诈公开数据集上，同样能够有效地检测到欺诈行为，并较之现有方法提升了一定的预测精度。

5 结语

本文鉴于传统异常检测方法难以处理多源异构时空加油数据的缺陷，首先，针对业务领域进行统一概念模型构建，并根据融合模型自动地对多源异构数据进行转换和关联，将离散的时空数据转换为以图的方式进行存储和管理的融合数据;然后，针对实际业务中存在的多种数据类型，提出了基于多视图的深度异常检测框架，进而克服了传统方法只能处理时序数据，难以处理其他类型数据的缺陷; 最后，在真实车辆加油数据集和信用卡欺诈公开数据集上，对所提方法与基线系统进行了性能比较。在车辆加油数据集上，所提方法较之基线方法的最好结果降低了约19.36%的均方根误差;在信用卡欺诈公开数据集上，较之逻辑回归模型，所提方法取得了更高的MCC值。证明了本文所提方法无论是在处理具体车辆加油领域的时空数据异常检测问题上，还是在更通用的异常检测处理上，均具备较稳定的性能优势。

所提方法虽然取得了较好的实验结果，但在处理实际异常检测问题时，异常数据的稀缺和难以标注仍是一项阻碍异常检测研究开展的难题，后续的研究中将重点关注无监督的异常检测方法，探索如何在无标注数据集上开展异常检测研究。

参考文献（References）

[1] AGRAWAL S， AGRAWAL J. Survey on anomaly detection using data mining techniques[J]. Procedia Computer Science， 2015， 60： 708-713.

[2] ABDALLAH A， MAAROF M A， ZAINAL A. Fraud detection system： a survey[J]. Journal of Network and Computer Applications， 2016， 68： 90-113.

[3] BUCZAK A L， GUVEN E. A survey of data mining and machine learning methods for cyber security intrusion detection[J]. IEEE Communications Surveys and Tutorials， 2016， 18（2）： 1153-1176.

[4] NAIK N， DIAO R， SHEN Q. Dynamic fuzzy rule interpolation and its application to intrusion detection[J]. IEEE Transactions on Fuzzy Systems， 2018， 26（4）： 1878-1892.

[5] DOSHI D A， KHEDKAR K B， RAUT N T， et al. Real time fault failure detection in power distribution line using power line communication[J]. International Journal of Engineering Science， 2016， 6（5）： 4834-4837.

[6] 陶涛，周喜，马博，等. 基于双向LSTM的Seq2Seq模型在加油站时序数据异常检测中的应用[J]. 计算机应用， 2019， 39（3）： 924-929. （TAO T， ZHOU X， MA B， et al. Abnormal time series data detection of gas station by Seq2Seq model based on bidirectional long shortterm memory[J]. Journal of Computer Applications， 2019， 39（3）： 924-929.）

[7] YU W， CHENG W， AGGARWAL C C， et al. NetWalk： a flexible deep embedding approach for anomaly detection in dynamic networks[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM， 2018： 2672-2681.

[8] 陳万志，李东哲. 结合白名单过滤和神经网络的工业控制网络入侵检测方法[J]. 计算机应用， 2018， 38（2）： 363-369. （CHEN W Z， LI D Z. Intrusion detection method in industrial control network combining white list filtering and neural network[J]. Journal of Computer Applications， 2018， 38（2）： 363-369.）

[9] FUJIMAKI R， YAIRI T， MACHIDA K. An approach to spacecraft anomaly detection problem using kernel feature space[C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM， 2005： 401-410.

[10] ASHFAQ R A R， WANG X， HUANG J Z， et al. Fuzziness based semisupervised learning approach for intrusion detection system[J]. Information Sciences， 2017， 378： 484-497.

[11] NOTO K， BRODLEY C， SLONIM D. FRaC： a featuremodeling approach for semisupervised and unsupervised anomaly detection[J]. Data Mining and Knowledge Discovery， 2012， 25（1）： 109-133.

[12] LENZERINI M. Data integration： a theoretical perspective[C]// Proceedings of the 21st ACM SIGMODSIGACTSIGART Symposium on Principles of Database Systems. New York： ACM， 2002： 233-246.

[13] DONG X L， SRIVASTAVA D. Big data integration[J]. Proceedings of the VLDB Endowment， 2013， 6（11）： 1188-1189.

[14] MA B， JIANG T， ZHOU X， et al. A novel data integration framework based on unified concept model[J]. IEEE Access， 2017， 5： 5713-5722.

[15] ZHANG J， ZHENG Y， QI D. Deep spatiotemporal residual networks for citywide crowd flows prediction[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. Pola Alto： AAAI Press， 2016： 1655-1661.

[16] CHENG W， SHEN Y， ZHU Y， et al. A neural attention model for urban air quality inference： learning the weights of monitoring stations[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Pola Alto： AAAI Press， 2018： 2151-2158.

[17] AGNIHOTRI M. Credit card fraud detection[DB/OL]. [2017-04-17]. https：//www.kaggle.com/mlgulb/creditcardfraud.

[18] LAPTEV N， AMIZADEH S， FLINT I. Generic and scalable framework for automated timeseries anomaly detection[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM， 2015： 1939-1947.

This work is partially supported by the Natural Science Foundation of Xinjiang （2019D01A92）.

DING Jingquan， born in 1973， Ph. D. candidate， associate research fellow. His research interests include big data government and analytics.

MA Bo， born in 1984， Ph. D.， associate research fellow. His research interests include big data analysis， knowledge graph.

LI Xiao， born in 1957， M. S.， professor. His research interests include multilingual information processing， information management system.