吴行惠,王光昕,虞海江,张 东,孙呈梅,王 剑
(1.山东省质量技术监督局信息中心,济南 250002;2.中国科学院软件所,北京 100190;3.山东中创软件工程股份有限公司,济南 250013;4.山东明安信息技术有限公司,济南 250101)
所谓大数据企业画像,就是运用大数据技术,根据企业的基本属性、质监相关数据、社会属性和运营行为等成像要素抽象出标签化的企业模型,以图表的方式全方位展现企业信息。企业画像不但可以掌握企业的基本情况,还可以从企业的主要产品、商标、资质证书、产值、被监督抽查情况以及网络舆情等多方面进行企业综合信息展示与分析。有了企业画像,我们面对的将不再是枯燥、繁琐的文字和数字,而是一幅幅直观、易懂的图像,与传统的表格相比,图像的表现形式更为鲜活,内容也更具有针对性,便于实现立体监管、精准监管。
通过大数据企业画像可以从企业自身、企业发展时间轴、同行业间、不同地域间等维度对企业建立起整体认识。通过企业画像的应用提升质监部门的监管效率,强化对企业的监管力度,细化监管维度,建立全方位的监管能力;通过企业画像辅助企业提前发现自身问题,预防企业产品质量问题的发生,最终达到提升供给侧产品质量,服务人民群众的目的。
我们采用拟人的方式,对企业的组织结构进行分析,找出影响企业生产经营及产品质量的关键因素,进一步结合质监及各方面的信息来源,对企业进行画像。
图1 企业画像示意图
每个企业都有领导机构、管理机构和执行机构,企业的领导机构好比人的头脑,包括企业的党组织、企业领导人、董事会(理事会)、工会及其他有关组织,主要作用是企业方向把握、战略制定、领导决策。企业的管理机构,好比一个人的五脏六腑等器官,包括质量管理、技术管理、安全生产管理、财务管理、人事管理、医疗卫生、劳动保护等有关部门,这些部门的良好运转是一个企业“健康”的内在保障。企业的执行机构,好比人的四肢,包括生产车间、检验、设计、包装、运输、销售、售后服务等部门,这些部门直接影响企业产品质量、服务质量以及企业的生产效率。另外,企业的厂房、设备相当于人的躯体,对整个企业起到支撑作用。综上,一个企业的经营和产品质量状况主要取决于这些部门,我们将收集企业的关键指标,给企业做一个全面“体检”,并用直观的方式将企业的体检报告展现出来,这就是企业画像。
对应于人的社会表现,对企业来说最主要的成果就是生产的产品,我们可以从外观、功能、性能、安全、寿命等角度对企业的产品进行画像。
图2 产品画像示意图
经过山东省“金质工程”十多年的建设,我局开发并应用了15个主要的业务管理系统,为服务监管、提高公共服务能力发挥了重要的作用,同时积累了大量的信息资源。为充分发挥质监信息资源价值,提高服务和监管的有效性,我局运用大数据先进理念、技术,充分挖掘现有信息资源,组织开发了基于大数据的山东质监信息共享平台,编制了山东质监信息资源目录,梳理形成了692 个信息类,12492 个信息项,4435 个数据元;建设了数据采集平台及数据仓库,实现了关系型数据、非关系型数据的采集,已采集结构化数据138,258,082 条,非结构化文档403,618 个,数据量4.3T。开发了信息资源共享平台、数据分析应用平台,实现了5 大主题数据的关联分析和挖掘,提高了对领导决策、业务管理和公共服务的信息支撑能力。
仅仅依靠质监部门业务数据无法完整描述企业的全貌,必须从其他相关部门共享必要的政务信息。共享的政务信息包括来自国家质检总局的政务信息、来自其他政府部门的信息、来自第三方机构的信息。例如:来自国家质检总局的行政许可信息、监督抽查(国抽)信息、认证认可信息、标准相关信息等;从省工商局获取“企业注册登记备案”、“企业注销信息”等信息,辅助企业生产许可证管理和产品质量监督工作;从省安监局获取“危险化学品登记信息”、“安全生产许可证”等信息,辅助产品质量监督工作中对安全生产的强化管理;从省工商局获取 “经营异常名录”、“严重违法失信企业名单” 用于辅助执法办案当事人确定、缺陷产品召回主体的确定,以及12365举报处置指挥系统受理、分流案件的管理等。从税务部门获取企业纳税相关信息,用于辅助行政许可、产品质量监督以及行政执法调查取证工作。从电商产品质量风险监测中心获取电商平台产品销售情况及客户评价信息,辅助进行产品质量监督管理。
另外,还有来自互联网的非结构化数据。通过企业官方网站、网络舆情监测系统采集的网络、电视、报纸等与企业产品质量相关的非结构化数据。
将企业相关信息按照以下十个方面进行组织,即勾画出了一个企业的全貌。
图3 企业画像
(1)目标解读:构建企业画像的目标是为了全面了解企业生产经营状况,一方面辅助企业发现不足、提升产品质量;另一方面提高质量监督工作的有效性,将有限的行政资源集中在问题比较突出的行业和企业,实现精准监管。
(2)建模体系:对企业画像进行数据建模,结合实际的需求,找出相关的数据实体,以数据实体为中心规约数据维度类型和关联关系,形成符合实际情况的建模体系。
(3)维度分解:以质量技术监督数据实体为中心,进行数据维度分解和列举。
(4)组织画像:目前我们已经建立了数据仓库,可将质监信息资源以及从其他单位共享的信息资源进行归集和融合,按照“五大主题、六个层次”划分了数据维度。根据规则从仓库中提取数据,构建标签库,进而绘制企业画像。
结合质监提出的企业画像的实际需求,以数据仓库为数据实体,建立的数据模型如图4所示:
图4
根据数据模型,构建标签库,并按照维度进行划分,标签维度如表1所示:
表1
企业官网企业基本信息成立时间分支机构企业人员情况许可资质制造许可安装许可公司荣誉产品列表 产品类别使用标准 标准数量标准分类网络舆情产品商标法人业务关键词企业
产品画像标签如表2所示:
表2
XML是一种可扩展标记语言,用于标记电子文件使其具有结构性。因此采用XML标准规范描述标签,能够使标签清晰化、结构化,便于用户理解及计算机使用。企业画像中标签体系XML文件格式如图5
图5
标签格式说明如表3:
表3
?
3.4.1 静态标签
定义静态标签支持两种方式,分别是可视化界面操作和XML文件导入。可视化界面创建静态标签的方式如图6:
图6
静态标签的维护界面如图7所示:
图7
利用XML文件定义静态标签。用户可以利用XML文件,提前创建好标签,利用标签导入功能,将已编写完成的XML形式的标签文件导入到系统中,生成标签库。
3.4.2 动态标签
动态标签,是利用统计分析和机器学习相关算法,通过分词,过滤,分类,回归,聚类等算法获取数据,为这些数据贴上标签。
图8
利用网络爬虫获取网络舆情及企业官网信息后,通过企业服务总线提供的非结构化文件抽取、数据表抽取、数据表存储等构件,实现企业官网信息、舆情信息的分布式存储。根据已经提取并存储的数据,生成动态标签,这个过程的主要工作流如图9:
图9
(1)选择朴素贝叶斯算法做分类,提供训练数据,使用该算法进行模型训练;
(2)提供测试数据,对训练好的模型进行测试,保障预测模型的准确性;
(3)对已获取的网络信息等进行分词,过滤停用词,合并近义词;
(4)对分好词的文本向量化,利用训练好的预测模型进行分类,并将最终分好类的类别作为画像标签。
根据上述企业画像构建方法,我们对一些企业建立了画像,下面是某家电公司企业画像,从企业组成机构、涉及政府管理部门、基础设施、产品等方面建立了标签进行分析,能够直观地反映出一个企业的综合情况。
图10
由于数据来源众多,在一张图上展示不方便查看,我们可以从企业组成机构、涉及政府管理部门、基础设施、产品等多个角度展开建立子画像,如图11~15所示:
图11 某家电公司企业组成子画像
下图是综合了该企业的这几部分数据,以思维导图的方式展示的企业画像。
大数据企业画像对社会公众、企业自身、监管部门以及政府机构都具有重要的意义:
图13 某家电公司政务信息资源子画像
图14 某家电公司产品子画像
图14 某家电公司企业画像思维导图
图15
(1)面向社会公众:通过大数据企业画像的应用,一方面将大众所关心的产品质量信息进行整合归纳,通过画像手段以直观的方式反馈给社会公众,使消费者能够随时、随地查询质量信息;另一方面拓展了信息收集的渠道和手段,如投诉举报、用户评价、舆情信息的采集与融合。通过融合这些信息,更加直接贴切的获知社会大众的真实诉求,加强与消费者的互动,发动消费者参与质量监督工作,形成人人关注质量、人人监督质量、人人享受质量的良好氛围。
(2)面向企业:通过大数据的多维度分析,也可以为企业提供有参考价值的数据,从而辅助企业提升产品质量。比如,将企业本身的画像数据,在全省乃至全国的同行业中进行类比,发现自身在哪些方面有所欠缺,可以及时补强完善;也可以将企业的画像数据从时间维度,与自身不同时期的数据进行比对,找出企业在发展中哪些地方存在不足,强化企业在的主体责任,提高供给侧产品质量。
(3)面向监管部门:通过企业画像,相当于对企业进行了一个全面的“体检”,可将企业的健康状况直观、准确地反映出来,结合进一步的挖掘分析,可实现对企业的分级监管、产品质量分析和预警等功能,既能找出发展趋势良好的优质企业,也能及时发现经营不善、发展状况不良的企业,提高质量监督工作的有效性,将有限的行政资源集中在问题比较突出的行业和企业,实现精准监管。
(4)面向政府机构:企业画像中汇集了来自多个政府部门的企业监管数据,通过梳理,可以发现这些政府部门之间的数据耦合关系,如果将这些信息归集起来,可很大程度上减轻企业数据上报的负担。
通过企业画像数据,能够对某企业、某行业等维度的产品存在质量风险进行预评估,可以根据预设的预警阀值在不同的阀值段做出提醒、警告、严重警告等不同的预警功能。
画像数据:
(1)监督检查标签:日常检查、专项检查、监督检查、监督抽查。根据某企业上面四个方面的情况,确定企业的风险预警级别为提醒、警告、严重警告。
(2)综合执法标签:投诉举报、执法案件。根据被投诉举报和案件执法情况,列企业为提醒、警告、严重警告型企业。
(3)网络舆情标签:负面关键词词库数据。在网络舆情中每季度,负面关键词词库数据关联舆情条数超过5条,则企业被列为“提醒”型企业;同理,可以得出每季度、每年的“警告”型和“严重警告”型企业。
风险预警分布图如图16所示:
图16
通过企业画像数据分析,对企业进行信用评价及分级管理,被列为重点监管的企业可以作为重点监控对象对其生产经营活动、产品质量、产能等行为跟踪监管。监管等级低的企业是自身产品质量管理、企业经营活动中行为相对比较规范的企业,对应这类企业,质监部门可以适度减少监督检查等工作的投入力度。
企业信用评价和企业分级管理的画像数据,重点关注行政许可、监督检查、综合执法三部分业务综合数据;企业的舆情数据也作为分级管理的占比依据。质监企业建立起分级管理制度,一是可以使质监部门有侧重有力度的投入到企业监管工作中,让质监工作更加富有成效,事半功倍。二是,质监部门自身的资源调度可以按照相关重点工作适度调整,人、财、物的安排调配更加科学合理。
图17
应用简述:
通过企业画像数据,对企业的生产经营活动、产能、年销售额等进行监管,能够对某企业、某行业等维度进行发展状况评估,对发展趋势下降的企业、行业进行重点监管或施行其他改善政策。
画像数据:
通过行政许可中企业信息部分里申报的总资产、固定资产、主营业务收入、主营利润、净利润、年销售额、年总产值、年利润、项目总投资、年设计生产能力等数据,比对出该企业以往的发展状况,形成以供参考的未来发展趋势。
展现形式:企业发展状况折线图如图18所示。
图18
大数据企业画像在质监各项业务中的应用,有助于通过真实数据多角度对企业建立起整体认识。同时,在企业画像的基础上,基于这样的理念、方法和模型,针对业务需要,可以不断深化应用,如继续拓展产品画像、设备画像、人员画像等。
习总书记在十九大报告中指出“深化供给侧结构性改革”,“把提高供给体系质量作为主攻方向”,“加快建设制造强国”等要求。同时也可以为企业自身在制造模式、生产方式、优化品种结构、提升产品品质、改善供给结构和质量方面提供信息服务;最终为“深化供给侧结构性改革”、“加快建设制造强国”、“中国制造2025”等目标的实现提供支撑和服务。
由于我们的大数据系统应用只有两年多的时间,对企业画像的研究和应用还不够深入,文中的不当之处还请同行、专家不吝指正。