基于R语言的可视化技术在食品生产经营主体风险分级数据上的应用

2023-11-06 17:19:56应轩宇蔡强纪伟
食品安全导刊·中旬刊 2023年9期
关键词:R语言数据可视化食品安全

应轩宇 蔡强 纪伟

摘 要:为了探索数据可视化技术在食品生产经营主体风险分级中的应用,本文基于R语言及ggplot2、plotly、shiny等扩展包构建食品生产经营主体风险分级数据可视化系统,实现区域整体状况、主体风险信息、风险识别、时间趋势比较等的全面展示与人机交互。该数据可视化技术有助于动态、快速、直观地開展食品生产经营主体的风险评价,强化风险表征,辅助监管决策。

关键词:食品安全;风险分级;数据可视化;R语言

Application of Visualization Technology in Risk Classification of Food Operators Based on R Language

YING Xuanyu, CAI Qiang*, JI Wei

(Yangtze Delta Region Institute of Tsinghua University, Zhejiang, Jiaxing 314006, China)

Abstract: In order to explore the application of data visualization technology in the risk classification of food production and management entities, this paper builds a risk classification data visualization system for food production and management entities based on R language and ggplot2, plotly, shiny and other extension packages. To realize the comprehensive display and human-computer interaction of the overall situation of the region, subject risk information, risk identification, time trend comparison, etc. The data visualization technology is helpful to dynamically, quickly and intuitively carry out the risk assessment of food production and management entities, strengthen the risk characterization, and assist the regulatory decision-making.

Keywords: food safety; risk classification; data visualization; R language

食品生产经营主体风险分级是指市场监督管理部门结合食品生产经营者的食品类别、业态规模、管理能力、记录情况等,按照指标量化评价,动态划分食品生产经营者风险等级,统筹监管资源与能力,对食品生产经营者实施差异化、精准化监督管理,有助于强化食品生产经营风险管理,优化监管资源配置,科学有效地实施监管,落实食品安全监管责任,保障食品安全[1-2]。但食品安全风险因素复杂、生产经营主体数量多、情况参差不齐,导致食品安全数据量大、更新快、覆盖面广,分析难度较大。同时,地方监管部门专业人力相对有限,存在现有的信息呈现方式较为单一低效、食品安全后评价缺失等问题。2020年8月出版的《中国食品安全现状、问题和对策战略研究(第二辑)》中提到:要强化食品安全风险信息采集、统计、挖掘与应用,推动食品安全风险分级管理[3]。

近年来,数据科学与可视化技术的发展为风险分级数据的分析提供了新的思路和手段。在数理统计的基础上,借助可视化技术加强信息呈现,直观、快速、交互地对多维度、高复杂度、大数据量的风险分级数据进行生动、丰富、高效的展示,以深入探索单因素的分布及多因素间的关系[4]。

1 R语言与可视化技术

在公共卫生学界,R是一种流行的开源编程语言[5]。R语言提供数据科学工作的交互式环境,是各领域应用最广的数理统计工具。得益于ggplot2等知名的数据可视化包,R语言的一个重要特征在于强大的数据可视化能力,可实现基于图形语法(Grammar of Graphic,GoG)的数据展示[6]。利用可视化技术,将食品生产经营主体风险分级数据通过坐标轴、颜色、透明度、形状以及大小等特征进行展示,可以直观全面地描述风险的特征及分布、变化及相关关系,实现地方重点区域、重点行业、重点企业、重点风险项的识别、排序和自定义情景的风险比较,简化风险评价的难度。通过动态数据可视化,可以更加有效地进行交互式数据分析。动态读取数据并自由选择所需展示的图例类别以及所选用的可视化形式,更符合风险评价工作中探索性数据分析的需求。此外,通过R语言内嵌的数学模型还可以支持地方监管部门针对辖区内产生的生产经营检查数据进一步开展数据挖掘,如主成分分析、关联分析、差异显著性比较等。这响应了原国家食品药品监管总局于2016年印发的《食品生产经营风险分级管理办法(试行)》[1]的信息化倡议,契合国家市场监督管理总局于2022年起草的《食品生产企业风险分级管理办法(征求意见稿)》[2]的信息化工作要求。

2 方案设计

2.1 可视化方案

根据基层监管需求和分级评价经验,设计区域整体状况、主体风险信息、风险识别、时间趋势比较共4个模块,每个模块均包括丰富的静态图形和基于HTML的动态交互式图形两种实现方式[7],以快速、动态、直观地反映区域各类风险信息。此外,在各模块中设计若干基于数据识别和用于自动数据筛选的选项按钮,以实现自定义数据范围的可视化。

2.2 软件实践

根据设计方案,基于R 4.3.0及RStudio 2023.03.0集成开发环境(Integrated Development Environment,IDE),结合ggplot2、plotly、shiny、rmarkdown等扩展包,開发支持风险等级自动计算的食品生产经营主体风险分级数据可视化系统并进行应用。

3 基于R语言的可视化技术在食品生产经营主体风险分级数据上的应用

根据原国家食品药品监督管理总局于2016年印发的《食品生产经营风险分级管理办法(试行)》[1]中用于各类业态静态风险和动态风险量化评分表的数据结构,模拟生成同一县域内食品生产企业、食品销售主体、一般餐饮、中央厨房、学校食堂、单位食堂共6类业态92家主体在2019—2023年连续

5年的检查和量化评分结果,并建立模拟数据库,以支持实时数据的可视化。部分主体一年内还有多次检查结果,以模拟不同风险等级主体每年不同的检查频次。

静态图形提供了特定的信息。例如,散点图和地理空间分布图中的点的大小反映了生产经营者的规模。交互图则能在光标移动到特定位置时显示名称、评分等额外信息,并支持整体图像或选定图像区域的缩放。此外,点击不同的图例还可在交互图中隐藏或显示对应的类别,以帮助筛选和更直观地传递信息。

3.1 区域整体状况界面

食品生产经营主体风险分级数据可视化系统区域整体状况界面见图1,反映了县域内各业态中不同风险等级生产经营者的占比情况及其随年度的变化,并可选择不同的自然年以切换数据。交互图还显示了不同业态或风险评分的生产经营者在县域内的空间分布,比较了县域内各生产经营者的静态风险与动态风险,在时间维度上自动寻找风险评分变化最大的生产经营者并显示其历次检查的变化情况。

3.2 主体风险信息界面

除了整体的状况,还可以查看记录内单一生产经营者单次检查的风险信息,包括一级风险因子、主要二级风险因子。食品生产经营主体风险分级数据可视化系统主体风险信息界面见图2。交互图还记录了所选生产经营者在历次检查中的得分变化。

3.3 风险识别界面

风险识别界面(图3)利用交互的箱型图整理了各风险项在区域内生产经营者中的评分均值、四分位数等,据此划分严重项、重点项和非重点项,从而识别主要风险。交互式热图也显示了各生产经营者在各风险项上的评分情况,便于用户直观地发现主要风险项和高风险主体。由此,可以观察高风险项在区域内的空间分布和可能的集中情况。此外,该界面还提供探索性的相关性分析,包括可用于观察高风险项与主要统计项关系的自定义散点图、风险因子的自动主成分分析和相关矩阵等。

3.4 时间趋势比较界面

时间趋势比较界面实现了两不同年度间数据的比较(图4)。系统首先自动筛选出指定业态在指定两年度间评分差异显著的风险项,并以列表的形式给出。此时,交互式的密度图和克利夫兰点图便可以分别比较指定风险项(如差异显著项)在两年度间的评分数据分布和各生产经营者的评分变化。各生产经营者风险项两次评分的差值通过交互的排序柱状图进行统计,也反映在交互的空间分布图上。

4 结语

数据可视化技术可以动态、快速、直观地开展食品生产经营主体风险分级数据的多维度分析和展示,有助于强化风险表征、辅助监管决策,为解放地方监管人力、提高监管效能、强化食品安全风险管理提供技术和工具支撑。下一步,可以构建和应用更多的数学模型以支持数据分析,如机器学习,还应针对每一种分级信息的展示方式进行规范化及标准化研究,建立统一的数据字典和可视化标准。

参考文献

[1]食品药品监管总局.《食品生产经营风险分级管理办法》(试行)[EB/OL].(2016-09-05)[2023-07-14].https://www.gov.cn/xinwen/2016-09/12/content_5107510.htm.

[2]国家市场监督管理总局.《食品生产企业风险分级管理办法(征求意见稿)》[EB/OL].(2022-02-17)[2023-07-14].https://www.samr.gov.cn/hd/zjdc/art/2023/art_5d83a5a019fe45d7b2a2ee033995d277.html.

[3]庞国芳,孙宝国,陈君石,等.中国食品安全现状、问题及对策战略研究(第二辑)[M].北京:科学出版社,2022.

[4]崔尧,李建军,丛芳,等.基于R语言的数据可视化技术在脊髓损伤康复中的应用[J].中国数字医学,2020,15(10):85-87.

[5]CORE TEAM R.R: a language and environment for statistical computing[J].Science and Education,2015,3:121-130.

[6]HADLEY W.ggplot2[J].Wiley Interdisciplinary Reviews: Computational Statistics,2011,3(2):180-185.

[7]H?JSGAARD S.Graphical independence networks with the gRain package for R[J].J Stat Softw,2012,46:1-26.

猜你喜欢
R语言数据可视化食品安全
大数据时代背景下本科教学质量动态监控系统的构建
可视化:新媒体语境下的数据、叙事与设计研究
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
我国数据新闻的发展困境与策略研究
科技传播(2016年19期)2016-12-27 14:53:29
基于R语言的大数据审计方法研究
新媒体在食品安全监管工作中的特点和作用
食品安全存在的问题和解决对策
我国食品安全监管面临的挑战及应对措施分析
科技视界(2016年21期)2016-10-17 20:50:50
基于R语言的湖南产业结构对其经济增长贡献分析
商(2016年24期)2016-07-20 08:03:39