李 凌,卢志菁,杨 叶
(广东中烟工业有限责任公司,广东 广州 510000)
烟草行业的科研创新数据整体共享水平较低,阻碍了数据价值转化和人类社会进步。造成这一现象的根本原因是,参与数据共享的各方缺乏透明、开放、可信的数据共享环境,无法永久、不可撤销地记录和跟踪整个数据共享过程。这使得数据利益难以共同协商和分配,数据安全无法得到有效保障,也给数据连接、数据控制和跨域数据服务带来困难。
范吉立等人提建立以支持智能合约的区块链2.0 平台,是深入研究分散式共享商品交易服务系统运行机制和实现技术的基本框架[1]。设计了基于Ethereum的分布式共享货物交易服务系统框架,提出智能合约交易管理流程,详细描述系统实现技术,包括用户界面,并测试系统在交易处理中的性能。实验结果表明,以太坊事务服务系统在保证事务数据可信度的基础上,能够处理真实物联网中的大部分场景,具有较高的运行效率。王何健等人提出一种研究基础设施共享平台策略[2]。通过建立激励共享机制和制度,建立相对集中的仪器共享中心,根据市场需求自主招聘仪器操作人员,构建仪器管理者与公众创新者全方位的信息沟通渠道,为科研基础设施共享者提供充足的资金,架构公共创新主体的创客空间和平台等一系列措施,全面考虑科研基础设施的共享和开放,打通全社会创新者与科研平台的渠道,找到符合大众创业创新要求的科研基础设施共享解决方案。
为了随时了解烟草行业的科研创新信息情况,获得烟草业务工作进展,实现烟草科研信息化建筑,提升烟草科研信息的存储安全,推动烟草行业进步,本文研究基于区块链的科研创新信息安全共享方法。
区块链作为一种新型的分布式信息共享平台,正以前所未有的速度和规模迅速发展。其具有分散性、可验证性、防篡改性和价值传递功能,有望引起社会生活的深刻变革,改变社会某些领域的管理模式。
区块链技术在供应链中,诸如原材料、生产过程、技术标准之类的数据,往往湮没在各个环节的转换过程中,导致参与者由于信息缺失而产生信任危机[3]。其具体结构在图1中展现。
图1 区块链结构框图
从图1中可知,区块链的交易由一个或多个输入和输出组成[4]。
科研信息自动采集模块具体组成部分通过图2展现。在用户界面中,用户使用科研信息自动采集模块,可以通过设置科技信息检索条件,再以web 方式浏览相应的结果信息。或者在自动采集模块内设定前端信息推进器,将该领域最新的科研动态信息推送到用户所在的领域,用户可以获得前沿不设置搜索条件的科研信息[5]。
图2 科研信息自动采集流程图
采集器核心算法流程图在图3中展现。在采集过程中,收集的科研信息包括科研信息网站的前沿信息和科研数据库的论文信息。
图3 采集器核心算法流程图
在收集科研信息网站前沿信息时,首先生成收集任务t,并将其添加到科研任务收集列表T中,根据目标网站的自定义URL和网页收集的垂直深度,通过预定的时间间隔自动收集网页内所需信息。
在科研数据库中收集论文信息时,还需要根据科研论文的收集情况,完成收集任务t,并将其添加到科研任务的收集列表T中域建立目标资源库中,然后把信息合理存储在科研论文数据库中[6-7]。
3.2.1 安全共享机制建立
共享的安全参数由授权机制生成。随机生成元是p,阶是g的双线性群G和双线性映射e:G×G→G1。随机选取散列函数H和α,β∈Zp生成主密钥(ga,β)和公钥(G,g,gβ,H,e(g,g)a)。
云存储中心生成对称密钥ε∈Zp和所有属性集Ω={λ1,λ2,…,λn}。
用户把本身属性集S={λ1,λk,…,λm}和身份发送给授权机构申请属性关联私钥。授权机构在注册用户的属性集中随机选择每个属性的参数λk,通过式(1)计算私钥并发送给注册用户。
通过上述步骤,注册用户获得的私钥表达式为:
在上载共享数据之前,数据所有者将构造访问树,并使用访问树、公钥和对称密钥对共享数据进行加密处理。
访问树构造算法的数据属于主集合访问结构,以访问结构中的属性作为叶节点,以阈值逻辑运算符作为中间节点,从根节点开始构建访问树TR,数据所有者为访问树TR中的每个非叶节点x定义一个(kx-1)次多项式fx,并随机选择s∈Zp作为根节点R的节点值,设置fR(0)=s;对于每个非叶节点x,设置fR(0)=fparent(x)(index(x)),其中in-dex(x)代表节点的编码值。
数据加密算法如果访问树中设置的属性为{λ1,λ2,…,λn},那么该数据属于加密共享数据M,数据所有者将加密后的数据存储在云存储中心。
3.2.2 个性化推荐规则的建立
个性化推荐模块的关联规则主要是为了解大量科研资源与用户科研方向的关系[8]。
整体研究方向的集合表达式为:
从式中可得出,每个用户都有自己的资源子集U,且UT,D所描述的是研究资源数据库。假设UA与UB是用户A与B的主要研究方向资源的子集,建立出关联规则是为了方便获取UAUB的蕴涵,其中UA、UB,且UAUB≠Φ。研究资源数据D库中关联规则UAUB的支持度和置信度分别为支持度UAUB=P(UAUB)和置信度UAUB=P(UA|UB)。
若关联规则UAUB同时符合科研资源数据D库内的最小支持阈值和最小置信阈值,运用强关联规则作为个性化科研信息推荐的准则。其次,通过求解频率集得到了所有具有最小置信度的强关联规则。
3.2.3 资源共享
突破资源库之间的自封闭状态,广泛使用和学习资源数据库,使用户能够准确高效地找到所需的资源。强大的资源管理和资源整合功能资源管理平台资源管理集管理、优化、积累、检索、使用为一体,有效整合资源,共享其他资源。
在科研资源的有效共享过程中,用户通过SNS 群模式共享科研资源,达到科研信息的自动个性化推荐。资源共享机制如图4所示。
图4 资源共享机制
通过图4中的资源共享机制,用户能够十分全面且准确地共享科研资源,具有实现简单、不受科研交流时间和空间限制的优势,能够更准确获取用户科研信息的研究方向。
科研管理信息系统的主要框架是碎片化服务、开放平台、数据库和云服务,作为整个业务流程的支撑。各研究组通过信息开放平台与科研管理系统进行交互,按照国家和学校的信息标准模型建立后台数据库,并在应用服务建设的指导下进行更新和迭代。为用户提供更便捷的个人信息存储和管理服务。
根据科研管理系统的特点和影响因素,可分为系统级安全、程序资源访问控制安全、功能安全以及数据域安全。具体内容如下:
(1) 系统级安全:包括连接数量的限制,作为应用系统的安全保护门。针对系统的访问权限,应在配置文件中添加连接数限制,以防止大规模攻击。
(2) 程序资源访问控制安全:客户端给予和用户权限相关的界面和操作手段,在服务器端控制URL程序资源进行调用。
(3) 功能安全:用户上交信息记录后,必须经过相关管理部门的审批,同时设置上传附件。
(4) 数据域安全:数据域安全包括行级数据域安全,和字段级数据域安全。
对数据域配置为:科研管理系统不仅需要行级的数据域控制,而且还涉及到域级的数据域控制。可以通过配置表指定用户能够访问的业务记录,然后在运行期间对其进行过滤。第二种是在业务表中指定业务字段的安全级别索引,并与用户级索引进行比较,判断是否打开访问。
功能集的组织方式适用于不同角色人员,根据不同的权限使用不同的功能集。通过权限设置完成功能集组织的组合。本设计的目的是根据实际情况调整用户的功能,使功能设置灵活。程序资源访问控制的配置类似于表单数据验证,程序资源访问控制模型在图5中展现。
图5 程序资源访问控制模型
当用户尝试通过输入URL直接调用目标程序资源来绕过客户端的直接控制,而服务器会阻止用户越权行为。
利用基于角色的用户授权,将用户与权限隔离开,避免用户与权限生成直接关联性,然后构建用户、角色以及权限间的相关联系。授权是通过系统管理员进行操作。管理员能够设置多个用户的权限。角色授权可以防止单独分配权限的复杂操作。用户组设置可防止重复授权现象发生,不会存在相同权限的多个用户。角色授权模型如图6所示。
图6 角色授权模型
在运行过程中,应合理控制对程序资源的访问。当用户登录到系统时,他/她的所有权限都将加载到会话窗口中。在访问程序资源前,判断与该资源相对应的权限是否在用户的权限列表中是合理的。
采用五台同型号服务器搭建分布式测试环境。每台服务器的基本硬件配置是:Intel 8 核3.80 千兆赫CPU,16g内存,CentOS6.5条操作系统。同时在局域网和相同的协商机制环境下,不考虑网络带宽对测试结果的影响。
在实验过程中,区块链数据平台中过多的重复数据源会占用大量内存。为了确保科研人员能够在平台中交互信息具有较高质量和安全性,以数据源平均重复率和预处理数据重复率作为评判该平台是否优秀的指标。
获取数据源的平均重复率和数据预处理结果的重复率对数据分析效率影响。数据源平均重复率是指多个数据分析中,相同数据源的数据分析次数占总分析次数的比率;数据预处理结果重复率是指多个数据分析中,相同预处理结果的分析次数占总分析次数的比率。表达式如下:
数据源平均重复率=数据源重复次数/总分析次数(5)
数据源平均重复率=与处理数据重复次数/总分析次(6)
测试过程中数据源重复率、预处理数据重复率与数据分析效率之间的关系如图7所示。
图7 数据源和预处理数据重复率对数据分析的影响
通过图7可知,当数据源重复率和预处理数据重复率不断增加,数据分析效率逐渐提高。当数据源发生重复现象,第一次分析需要数据访问的步骤,可直接使用数据源;当预处理数据重复时,第一次分析通常可以执行之前的数据访问和数据预处理,能够直接使用之前的预处理,在一定程度上提高数据分析效率,使本文安全共享存储量充裕。
从表1可知,区块链数据共享平台能够满足数据分析的基本功能和性能要求,跨系统进行交互操作,可保证数据分析链的完整性以及对业务决策的及时响应。
表1 不同平台性能对比
科研资源共享的研发实现了科研资源的整合和高度共享,创造了立体化的科研交流新模式,为推动形成有效的科研创新体系提供了可能。通过多层面安全控制,可以实现科研资源的高度共享,对科研创新能力大幅提高。