基于通信知识共享系统的XML异构数据的自动转储

2022-11-25 03:49:21刘旭
科学与信息化 2022年20期
关键词:页面文档信道

刘旭

91033部队 山东 青岛 266000

引言

随着通信技术的发展以及装设备的不断升级提升,通信技术及装设备参数数据量不断增大。大量的数据分布式存储加大了交换与共享的难度。通过对实验数据进行研究发现,95%以上的数据都是以Word文档或Excel文档的格式进行保存,再将其手动录入到知识共享系统中,重复性的录入工作极大地增大了实验人员的工作量,因此自动化的数据转储工作迫在眉睫。

1 通信知识共享系统简介

通信知识共享系统提供了一个允许多人并行式协作的平台。用户可以自行决定内容的相关性,自由进行创建、修改、删除等操作。它可以用来当作百科全书、字典、术语表或者内部的CMS(Content Management System)平台等。

1.1 通信知识共享系统的分类

目前,系统中以文本为载体的信息尤其丰富,通过关键字Category对页面进行分类,将在页面底部自动创建指向分类页面的链接,从而可以方便有效地查看其父类的相关文档。将一个页面归入分类,只需在编辑时在底部增加“[[Category:分类名称]]”。知识共享系统的每一个条目都属于至少一个类别,而一个类别又可以同时对应多个条目,具有清晰的类层次结构。

1.2 通信知识共享系统XML文件格式分析

知识共享系统定义了固定的XML格式,任何输入到系统的条目除了手动输入外,都可以转储成该格式从而实现自动导入。条目(page)组成知识共享系统XML文件中最基本核心的组成单位,一个条目代表一个基本页面。知识共享系统XML文件中条目的组织结构设计如下:

17

手机 ,一种通讯工具[[category:通讯工具]]

2 Word和Excel文档的标准化

Word和Excel文档的标准化技术目前已非常成熟,利用Microsoft Office提供的XML Schema功能,可导出结构清晰的XML文件[1]。XML Schema文档完全符合XML语法规范,它的后缀名是xsd。元素含有4个子元素,分别为,其中,标签的属性maxOccurs=“unbounded”代表该元素不限定出现个数,并且标签下又有3个子元素,分别是和<text>,标签<sequence>表示子元素依次出现的顺序,通过自定义的XML Schema实现Word文档和Excel文档到标准XML文档的标准化。Word文档标准化之后的XML文档如下:</p><p><dump-file></p><p><page></p><p><category/></p><p></page></p><p><page></p><p><category/></p><p></page></p><p></dump-file></p><p>Excel文档标准化之后的XML文档如下:</p><p><dump-file></p><p><page></p><p></page></p><p><page></p><p></page></p><p><page></p><p><text/></p><p></page></p><p></dump-file></p><h2>3 数据转储的实现</h2><h3>3.1 两级映射</h3><p>两级映射就是把Word和Excel文档标准化之后的XML文档通过Java算法实现向知识共享系统XML文档的初步转化[2]。因为数据源的不同,把两级映射分为两个部分,第一部分是Word文档的标准XML结构到知识共享系统XML文档的映射,第二部分是Excel文档的标准XML结构到知识共享系统XML文档的映射。在转换过程中,暂且不考虑<username>和<security>这两个标签的对应关系,将重点放在其层次结构的对应和划分上。</p><p>3.1.1 Word标准XML文件的映射。通过研究Word转换的标准XML文档结构,我们可以知道,其XML文件标签中根标签下的<category>肯定不为空,<page>下的<title>、<text>也不为空,但<page>下的<category>一定为空。并且每个<page>下的<title>不会重名。那么我们就把根节点下<category>标签中的关键字提取出来以[[category:数字基带传输]]的形式放在<text>中,以完成标题“数字基带传输”与叙词“AMI码”的所属关系。</p><p>3.1.2 Excel标准XML文件的映射。分析Excel标准XML文件,根节点下的<category>表示总类,<page>下的<category>表示分类,<page>下的<title>为术语,<page>下的<text>为下属。在转化为知识共享系统固定XML格式的过程中,把<page>下的<category>以[[category: 无线信道]]的形式写入<text>中,完成 “无线信道-电磁波-地波传播”的所属关系。这么复杂的所属关系,就需要另外生成一个特殊页面,其结构如下列代码所示,它的独特之处在于<title>标签内的关键字前需要加上“分类:”(该冒号为半角符),这是知识共享系统分类页面的固定格式。</p><p><page></p><p><revision></p><p><contributor></p><p></contributor></p><p></revision></p><p></page></p><h3>3.2 页面融合</h3><p>页面融合仅涉及Excel文档的标准XML文档到知识共享系统XML文档的映射。因为Excel文档中,会存在一种问题,即总类、分类和术语关键字完全相同,只有下属不同,如“信道—无线信道—电磁波—地波传播”和“信道—无线信道—电磁波—天波传播”,这两条信息在标准XML文件中是作为两个page存在的,但在实际的知识共享系统中,应该是一个title为“电磁波”,text为“地波传播、天波传播”的页面。所以在转化的过程中,就需要把category、title均相同页面进行融合[3]。</p><p>这两个page标签下的category和title如果都相同,则把这两个页面合并为一个页面,合并后的系统XML文档中的对应关系仍旧满足上一节两级映射的算法,即源页面的title标签仍旧对应目标页面的title标签,category标签仍以[[category:××]]的形式放入<text>中,不同的是,需要把标准XML文档中两个<page>页面的<text>进行合并之后,再放入目标文档的<text>中。</p><p>将完成两级映射和页面融合之后形成的知识分享系统XML文档导入系统内,可自动生成知识相关页面以及分类关系,导入效果和手工录取无差别,且错误率明显下降。</p><h2>4 结束语</h2><p>通过本文设计的两级映射、页面融合实现Word和Excel文档形成的标准XML文件到通信知识共享系统XML文件的转换,从而完成通信数据的转储,可取代手动录入系统的操作,但由于Word和Excel文档标准化的过程中,仍需要一定量的手动映射,因此还未实现完全的自动化,今后可以规范Word和Excel文档中所有的文本信息和数据资源,使其在文档中的位置相对固定,这样人工判断操作就变得不再是必需的,可以进一步减少时间的耗费。</p></p> <!-- <div class="article_pdf"><a href="https://cimg.fx361.com/kkb.apk">查看pdf文档请下载app</a></div>--><div class="article_love"> <div class="title">猜你喜欢</div> <div class="article_love_keyword"><span><a href="/tags/5/c/5ad16932d8972191/1.html" target="_blank">页面</a></span><span><a href="/tags/3/5/c0eb5cb77d8024b6/1.html" target="_blank">文档</a></span><span><a href="/tags/0/5/794e62c15aef0c62/1.html" target="_blank">信道</a></span></div> <div class="article_love_news"><dd><a class="txt_title" href="/page/2022/0830/11822141.shtml" target="_blank" title="刷新生活的页面">刷新生活的页面</a><div class="rsorc"><a href="/bk/byjy/20221.html" class="ly" title="保健医苑(2022年1期)">保健医苑(2022年1期)</a><span class="txt">2022-08-30 08:39:14</span></div></dd><dd><a class="txt_title" href="/page/2021/0727/8621423.shtml" target="_blank" title="有人一声不吭向你扔了个文档">有人一声不吭向你扔了个文档</a><div class="rsorc"><a href="/bk/zgxwzk/202126.html" class="ly" title="中国新闻周刊(2021年26期)">中国新闻周刊(2021年26期)</a><span class="txt">2021-07-27 04:02:12</span></div></dd><dd><a class="txt_title" href="/page/2016/1201/17689457.shtml" target="_blank" title="基于RI码计算的Word复制文档鉴别">基于RI码计算的Word复制文档鉴别</a><div class="rsorc"><a href="/bk/xxaqyj/20164.html" class="ly" title="信息安全研究(2016年4期)">信息安全研究(2016年4期)</a><span class="txt">2016-12-01 06:06:54</span></div></dd><dd><a class="txt_title" href="/page/2016/0227/13071843.shtml" target="_blank" title="基于导频的OFDM信道估计技术">基于导频的OFDM信道估计技术</a><div class="rsorc"><a href="/bk/bjxxkjdxxbzrkxb/20165.html" class="ly" title="北京信息科技大学学报(自然科学版)(2016年5期)">北京信息科技大学学报(自然科学版)(2016年5期)</a><span class="txt">2016-02-27 06:31:42</span></div></dd><dd><a class="txt_title" href="/page/2015/1222/13022959.shtml" target="_blank" title="Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat">Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat</a><div class="rsorc"><a href="/bk/apjr/20151.html" class="ly" title="Asian Pacific Journal of Reproduction(2015年1期)">Asian Pacific Journal of Reproduction(2015年1期)</a><span class="txt">2015-12-22 12:09:35</span></div></dd><dd><a class="txt_title" href="/page/2015/1201/18901812.shtml" target="_blank" title="一种改进的基于DFT-MMSE的信道估计方法">一种改进的基于DFT-MMSE的信道估计方法</a><div class="rsorc"><a href="/bk/hdlgdxxbzrkxb/20154.html" class="ly" title="华东理工大学学报(自然科学版)(2015年4期)">华东理工大学学报(自然科学版)(2015年4期)</a><span class="txt">2015-12-01 04:00:44</span></div></dd><dd><a class="txt_title" href="/page/2015/0227/19526016.shtml" target="_blank" title="基于MED信道选择和虚拟嵌入块的YASS改进算法">基于MED信道选择和虚拟嵌入块的YASS改进算法</a><div class="rsorc"><a href="/bk/dzsjgc/20158.html" class="ly" title="电子设计工程(2015年8期)">电子设计工程(2015年8期)</a><span class="txt">2015-02-27 12:05:33</span></div></dd><dd><a class="txt_title" href="/page/2014/0228/14637504.shtml" target="_blank" title="一种基于GPU的数字信道化处理方法">一种基于GPU的数字信道化处理方法</a><div class="rsorc"><a href="/bk/xdfyjs/20146.html" class="ly" title="现代防御技术(2014年6期)">现代防御技术(2014年6期)</a><span class="txt">2014-02-28 18:26:23</span></div></dd><dd><a class="txt_title" href="/page/2012/0429/24157378.shtml" target="_blank" title="不让他人随意下载Google文档">不让他人随意下载Google文档</a><div class="rsorc"><a href="/bk/dnm/20124.html" class="ly" title="电脑迷(2012年4期)">电脑迷(2012年4期)</a><span class="txt">2012-04-29 06:12:13</span></div></dd><dd><a class="txt_title" href="/page/2011/0622/3807406.shtml" target="_blank" title="同一Word文档 纵横页面并存">同一Word文档 纵横页面并存</a><div class="rsorc"><a href="/bk/dnahz/201111.html" class="ly" title="电脑爱好者(2011年11期)">电脑爱好者(2011年11期)</a><span class="txt">2011-06-22 08:20:18</span></div></dd></div> </div><div class="other_pel mt80"> <p class="fl"><a href="/bk/kxyxxh/202220.html" target="_blank"><img src="https://cimg.fx361.com/images/2022/1125/1b14ce71fd7f33f94fd9295c0e38391ab83baa39.webp" alt=""></a><span class="p1"><a href="/bk/kxyxxh/" target="_blank">科学与信息化</a></span><span class="p2"><a href="/bk/kxyxxh/202220.html" target="_blank">2022年20期</a></span></p> <dl class="fl"><dt>科学与信息化的其它文章</dt><dd><a href="/page/2022/1125/11592408.shtml" title="电力应急管理体系建设的要点研究">电力应急管理体系建设的要点研究</a></dd><dd><a href="/page/2022/1125/11592349.shtml" title="优化电力营商环境背景下业扩报装服务优化探索">优化电力营商环境背景下业扩报装服务优化探索</a></dd><dd><a href="/page/2022/1125/11592314.shtml" title="职业大学科技园可持续发展探析<br/>——信息化创新管理*">职业大学科技园可持续发展探析<br/>——信息化创新管理*</a></dd><dd><a href="/page/2022/1125/11592287.shtml" title="行政机关管理办公自动化实现路径解析">行政机关管理办公自动化实现路径解析</a></dd><dd><a href="/page/2022/1125/11592258.shtml" title="大数据时代疾控中心信息服务和管理*">大数据时代疾控中心信息服务和管理*</a></dd><dd><a href="/page/2022/1125/11592227.shtml" title="电力体制改革进程中营销服务模式的优化">电力体制改革进程中营销服务模式的优化</a></dd></dl> </div></div> </div> </div> <div class="sidebarR"> <!-- tab选项卡 --> <div class="tab01 mb20"><div class="tabArrow"></div><div class="tabItem"><div class="tabTit"><a href="#">杂志排行</a></div> <div class="tabCont"><ol><li><p class="row01"><span class="topNum">1</span><a href="/bk/sdjy/202410.html" class="row01a">《师道·教研》</a><span class="row01_fr"><a href="/bk/sdjy/202410.html">2024年10期</a></span></p></li><li><p class="row01"><span class="topNum">2</span><a href="/bk/swyzhsby/202411.html" class="row01a">《思维与智慧·上半月》</a><span class="row01_fr"><a href="/bk/swyzhsby/202411.html">2024年11期</a></span></p></li><li><p class="row01"><span class="topNum">3</span><a href="/bk/xdgyjjhxxh/20242.html" class="row01a">《现代工业经济和信息化》</a><span class="row01_fr"><a href="/bk/xdgyjjhxxh/20242.html">2024年2期</a></span></p></li><li><p class="row01"><span class="topNum">4</span><a href="/bk/wxxsyb/202410.html" class="row01a">《微型小说月报》</a><span class="row01_fr"><a href="/bk/wxxsyb/202410.html">2024年10期</a></span></p></li><li><p class="row01"><span class="topNum">5</span><a href="/bk/gywsw/20241.html" class="row01a">《工业微生物》</a><span class="row01_fr"><a href="/bk/gywsw/20241.html">2024年1期</a></span></p></li><li><p class="row01"><span class="topNum">6</span><a href="/bk/xl/20249.html" class="row01a">《雪莲》</a><span class="row01_fr"><a href="/bk/xl/20249.html">2024年9期</a></span></p></li><li><p class="row01"><span class="topNum">7</span><a href="/bk/sjbl/202421.html" class="row01a">《世界博览》</a><span class="row01_fr"><a href="/bk/sjbl/202421.html">2024年21期</a></span></p></li><li><p class="row01"><span class="topNum">8</span><a href="/bk/zxqyglykj/20246.html" class="row01a">《中小企业管理与科技》</a><span class="row01_fr"><a href="/bk/zxqyglykj/20246.html">2024年6期</a></span></p></li><li><p class="row01"><span class="topNum">9</span><a href="/bk/xdsp/20244.html" class="row01a">《现代食品》</a><span class="row01_fr"><a href="/bk/xdsp/20244.html">2024年4期</a></span></p></li><li><p class="row01"><span class="topNum">10</span><a href="/bk/wszyjy/202410.html" class="row01a">《卫生职业教育》</a><span class="row01_fr"><a href="/bk/wszyjy/202410.html">2024年10期</a></span></p></li></ol> </div></div> </div> </div> <div class="clr"></div> </div> </div> <!--div class="advertisement"> </div--> <div class="footer"> <p><a href="/aboutus/index.html">关于参考网</a></p> </div> <script> if ('serviceWorker' in navigator) { window.onload = function () { navigator.serviceWorker.register('/sw.js'); }; } </script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery/3.4.0/jquery.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/sticky-kit/1.1.3/sticky-kit.min.js"></script> <script type="text/javascript" src="https://s1.pstatp.com/cdn/expire-1-M/jquery.lazyload/1.9.1/jquery.lazyload.js"></script> <script type="text/javascript"> document.write('<script src="https://img.fx361.cc/cdn/w/index_cc.js"><\/script>'); </script> </body> </html>