范萍
(陕西职业技术学院 陕西 西安710038)
基于电子商务时代的中文字典数据库生成设计
范萍
(陕西职业技术学院 陕西 西安710038)
近几年,随着网络技术的发展,人们逐渐进入电子商务时代,在网络环境下必须注意发展电子字典经济,拓展中文字典智能化功能。中文字典在设计的过程中每个属性都需要手工识别、计算和生成到汉子数据库中,给系统带来较大的麻烦。而进行较好的数据库生成设计能够解决数据库生成困难等问题,提高工作效率。本文基于电子商务环境分析中文字典数据库生成设计,采用数据库生成算法结合其实现方式,得出中文字典数据库生成设计步骤实施证明这种方法能够将系统处理效率可达到50%以上。
电子商务;中文字典数据库;生成设计
信息技术迅速发展,带动我国各行各业经济的发展。中文信息处理技术发展迅速,这种技术主要是利用计算机对汉语信息进行有效的处理,但是由于汉字属性比较复杂,而这些汉字字典又是中文字典中必不可少的因素,在分析、计算的过程中容易出现错误,降低工作效率。而在电子商务环境下,信息技术的应用能够通过对已有工具、技术的应用和分析,利用汉字信息的生产算法解决问题,从而能够有效提高工作效率。文中主要分析的是中文字典数据库生成设计方法。
中文字典数据库系统采用的是典型的Mediated系统提携结构,引入数据字典后的数据库结构如图1所示。数据集成系统一般主要通过中介模式将各个部分的数据源的数据集成起来,而整个系统的数据仍然存储在各个局部数据源中,通过包装器对数据进行转换[1-3]。用户在利用数据库进行数据查询的过程中能根据局部数据源模式进行一系列的查询,引入本体层以后,中介器将对用户的查询进行分析,并提取有效信息进行查询,并将查询结果反馈到中介器中重新组合查询,并对每个数据库进行结果数据分析,将符合数据可使用要求的信息反馈出现,解决数据源数据更新问题,降低系统工作效率[4-5]。
图1 系统结构框架图
2.1 数据库生成思路
在电子商务时代,电子字典数据库生成以后,必须将其汇总到总数据库中进行统一的分析,以便能够更好的生成中文字典数据库。目前,我国数据库技术已经相当成熟,下一步的主要进度是将生成的数据库进行进一步的分析和研究,重视数据库本身的发展。由于汉字的复杂性,需要大量的手术操作技术,如果自动生成一些部分的数据,可能会使系统建立生成更加具有效率。一般情况下,在电子词典中汉字要素包含:简体字、ID、拼音、声调、内码、偏旁、笔划、注释以及拼音等[6-7]。而在电子字典数据库的开发中,要注意Windows程序开发难度分析,而操作系统的提供的应用程序接口直接关系着程序开发的难易程度。
2.2 GB2312字库全集的生成
GB2312编码是我国汉字信息专用编码,收录的汉字信息比较多,比如字母、简体化汉字等图形字符,中文字典的汉字收集数量比较庞大,能够达到6763个汉字收集数,中文字典字库中的所有汉字字均按照区位分步法进行分析,可以将她们分为A1-FF区进而位,然后生成中文字典字库文件,生成字库的主要代码如下:
3.1 数据库维护设计
在电子商务环境发展下,中文字典的基础数据库形式为SMART软件核心构成部位,其是该软件中的一个重要字典,它的主要数据结构字段见表1。从表1中我们可以看出车站代码和电报略码均具有唯一性,能够用于记录数据,如果将电报简码作为主键处理,根据不同的需求,车站名称和站名简称两个字段用于显示和报表;根据输入方式的不同,设置不同的输入码处理方式,并且将拼音略码和电报略码的用于标明字典或其他字典关系,车站等级主要用于标记车站所述范围,起始有效期和终止有效期主要用于数据有局限性的字典[9-10]。处理这些关键技术以外,为了提高字典访问下来,还要按照站名略码及车站名称建立多个索引。字典的维护与一个普通表的形式灭有太大的区别,但是SMRAT系统中这种字典一般数据数据字典,必须有专用软件进行专门的维护和管理[11]。另外,还要注意基础字典本身在建立过程中汉字的输入只能在Windows操作系统提供的中文输入法中进行。
表1 字典Station主要数据结构
3.2 数据库查询模块设计
在电子商务数据分析环境下,数据字典存储在服务器中,能够在前台应用中采用用嵌入式SQL语句进行数据查询,这种数据查询功能的实现一般在存储过程中实现[12-13]。在数据库生成系统实际应用中擦用数据缓冲技术实现数据查询。此技术实现的方法首先是在本地设置一个高速数据缓冲区,进行数据检索的过程中首先判定数据是否在缓冲区,然后根据具体情况在缓冲区实施数据检索。这种检索方法能够有效减少服务器下端数据数量,提高工作效率。同时能够减少与服务器的交互次数,改善服务器性能[14]。
3.3 字典表自定义数据录入模块设计
数据录入模块的主要设计思路是根据后台数据维护程序利用字典表进行数据录入程序设计思路的构想,是设计实现步骤如下:首先编写数据字典查询所用的存储过程代码,并在数据库中建立该存储过程[15];其次在窗口设计窗组件中用于显示查询结构集,能够直接选用上面的存储过程作为数据源,并指定用户输入码为被动参数,然后在应用程序界面设置一个名为Sle-station-name的单行编辑器组件用于显示站名,而后再设计一个名为sle shortcode单行编辑器组件用于输入站名略码;而后为事件编写脚本:dw_dictiotmryretrieve(sleshortcode text);最后利用自定义的输入码进行字段输入分析。
中文电子字典的实现主要包含核心技术和检索效率等方面的设计,首先我们应该考虑的是如何生成和维护数据库,另一个需要我们考虑的问题是如何快速有的对数据进行检索。数据库的生产方法采用的是转换算法[16],汉字之间的一一对应关系可以通过API编程获得。同时利用记事本和IE生成汉字CB2312编码及其之间的对应关系表。
4.1 字符映射表的读取
字符映射表程序的主要功能是汉字编码与汉字之间的映射表,在高级查看分组里按照偏旁部首排序方法和拼音分类排序方法列出字符映射表。在映射表中利用光键盘单机S键,将汉字编码选择到“复制字符”文本中,将所选择的的汉字复制到剪贴板里。上述操作手术操作可以实现,编程模拟也可以实现,首先准确的找到字符映射表,及其控件,通过WindWindow函数找到字符映射表,这些窗口会记录下需要发送的消息。找到所需窗口以后,查找窗口中的空间,通过编写函数中文字典中字符映射表的读取,而后根据一定的条件寻找字符映射表的控件,找到以后应用GetClassName读取字符映射表的类名。然后进行代码分析,具体的分析过程不再叙述,经过代码分析后升本文本格式控制,并保存好临时文件,并将这些信息在两个窗口之间连续转换,而后进行信息延时处理,再分析窗口设置问题,以便能够更好的设置字符映射分析和读取。另外,拼音、偏旁的读取方法和字符映射表的读取方式比较相似,在这里我们就不再一一详细说明。
4.2 Unicode的读取
在中文字典数据库生成设计中Unicode的读取比偏旁读取更简单,用户只需要找到CharGridWClass类窗口后连续发送右移消息。并将这些消息保存生成汉字就可以是想其正确读取。Unicode读取方式也有和偏旁读取不同的地方,比如Unicode读取只需要对汉字或该汉字的Unicode码进行对应关系的分析,成员设计的顺序并没有那么重要。这个设计要点的实现比较容易,主要是因为字符映射表中的汉字表排列的顺序往往是根据Unicode码顺序实施的详细排列,所以,我们在进一步分析的过程中仅仅需要知道一个汉字的Unicode码就能够将其他汉字的编码推算预测出来[17]。同时在读取的过程中为了提高效率,可以手工选择字符集,然后利用汉字“一”实现中文字符的查找,同时相关人员要在程序修改方面制定汉字“一”的编码,这样有利于中文字符的编写,我们在分析的过程中将汉字编码设置为16进制4E00,在读取的过程中每次读到汉字“一”后编码会自动加一,这样就能够实现中文字典的自动化程序管理和读取。
在电子商务环境下,数据分析技术迅速发展,汉字数据库体系结构分析直接关系着中文电子字典数据库生成情况。在实际操作中往往由于换这妮子数据库信息量比较大,数据分析结构复杂等因素,降低工作效率,为了解决以上问题,必须实现中文字典数据库生成设计模式,解决汉字录入困难、工作效率低等问题,根据各种模块的设计和实现,提高中文字典数据库生成效率和质量。缓解数据库生成中遇到的各种问题,并在字典数据库中实现其价值。
[1]徐尤南.大型数据字典在客户/服务器环境下的应用[J].计算机工程,2001,27(7):161-163,169.
[2]杜根远,李瑞民,苗放,等.中文电子字典数据库生成算法研究[J].计算机工程与设计,2009,30(17):4134-4137.
[3]王艳.族性结构的计算机辅助标引及结构词典的建立[D].大连:大连理工大学,2006.
[4]蔡冬林.基于ACCESS数据库的船舶动力装置故障诊断专家系统[D].上海:上海海事大学,2004.
[5]张海江.Android平台下手机资源搜索系统的研究与设计[D].金华:浙江师范大学,2013.
[6]刘国峰.面向关系数据库的模式匹配方法研究[D].哈尔滨:哈尔滨工程大学,2013.
[7]马丽艳,郭子平,程慧芬等.数据库英文字段的中文显示研究[J].计算机应用与软件,2007,24(4):168-170.
[8]侯筱婷,苏变萍,鲁萍,等.建设法规政策知识库智能化查询分析与设计[J].微电子学与计算机,2012(6):176-177.
[9]TUCK N,SHERWOOD T,CALDER B,et a1.Deterministic memory-efficient string matching algorithms for intrusiondetection[C].IEEE INFOCOM 2004,2004:333-340.
[10]杜旭,邱庆哲,黄建.基于FPGA的字符串匹配算法[J].微电子学与计算机,2010,25(3):91-94.
[11]孙春风,冯径,王占丰.基于本体数据字典的异构数据库集成方法[J].计算机与信息技术,2008,36(11):1-4.
[12]黄洋.基于SSH架构与本体的异构数据集成技术研究[D].北京:北京邮电大学,2015.
[13]何丽.支持复杂产品快速设计的网络化零件资源库系统研究[D].乌鲁木齐:新疆大学,2013.
[14]马永恒.异构数据库集成技术在港航信息资源库开发中的应用研究[D].武汉:武汉理工大学,2005.
[15]高洁羽.一个通用电子货架的设计与实现[D].苏州:苏州大学,2004.
[16]董冬,乔江晖,朱成亮,等.浅谈液体火箭发动机试验数据入库解析技术[J].火箭推进,2015(4):105.
[17]陈文丽,马军强,杨思锋,等.基于FIG-SVR的姿控发动机推力校准斜率预测[J].火箭推进,2015(3):103.
Chinese Dictionary database is generated based on the age of electronic commerce
FAN Ping
(Shaanxi Vocational and Technical College,Xi’an 710038,China)
In recent years,with the development of network technology,people gradually into the age of electronic commerce,in a network environment must pay attention to the development of electronic dictionaries economy,expanding Chinese dictionary intelligent features.Chinese dictionary in the design process need to manually identify each attribute,calculate and generate the database to man,to the system to bring greater trouble.It performed better database generation database designed to solve difficult issues such as generation,improve work efficiency.This article is generated based on analysis of Chinese ecommerce environment dictionary database,using the database generation algorithm combined with its implementation,draw Chinese Dictionary database generation design procedure of this method is proved to be able to handle the system efficiency can reach 50%or more.
E-commerce;chinese dictionary database;generating design
TN99
A
1674-6236(2016)24-0105-03
2016-02-22 稿件编号:201602100
范 萍(1988—),女,山西晋中人,硕士,助教。研究方向:语言文字学。