代码语言及其特征

2012-01-29 06:46魏振枢吕志元

中州大学学报 2012年2期

魏振枢，吕志元

(中州大学学报编辑部，郑州450044)

1．网络时代信息检索语言如何分类

在信息的储存与查询过程中，“标引”是对杂乱文献的整序过程，也是为“检索”做准备工作。“检索”则是着眼于查找具体文献，双方借助于约定俗成的“语言”进行沟通，以便于顺利地取得共识，达到既定的目标，这个“语言”就是信息检索语言。从外表的表征上看，信息检索语言主要有两类，即语言性的检索语言和符号性的检索语言(其中包括分类语言和代码语言)。如果按照构成原理可以分为分类语言、主题语言、代码语言。但是，2010年出版的《中国图书馆分类法》(第五版)没有将代码语言作为一种检索语言来看待。例如在该书第120页的文献检索语言分类中:

我们对于主题语言研究较多，分类语言有着深厚的理论基础和完善的编制技术，因此图书馆专业情报人员对以上两种都有比较精深的研究和体会。在网络信息技术发展过程中，代码语言显示出了它的特殊性和特别的重要性，应该加强对它的研究。

2．代码语言的含义与内容

应该说，代码语言产生的比较早，也是一种人工语言，是对某类事物的一些内涵进行解析，将其中主要特征应用代码(例如字母、符号、数字、图形等)进行有序的排列，用来表达事物的本质内容。文献［1］和［2］对于代码语言已经有初步的阐述。代码语言目前主要有以下几种存在形式。第一种是字母组合，该类内容比较丰富，从结构上看，主要有缩写词、简写词、略语词和首母词等。例如，美国著名的检索期刊《化学文摘》(CA)就把化学式(例如PVC)作为一种重要的检索语言。第二种是数字代码语言，例如我们常用到的图书条码如:9787122030207(化学工业出版社出版的《化工安全技术概论》);连续出版物(期刊)条码如:9771006418038(浙江化工);身份证号码代码语言，例如110524198001010012。目前把数字代码转换成为线条，形成条码，更加便于扫描识别。第三种是通过字母与数字组赔组合形成的复合型代码语言，如中国标准书号(例如ISBN978－7－122－03020－7;中国标准连续出版物号(例如ISSN1006－4184/CN33－1093/TQ);各类专利文献标识代码(例如 ZL200410060208．9、87100012A);技术报告编号(例如AD－A130900)等。第四种是信息图形符号。工业生产中存在多种公共信息图形符号，图1是指纹图形标志，可以广泛用于笔记本电脑的开机、开启门窗、公安机关对嫌疑人的指纹识别等方面。类似这样的图形符号标志今后会越来越多，这样的检索语言简单易懂，活泼醒目，很容易普及使用。

综上所述，我们可以看到，文献信息检索的现代化信息环境以及信息载体的变革直接影响文献检索的方式和技术。以自然语言为标识的检索语言目前最能够与现代科学技术发展相适应，人工检索语言之间的相互融合，以及人工语言与自然语言的和谐统一应该是检索语言变化趋势。

3．代码语言的特征

现代网络信息时代，我们认为，代码语言内容丰富而杂乱，发展势头较快，应该加强研究。例如，分类语言与代码语言的区别与联系有哪些?如何提高识别代码语言(特别是图形语言)的效能?这些都是文献信息工作者应该重视并研究的问题。代码语言有许多比较明显的特点，主要有以下几点。

3．1 形成过程的专有性

代码语言是按照事先设计好的排序方式对一个对象进行标记，从而形成一一对应的语言关系。为了更加准确唯一地表达所描述的对象，很多代码语言标识式增加了校验码，以确保其一一对应的关系。所以说，代码语言具有专有性和不可替代性。

中国标准书号由标识符ISBN和13位数字组成。其中13位数字分为五部分(以下是化学工业出版社出版的魏振枢主编的《化工安全技术概论》的书号)。

国际标准书号代码 EAN·UCC前缀组区号(中国) 出版者号出版序号校验码

这组代码具有专有性的性质，在国内不可能再有这样的一个代码。再如居民身份证的号码是按照《中华人民共和国国家标准 GB 11643－1999》编制的，由18位数字组成:前六位为行政区划代码，第七至第十四位为出生日期码，第15至17位为顺序码，第18位为校验码。对同年、月、日出生的人员编定的顺序号。顺序码的奇数分配给男性，偶数分配给女性。按照ISO 7064:1983．MOD 11－2计算出来的是检验码。尽管中国有13亿人口，但绝对不可能出现身份证号码重复的情况。

3．2 检索结果的惟一性

假如使用主题语言(例如关键词)或者分类语言作为检索语言进行检索时，会得到一批相关的文献资料。例如用中国图书馆分类法中的G254．0(有关文献检索语言总论方面的资料)作为检索项在CNKI中检索，会得到104条不同的文献。

代码语言的检索是一一对应，只能找到惟一的一个对应的文献资料。例如，通过google查找GB/T7714－2005《文后参考文献著录规则》，可以得到将近6000条都是有关这个国家标准的检索内容。

3．3 结构组成的复合性

代码语言利用数字和字母符号等进行组配成为复合检索语言。比较典型的是在1986年以前曾经使用过的《全国图书统一编号》的书号分为三个部分:图书分类号、出版社代号、序号。其中图书分类号统一采用阿拉伯数字表示，共分为17个类目;出版社代号由已经确定的“出版社名编号表”中查询;序号为该出版社的出书序列号。

例如人民文学出版社出版的《金光大道》统一书号为:“10 019·1886”，这本书的分类号为“10”(文学)，出版社代号为“019”(人民文学出版社)，这本书是该社出版的文学类书籍的第1886种。

3．4 应用范围的局限性

分类语言具有等级列举式结构，是一种规范性的、应用广泛的甚至是强制性的标准语言，属于强制性的法律范畴。只要在某领域有这样的分类语言，就必须无条件的执行，由此可知，像这样的检索语言在一般搜索引擎(包括google、baidu等)或大型数据库中可以作为检索语言进行资料的查询。主题语言更是我们最常使用的检索语言，几乎在所有的网站或数据库中都可以使用。

代码语言涉及范围和领域比较局限，作为一种文献检索语言也许只能在专有的网站才能识别并检索出来，而在一般的综合性网站或数据库进行检索则效果不太理想，甚至没有这样的检索项。例如对于居民身份证号码在各公安机构、机场、海关口岸、银行、工商税务机构中都能够作为检索项进行检索查询。但是在CNKI数据库就难以识别，当然更不可能查询到任何资料。在标准数据库中可以用标准编号作为检索语言进行检索，在专利文献数据库中可以用专利文献号、专利号或国际专利分类号(分类语言)作为检索语言进行检索。

3．5 涉及领域的单一性

主题语言涉及到所有文字描述的领域，分类语言涵盖范围也比较广，例如《中国图书馆分类法》基本上可以覆盖我国目前所有领域，而像标准分类法、国际专利分类法主要涉及到理工技术方面。但是在代码语言中，只对某一个局部领域的对象进行定义，从而形成特定的检索语言，超出这个范围，它所组成的代码就变的无任何意义了。

3．6 语言内容的丰富性

从代码语言的组成来看，可以是数字组合、字母组合、数字与字母组配组合等形式，还可以有图形显示;另一方面，代码语言所涉及的学科、领域范围非常广泛，这类语言可以说是不计其数，随时都在不断产生新的代码语言。

3．7 验证鉴别的便捷性

对于有些代码语言来说，检索鉴别特别快捷、准确。特别是图像识别系统如果能够实现，则更有广泛简便快捷应用的空间和领域，例如前期开发的条码识别是将数字转换成为间隔不同的粗细线条(见图2)，用扫描设备方便识别。再如指纹识别(见图1)、磁卡识别、商标标识真伪的识别等。

3．8 内涵发展的前瞻性

代码语言具有很好的发展前景，发展空间巨大。

4．结语

综上所述，检索语言的分类方法会直接影响到信息用户的检索效率，特别是会影响到网络信息的传播，甚至影响到整个国家的经济发展。因此，研究科学准确的检索语言分类方法并深入研究其内容和实质十分必要。

一个待检索主题内容可以兼有三种检索语言，如果利用主题语言和分类语言进行检索，得到的结果一般是一批文献资料，需要进一步的甄别才能得到所需的资料。而利用代码语言可以得到惟一性的所需资料。代码语言在最近几年里得到快速的应用和推广，特别是在论文写作的格式中对于“关键词”项如果修改为“检索项”就可以把诸如分类号、各类缩略语代码作为检索项列入，更方便需求者的查找，这样会变得更加快捷方便。

［1］刘海燕，魏振枢．文献检索语言分类系统的研究［J］．中州大学学报，2008，25(1):108 －111．

［2］王文峡，薛培军，魏振枢．基于网络环境下代码语言在文献检索中的特性［J］．中州大学学报，2009，26(4):108－111．

［3］中国图书馆分类法编辑委员会．中国图书馆分类法［M］．五版．北京:北京图书馆出版社，2010．

［4］魏振枢．化学化工信息检索［M］．第2版．北京:化学工业出版社，2006．

［5］魏振枢，蔡红燕．科技论文中“关键词”改为“检索项”更科学［J］．科技与出版，2009(4):39－41．

［6］魏振枢，吕志元．“标准”文献在文后参考文献中的著录规则［J］．中国科技期刊研究，2007，18(3):520 －521．