萨 蕾 (国家图书馆 北京 100081)
受控词表实质是表达一系列概括文献情报内容概念及其相互关系概念的标识系统[1],是实现对知识有效组织的重要途径,包括分类受控词表和主题受控词表。政府信息类型多样,涉及到公众生活的各个方面,也涵盖了各个学术领域的知识内容。因此,为了深入挖掘政府信息中的知识价值,为用户提供知识服务,图书馆应充分利用受控词表构建政府信息的立体知识网络。
分类法是按照类目之间的关系组织起来,并配有一定标记符号的类分信息资源的工具。
2002年,国家标准化管理委员会和国务院信息化工作办公室在北京联合主持召开了电子政务标准化总体组第一次工作会议,讨论形成了《电子政务标准体系框架》。
2007年9月,中华人民共和国国家质量监督检验检疫总局及中国国家标准化管理委员会发布了国家推荐标准GB/T 21063.5-2007《政务信息资源目录体系》,规定了政务信息资源目录体系中政务信息资源的分类原则和方法,按照主题、行业、服务、资源形态4种分类方法对电子政务所涉及到的主要政务信息资源进行了树状结构的分类。资源形态分类根据政务信息资源的外表特征进行划分,独立于其内容。主题分类、行业分类和服务分类则属于按照内容特征进行分类。主题分类体现了政务信息资源的内容属性或特征,揭示了政务信息资源内容的不同主题,是其基础性分类;行业分类体现了政务部门的行业特点;服务分类则描述了政务信息资源面向用户提供功能服务的划分。行业分类和服务分类是对主题分类的辅助性分类。为了对政务信息资源作出全面的描述,便于组织、维护和使用政务信息资源,政务信息资源分类确定了以主题分类为核心,以服务、行业和资源形态分类为辅助的分类方案,这4个方面的分类覆盖了政务信息资源的产生、加工、使用和管理维护的全过程。《政务信息资源目录体系》提出了基本的主题分类类目表,共有21个一级类目和133个二级类目,涉及综合政务、经济管理、国土资源、工业、交通、邮政、信息产业等各方面内容。其中,行业分类涉及到农业、林业、牧业、渔业、采矿业、制造业等20个大类,基本涵盖了各个行业;服务分类涉及到公众服务、服务提交方式、服务提交支持、政府资源管理4个方面;资源形态分类涉及电子化资源、非电子化资源两种资源形态方式。
以主题分类为主组织政府信息,即以政府部门的职能和业务为主线建立分类体系,类目设置只涉及政府业务而不涉及政府机构。这一分类标准的优势在于:首先,由于不同地区不同级别但具有相同工作性质的政府机构职能相同、业务相同,通过使用主题分类可以使政府信息资源在归类时保持一致。其次,政府机构的调整与变动不会影响政府职能与业务,也就保证了政府信息资源的分类体系架构的稳定性。第三,以主题作为分类的标准体现了政府信息资源内在的关联性与逻辑性,从而保证这一分类体系能够更系统、更完整地向用户展示政府信息资源的全貌。
2008年4月30日,国务院办公厅的政府信息公开目录专栏在中央政府网(http://www.gov.cn/)上正式开通,其在国家标准的基础上,采用主题分类方法对一些不适用于政府信息公开内容的类目进行了适应性改造,进而确定了我国政府信息公开目录的信息资源分类体系。国务院办公厅将公开的政府信息划分为22个类别,即国务院组织机构,综合政务,国民经济管理、国有资产监管,财政、金融、审计,国土资源、能源,农业、林业、水利,工业、交通,商贸、海关、旅游,市场监管、安全生产监管,城乡建设、环境保护,科技、教育,文化、广电、新闻出版,卫生、体育,人口与计划生育、妇女儿童工作,劳动、人事、监察,公安、安全、司法,民政、扶贫、救灾,民族、宗教,对外事务,港澳台侨工作,国防,其他。该分类是参考和借鉴了国内外有关政府信息的分类,同时兼顾统一性和示范性,结合我国和国务院办公厅自身的特点制定而成的。为其他部门和机构的信息公开目录的分类,特别是为全国范围内的整个政府信息公开目录的统一分类提供了参照。目前,政府信息公开目录的信息资源分类体系只用到了主题分类,还未扩展到机构分类、题材分类、服务分类等其他分类方式。
随后,各级政府机构相继设立了政府信息公开栏目,分类体系一般参照国务院办公厅的主题分类,并按照各自机构特点进行了相应调整,如无锡市制定了《无锡市政府信息公开目录编制方案》,规定市级政府信息公开目录分为12个一级类目,分别是政府概况、政府规章、政府文件、政府办公室文件、政府重要会议、政府重点工作、各类规划、政府提交人大及其常委会审议的各类报告、政府人事任免、政府应急管理、国民经济和社会发展统计信息、其他依照法律法规和国家有关规定应当主动公开的重要信息[2]。
主题法是用自然语言语词或受控的自然语言语词直接表达主题概念,按语词字顺排列主题概念,并用参照系统显示概念之间关系的受控词表[3]。其主要包括标题法、元词法、关键词法、叙词法,其中叙词法占主流位置。叙词表是以表达文献主题内容的词语作标引对象,按叙词(或主题词)的字顺序列组织文献,并用参照系统(主要包括用、代、属、分、参)显示概念之间的相互关系,提供按事物名称检索文献的途径,满足特性检索需求,专指性较强[4]7-8。
主题法在我国党政机关中的应用最早可以追溯到1985年。当时,中共中央的文件开始标注主题词。
《公文主题词表》编制于1991年,共收录主题词4 239条,其于1997年进行了修订,收录的主题词增加到5 116条[5]。而《国务院公文主题词表》于1988年编制完成,共收录15大类、786条主题词,分别于1994年、1997年进行了两次修订,收录的主题词增加到1 049条[6]。
随着电子政务的兴起与发展,主题词表的编制工作也有了长足的发展。2004年,《电子政务主题词表编制规则》(GB/T 19486-2004)作为国家标准颁布并实施。2005年,《综合电子政务主题词表》编制完成,共收录主题词20 252条,其中正式主题词17 421条,非正式主题词2 831条[7]。该主题词表体系结构完整、科学合理,内容覆盖了我国电子政务各领域及相关知识范畴。词表分字顺表和范畴表两部分,字顺表的词间设有用、代、属、分、参5种参照关系;范畴表按学科、知识领域及部门职能划分为21个一级范畴,132个二级范畴,37个三级范畴。
国家对电子政务的推行与2008年《中华人民共和国政府信息公开条例》的颁布实施使得可被公众利用的政府信息数量急剧增加,知识组织的重要性更加突显。但是由于开展政府公开信息组织与利用的时间较短,受控词表在我国政府信息服务中的应用还处在初级阶段,存在着一些问题,主要表现为以下几点:
第一,作为发布主体,各级各类政府部门的职能和业务不同;由于自然与历史条件的不同,不同地区的经济、社会、生产、生活存在着地域性差异,造成政府信息内容的侧重不同、使用者的需求不同;不同行业已有一些成熟的专业词表,对一些专业性较强的资源内容具有较好的分类揭示作用,但是独立性较强,没有被应用到对政府信息的组织中。但是,政府信息涉及社会生活的方方面面,需要建设全面、合理、完善的受控词表,由此,信息的组织存在通用性与专用性的矛盾,加之受控词表的建设缺乏统一性、规范性,进而无法形成全国统一、互联互通、分布与集中相结合的政府信息体系,最终导致信息孤岛的形成,难以实现共享,造成资源的极大浪费。
第二,社会在不断发展进步,政府信息动态性也在增强,新事物、新词汇、新概念产生或改变的速度远远快于受控词表更新的速度,影响用户对信息的利用。
第三,目前,国内应用在政府信息组织中的受控词表与其他行业成熟的受控词表(如使用范围最广的《中国图书馆分类法》、《汉语主题词表》)的差异性较大,知识组织工具缺乏互操作,极大地影响信息的整合、交换、共享。
这些问题将影响信息提供者对政府信息的深度挖掘,进而影响到用户对政府信息的有效发现及利用。
公共图书馆在整合政府信息资源、开展政府信息服务的过程中,要解决以上问题,最有效的途径是通过受控词表的互操作构建政府信息的多元知识体系。
知识组织系统的互操作性是指两个或多个系统相互使用已被交换的信息的能力,就其本质而言,互操作性是对异质实体(包括异种体系结构、异种操作系统、异种网络和异种语言等)中可获得资源的透明调用的能力[4]182。从该定义可以看出,在异构的知识组织系统间实现知识的交换、共享、重用是互操作的目的所在。
按照词表类型,可以将对应用于政府信息组织中的受控词表进行的互操作分为以下几种:(1)不同类型受控词表之间的互操作,如《综合电子政务主题词表》与国家标准GB/T 21063.5-2007《政务信息资源目录体系》中的政务信息资源主题分类类目表之间的互操作;(2)应用于不同领域的同一类型受控词表之间的互操作,如《综合电子政务主题词表》与《汉语主题词表》之间的的互操作;(3)主题分类与行业、服务、资源形态等其他类型分类之间的互操作;(4)综合性受控词表与专业性受控词表之间的互操作,如国务院办公厅政府信息公开栏目所使用的主题分类与地方政府机构使用的分类体系之间的互操作,《综合电子政务主题词表》与按照本专业系统的政府信息特点编制的专业公文主题词表之间的互操作;(5)不同语言的受控词表之间的互操作,鉴于目前我国政府信息的主要使用者均在国内,与国际间的交换需求还不明显,因此暂时还没有进行互操作实践的必要。
笔者认为,互操作的模式应以国家制定发布的标准为主,有机结合其他类型词表,即以《综合电子政务主题词表》与政务信息资源主题分类类目表的一体化集成作为互操作的主要部分,整合地区性分类体系、专业主题词表等多种词表,构建多元立体的政府信息知识体系。
分类法与主题法有着严格的词汇控制和完善的语义网络。两者的主要区别在于:主题词表是词汇控制工具,词汇是词表的基本构成单位,揭示的是文献的主题,每个主题词对应的是概念,在检索服务中专指性较强;分类法是以类目作为基本词汇,以类目的等级关系来表达复杂概念,从学科体系出发融合资源,其中每个类目代表各个学科的分支,在检索服务中导航性较强。可以看到,主题法与分类法的优势能够互为补充,因此通过融合的方式进行互操作,最终形成分类主题一体化的集成词表,是政府信息分类法与主题法实现互操作性的有效途径。
3.2.1 可行性
(1)政府信息的分类法与主题法自身具有兼容的优势一般来说,主题词表所覆盖的主题领域重叠越多、词表结构相似度越高,互操作越容易实现。国家推荐标准GB/T 21063.5-2007《政务信息资源目录体系》规定政府信息资源分类体系采用主题分类,并分为21个大类,这与《综合电子政务主题词表》一致,其二级类目与《综合电子政务主题词表》的二级范畴也大致相同。主题领域的重叠、词表结构的相似都为通过互操作建立政府信息的分类主题一体化词表提供了极为有利的条件。
(2)电子政务主题词表的建设为互操作奠定了基础《综合电子政务主题词表》是我国第一部按照国家标准编制的综合性电子政务主题词表,加强了主题词的组配功能,有着较为合理的体系结构,规范化、结构化程度较高。同时,《综合电子政务主题词表》充分考虑并兼容已有的《公文主题词表(中办)》和《国务院公文主题词表》,收入两者全部主题词。其标准化的特点及对已有词表的整合为互操作的实现打下了良好的基础。
(3)知识组织系统的互操作可以为互操作应用在政府信息组织领域的实践提供借鉴 国外对于互操作的研究文献最早出现于1962年。随着网络的快速发展,各种国家标准、国际标准都对互操作进行了规范,如NISO的标准Z39.19(单语种控制词汇的创建和开发)、英国国家标准BS8723(用于信息检索的结构化词汇)、ISO的标准ISO25964(叙词表及与其他词表的互操作)等;各类信息提供机构除了制定标准规范,还实施了多项研究计划,国外的主要集中在与《杜威十进分类法》(Deway Decimal Classification,简称DDC)、《美国国会图书馆图书分类法》(Library of Congress Classification,简称LCC)、《国际十进分类法》(Universal Decimal Classification,简称UDC)、《美国国会图书馆标题表》(Library of Congress Subject Headings,简称LCSH)等几个较常用的受控词表进行互操作,国内主要集中在与《中国图书馆分类法》、《汉语主题词表》的互操作,其中一些研究成果已经在实践中得到了应用。
(4)国外对各类受控词表的交互已经逐渐被应用到政府信息资源的组织与利用中,可为我国政府信息的一体化词表建设提供借鉴。例如,澳大利亚的《澳大利亚政府交互式功能主题词表》(Australian Government Interactive Functional Thesaurus,简称AGIFT),以规范目录对照表的形式在标准主题词表间建立对照,使其既可以作为政务分类目录,又可以作为政务主题词表。
3.2.2 互操作方式的选择
基于脑电信号和极限学习机的警觉度检测研 究 ……………………… 杨米红,李会艳,孙晓舟,秦迎梅(23)
编制分类主题一体化词表主要应考虑两方面问题:一是采用哪种编制方式,二是一体化词表的结构设置。
一体化词表有多种编制方式,如改造分类表、改造叙词表、编制对照索引、编制分面叙词表等。国家标准GB/T 21063.5-2007《政务信息资源目录体系》中主题分类的一二级类目与《综合电子政务主题词表》的一二级范畴基本相同,这一特点决定了一体化词表可以采用分面叙词表的编制模式。分面叙词表是指词表的类目和主题词完全相同,分类表的等级结构和主题词表的参照关系完全同构,是一种全组配式的一体化词表,较为理想,可以为本体的构建打下良好的基础。
分类法通过科学分类为知识建立了较为完善的等级体系,类目之间具有严密的逻辑关系,能够比较集中地体现学科的系统性,反映事物之间的学科从属关系,揭示知识的内在联系,有利于用户按照知识体系进行文献的浏览,并能按照等级体系进行知识的扩展或细化。基于这些优势,在构建主题分类一体化词表时,应以分类表为主表,保留完整的分类等级体系,建立类目与主题词间的关联关系,以主题词充实到分类体系中,使分类法不再是抽象的学科体系,而是与主题词结合在一起,形成知识网络。同时,主题词更新的速度要远快于学科体系,因此在一体化词表中,主题词的更新将不断推动分类体系的丰富与更新,使分类体系在保持规范与稳定的同时适应于网络资源的快速变化。
对政府信息多元的知识组织体系的构建应在分类主题一体化词表的基础上有机结合其他各类型词表。例如,开展与图书分类法及主题词表的互操作,以实现按内容组织资源,跨越信息资源在资源类型、载体形态、地理位置等方面的限制,更好地为公众提供政府信息服务;开展与各地区政府机构自行扩展的分类体系的互操作,实现对政府信息的整合、共享,消除信息孤岛;开展与各行业、各部门建设的专业公文主题词表的互操作,实现对信息资源内容揭示与组织的细化,从而为公众提供个性化与精细化服务。
3.3.1 与图书分类法及主题词表的互操作
一般来说,政府信息的分类法与主题词表都是独立编制的,与图书馆界通用的图书分类法与主题词表有很大的差别。例如,联合国统计司分类处(United Nations Statistics Division,简称UNSD)编制的适用于电子政务和电子商务的分类体系包括:政府职能分类 (Classification of the Functions of Government,简称COFOG)、基于个人消费目的的分类 (Classification of Individual Consumption According to Purpose,简称COICOP)、非营利机构住房服务项目分类 (Classification of the Purpose of Non-Profit Institutions Serving Household,简称COPNI)、生产经营支出项目分类(Classification of the Outlays Producers According to Purpose,简称COPP)[8]。但也有一些政府信息分类的研究与实践使用了图书馆分类体系。例如,美国政府信息跨部门协调委员会下设的信息分类工作组向美国行政管理和预算局提交的报告中建议:联邦政府应该强调政府信息分类要与图书编目实践保持一致;在政府信息定位服务(Government Information Locator Service,简称GILS)元数据中,有关分类的赋值应多引用已有的标题表和分类法,如《美国国会图书馆标题表》等。
笔者认为,政府信息的内容具有自身的特点,与图书存在一定差异,因此图书分类法的体系并不适用于政府信息。但为了提高与其他类型文献的兼容性,以便于更好地共享与交换,并能从知识角度进行整合,可以对《综合电子政务主题词表》与《汉语主题词表》进行互操作,以直接映射的方法形成对照词表。即直接在两个词表的词语之间建立等价关系,保留原有词表的结构和内容,在相应款目之间建立对应关系。对照词表的优势在于,不需要对原有词表进行大的改造,工作量相对较小,但由于受到原词表结构及编制原则的限制,也存在无法实现完全映射的问题。在《综合电子政务主题词表》和《汉语主题词表》的互操作中最主要的影响映射的问题是结构匹配差异,即《综合电子政务主题词表》中的一些主题词需要用《汉语主题词表》的两个主题词通过组配来表达,如《综合电子政务主题词表》中的主题词“外贸管理体制”需要使用《汉语主题词表》中的“对外贸易”和“管理体制”进行组配来标引。
在国务院办公厅的政府信息公开目录专栏推行22个主题分类后,很多地方政府机构在参照国务院办公厅的主题分类体系基础上,制定了个性化较强的区域性分类标准,这在一定程度上造成了全国范围内政府信息互联互通的障碍。
笔者认为,对于这种现象应从两方面考虑:
第一,区域性分类体系能够体现本地区经济、社会发展状况及政府工作的特点、信息数量、用户需求等,具有一定的价值,因此不必在全国盲目推行统一的分类体系,可以通过对通用性分类体系与区域性分类体系进行互操作实现政府信息的共享与复用。各级政府机构公开政府信息的内容类型接近,很多公文、法律法规都由多个政府机构作为公开信息在本机构网站上重复发布,因此根据信息同质性这一特点,进行互操作可以采用共现映射的方法。共现映射是指通过KOS词语在元数据记录中的共现关系建立术语间的映射。这一互操作方法的实现基础是存在大量的元数据记录。虽然目前公开的政府信息数量还不够多,但是随着电子政务的发展、政府信息公开机制的完善、政府信息共建共享体系的建设,政府信息的数量将持续增加,元数据的质量也会不断提高,基于共现进行映射的方法将得到越来越广泛的应用。
第二,对区域性分类体系的管理应以开放性、规范性为原则,即在信息分类标准框架内,采用开放式的管理,允许信息组织者在不破坏分类标准框架和规则的前提下,根据信息资源的特点细分和增加类目,但必须遵循统一的标准制定规则。同时,在分类体系标准化的进程中,应着手构建术语注册系统。术语注册是指对各种词表提供权威、集中控制的存储,以促进词表的发现、重用、管理、标准化和互操作[9]。术语注册的作用在于促进各类受控词表的规范化建设与管理;促进各类受控词表的共享与重用;使受控词表转换为机器可读、可理解、能够为语义网所用,促进受控词表与网络环境的融合。
3.3.3 与行业公文主题词表的互操作
《综合电子政务主题词表》的选词范围涵盖了电子政务各领域,但收词深度有一定限制,为了实现精细化、个性化的信息服务,政府信息提供机构应推动电子政务主题词表的系列化建设,编制专业性词表,对《综合电子政务主题词表》进行细化和补充,并将通用性词表与专业性词表有机结合。
目前,各部委和部分省市结合本专业系统的政务信息特点已经编制了一些专业公文主题词表,如卫生部公文主题词表、税务公文主题词表、各省市人民政府公文主题词表等,但欠缺与《综合电子政务主题词表》的兼容性,因此,通用性词表与专业性词表之间的互操作是政府信息知识体系构建中不可或缺的一部分。
政府信息用户的范围广泛,所处社会角色、所受教育程度和专业领域各不相同,查询和利用信息的目的、方法、能力也不相同,因此其信息需求具有多元化、个性化的特点,而标准化的服务很难做到随时调整,适应不同层次的需求。在网络环境下,发布者、转发者、使用者都可以成为信息贡献者,如各级各类政府部门、信息资源提供商、政府信息的需求者等。为了使政府信息服务更具有用户便利性,应集中所有贡献者的力量,按照一定的规则对贡献的内容进行规范控制,并将其纳入到政府信息受控词表的建设中,从而实现知识组织体系的不断进化与完善。
[1]戴剑波,刘华梅.受控词表的互操作研究[M].南京:东南大学出版社,2009:1.
[2]无锡市政府信息公开目录编制方案[EB/OL].[2012-07-31].http://www.wuxi.gov.cn/zfxxgk/xxgkzn/szfxxgkzn/5703209.shtml.
[3]戴维民.信息组织[M].北京:高等教育出版社,2004:113-114.
[4]司 莉.KOS在网络信息组织中的应用与发展[M].武汉:武汉大学出版社,2007.
[5]中办秘书局公文主题词表[EB/OL].[2012-08-11].http://wenku.baidu.com/view/bb56a625af45b307e8719746.html.
[6]国务院公文主题词表[EB/OL].[2012-08-11]. http://wenku.baidu.com/view/ae13930202020740be1e9b30.html.
[7]电子政务主题词表编制与应用系统课题组.综合电子政务主题词表(试用本)范畴表[M].北京:科学技术文献出版社,2005.
[8]高文飞.政务信息组织一体化研究[D].北京:中国科学技术信息研究所,2008:13.
[9]欧石燕. 基于SOA架构的术语注册和服务系统设计与应用[J]. 中国图书馆学报, 2011(9):13-25.