陈志新
(北京师范大学政府管理学院信息管理系 北京 100875)
为什么探讨信息组织的基础理论、基本原理和发展趋向?这种探讨,旨在认清本质、拨云见日,不被风吹草动所干扰,促使信息组织,既能融入现实,又能把握长远,在应对时髦的挑战以及满足现实需求的过程中,不被时髦所蒙蔽、不被现实所裹挟。
目前,数据科学(data science)和机器学习(machine learning,即人工智能)是与信息组织息息相关的最时髦的两个词汇。千百年来,类似这种时髦的词汇以及时髦的科学和时髦的技术,永远层出不穷,我们还是要找寻那个比较稳定的信息组织。探讨基础理论和基本原理,正是要找寻信息组织里存在的那些稳定的、永恒的东西,找到信息组织的本心,而不是跟着时髦的变动而东奔西撞、左右摇摆。什么是信息组织的本心和根本呢?分类、主题、元数据以及信息与用户的关系等问题,才是信息组织的根本的问题、永恒的问题。探讨信息组织的基础理论和基本原理,也必须根植于信息组织的根本问题和永恒问题。
我们组织事物(things)、组织信息(information),组织事物的信息(information about things),组织信息的信息(information about information)[1]。层次繁多、种类无限的信息组织活动,能够万事归一,背后应该拥有统一的原理。本文对此重点予以讨论,期望对信息组织产生一些基础性的认识和基础性的理解,以利于解决信息组织面临的诸多具体问题。
各行各业,源源不断生产并持续流通着各类信息——政务信息受制于政府,出版信息归口出版商,教育信息来自教育界……信息流各有所属,基本不受信息组织行业的管理和控制。很多信息生产发行机构,甚至不知道,还有一类叫图书情报的专门信息组织机构,正在终日殚精竭虑地组织各类信息。
如何组织不属于我们的信息?我们使用信息组织方法,将各种信息表达为信息组织专业设计和管理的各种符号系统,用以替代原始信息。原始信息虽然不属于我们,但加工出来的用以替代原始信息的各种代表符号,是属于我们的。属于我们的,就可以有效组织和管理。由于信息组织符号与信息原文具有一一映射的对应关系,通过对此端信息组织符号——替代品的组织和管理,间接实现了对彼端——原始信息的组织和管理。信息的活动,与信息组织的活动,好像并行照应若即若离的两条平行线。
这样,索顿(Gerard Salton)在出版于1989年的Automatic Text Processing一书中,提出了关于信息组织原理方面的“替代品(surrogates)”概念[2-3]。
然而,中国传统的信息组织活动,却不是以上述的“替代品”方式进行的。中国漫长而丰富的信息组织活动,把信息的流动与信息组织的活动统一起来,是相辅相成、不可分离、彼此交织、紧紧相连的。中国的目录学传统,在学术原理上为读者指示门径,沿门径,直达经过筛选校订的最佳原始文献。目录学在文献整理的基础上进行知识梳理,一方面,形成从具体到抽象的纵向维度上最长的以分类为主的语义网络,另一方面,形成从此类到彼类的横向维度上最广的以分类为主的语义网络,最终实现目录学腾飞,以带有提要和类序的分类目录体例,开辟从“图书整理”到“知识整理”的道路。总之,中国长时期的信息组织实践,让我们对“替代品”的信息组织原理描述产生怀疑。
今天的信息组织活动,又是怎样的呢?当前,本体、知识网络负责学术原理上的指示门径,集成众多参数指标的搜索引擎算法排序功能,自动展现最好的信息原文,呈现信息编目、信息组织与信息检索三者合流的特征。自动化技术手段,复现并拓展了中国古代目录学的优良传统。在互联网、人工智能和大数据的环境下,集成的、方便的、一体化的信息产品,正在只争朝夕地建设,满足着人们梦寐以求的复杂信息需求。
现在,信息工作已经走出了一个个图书馆、档案馆、情报所,走出了一个个数据库,走出了一个个局域网。在这无垠的信息海洋中发现信息、整合信息以及重组信息,建立信息与知识之间的联系,将其全部纳入一个巨大的有序系统,跨越各种障碍实现最大限度的共享和互操作,实现高精度的检索,成为信息组织的重要任务。老子、孔子、刘向、刘歆等无数古人,曾经穷经皓首、孜孜以求,选定好本,校订完美,编写提要,做出叙录,揭示学问门径,用个人的智慧和力量,指示后人以学习之路、学习之法,将最好的完整信息原文文本留存给后人。新技术条件之下,图书馆可以用机器生成各领域的可视化的、本体化的知识揭示地图,可以像搜索引擎那样通过算法,把最好的信息,首先推荐给用户。由于大学问家的人数有限、精力有限,毕其一生,仅能就那些重要的和重大的学科门类,展开这种知识揭示和信息提供工作。古代完全靠大学问家才能做的事情(诸如校勘并选定最佳文献原文),现在的机器和算法,可以在各个领域一刻不息地做这样的加工和推送工作。
搜索引擎化的编目,编目化的搜索引擎,信息组织化的编目,编目化的信息组织,你中有我,我中有你,你我不分。当下的信息工作,淡化了信息描述、信息组织、信息检索、信息咨询与服务的界限;信息工作环节,融合了用户调研、采访、编目、流通、外借与典藏;信息工作的对象,混合书本、文稿、电子的、网络的、音乐、缩微等各种载体形式。信息管理的新特点和新趋势,日益呈现[4]。
如此看来,当下的信息活动与信息组织活动,是并行扭结传动的关系,不是并行隔离映射的关系。所以,替代品(surrogates)的概念,发挥了一定的历史作用,只适用于一段特定时间的信息组织工作。这个概念既不符合中国的数千年信息组织的传统事实,又难以描述现今和未来在大数据和人工智能环境下的信息组织实践。
信息的知晓权、信息的传播权,被视为一种普遍的人权,不以竞争的方式加以分配。广播、电视、互联网、图书馆、博物馆等具有公益性,几乎不需要消耗太多的钱财,人们就可以平等获得这些机构提供的信息。图书馆等机构的主要活动是信息组织,信息组织也同样具有公益性。信息组织虽然需要国家和社会大量的投入,却基本不向最终用户索取相应的费用。
信息组织具有公益、平均、客观的属性,当信息组织的使命完成之后,信息组织机构既不从信息用户身上获得一次性的直接收益,也不从信息用户身上谋求第二次的间接利益,即信息组织不以交易的方式,分配各种各类信息。同时,信息资源异于物质资源,分给不同人或人群,不会直接促使某些人或人群变为成功者和受益人,相应地,也不会因此使另一些人或人群,变为失败者和受损人。
在使用商业类搜索引擎的过程中,用户被搜索引擎自动抓取到其兴趣和倾向,可能会被反向推荐广告信息,进而使得搜索引擎在用户检索信息的过程中及时获利,这种情况,虽已脱离信息组织的领地,但也有些破坏信息组织公益、平等、客观的属性,可能应该用行为经济学(behavioral economics)去理解和解释。
信息组织是信息检索的前提和基础,信息组织的方式深深地影响信息检索效果,然而,信息组织的主体是非营利的、不以利益为主要驱动因素的。信息检索的效果,并不直接影响信息组织的效益。在行为次序上,信息组织者与信息用户紧密相连,但是,在经济效益上,信息组织者与信息用户脱节脱离,不是一个连续的相互直接作用的闭环。所以,这就要求信息组织者格外关注信息组织方式的适用性和有效性问题,不能在信息生命周期上游的位置自娱自乐。因为没有经济利益驱动信息组织者接地气,信息组织者要养成自觉主动地接地气并了解信息用户需求的职业习惯。
与教育、医疗、科技、文化事业一样,信息组织事业,也具有公益性、非直接经济反馈性的特点,整个信息管理事业从国家行政机构隶属上,归口文旅部公共服务司。具有公益属性,属于公共服务部门,这是信息组织的基本定位。
首先,信息组织是多样的。不是所有的信息都需要组织,事实上,没有被纳入信息组织系统的信息远远多于已经组织的信息。同时,不是所有被组织的信息都采用相同的信息组织方式。
信息之海,汪洋无边;信息之土,广袤无垠。信息组织者,要能站在巨浪之上、高山之巅,俯瞰一切,让一切了然于胸。信息组织者,还要畅游大海,耕耘大地,拿回珠宝果实,予以重点整理加工。这样,信息组织需要面向两类信息,一类是包罗万象的一切信息,一类是经过筛选的精粹信息。
被纳入信息组织重点范畴的信息,因其自身及使用者的特点,并非全都使用相同的信息组织方法,目录、文摘、题录、分类、主题、关键词、元数据描述等信息组织方法,对不同信息不会不加分别地采用。
其次,信息组织是有限的。我们可以记录一个信息如何诞生、如何发展,可以记录信息的使用者和相应的使用效果;只要我们放弃隐私的概念,我们可以把使用这个信息的所有用户的信息,与这个信息捆绑在一起,进而形成一个长长的与某一信息相关的清单;甚至我们能够做到,对一个信息的记录信息,将超过信息本身。对信息的记录越详细越好、越丰富越好,但是这种信息组织,也要设定一个适当的界限,不能无限化膨胀。信息爆炸与信息污染困扰人类,对信息的组织不能恣意妄为。
把相同的信息放在一起,把相似的信息放在临近的位置上,是信息组织的根本做法。然而,聚在一起的信息,还要按照信息组织的原则,进一步拆分,形成独立的唯一标识,便于用户的使用和查询。
信息组织的过程,就是对信息赋予信息组织标识的过程。我们让信息聚在一起,是为了让信息统一分拆更加方便,节省我们分拆信息的时间和消耗。分拆出来的信息,灵活机动,便于实现各种组合,聚合起来满足各种现实特定目标。信息组织的聚是为了更好地散,信息组织的散是为了更好地聚。
信息管理行业花费时间等成本组织信息,节省了无数人寻找和发现信息的时间,整个社会用于信息查询的时间之和将远远小于信息管理行业进行信息组织的时间,这样,信息组织活动提升了整个社会的信息流通效率,进而实现了信息组织的社会意义和专业价值。
信息组织的目的是信息利用。信息组织虽然也履行信息保存的职能,但保存的最终目的还是为了利用。信息利用是信息组织的唯一目的。然而,抛开信息组织机构的努力,难道信息的生产、发布、流通机构,其目的,不也是为了让信息得到利用吗?各行各业,百家争鸣,信息既然诞生,就是致力于钻进人们的心中,就是盼望着成为社会的共识。
那图书情报和档案管理专业信息组织的独特魅力和独有价值是什么?答案是:我们致力于将各种信息变为系统的、统一的、整体的信息。
信息与所有人休戚相关、荣辱与共,我们致力于建设人类信息共同体,天下为公,让所有人公平地获得信息,让所有人获得最优的信息,让所有人获得更多的信息,让所有人更快捷方便地获得信息,让所有人获得信息的代价更小,让一切信息发挥最佳的效益和价值,最终实现:人、技术、社会与信息的和谐相处;精神、物质、信息三大世界融洽和谐。
这是我们专业的特定工作范围和工作职能。这是非图书情报和档案管理专业,不想做也没能力做的一项伟大工作。这个神圣责任和重大使命,一定也只能由我们来好好承担。
信息组织何为起点,何为终点?信息组织可以在信息诞生的那一刻同步开始,可以与信息的生产、保存、利用等发生、发展活动相伴相随,信息组织的内容经常与信息本身捆绑在一起。信息组织可以随信息的终结而消亡,还可以超越信息本身而永存。具体而言,信息组织的结果与原始信息之间,包括三种关系:
第一种,信息组织的结果与原始信息,紧紧相依,不可分离。比如,著者写完了书,总要弄一个目录大纲。这本书,与该书的目录,不可分离。再比如,图书的在版编目数据,网络数据的元数据信息等等,都是信息与信息组织的结果,二者紧紧相随,不可分离。
第二种,信息组织的结果与原始信息,相互分离,互不知晓。比如,星座命名、银河系的称谓等。再比如,信息生产与信息组织分离的诸多场景,生产信息的人,自己都不知道,这些信息将被哪个信息系统收集和组织。
第三种,信息组织的结果与原始信息若即若离。我们所言的信息组织作为一种信息管理活动,拥有中介性、二传手和服务性行业的特点,主要指这种关系。
找准定位,十分必要。区分信息组织结果与信息原文的关系,有助于从宏观角度,明确这种组织活动究竟是哪种类型。
第一,揭示信息的整体和宏观。盲人摸象,永远糊涂。先知整体,再探细节,在总体中把握细节,是一般的认识规律。组织信息和查询信息均如此。信息组织的首要任务,就应该揭示信息的一般和整体,提供某种信息的全部种类和全部形态,让用户了解所需信息的全貌特征,同时,提供古今中外、天南地北各级各类信息的完整图景,揭示信息的整体和宏观是履行信息组织职能的必然做法。
第二,揭示信息的具体和微观。缺乏具体的整体,没有微观的宏观,既无意义又不可能。由一般到具体,由宏观到微观的长长的逻辑链条,也是各类信息按逻辑排列的长长的信息集合。信息的整体和宏观,是信息组织的着力点;信息的具体和微观,是信息组织的落脚点。
第三,让信息成为集合。源于某一系统的某一类信息,是成体系的、有序的,然而,众多来源不一、目的不同的信息,是离散的、无序的。自然界与人类社会普遍联系,要求所有的信息也应该是普遍联系的、一体的。整合一切信息,聚合一切信息,让信息系统化、集合化,是信息组织的工作核心,更是信息组织的工作目标。
第四,让信息符合标准。这是履行“揭示信息的整体和宏观、揭示信息的具体和微观和让信息成为集合”等上述三项信息组织工作内容的必要手段,制定信息组织的标准,按照信息组织的标准组织一切信息,是信息组织工作的重要方式和全部内容。
第五,提供能够识别某一具体信息的要素信息。信息用户,凭借少量的信息片段,得到全部的信息原文;凭借模糊的信息线索,获得准确的信息出处;凭借局部的信息语义,获得完整的系统信息……要求信息组织者对信息的片段、线索、语义等逐一登记,杜绝遗漏,给信息拴上尽可能多的抓手,以方便用户检索。
第六,提供能够接近信息的位置信息。无论是实物信息还是电子资源,均需信息组织者提供其物理地址,使得该信息能够被获取。
三个原则是:文献保证原则、用户保证原则、与设备条件相适应原则。这就要求信息组织适应文献特征,满足用户需求,适应技术设备条件的变化,在充分考虑文献、用户和技术设备条件三方面情况的基础上,有效地开展信息组织活动。三原则可以组合成多维度的关系:文献与文献、用户与用户、文献与用户、文献与设备、用户与设备、设备与设备。
文献与文献:建立文献之间的连接关系,让文献信息形成系统的整体,让文献信息活起来、动起来,让文献信息反过来适应用户、技术设备条件的变化和需求。
用户与用户:过去,书库里某书只有三个复本,三个读者借走了,第四个读者只能等。如今,实物信息资源逐渐让位给电子信息资源,用户与用户在信息组织系统中,不是竞争关系,甲用户获得某一信息,不影响乙用户照样获得这一信息。用户的使用信息,形成各种各类信息的标签,成为给其他用户提供优质信息服务的基础和保证。甚至用户在使用某一信息的当下就可以同步帮助使用该信息的其他用户。信息组织活动应该让用户也建立起连接关系,让用户的知识、技能和经验乃至情感、意识和思想贯通并流通起来。信息组织不应局限于对信息的组织,对用户进行组织,也是信息组织有机而重要的内容。
文献与用户:为文献找用户,为用户找文献。
文献与设备:文献总要借助一定的技术设备手段予以搜集、保存、加工、处理,文献与设备也要组织协调好它们作为物质要素的关系,共同地发挥好信息组织的基础性物质保障作用。
用户与设备:技术设备要为人服务,人与设备协调一致。
设备与设备:主要指各种物质技术手段必须具有继承性和延展性,各种技术指标和标准,要考虑多种设备的适应度。
下面,在处理上述信息组织的多个维度的关系中,我们排除技术设备因素,着重分析用户与资源的关系问题,即用户与资源的耦合关系、耦合形式和匹配关系问题。
以往,我们认为,信息组织的主要领域是信息,除此之外,我们要用一些次要的精力,来组织、规范和培训用户,用户教育也是信息组织的一个组成部分。这样,好像用户与信息,是各自独立的。
虽然,信息是物,用户是人,但是,用户与信息,不是割裂的。用户,天然要依赖和寻找、生产信息,信息就是为人而产生、存在。用户和信息,本来就是一体,完全因为人的局限性与信息的局限性,使得其结合存在问题,才需要帮助。所以,为了处理好信息与用户的耦合关系,信息管理行业产生了一句名言:把合适的信息在合适的时间给合适的用户。这也成为了信息组织的核心。
用户与信息是一体的,用户与用户之间,信息与信息之间,本是同根生,更加具有一体性。所以,我们的信息组织工作,除了要建立用户与信息之间的耦合匹配关系,也要建立用户与用户的耦合匹配关系以及信息与信息的耦合匹配关系。除了建立用户与信息的连接关系,更要建立用户与用户的连接关系以及信息与信息的连接关系。
过去,把信息资源搜集起来,图书馆来整序,集中建立信息与信息的连接。如今,图书馆办一些沙龙讲座,开一些研究空间、讨论空间,就是为了改变那种单纯信息集合场所的固有刻板形象,拓展用户与用户的连接关系。同时,我们很注意分享用户在使用信息过程中的留痕记录,让用户的智慧保留并流传开来,这也是建立用户之间关联的好办法。至于信息与信息的连接,在新技术条件下,比传统信息环境已经加深和加强了很多。
如此认识信息组织,才会更加丰富,更加生动,更加真实。实践和理论说明,信息组织和信息检索,原来的独立分离状态——信息组织管信息,信息检索管用户,信息与用户是两门课程、两件事情的局面,该终止了。由于技术的进步,信息组织与信息检索,是合起来、一体的关系。
随之深入,信息、用户、技术设备等因素之间,也将逐渐形成广泛一体的耦合关系。这必然是信息组织的未来图景。
信息管理专业有一个传统而经典的说法,把信息组织分为两种。一种是面向内容的信息组织,比如,一本书,只关注它是讲数学的,还是讲物理的,而不考虑这本数学书是古代的还是现代的,是著作还是期刊。另一种是面向形式的信息组织,比如,一本书,只关心其高度是多少厘米,是中文的还是英文的,哪个作者写的,哪个出版社出版的,什么时间出版的,而不太关心这本书是关于经济的还是关于政治的,是关于计算机的还是关于通信业的。
上述两种区分,也就是分类法、主题法与信息描述的区别。一般认为,分类法和主题法,主要面向信息的内容,不太注意信息的形式;信息描述,则更多关注信息的形式,不太注意信息的内容。
从哲学上讲,内容与形式,并非严格区分,而是拥有联系,所以,上述的二元划分,肯定存在问题。比如,图片的文献(形式特征),不可能是讲数学的(内容特征);线装书(形式特征)不可能讨论现代物理问题(内容特征)。
于是,那种传统而经典的区分,逐渐淡化,分类法、主题法和信息描述,逐渐被包含在信息组织的内部。即今日的信息组织,包括过去的分类法、主题法以及信息描述。
这样,信息组织的内涵丰富起来。这个信息是讲伦理学的,还是讲哲学的?书籍还是期刊论文?电子的还是印刷的?它的读者对象、开本、价格、ISBN号、收藏单位、出版社、出版时间、网络地址、文件大小等等,均一一仔细记录,成为该信息的完整画像,应有尽有。把原来不属于信息组织的信息形式特征的描述,划入信息组织的内涵,因此,信息组织的内涵便足够丰富了。
然而,事情总是发展变化的。因为,即使是上述扩大化了的信息组织,仍然局限于内涵式的信息组织。这个信息被哪些用户使用?是男用户还是女用户?多大的年龄?一共被使用了多长时间?在什么时间和地点使用?使用的频率是多少?面对这些问题,原有的信息组织模式无法反映、不能记录、束手无策。
在大数据的技术条件下,信息处处留痕。顺应时代发展,我们的信息组织发展出外延式信息的一系列组织办法,详细、持续记录一个信息进入流通和使用环节之后的一切。其记录的内容,甚至可以发展到无穷的地步,当然,一些信息,不被使用,某个没有使用记录的信息,也会随同原始信息被记载在案。
原来,我们的信息组织,是组织信息自身的,我们不去组织信息用户的使用信息以及信息进入检索和利用环节之后的变动信息和影响信息等反应、反馈类的信息,如今,这一块内容,成为耕耘信息组织的新天地。外延式的信息组织,与内涵式的信息组织一样,成为信息组织的必要组成部分。
总之,从前,人们普遍认为信息组织存在终点,把信息组织完了,交给用户,信息组织便万事大吉了。如今,信息组织是信息的全流程组织,被组织信息的使用数据将源源不断地增加到信息组织的工作流程之中,使得信息组织活动与信息自身的全生命周期过程相伴相随。
如此看来,传统的专业标引员、大众用户和人工智能程序,都是信息组织者的有机组成要素了。
分类法,是信息组织的重要方法,它以多维的方式,展开类目,将信息装进分门别类、井然有序的体系中去。
主题法,是信息组织的另一种重要方法,一个信息,只以一个叙词表达,叙词以音序排列,进而对应地排列被组织的信息,这种情况下,主题法的信息组织,是一维的。然而,几乎任何信息,都不会仅以一个叙词表达,多个叙词表达一个信息是主题法的常态,使得主题法的信息组织方式,也是多维的。
信息描述的方法,比如编目格式、机读目录、元数据和资源描述和检索(RDA),是信息资源的容器和框架,填塞不同的内容,将表达不同的信息。任何信息描述方式,都是多角度、多维的。
但是,如果换以时间的属性,作为信息组织的唯一依据,局面则大不相同。一切信息,在时间的一维表示之下,展现一维的排列特征,井然有序,毫厘不爽。所以,时间是唯一能够进行一维信息组织的指标。信息组织的方法千万条,平易简单的时间因素第一条。
想一想数千人数十年编成的分类法,看一看几卷十几卷的主题词表,用一用浩繁的元数据条款,我们就会发现,在整个信息管理领域,信息组织工作涉及的标准、规则、条例、协议和工具最多,信息组织工作的技术性也最强。
从英美编目条例(AACR)、国际标准书目著录(ISBD)、各种元数据格式(Metadata)到书目记录的功能需求(FRBR)、资源描述与检索(RDA),从标准通用标记语言(SGML)、超文本标记语言(HTML)到可扩展标记语言(XML),从世界各国鸿篇巨著的分类法、主题词表到各领域本体,无不体现信息组织领域的博大精深。
信息组织是整个信息管理专业的灵魂,是整个信息管理的核心,其重点、难点也都在这里。
信息组织的性质也是信息组织的社会职能定位的问题。我们不是信息生产者,不是信息的所有者,我们是记录员的角色,我们是中转站的角色。服务性、中介性是信息管理学科的定位和基本点。信息组织从属于信息管理,信息组织必然具有服务性和中介性。认清信息组织产品具有服务性和中介性,才能建设好信息组织产品——包括商业性的信息组织和信息检索产品。
百度的网络搜索业务在亏损,用户数在下降。百度,把别人的信息拿来后,做成自己的内容,然后,用户搜索百度,依然停留在百度,百度建造了独立王国,一时辉煌,后患无穷。腾讯、阿里等等,隔离百度,实属必然。所以,产品哲学没掌握好,信息管理、信息组织的基础理论没领会好,越往前走,越往深行,越出问题。
百度的产品哲学,出了什么问题呢?第一,百度要当信息原文制造者。恰恰事与愿违,你越要当信息生产者,那真正的信息生产者就越会离你而去,进而信息用户也必将离你而去。第二,广告左右搜索结果,百度要塑造信息路径。同样事与愿违,你越是阻挡正确的信息,那正确的信息就会越不需要你的过滤和推送。
百度搜索引擎产品建设思路的漏洞,表现诸多。几乎所有的搜索结果里面,百度百科、百度知道,一定在首页。然而,百科、知道、知识这类东西,与搜索引擎的基本精神,是背道而驰的。搜索引擎的基本精神应该是做中介者、当摆渡(百度)人,甘当通道,而百度百科、百度知道这类东西,把搜索引擎做成了终点和结果。这类东西越精彩,知识的原始提供者,就越会因没人光顾而越感悲哀,那么,搜索引擎,则变成原始信息提供者的对立面和竞争者,这不是一个好的产品生态系统。
可做这类东西,但不要把这类东西,置于优先位置。什么应该摆在搜索引擎优先级比较高的位置呢?图书情报领域与计算机领域,有一个共同的名词:元数据框架(三四十年前称为“款目”)。它应该摆在百度搜索结果优先级高的位置。至少做两种元数据框架。一种像个人的应聘履历表一样,根据搜索词对应的知识打造一张“履历表”。另一种是概要描述终点知识图景,包含但不限于百度百科与百度知道的元数据框架,搜索引擎可以帮助整合出这个图景的框架,但是,不能扔掉原汁原味的原创信息的网址和外观。因为,追溯根源是人对信息的普遍需求,人们对百度百科一类的二手知识的信任,是低于原始信息的。
总之,在产品原则方面,在产品生态方面,百度存在这样的不足,即:搜索结果只有两类,一类是一条一条带有网址的指向原始信息的搜索结果,它的问题是缺少整合;另一类是百度百科、知道等已经形成了终点答案知识信息的搜索结果,它的问题是整合过度。既缺位又越位的产品,是难以为继的。
信息组织为信息增添顺序和结构,具备了顺序和结构的信息,从而成为信息系统。所以,信息组织,就是信息系统的建立、维护和使用。
信息按照什么标准组织?按照信息内容、学科等内部特征还是按照信息的功能、作用等外在特性组织?有的信息系统,按照信息的多种特征,进行多角度的组织,有的信息系统,偏向按某一种或几种特征进行组织,使得不同的信息组织系统,呈现不同的功能和特征。
这样,信息系统就是方法、内容、结构与功能的聚合体,信息系统是信息组织的承载者和表达者。
第一,采集收录。对于当下的信息、即时的信息,我们拥有众多的渠道并可采用无数的办法去获得。然而,对于历史上曾经存在的浩繁信息,形式多样,与今天的用户难以直接见面。不被信息组织系统收录和记载的信息,将逐渐从人类知识信息系统的统一体中剥离出去,该信息终将退出信息交流的舞台。信息组织活动,如同产品的广告,指示人们不要忘记它,刺激人们使用它。
第二,加工整理。古今中外,信息如此之多,如果直接与用户见面,必然让用户望洋兴叹、无所适从。经过有效组织之后,信息体积缩小、排序明晰,用户对信息了然于胸,得以便捷地识别和筛选出恰当的信息,从而找到更加切合实际需求的信息原文。
巧妇难为无米之炊,手头先有信息才能组织,然后才能让用户使用,所以,一种观念认为,堆积如山、浩瀚如海的信息是驱动信息组织的动力源泉。
另一种观念认为,空手可以套得白狼,巧妇可为无米之炊。如今,信息组织与信息检索的边界逐渐模糊,信息组织与信息检索不再拥有明确的线性次序关系。在用户信息需求的驱动下,信息组织可后发地找寻、调配、重组、加工各种信息。信息需求可以在先,信息组织随后。满足了信息需求的结果信息,成为信息组织的重要素材,更能满足下一次的信息需求。
以信息需求为主要驱动力的思路,促使信息组织工具更多地汇集信息,暂时无需“认真”组织,一旦出现需求,才“好好”组织。分类法工具拥有先组和后组的概念,主题法工具拥有顺排档和倒排档的概念,那么,用户需求驱动类型的信息组织,便是属于后组的、倒排的类型。
专业人员和专业工具,永远是信息组织的主力军,在此前提下,重视终端普通用户以及各类数据处理工具的独特作用,便于完善信息组织的其他方面工作。
链接关系反映网页和网站、网页和网页之间的联系,它并不能揭示信息与信息之间的一切关系,尤其很多隐性关系并不能通过链接来表达。链接关系并不能满足用户全部的信息发现需求,也并不是信息发现的唯一方式。
信息组织的本质是对信息予以连接、建立信息之间的联系。而信息连接、联系的形式多种多样,不是唯有搜索引擎主要使用的链接关系一种。
社交策展是传统图书编著工作的网络延伸。一本书的署名是“编著”,编著者做的工作就是收集大量资讯,然后按照一个自我拟定的框架来梳理和汇集这些资讯。网络世界的社交策展,相较于传统图书编著者,其内容单薄些,没那么系统。
社交策展(social content curation)是一种典型的以用户为核心的信息连接方式。社交策展是发现、收集、组织和分享在线内容的过程,它是人们赋予信息以“定性判断”的过程,从而增加了人们搜集、组织所得信息的价值。风靡当今的微信和抖音,是信息社交策展的生动样例。
搜索引擎擅长满足用户的显性需求,社交策展擅长满足用户的隐性需求。社交策展带来了新的信息发现方式,增进了人与人之间的关系、人与内容之间的关系,是对搜索引擎信息发现方式的弥补和延伸。
在真实世界里,从博物馆到零售店,从成人到儿童,对各类实物的搜集和整理从未停歇。如同网络门户、邮箱和日志一样,社交策展是人类基本行为转移到网络上的又一例证。在互联网的数字世界里,社交策展就是真实世界搜集和整理行为在网络上的延续[5]。
由于每位普通用户都在为信息组织作贡献,因此,普通用户也成了信息的组织者。一部分用户,成为另一部分用户的用户,用户之间不停地循环,进而成为互帮互学、互惠互利的有机体。这种广泛而深入的互动,被专业的以及行业的信息组织者们认识、重视并逐渐纳入信息组织系统之中。
除上述社交策展方式之外,信息组织主体从专业人员迁移到终端用户还有另外一个表现。过去,一般认为,用户仅能作为使用者,个人无力承担信息组织活动,信息组织归功于信息机构和信息系统。但是,如今,以各种个人信息管理系统(PIMS)为代表,用户可以主宰信息组织工具,实现个人对自我信息乃至社会信息的管理和组织。
博物馆的展品具有唯一性,图书馆书架上的图书非唯一但是复本有限,这些具有唯一性和数量有限性的信息,其存放地点,也具有唯一性和有限性,所以,实物组织,不能既在这里,又在那里。数字信息,却截然不同,几乎可以无成本复制和存放,与实物信息相比,数字资源拥有无限性[6]。
很多的信息组织理论源于实物信息,认为信息是有限的,某一信息在这里了,就不能又在那里,所以,把信息组织在什么位置,就要好好斟酌和权衡。现在,数字信息占据压倒性的局面,其无限性,使得过去信息组织的很多斟酌和权衡,失掉了价值和意义。这种背景下的信息组织,不以稀缺性为原则建立信息组织的标准,不会考虑信息用途最大化的处置原则,更强调信息的相关性程度及其与用途的匹配性程度,在满足传统的信息用途最大化的基础上,还能充分满足对信息的最小化、最个性化的需求。
在现代出版发行业无限发展的情况下,在数字信息无限爆发的背景下,相同的信息,可能会以繁杂、丰富而多样的形式展现出来,依据对相同的信息,要放在一起并建立联系的信息组织基本原则,我们该如何应对?书目记录的功能需求(FRBR)试图解决这个问题。相同的信息,统一命名为作品(work);对于相同的信息内容,一种是视频的,一种是文字书本的,一种是电子的,一种是手抄的,将这种表现方式跨度大的形式称为内容表达(expressions);针对印刷的不同内容表达,称为载体表现(manifestations);笼统而言,凡是物质载体上不一样的相同信息,分别称其为单件(item)。书目记录的功能需求(FRBR)的一系列做法,实现了数字信息组织多样性和统一性的有机协调。
信息链以及信息生命周期理论认为,从数据到信息、从信息到知识、从知识到情报(解决方案)的转化过程与诸多环节,要遵循收集—整理—组织—存储—检索—利用的工作流程,信息组织是承上启下的重要环节,在完整的工作流程中发挥了至关重要的枢纽作用。
然而,在大数据环境下的某些场景中,数据经过挖掘可以直接生成情报(解决方案),在不经过组织的情况下直接服务于决策。比如,在流式计算中,由于无法确定数据出现的时刻和顺序,也无法将全部数据存储起来,因此不再进行流式数据的存储,而是当流动的数据到来后在内存中直接进行数据的实时计算,数据的收集、整理、组织、存储、检索与利用需要在极短的时间内实时并发进行。同时,某些大数据在一定程度上强调实时性,很多数据还没有被存储和组织,就已经失去了效用。在这种情况下,信息组织的作用也很难显性化,再加上大数据时代人们在思想上对数据挖掘和信息分析的重视与推崇,信息组织在从数据到解决方案这个过程中的作用往往被隐藏或忽略了。
这样就导致大数据环境下的信息组织方式表现出一定的错乱性。可以说,信息组织在大数据环境下的作用及表现,是信息管理专业正在面临的一个艰巨挑战[7]。
信息组织虽然以实干和操作为主,但任何实践无不包含理论和原理。本文直奔问题,仅罗列了一些关于信息组织原理、理论以及趋势方面的问题,并没能系统地讨论信息组织的基础理论问题。抛砖引玉,意在阐明信息组织并不是纯技术的活动,信息组织里面,包含理论,包含思辨,包含哲学。理论的力量是无穷的,期望借此基础理论研究,把我们的信息组织实践工作做得更周到、更美好!