基于文本分词朴素贝叶斯分类的图书采访机制探索

2021-09-07 10:42:44王红王雅琴黄建国

现代情报 2021年9期

关键词：朴素贝叶斯流通

王红　王雅琴　黄建国

DOI：10.3969/j.issn.1008-0821.2021.09.008

[中图分类号]G253.1 [文献标识码]A [文章编号]1008-0821（2021）09-0074-10

1引言

1.1问题提出

图书采访是一项严谨的科学决策工作，尤其是在确定每一类目图书的采访数量或预算后，面对大量差异化趋小、同质化严重的图书品种，优选出流通利用率高、符合图书馆性质、任务等建设方向且综合评价较高的图书，成为图书采访过程中面临的主要任务。

流通数据作为读者需求直接映射结果.在采访实践中，常常作为分类知识的采访数量提供参考，然而，流通数据对具体图书品种的选择，却很难提供数据支持。迫使采访人员把具体图书品种选择的依据转为从读者需求人手，通过各种手段收集需求数据，并采用各种研究工具预测读者需求。但在面临具体图书品种，不能充分挖掘和利用真实的需求数据隐含的参考价值，而是依赖读者的需求意愿，通过需求调查或者读者参与采访等手段作为遴选图书的依据，导致图书采访結果的信度降低，最终影响采访效率。

采用成熟的人工智能算法，挖掘利用隐含在流通数据中读者需求的信息，以此转化为遴选图书的依据，不仅使图书采访有了可靠的客观依据，而且有利于把握复杂多变的读者需求，为进一步研究读者需求规律，探索图书采访的决策分析，提供严谨的逻辑依据和量化决策指标，打造坚实的理论和应用保障。

1.2问题引入

图书采访作为一项决策活动，决策对象是待采访图书，决策内容是选择具有较高流通潜力的图书。图书采访决策的核心问题是基于怎样的原理，采用何种方式，能够科学、客观、严谨地对每一种待采访图书的流通趋势进行量化描述，并根据量化结果，优选出最具有流通潜力的图书。

读者需求和图书流通，是同一问题互为矛盾互为依存的两种表述视角，读者需求的行为结果就是图书流通的表现结果。但是，由于读者需求具有需求意愿和需求行为两个过程，与采用读者需求意愿相比，采用需求行为结果对具体的图书需求品种预测更具有可信度和说服力。

图书馆对馆藏图书流通的掌控和了解程度，相对于读者需求意愿而言，有着更加充分有力、令人信服的客观记录数据基础。馆藏图书有确定的知识内容及其描述信息，馆藏图书流通有详实的记录数据，依据馆藏图书的客观描述和流通等数据比通过收集探索读者需求等主观因素数据，分析图书流通规律与趋势更具有坚实的基础和可靠保障。

在对图书流通现象内在规律和机制充分了解之前，某种图书发生流通的事件，只能称之为有限观察范围内的一种随机事件。随机事件既有偶然性的一面，又具有必然性的一面，这种偶然性意味着隐藏在图书流通现象背后的读者需求规律尚未能被揭示，必然性则表明，复杂且毫无头绪的图书流通现象，具有统计学意义的规律尚待挖掘。

1.3问题分析

图书采访最主要任务，是不断补充具有流通潜力的馆藏，认识了解图书流通的形成机制和特征，是识别图书流通潜力的基础和前提。图书流通是由图书和读者两个图书馆客体对象互动的结果，相对于读者需求意愿与行为，图书具有稳定的客观特征，从图书自身角度，图书是包含固定知识内容的载体。从图书馆馆藏管理角度来看，图书是由MARC数据标识的管理对象;从读者视角，图书只是拥有各种不同名称的知识载体，一种馆藏图书发生流通之前，读者对该图书内容的了解程度，主要有3种情况：一是从未听说该种图书，但通过图书的封面上题名项等信息，对图书承载的知识内容有了初步的认识;二是读者通过各种渠道，对该种图书承载的知识内容有一定的了解，但并不知晓图书的内容细节;三是阅读过该图书，因为各种不为图书馆所知的原因，再次借阅该图书。从图书采访角度来看，图书采访补充的图书种类，主要是读者从未阅读知晓的新书。

一般情况下，对一种图书发生流通的陈述是，图书被有获取图书承载知识内容需求的读者借阅。这种陈述隐含两个重要的前提：一是读者需求背后有着复杂的需求动机和目的;二是读者需求目标是图书所在类目的知识，被借阅的图书仅仅是读者对该类知识载体的一种选择。由此可知，图书发生流通的机制主要在于，一种图书能够展示给读者的内涵表征信息，成为决定该种图书被读者选中借阅的关键因素。图书传递给读者的信息，由两个途径构成：一是图书与读者的直接互动，通过读者观察和翻阅浏览，把图书自身携带的基本描述信息和知识内容展示给读者后，最终形成图书的流通结果;二是读者查看图书的题名、简介，或从其他相关渠道了解的内容，既包括图书内容的基本描述性信息，也包括图书内容简介或部分内容信息，以及图书可能发挥的作用与功能等内容。

从图书流通形成的机制可以看出，一种图书是否发生流通，与这种图书所在的相同知识分类中的其他图书之间，具有竞争和相互影响的关系，与其他分类图书之间没有任何关系。因此，在既不能把握和调控读者主观意愿，也不能了解图书流通现象内在机理和规律的情况下，从具体知识类目下的馆藏基本知识描述信息入，通过考察不同馆藏的流通规律分析，探索具有类似描述信息的待采访图书流通潜力，具有操作的可行性和逻辑的充分性。

1.4问题假设与定义

由于图书采访的目标是选购具有流通潜力的图书，因此，本研究提出一种假设，一种图书流通竞争潜力的影响因素，是图书所在具体分类的类目中，由图书封面的题名、作者和出版机构3个要素对读者综合作用的结果。因此，图书采访决策活动可以表述为：

定义1：设Acq={x₁，x₂，…，x_i为全部待决策图书集合，总计有i种待选图书，x_i为每一种待决策图书，每一个待决策图书x={a₁，a₂，…，a_m}，n为待决策图书z有m维属性特征（即题名等），图书采访决策，就是根据a_m承载的信息，判断x_i未来流通潜力，对x_i做出购买Buy或不购买Nobuy的二元分类判断，使Acq集合中每一个对象x，都拥有一个新的分类属性（购买或不购买）。其中，图书的属性特征维度m，是对图书形式和内容所承载全部信息，依据一定分类规则做出的多维特征划分。

2相关研究

图书馆发展困境之一是资源采访环节存在問题，影响了图书馆资源建设的效率和质量，对图书馆各项职能的发挥产生影响。王紫剑、李颖、毛静华等分别从图书采访和出版发行角度，对图书采访人员素质提出了要求和解决的途径。而基于图书自身承载的特征数据要素，开展图书采访的研究，常见的关注点主要以提升采访图书质量为目标，集中在图书分类特征、出版机构特征和作者特征分析。相关研究主要体现在图书特征要素筛选、图书价值分析等方面的探索。蔡时连认为文献出版发行信息是文献的核心和实质，分为内部特征和外部特征，涵盖了出版机构、发行机构、价格、作者、版次、印刷单位、装帧和书号等，以及标题、摘要、前言、目录和内容部分及其科学价值等。樊国萍认为，书目信息经过信息的制作、传递与利用3个主要环节，在流动中信息的损耗难以避免。许继新在分析判断图书学术价值的途径后，提出判断图书效能要素从高到低依次为核心著者、核心出版社和著作方式。王红等提出图书馆现有的数据绝大部分为有标记数据，其中馆藏主要是由MARC数据标准控制的标记数据，根据馆藏、读者和流通数据，可揭示馆藏、流通和知识分布规律。马费成等认为在当前的研究方向中，采用词频分析法，利用文献核心内容的关键词或主题词出现的频次，能够发现研究热点和发展动向。吴越提出利用数据挖掘的方法，构建高校图书馆图书采访决策模型，能够帮助采访馆员发现模型与数据之间联系的思路。胡杨注意到零借阅率图书作为动态分析数据，其存在有必然性和客观性。

3相关原理

图书的分类特征内容主要由自然语言构成。基于自然语言开展人工智能分类分析，首先需要利用自然语言处理分析技术，对图书特征描述进行量化处理，然后再利用人工智能技术开展分类研究。

3.1自然语言分析处理技术

自然语言处理是人工智能领域的重要组成部分，已经在信息索引、文本分类、机器翻译、搜索引擎、对话系统等领域取得长足进步。其中，具有坚实数学理论支撑和可量化分析技术的统计自然语言处理技术异军突起，通过利用学习人类已经形成的语言资料，成为探索自然语言规律的最基础理论。

分词技术、信息提取和文本分类是自然语言处理的核心技术。中文分词就是对中文断句，分出来的词语，往往来自词典为主的词表，中文分词最简单的方法是直接匹配词表，返回此表中最长词语;信息提取就是把文本里包含的信息点进行结构化处理，变成可利用表格进行信息组织的形式，以利于数据库存储和处理;信息点指文本中的事件、实体的关系;文本分类是指按照一定的分类体系或标准对文本进行自动分类标记。

关键词提取可以发现文本数据重要特征，信息提取主要内容是关键词提取，TF-IDF（Term Fre-quency-Inverse Document Frequency）.词频一逆文档频率，基于语料进行关键词提取模型训练的方法，是比较成熟和常用的关键词提取方法。作为一种关键词统计提取方法.用以评估一个词语对于文件集或语料库中一份文件的重要程度。计算公式如下：

其中，w代表给定词语，词频TF表示在一个文档或语料库中，给定词语在本文档内的重要程度，即给定词语出现的频率，是该词语出现的次数，与该文档出现最多次数词语的次数之比。逆文档频率IDF表示在全部文档中或语料库中，给定词语对每一个文档或语料库的重要程度，是由文档的总数量除以包含给定词语的文档数量，再对计算结果取对数。由于IDF是对一个大于或等于1的数值取对数，其结果是一个大于0的值域，这不仅意味着包含给定词语的文档数量越少，IDF数值越大，也表明给定词语越能够代表该文档独特的特征。TF-IDF通过计算全部词语在本文档的重要性和独特性的量化关系，按照计算结果降序排序和选择关键词个数，就得到代表每个文档特征的关键词集合。

文本分类一般包括两分类和多分类，如确定是否购买一本书，就是买或不买两种分类;而确定一本书是图书分类法中的哪种分类，就是多分类。文本分类是当前机器学习领域相对成熟的技术，主要原理是利用计算机，在已有分类的数据基础上，对数据特征的学习模型进行训练，最终使模型能够对未进行分类的数据拥有较高的预测能力。常见的分类方法主要有神经网络、支持向量机、k近邻和朴素贝叶斯分类，其中支持向量机适合长文本分类，朴素贝叶斯适合短文本分类。

3.2文献—词项矩阵

文献—词项矩阵（Document-term Matrix）是词共现矩阵的一种形式，不同文档构成矩阵的行，不同词项构成矩阵的列。文献矩阵的含义如表1所示，其中Books代表文档，Keywords代表词项，a代表文档中对应词项的统计值。词项一文献矩阵以矩阵形式的表达式如下：

文献一词项矩阵把自然语言描述和表达的对象.通过词项方式予以量化规范表达，使得复杂的文本对象拥有了标准的数学表示方法，为利用机器学习模型开展各种量化分析和研究，提供了基本保障。

3.3概率论与朴素贝叶斯分类

印度著名图书馆学家阮冈纳赞1966年在《图书馆书刊选择》中提出：负责图书采购的图书馆员或教师，应该注意到选购图书对于读者使用该书的概率性。朴素贝叶斯分类（Naive Bayes）是当今人工智能监督学习的重要算法，被选人数据挖掘的十大算法之一。朴素贝叶斯分类源于古典数学理论，有着坚实的数学基础，在利用给定带有类别向量的对象集合，判断未曾见过对象的类别方面，具有成熟稳健、易于构造、容易理解、分类效果极佳的优势。

朴素贝叶斯分类依据的贝叶斯定理，是概率论的基本原理。贝叶斯定理描述真实世界的考虑，就是承认人类认知能力的有限性，既无法对每件事情都做出测量，也无法让每件事都可以重复发生。人们只能依据某种有限的经验，估计未来即将发生事件的可能性。其思路是，当不能准确知悉一个事物的本质时，可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率，即支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。比如一个工科高校，在图书采访面对一种TP18人工智能类目的图书时，如果不考虑其他任何因素，此种图书是否会发生流通时间的概率只能各占50%，如果增加出版社的条件，采访馆员根据对出版社储备的知识与经验，即可判断出此种图书的出版社为“清华大学出版社”的流通发生概率，将远远大于“人民教育出版社”的流通概率。

贝叶斯定理的数学形式也极为简单，通过先验概率和条件概率，得到事件发生的后验概率：

其中，B和C为随机事件，应用在图书馆管理工作，可以把B解读为图书或馆藏，把C解读为购买或流通。

朴素贝叶斯进行分类，就是计算所有的P（C|B），找到最大条件概率c，即arg maxP（c|b），即朴素贝叶斯分类公式：

其中，c∈C、b∈B，通过类别c发生情况下6发生的条件概率P（b|c）和先验概率P（c），得到c的P（c|b）的最大值。

朴素贝叶斯分类在实际应用中，由于实际观察的有限性，以及样本数量较少，常常会出现实际样本中，b=w₁，w₂，…，w_n，随机事件b的属性特征划分，并不能涵盖新样本的属性特征划分w_n+1的情况，造成P（b|c）=0的情况，由于不能因为没有观察记录，就认为该事件出现的几率为零，在利用朴素贝叶斯分类时，也必须确保词项的条件概率非零，一般采用贝叶斯分类的平滑技术即拉普拉斯平滑技术，对每个类别下所有划分的计数加1，在训练样本集数量较大时，并不会对结果产生影响，并且解决了P（b|c）=0的问题，提高了朴素贝叶斯分类的精度。

4研究方法

4.1研究数据与工具

待采访图书数据，来自2018年太原市新华书店的新书书单，馆藏数据和流通数据来自太原科技大学2018年以前全部数据。本研究根据太原科技大学以理工为主的特点，结合近年来人工智能技术成为热点等因素，选择TP18类图书的馆藏和流通数据作为研究的基础依据，并把新华书店TP18类全部新书作为待采访书单，开展采访分析。中文分词的词典和停词表，是基于系统自带的词典，结合通过自定义方式。

研究的工具采用Windows7系统上的64位R语言4.0版本，在R语言的IDE工具RStudio上展开，数据以两种方式存储：一是存放在数据库中：二是以CSV格式文件存储。其中数据库中的数据是为了动态分析，CSV格式文件存储的数据，可以重复实验过程。数据库采用Mysq16.0版本，数据在数据库中的字符编码为UTF-8。中文分词技术采用Jie-ba分词的R语言版本的字典，TF-IDF、詞项一文本矩阵和朴素贝叶斯分类和预测等，采用R语言tm包提供的相关函数与工具。

4.2研究思路

朴素贝叶斯方法，只关注初始分项和分析结果，图书采访的分析结果，就是在具有相同的知识分类下，计算每种图书未来潜在的流通率，并通过相互比较，选择潜在流通率更高的图书。

定义2：具体类目下的馆藏图书集合I={y₁，y₂，…，y_j，y_j为馆藏图书，总计有j种馆藏图书，每种馆藏y_j={a₁，a₂，…，a_m，classify}，a为馆藏图书x有m维属性特征，classify为分类项，分类项是指y_j是否发生流通事件，用circ和nocirc两个不连续变量对馆藏图书进行分类。

每种图书都有基本划分，即有流通和无流通的两种分项，有两个分项向量构成全部的向量空间;同时又有多项特征第二种分项，同一知识类目下的馆藏图书和待采访图书的全部特征，构成第二种分项的向量空间。基于朴素贝叶斯分类，首先，利用流通数据，进行模型训练;其次，对待采访图书进行是否具有流通潜力的预测，第三，根据每种图书的潜在流通概率，优选出具有更高流通潜力的图书。

4.2.1逻辑起点

对图书采访而言，图书的表征就是发生图书流通的先决条件。一种图书承载的知识内容特点，虽然由大量词语组合而成，但概括而言，图书题名、内容简介、知识分类等图书基本描述，高度集成了图书承载的知识内容与特点，读者初识一种刚刚出版的图书，也是通过图书这些表征，开始知晓和推测图书可能承载知识内容与特点。因此，任何读者认识一种图书的知识内涵，都是以读者发现和了解图书的表征为逻辑起点，图书在借阅和阅读的过程中，实现知识转移和传承，是图书发挥价值后的逻辑终点。

4.2.2图书特征分析筛选

图书内容构成图书特征，图书特征通过图书描述数据得以集中体现。为了减少模型计算量，利用图书描述信息的两种规范数据进行前期的优化筛选。图书描述信息主要有：一是针对出版行业的图书在版编目数据（CIP）;二是针对图书馆行业的机读目录数据（MARC）。鉴于待采访图书承载的知识内容，对于读者尚处于未知阶段，图书特征主要选择图书外观上的数据，包括题名、副题名、著者、出版机构、丛编、分辑和价格7项指标。

4.3研究原理

图书采访决策，就是利用有关数学原理和机器学习方法基础，根据馆藏图书的特征分量，对图书流通产生的影响，预测待采访图书特征分量可能的流通趋势。

朴素贝叶斯分类的分析原理，把该类馆藏图书划分为有流通和无流通两类，并利用图书馆可观察记录，分析每一种图书的特征分量。每一种图书特征分量的表达，就是对所有馆藏图书的题名，利用分词技术获取关键词，通过关键词、著者和出版机构名称，表现一种图书的全部特征。由于著者和出版机构是专有名词，不可分词，题名中的关键词，就是每一种图书的特征划分。如题名为“不完备信息系统知识获取的粗糙集理论与方法”的图书特征划分，去掉没有实际意义的虚词、助词、介词等，就是“不完备”“信息系统”“知识获取”“粗糙集”“理论”“方法”6个基本划分组成，这6个特征与著者和出版机构，共同组成此种图书的综合描述内容。把能收集到且包括全部馆藏的TP18类图书的题名进行分词并删除重复项，构成文献一词项矩阵。学习训练集是人工智能采访系统进行深度学习训练的依据。把带有是否发生流通分类项的馆藏数据分为训练集和测试集，依据文献一词项矩阵，进行朴素贝叶斯计算，并找到分类最大概率，评估朴素贝叶斯分类模型，并利用模型对文档词项矩阵中的待采访图书进行预测分类，就可得到能够量化解释的采访决策书单。

5研究过程

5.1数据现状与特征筛选

图书馆TP18类目馆藏图书的基本指标情况是，总计有249种图书，其中，从未发生流通的53种，大约占该类馆藏数量的21%，发生流通的196种，大约占该类馆藏数量的79%，流通次数总计3742次。出版机构覆盖了51个，馆藏图书中最多的是“科学出版社”，达到57种图书，大约占馆藏数量的22%，如表1所示。著者总计有229组，馆藏中最多有3种图书，占馆藏数量的1.16%，如表2所示。

图书馆TP18类馆藏流通覆盖196种馆藏，每种馆藏平均利用19次，采用流通次数作为统计指标，会进一步加剧有流通和无流通分类馆藏数量之间的失衡，可能导致强化优势分类弱化劣势分类特征情况的发生，因此，只对馆藏是否有流通进行标识，而不对馆藏流通次数进行统计。

馆藏特征的提取与淘汰，取决于各分项数据的具体状况。馆藏图书题名项是本研究重点关注的分项指标：出版机构作为馆藏图书的一种特征分项划分，从统计指标来看，能够对馆藏进行差异化分组，可以作为独立开展分析的一项特征纳入分析视野。著者特征虽然是图书的重要特征，但由于著者特征在馆藏中出现频率普遍偏低，最多仅占1.2%，几乎一种图书一个分项，统计差异性过小，而且本研究只限定一种图书是否发生流通的现象，而未扩展到流通的次数问题，因此，著者特征无法作为明显特征开展分析，只能弃用。

5.2构建图书特征语料库

语料来源主要包括图书馆馆藏图书和待采访图书的题名和出版机构，馆藏图书根据流通历史分为有流通和无流通两个分类项，分别标记为circ和nocirc;待采访图书为无分类项的待预测数据，分类项在系统中为空白项。表3为全部数据内容，其中包括馆藏数据249条，待采访图书数据275条。数据内容由题名和出版机构数据构成。

利用自然语言的中文分词技术，提取题名关键词，对分词后的题名关键词和出版机构等语料，利用式（1）进行TF-IDF值的计算和排序，建立语料库，形成如表4所示的内容。语料库把每种图书的题名分解为多个关键词，这些关键词分别表明了人工智能类图书内容的视角、层次、功能、手段等诉求，这些诉求给图书提供了确定性的特征划分，是识别图书流通潜力的重要依据。

5.3构建文献—词项矩阵

文献—词项矩阵采用多变量伯努利事件空间方式，在表现形式上，式（2）中的a_mn元素数值都是以0和1表示，由于观察事件的有限性，矩阵的形式具有较强的稀疏性，为了节省计算机内存开销和运行效率，并不对矩阵进行密集转换。

表5是部分馆藏图书的文献—词项矩阵，根据馆藏图书的id，利用式（2），对图书特征分项关键词形成的分类项目，建立稀疏矩阵，包括524个文档，697個词项，意味着这个矩阵在不包括流通分类项情况下，是一个524*697的矩阵，697个词项表明在现有的语料基础上，TP18人工智能类图书的细节特征达到697个，利用现有249种馆藏的流通现状，分析馆藏图书流通现状与这697个特征之间的联系，就可为图书流通潜力的分析打开重要的窗口。

5.4训练评价朴素贝叶斯分类模型

作为图书采访决策，目标是对纳入采购计划的图书予以量化评价，以及对评价本身的可靠性给出明确的量化指标。因此，图书采访决策更加关注模型分类结果中，有流通潜力图书的量化指标及其评价。

随机选取馆藏图书数据集的70%作为训练集，剩余30%作为验证集，把数据输入朴素贝叶斯分类模型，利用式（5），训练朴素贝叶斯分类模型。模型的灵敏性、精度、假阳性等指标，采用2×2列联表方式，对模型计算结果进行统计。图1是采用R语言Gmodels包中的CrossTable函数进行模型评估得到的结果。

在纳入统计的69种具有明显特征的馆藏中，包含53种标识为有流通（circ）馆藏和16种标识为无流通（nocirc）。朴素贝叶斯分类模型表现出明显的分类灵敏性，53种有流通的馆藏预测接近60%，16种无流通的馆藏预测62.5%。

图书采访决策关注的重点主要是模型最终预测结果的37种图书，这37种图书评价指标的可靠性就是图书采访最终结果的评价。从预测结果看，模型的精度接近83.78%，假阳性仅为16.22%，这样的结果表明，采用朴素贝叶斯分类方法开展图书采访，在TPl8分类采购的图书中，真正具有流通潜力的图书达到83.78%，而没有流通潜力却购人的图书仅占16.22%。

5.5预测采访图书

利用定义1，把待采访书单数据模型化，根据训练好的朴素贝叶斯分类模型，对275种待选的采访图书进行分类预测，得到模型推荐的有流通潜力的131种图书书单。从模型的灵敏度和假阳性判断，可以对本次TPl8类图书采访，进行总体量化判断和评价，其中至少109种图书具有流通潜力，仅有22种图书不具有流通潜力;也表明，每一种被选中购买的图书，只有16.22%的概率，不具有流通潜力。对于模型推荐的131种TP18类图书，采访人员可以根据前期预置的该类目计划采访种类和数量，参考其他采访约束条件挑选图书。

6研究结论

本研究采用中文分词技术提取馆藏图书特征，并利用朴素贝叶斯分类方法，依据馆藏流通数据，探索和验证图书自身承载描述信息对流通产生的影响和作用规律，并依据模型预测待采访图书的流通潜力，研究结论如下：

在图书采访选书阶段，利用朴素贝叶斯理论和方法，能够暂时不考虑读者因素，仅仅依据馆藏流通动态，在流通数据和图书品种选择之间，直接建立起基于概率论原理的因果量化关系。本研究得到的新书流通趋势判断结论.形成一个全新的参照系.为进一步针对促成图书流通的读者驱动因素，深入探索读者需求动机发生、表达、实施的机制，提供了数据层面的验证和参考指标。对题名、出版、内容摘要等图书描述信息，利用中文分词技术进行关键词切分和提取，不仅能够为进一步开展机器学习等人工智能探索提供可能，还为图书多维分类，深入到图书内容层面开展语义和逻辑分析，提供了必要的方法支撑和无限的可能。

从本研究的数据分布偏移程度来看，静态数据中，同一图书分类下的出版社特征过于集中，而作者特征分布较为松散，图书的知识描述特征相对比较适中;动态流通则表现为出版社特征较为明显的趋势。表明图书馆采访选书的原则偏重出版社因素并兼顾知识分布的广度，馆藏图书及建设特征和读者群体特征相对稳定，读者知识需求呈现连续性特征，能够为基于流通数据，开展采访选书，提供可靠稳定的保障。本研究模型在实验中具有较强的灵敏性，验证了图书流通潜力与图书描述的表征信息有必然联系的假设。表明描述图书承载知识特征的单词和短语等表层描述信息，对馆藏图书发生流通具有直接的影响，并反映在图书流通数据中。

7结语

读者需求行为产生的图书流通数据，是读者需求表现出的客观真实结果，以流通数据为图书采访依据，不仅能够避免过度依赖读者需求意愿，表现出的不确定性、不可捉摸性和复杂变化性，还能够避免图书采访人员主观因素对选书决策产生影响。图书流通数据，凝聚了馆藏图书和读者两个对象全部的信息与内涵，是图书最有价值的数据资源，蕴藏着读者知识需求和馆藏知识的全部秘密，挖掘馆藏流通数据隐含的规律，能够为揭示图书馆内在规律提供坚实的证据。朴素贝叶斯分类，作为一种机器学习方法与工具，为开展科学严谨的图书采访工作，提供一种智能化的决策方法，让图书采访工作真正建立在客观、科学、严谨的基础上，使图书采访的结果可证明、可量化、可解释。