高校图书馆图书推荐系统中的稀疏性问题实证探析

2021-03-07 11:11王月娥

文化创新比较研究 2021年35期

王月娥

（广东岭南职业技术学院，广东广州 510663）

1 图书推荐系统背景和研究定位

高校是学习知识的主要场所，学生需要和书籍打交道，但是目前很多学生针对书籍存在“不会学，也不会找”的问题。在书籍推荐方面，主要是任课教师推荐一些和课程相关的书籍，或者是图书馆举办的新书推介会，但这很难激发学生阅读书籍的兴趣，并且很难找到自己所需的书籍。这表明，学生和图书馆之间无法顺畅联系，这时就需要图书推荐系统发挥出其作用，使得图书馆资源得到充分利用。高校图书馆的推荐系统定位是其主要推荐图书，不限定图书类型，可以是印刷版，也可是电子版；图书来源主要是高校图书馆；推荐系统中的读者主要是在校学生以及教职工。推荐系统将图书管理系统作为依托，许多基础数据源自目前的系统，设计和实现时会存在一定差异。该系统是新书组织和通报系统，能够自行推荐图书，不只是人工发布图书信息，人工可进行推荐，但主要是系统根据有关算法来获取有关内容[1]。

2 系统需求分析

分析图书馆以及读者的特点可知，推荐系统的流程从获取兴趣、标记开始，当达到触发条件时，其将被触发，在流程中没有对反馈问题进行考虑，从而很难满意推荐结果，需要解决推荐问题，重新设定和优化推荐内容。推荐时主要是推荐图书，推荐者结合用户需求向用户进行系统的推荐，其流程由个性化推荐、直接推荐、图书处理等部分组成。

2.1 个性化推荐

最近几年个性化推荐是研究热点，个性化推荐主要是收集和分析用户兴趣，基于此构建兴趣模型，将获得的相关数据存在兴趣库中，在之后使用中不断修正兴趣，使兴趣匹配图书标记，最后进行推荐。为实现推荐的个性化，首先应收集用户兴趣，主要有以下几种途径：（1）用户自己确定，用户在注册账号时可直接确定感兴趣内容，如果兴趣发生变化将难以更改，因此该方式适合应用在系统冷启动问题解决中。（2）系统自动获取，其根据借阅记录和用户浏览等途径收集和掌握用户兴趣，在系统应用过程中不断进行优化，这是当前研究较多的内容[2]。（3）他人推荐，该途径主要对和用户在一个社区、圈子的兴趣进行采集，通过共性兴趣来推荐。此外，可借鉴微博标签这一概念，在读者阅读书籍后能够在系统中形成相应的标记，即为借阅标签，这有利于推荐书籍工作开展。（4）专业与学科特性，这是高校独有的，指的是结合学生专业进行简单、直接的推荐。（5）混合推荐，这是推荐系统中常用方法，指的是通过用户自己确定或者是学科确定其兴趣，并通过系统获取和他人推荐等形式对读者兴趣加以修正，利用权重系数方式来解决，如果兴趣出现了变化，可对权重系数进行改变。

2.2 直接推荐

该类型的推荐是当前应用范围比较广的形式，也是图书馆常规工作，其中包括的内容主要有新书通报、教师推荐、借阅统计推荐以及专业书籍、同类书籍的推荐，这类推荐方式和个性无关。

2.3 图书处理

在处理图书的过程中，需要加工目前存在的数据，这可将图书中与兴趣相关的内容增加，保证更好地开展推荐服务。可通过社区、圈子、选择兴趣等途径来落实这一工作，可在一定程度上解决冷启动问题，然而该过程中也会伴随着兴趣变更与更新问题，只是参考借阅情况以及历史来实现较为粗糙。对这些内容加以分析，科学、合理的设置权重系数，是当前比较常用的一种解决方法。标签主要是关联图书以及兴趣标识，并明确标签的重要性以及具体位置。处理图书数据时，需要注重数据的统计，比如，在浏览某本书后，可以显示出借阅这本书同类型书籍的前10 名，这就是推荐的一种形式。

2.4 用户

推荐发起者即为用户，同时其也是推荐受益者，高校图书馆中学生和教师是图书推荐者以及受益者。用户在推荐系统中承担着不同的角色，也承担不同任务。用户兴趣可以用大家认可方式来表示，在处理用户兴趣和图书处理工作中应较为努力。

2.5 推荐策略

2.5.1 分类浏览与推荐

这是一种较为常见的推荐方式，受众认可度较高，并且具有实际意义。但是该方式还存在不足之处，特别是在确定类型方面，通常图书馆工作人员会结合图书分类号落实分类推荐工作，读者根据分类对推荐是否合格进行判断，这种推荐方式增加了系统处理难度。而高校图书馆的图书推荐系统能够简化这些问题。可以图书分类法的类为主（视为1）、专业（视为2）以及学生喜欢的方式（视为3）为辅，与应用场景相结合，确定类。常规推荐下类的重要程度是1、2、3，个性化推荐场合，类的重要程度为3、2、1，专业推荐即为2、1、3 或2、3、1[3]。

2.5.2 以内容为基础的推荐

目前主要推荐趋势为基于内容的推荐，但是该方式面临着如何揭示以及标记内容的问题，具体来说就是怎样标记图书内容以及用户需要的内容，怎样进行两者统一以及简单匹配。目前内容描述常见的形式是关键词，使用全文检索、分词等技术进行用户兴趣分词，依此提取图书内容信息。尽管技术还不够成熟，但依旧可以使用。对于关键词是否和标签等同的问题，主要是看设置标签人员的意愿，设置较为规范时，将与关键词等同，反之就会较为麻烦，存有匹配问题，主要受标签设置权限影响。在系统中，如果图书馆工作人员或者是系统设置标签，则很难保证其规范性；如果是用户自行提出，就会存在较多问题。这时可选择系统设置标签，用户在其中选择。

2.5.3 推荐数量

推荐畅销榜上排名前N 的图书，推荐和用户兴趣相关的N 本图书，N 是一个具体值，并且是由系统性能、推荐方式、推荐位置和网站承载来决定。

通过上述分析可知，该系统可将共同推荐、个性化推荐等推荐任务完成。这要求系统具备分析整理数据以及可视化展示等功能，保证合理获取用户兴趣，并做好相关模型构建工作。系统也需要具备非功能性需求，如性能扩展性、可用性、可靠性以及可支持性[4]。

3 系统功能框架

3.1 获取与处理数据部分

这一部分的主要功能模块有处理数据、用户管理以及用户借阅行为管理等。该部分应处理数据有图书数据和用户数据，做好整个系统数据准备以及预处理工作。（1）数据处理具有导入数据、录入数据、维护数据这3 个环节。导入数据指的是直接导入数据，按照图书借阅排名，做好相应数据统计工作，此类数据可以直接使用；录入数据指的是直接添加数据；而维护数据是对已有的数据进行更新和修改。（2）用户管理是指管理图书馆的全部用户，例如，图书馆员工、师生读者等。其是由原始数据中加入新数据构成的，新数据指的是用户依据个人兴趣或是所在圈子来选择的。（3）用户借阅行为管理主要是管理导入、分析、整理等用户借阅行为的工作，为做好个性化推荐工作提供数据支持。其中相关功能和导入数据功能存在重叠部分，因注重系统特性以及功能完整，将其放在一起。

3.2 构建模型和过滤提取内容部分

该部分与推荐管理相关，主要包括以下几方面内容：（1）用户模型管理，其是指构建、修正、完善用户推荐模型，主要是构建公式、选择和修正参数、确定和修正阈值，这可采用系统自动、人工等方式来确定。（2）个性化推荐，主要是按照借阅记录进行推荐、个性化书友推荐、反推荐给书友、综合推荐方式、推荐扩展，使推荐工作全面落实。（3）专门推荐其主要是指新书通报、专业推荐、借阅浏览、浏览推荐与其他推荐等。专业推荐主要是指推荐专业相关书籍，这也是图书馆一直开展的工作，然而没有良好的效果。节约推荐指的是在读者借阅时开展推荐工作，应具有精准性，可具体到书；新书通报在图书馆中是常规工作；推荐浏览指的是用户在浏览时推荐，帮助用户找到所需书籍，进行大类推荐或粗线条推荐；其他推荐则为扩充准备。（4）兴趣管理。收集、整理、加工、分析符合用户兴趣的数据，可构建关于用户兴趣的公式以及模型。该模型可以进行数据修正，在数据增加的情况下不断完善。不仅如此，每年还可结合学生的专业以及年级来划分其兴趣，做好微调和修正工作。通过处理日志的方式来获取兴趣，以此了解用户行为，处理日志即为兴趣管理主要内容。实际管理中应收集用户兴趣，尤其是新用户注册时，为其提供个人兴趣选择的服务。（5）图书特征管理。为收集、整理与规范图书特征，应使特殊特征描述与用户兴趣相匹配，主要是运用一个词或是一个标签来描述。现有图书特征主要是外在特征，不符合推荐系统应用要求，这就需要添加图书特征。图书特征管理有着较大的工作量，并且和推荐质量相关，应该提升重视程度。

3.3 结果展示

该部分能够凸显出管理推荐结果，主要内容是渠道管理以及展示管理。渠道管理指的是发布推荐结果的渠道，如微信、短信、网站及平台等，通常是管理所提供的渠道、推荐内容应用渠道等。展示管理主要内容有展示内容、位置以及数量，限定推荐结果内容、位置和数量。（1）数据库管理：这一模块指的是对系统中数据库进行全面管理，注重数据的修改、添加和删除行为，同时也需要做好构建表格的工作。（2）圈子管理：该部分的建立是为了获取用户兴趣，属于常规性论坛管理。（3）点评管理：通过点评管理工作，可开展掌握用户兴趣的工作，使用户能够积极参与到点评中，另外点评管理还能够支持奖励机制的创设。（4）系统管理：该模块能够将系统通用性功能发挥出来，主要是数据初始化、修改用户密码、设置打印机、拆讯统计功能等。（5）词表管理：建立词表主要是为了关键词有更加规范的用词，这是一种后台操作项，能够使标签以及图书特征标记更加规范。为获得理想效果需要构建3 个词表：①构建主题词表，保证兴趣和图书的描述用词更加规范； ②构建同义词表，主要内容是同义词和口语化、意思相近的词；③构建标签表，该表逐渐完善，根据院校和学生情况，允许自定义标签，系统进行简单限定，例如，字数在4 个之内，利用同义词表来比较和匹配，构建相关联系。该工作是以假定为基础，图书特征标记需由专业人员完成。

（6）标签管理：其能够规范和管理标签出现位置、方式和基本式样，标签入表操作在词表管理中进行。

4 高校图书馆个性化服务存在的问题

4.1 自动化问题

豆瓣和百度文库等会在页面上设置用户评分区域，主要级别是很差、较差、还行、推荐以及力荐。需要用户的评价，推荐系统通过这样的形式掌握用户特征，做好相关推荐工作。通常用户处于利益驱动者的位置，采取的行动一般会和自身利益挂钩，例如在百度文库中，作者通过文章评分可获取相关财富值，其可利用财富值在网站中下载资料。但是高校图书馆是非营利机构，不具备利益驱动机制，这样读者会缺少评价图书的动力，这会使评价信息较少，图书馆很难收集用户信息。如果可以提升系统评价的自动化程度，则可以对图书馆存在的一般性问题进行有效解决。

4.2 稀疏性问题

在电商平台中经常会通过评价返现、评价获积分等方法鼓励用户对购买的产品以及服务进行评价，电商没有物质奖励时，销售产品以及服务所获评价不足整体销量1%，没有较高的用户评价主动性将会使数据出现稀疏性问题。另外，通常借阅畅销书用户较多，借阅非畅销书用户少，使得借阅数据出现交错情况，这会使协同过滤系统很难筛选出相似用户，无法保证待推荐项目评分计算的准确性。通常系统对数据稀疏性问题进行处理时，都会通过0 或者是用户平均分填充方法对缺乏评分项目进行评价，描述用户兴趣偏好失真[5]。除此之外，如果根据图书评分矩阵寻找相似用户，运算复杂程度将会因此加大。

5 解决高校图书馆稀疏性问题的思路

5.1 构建自动化评分系统

在个性化推荐系统中人工评分系统属于羁绊。人们会使用省力的方式对自身行为进行指导，除非非常热爱某本书，否则很少去评价借阅的图书。通常电商网站会以返利形式对用户的评价行为加以鼓励，高校图书馆是公益性组织，无法通过付费模式实现评价，因此应结合图书馆特点，设计与图书馆相符合的自动化评分系统，结合借还书记录对用户借阅图书进行评分。通常高校图书馆借阅日志主要有3项操作，分别是借阅、预约以及续借。

5.1.1 借阅

用户受客观因素影响或是对某本书感兴趣才会产生借阅图书的需求，可以划分成首次借阅以及非首次借阅。首次借阅虽然可表明用户对图书的兴趣，但无法掌握用户有没有阅读图书内容，难以明确图书对用户的作用。结合上述内容可以知道，用户借阅某本书评分不会太高，那么首次借阅分数可设置为1。不是第一次借阅，因为多次借阅，会认为图书对于用户有较大用途，这时可将分值设置为4，可拉大分差，凸显借阅重要性。

5.1.2 预约

高校图书馆可设置图书借阅预约服务，读者申请该服务，在图书归还后享有优先借阅权[6]。如果非用户阅读图书的意愿较为强烈，应申请预约服务，这可确定用户了解图书内容和对其发展产生作用，那么分值要比初次借阅高，但是也应考虑用户没有深入阅读图书的情况，存在阅读后感觉和之前想法不同等情况，那么分值不应高于再次借阅分数，则设置分值为2。

5.1.3 续借

通常会认定用户认为图书有用和未阅读完这两种情况下将会出现续借行为，借阅规则中包括罚款条款，借阅图书超期需要缴纳罚款，如果未及时还书，不想被罚款，将会产生续借行为，那么可再设置为2。

5.2 借鉴中图法目录降低运算维度

针对借阅行为交错性问题，需要考虑图书馆开架借阅图书主要的特点是图书有专业人士编目、分类准确等，结合书目数据做出合并处理，基于对于某类图书兴趣度，寻找相似用户。根据借阅记录来计算用户借阅书的分值，并结合书本信息中书的类目，对其进行分值计算，由此寻找相似用户。通过归类转化模式避免出现严重的数据稀疏问题，通过图书组合形式确定相似用户问题向以“类”组合确定用户问题转变。在本质上，确定相似用户即为找出对同类图书感兴趣的用户。