国内基于大数据的信息推荐研究进展:架构体系*

2020-12-03 16:02孙雨生李亚奇朱金宏
计算机与数字工程 2020年12期
关键词:预处理聚类架构

孙雨生 李亚奇 朱金宏

(1.湖北工业大学经济与管理学院 武汉 430068)(2.湖北工业大学职业技术师范学院 武汉 430068)

1 引言

伴随移动互联网、社会化媒体、云计算、物联网等技术发展和应用深化,人类全面进入大数据时代,海量、分布、异构信息资源与有限用户认知能力间矛盾凸显,信息过载、用户个性化信息需求难发现、难真正满足问题日益严重。作为主流信息服务方式与工具,传统信息推荐系统基于单机节点高性能计算机、集中式单块架构(易构建、测试、部署、横向伸缩但系统调用复杂、职责不清、持续交付周期长、技术选型及维护成本高)提供信息推荐解决方案(基于属性、行为数据进行用户(需求、兴趣)、推荐项目建模以提取用户、项目特征,经推荐算法处理并过滤、调整推荐结果后推荐),虽部分满足用户个性化信息需求、实现信息资源合理配置及利用效率提升但难适应海量异构、增长迅速、分布稀疏、关联复杂、应用多样化的大数据环境及其对系统架构的更高要求,致使大数据采集、存储、管理、计算、分析成本和难度剧增且推荐效率不高,面临应用频繁演进、架构日趋复杂、负载动态均衡、资源分布协同等挑战,急需改造、重构传统信息推荐系统架构体系以基于分布式架构模式并整合云计算、大数据(涉及分布式并行计算、负载均衡、分布式缓存、分布式文件系统及数据库等)等技术和方法优势满足大数据环境下信息推荐系统核心功能需求(涉及推荐个性化、动态化,功能、代码及数据处理分散化,跨进程高效协同等)及关键非功能性需求(涉及高效并发、动态I/O、安全可靠、按需扩展、健壮容错、易维护、低成本、高性能等),在实现推荐系统业务功能、整合技术及数据资源、集成信息基础设施同时支持迭代式并行开发、分布式协作并保障信息推荐系统架构规范性(涉及描述、约束、设计、质量等)、可复用性、易维护性,最终提升信息服务质量、性能及用户体验,提高信息资源及信息基础设施利用率,因此,研究基于大数据的信息推荐架构体系问题有重要意义。

本文先以知网、万方的学位论文库、期刊论文库及维普的期刊论文库为信息源,以“大数据”和“推荐”为关键词组合在题名中检索相关文献(截止2020年8月1日,从知网获硕博论文55篇、期刊论文183篇,从万方获期刊论文114篇(新发现14篇)、硕博论文48篇(新发现9篇),从维普获期刊论文176篇(新发现19篇),共268篇文献有效);其次,详读文献归纳基于大数据的信息推荐架构体系并根据提及频次、内容质量详细标注,本着最大限度反映国内基于大数据的信息推荐架构体系研究进展重要文献、优中选优(剔除标注次数少、与其他标注文献内容重复文献)原则选出42篇参考文献(内容覆盖280篇文献);最后从体系结构、功能模块、推荐机理三方面阐述国内基于大数据的信息推荐架构体系研究进展。

2 基于大数据的信息推荐架构体系简介

基于大数据的信息推荐系统架构体系基于系统结构(涉及元素及其关系、元素外部可见性)构建,旨在基于架构实现多角色(用户、系统分析师、软件工程师、系统管理员等)协同沟通、决策的规范和机制以高层次、系统化解决信息推荐系统设计、复用、质量保障和维护等问题,指导信息推荐系统规划、设计、实现,深刻影响推荐系统的业务场景实现、(新)技术运用和未来拓展(适应新应用需求),主要研究架构描述、设计、风格(如B/S、微服务、分布式架构等)、评价和构建方法等,涵盖软硬件架构并受功能、非功能性需求及条件约束,常按生命周期分概念设计(涉及顶层组件及其关系)、详细设计(基于静态视图(涉及逻辑视图、开发视图)、动态视图(涉及运行视图、物理视图)、数据视图全面系统细化概念架构)和开发实现(涉及详细设计架构、编程实现架构)。本文基于分层思想实现推荐业务专业化、推荐功能分模块封装、推荐机制按应用场景描述策略,分别阐述基于大数据的信息推荐系统体系结构(概念架构,旨在识别子系统、构建系统体系结构并基于体系结构定义组件及模块间通信机制、系统网络拓扑、系统软硬件方案)、功能模块、推荐机理,进而划分信息推荐系统构成部分以遵循业务逻辑,按应用场景组织、协同功能模块、信息推荐技术、信息资源、信息基础设施提供基于大数据的信息推荐服务。

3 基于大数据的信息推荐体系结构

基于大数据的信息推荐系统常基于B/S模式、分布式架构构建,多分界面表示层(即终端应用层[1],支持实时可视化交互[2](注册、登录[3~4]、浏览[3,5]、检索、评价、交流[5]、反馈[2,6~7]),结果展示[5,8~12](热点排名[6~7])、分类及管理[4,6~7])、服务提供层(基于推荐(算法)引擎离线、实时计算)、业务逻辑层(支持业务逻辑控制,涉及业务校验、资源调用等[6~7])、数据访问层(支持数据预处理[4]、检索、更新、持久化[4])、数据资源层(支持分布式数据采集、存储、管理)、基础设施层(基于软硬件、通信设施的分布式集群与云平台),基于功能模块、应用接口实现层间、模块间通信。

3.1 基于大数据的电子商务推荐系统

陈玉兆[1]、邓玉林[4]提出基于B/S架构推荐系统分推荐终端(含移动、PC、电视端)和终端应用(界面表示)层[1]、业务层(涉及推荐后台、推荐引擎,用基于Mahout协同过滤、基于内容推荐算法等处理离线数据并将结果存入数据库(常结合用户行为并辅以基于文本相似度热点推荐算法、自定义算法在线推荐);分应用功能层(支持检索、推荐及其管理、数据采集、用户兴趣分析)、公共服务提供层、数据访问层[4])[1]、数据资源层(基于HDFS或NoSQL存储,基于Hive、Pig-Latin等ETL处理、管理用户及商品[4]数据等)、基础设施层(分基于Hadoop协同过滤集群、基于内容计算集群,基于MapReduce分布式应用架构横向扩展集群);葛晓伟[13]提出分界面层、推荐层、逻辑层(分推荐处理(基于改进算法)个性化推荐,基于热点排名非个性化推荐,支持用户管理、注册)、数据层(持久化数据,基于Sqoop迁移数据)、基于Hadoop的云平台层;陈泽[14]、岑凯伦[15]提出基于Hadoop、Lamp架构推荐系统体系包括在线Web服务系统(含推荐请求解析、账户认证管理、工程(推荐算法、数据、模型集)管理模块(企业用户交互接口,通过新建工程、添加数据、配置算法、离线建模后供推荐请求模块调用))、实时计算系统(基于Storm计算用户实时行为、离线结果以推荐[14])、离线计算系统(训练推荐模型[15],响应前端请求,存储计算结果)、存储服务器(采集、收发日志、清洗数据、均衡负载[15])。

3.2 基于大数据的教育推荐系统

陈阳雪[6]、金志福[7]提出B/S架构、MVC模式教育资源[7]、MOOC平台课程[6]推荐分界面层、事件响应层(记录用户行为、默认评分,生成推荐)、推荐引擎层(基于内容、基于项目、基于矩阵分解模型推荐)、业务逻辑层、数据层(存储、计算、统计评分)、数据采集层并支持系统各层管理[6](涉及场景配置、冗余备份、系统监控、数据维护);张进良[2]提出基于学习资源智能推荐模型分用户层、服务层(支持基于学习者模型的个性化界面、检索、学习路径生成及干预、评价方式,学习资源自适应推荐及报告可视化等)、分析层(分析学习者、资源数据并基于Agent检索、匹配、管理、推荐)、数据层(采集并挖掘系统数据,涉及云资源、交互、考评、档案管理、数据感知(源自传感器、RFID、GPS等)等);于凯[16]提出分效用评价层、推荐生成层(基于矩阵、隐式反馈、社会化情境、群组特征推荐)、数据预处理层(采集用户兴趣、上下文信息构建社会化网络)、源数据层(采集显隐式反馈、社会化网络数据、人口统计学特征)。

3.3 基于大数据的图书馆推荐系统

李梅珍[5]提出基于高校图书馆科研数据知识库推荐系统分智能服务层、数据处理层(采集、清洗数据,聚类用户,挖掘并推荐)、基础数据层(涉及用户信息库、馆藏资源库)。

3.4 基于大数据的电影/音乐/电视推荐系统

沈杰[8]、房璐璐[9]、郭博林[10]、刘敏[11]、周梦蒲[12]提出基于Hadoop、MVC模式[9]电影[12]、音乐[10]推荐系统分应用(视图[9])层、推荐算法层(生成推荐候选集、管理反馈[10])、业务(控制[9])层(支持用户兴趣建模、项目数据分析)、数据(模型[9])层(采集、预处理数据)、资源监控统计分析层[11](展示集群计算状态[8]);张健[17]提出有线电视推荐系统技术架构分业务接口层(支持推荐位(直播、点播及其他系统)管理、人工存储、元数据封装、结果访问)、数据分析层(基于推荐算法)、计算处理层(基于Hadoop分布式计算、实时流处理)、数据预处理层(ETL处理)、数据存储层(基于SQL、NoSQL)、数据源层(涉及用户行为、媒体资源、网络爬虫数据、实时操作数据、推荐日志)。

3.5 其他

张兴旺[18]提出移动推荐服务分可视化交互层(基于Web门户)、应用层(支持单主体、多主体协同进行单领域、跨领域(终端)移动推荐,移动端、PC端、专用端、门户、物联感知端、生物体验端、隐形终端交互)、核心服务层(涉及服务部署、注册、检索、匹配、组合、优化、调度、运行、负载均衡、容错处理、监控、评估、交易、协作)、中间件层(涉及资源虚拟化、服务化、协作化,数据感知、采集、传输、存储、分析、预测)、大数据资源层(涉及服务数据[18]、设计、管理、仿真、集成、试验、计算、存储、网络等资源及信息);王俞翔[3]提出推荐系统分用户交互层、推荐引擎层(分用户数据采集及预处理、离线推荐、用户检索及请求处理三模块,提供阈值检测、数据集分割、任务提交服务)、计算存储层(基于Hbase、MapReduce、HDFS、MySQL);胡蓉[19]提出服务推荐系统分服务推荐层(基于用户协同过滤、服务聚类)、大数据存储层、大数据采集层(涉及服务描述、请求、评分、日志);尹培培[20]提出基于主题特征的地理大数据挖掘与推荐系统分地理数据分析层、数据挖掘算法层(含数据挖掘(基于地理大数据属性(主题特征)聚类分析)、推荐算法)、数据存储中心层(基于HDFS、ETL工具存储、管理(经清洗、集成、选择和加载将数据转换为易处理格式)数据(空间、非空间))、云计算平台层。

4 基于大数据的信息推荐功能模块

基于大数据的信息推荐功能模块常针对大数据环境下复杂分布式推荐系统特点,基于深度优先迭代开发(纵向迭代完整功能后持续集成再交付)、分治思想划分功能集,核心是用户交互界面(展示结果并管理[4](排序及可视化、监控等[21])、采集用户注册登录[22~23]、行为及反馈[6,24]信息)[6,21,25]、模型管理(支持用户、推荐项目建模)模块、推荐引擎(算法)模块(离线计算并在线推荐[23]以响应请求,存储、检索、优化推荐算法[25])、大数据存储模块[26](存储数据库及其操作信息[25]、日志信息[6],涉及用户兴趣[6,10,14,21](注册[6])、行为[6,10,21](收藏、点击[25]、评价[8,22]与反馈[14]、交易[1,14,25]等)信息及项目特征信息[8,10,14,25]、情境信息[10,26]及推荐结果[9])、大数据采集[6,26]模块,通过模块并行开发、单元及集成测试后推荐。

4.1 基于大数据的电子商务推荐系统

陈玉兆[1]、邓玉林[4]、胡一[25]、贾利娟[27]提出电子商务推荐系统分渠道[27]管理、输出(涉及商品、用户评价(评分及其均值)、E-mail、编辑推荐[25])、在线推荐(基于HDFS需求按日期、行为次序分类数据并计算用户兴趣度[1,4,27],基于日志分析用户行为构建兴趣相似群[1],基于协同推荐[4]、用户浏览商品特征优化老用户推荐列表[1],基于内容[1,4,27]向新用户推荐[1])、离线计算(预处理[4,27](ETL处理[1],基于TF-IDF向量化用户、项目特征[4]),基于规则库并集成分类器、双层关联规则进行分类、Web挖掘[27])、输(接[27])入[25](从Web服务器采集[4]用户(群)历史、实时兴趣及行为、商品特征并更新[25])模块,此外,陈玉兆[1]认为离线计算模块包括混合协同推荐与内容推荐向老用户推荐、基于文本相似度向新用户推荐热点,分计算层(推荐)、数据层,由脚本程序控制运行、推荐程序基于MapReduce分布式处理HDFS中数据(ApplicationMaster节点监督程序运行状况并定时反馈给主节点、重启失败节点任务,在Reduce阶段汇总推荐项目形成原始推荐列表)并将结果存入关系数据库;胡一[25]认为包括用户交互(界面)、推荐引擎、推荐模型、数据操作库、数据库模块;陈泽[14]认为分企业用户(管理账户、构建推荐工程及配置算法、评估推荐效果)、Web服务接口(推荐)、(非)个性化推荐算法及模型库(含内容模型、用户行为模型、用户兴趣模型,存储离线计算系统处理原始数据后形成、服务实时计算系统的模型数据)、基础数据库模块;此外,金伟晟[28]认为分用户登录注册(涉及信息安全、信息提取)、服务推荐(基于MapReduce、可信社团算法)、Web服务组合优化(基于改进量子粒子群优化算法)、数据压缩策略选择(基于HBase数据分类冷热数据进而选择)、基于目的用户访问控制(结合隐私偏好增强、基于目的访问控制模型)、海量Web信息抽取(基于DOM树节点属性与视觉特征抽取)模块;严克文[29]提出物流推荐系统分推荐算法、用户兴趣模型管理(基于用户相异度矩阵构建、局部进化)、用户行为记录(采集、检索、更新、标记)模块。

4.2 基于大数据的教育推荐系统

陈阳雪[6]提出基于MOOC平台课程推荐系统分数据用户交互、推荐结果筛选及微调(过滤已订阅课程)、推荐引擎(基于混合推荐)、数据存储、数据采集、系统管理(主要是系统状态监控调整)模块;张进良[2]提出基于学习资源智能推荐模型分个性化服务、学习者分析(涉及用户统计、特征挖掘、可视化、预测)、学习资源分析(涉及资源的描述、标注、用户分析、关联及聚合、效能分析、进化)、智能推荐引擎(基于Agent)、数据源(感知、挖掘、转换并分类存储数据)模块;金志福[7]提出教育资源推荐Web子系统分热点排名(普适推荐)、资源评价、资源推荐(基于用户搜索、浏览内容)、资源检索模块。

4.3 基于大数据的图书馆推荐系统

刘海鸥[26]提出图书馆知识服务情境化推荐系统分基于情境的用户兴趣本体建模、推荐引擎、并行推荐(基于并行处理、情境化协同推荐)、大数据采集与存储模块;刘海鸥[30]提出移动图书馆推荐系统分大数据服务应用融合(基于情境感知、大数据挖掘技术推荐)、大数据融合(基于大数据采集与预处理、云计算并行处理、分布式存储、可视化技术聚类、挖掘、重组并统一表示、协同管理、可视化资源)、大数据采集模块。

4.4 基于大数据的电影/音乐/电视推荐系统

房璐璐[9]、沈杰[8]、王娜[24]提出电影推荐系统分应用接口(分参数接收、数据输出(支持推荐查询[9])、数据采集(基于Flume[8])[24]接口)、业务与用户交互[24](含应用场景(推荐渠道、时机、内容))、推荐处理(基于Hadoop、MapReduce、Spark[9,24]、协同过滤、隐语义模型、个性化算法[24])、数据存储(外部采集、反馈、爬取的信息[24])、系统监控[24](监控系统CPU、内存、I/O负载)模块;郭博林[10]提出音乐推荐系统分推荐展示及反馈、个性化推荐(基于聚类构建动态用户兴趣模型并推荐)、数据预处理、数据采集(基于数据库、日志系统、网络接口、传感器)、系统管理(管理用户、音乐作品)模块。

4.5 其他

陈军[21]提出学生就业推荐平台分用户交互、个性化推荐(基于Mahout结合实时、历史数据进行在线、离线推荐,涉及兴趣相似用户计算、推荐引擎,结合欧式距离推荐并基于反馈信息优化)、数据处理(构建学生日志、简历数据库,预处理数据(基于Hadoop、数据挖掘引擎标签化数据),构建企业、学生动态多维画像)、数据采集模块;高娟[23]提出勘探生产门户信息推荐系统分UI用户交互、推荐结果处理(过滤、排序、解释)、推荐引擎(基于Hadoop)、爬虫(基于Flume采集门户网站数据、用户网站行为日志)模块;杨清智[31]提出手机应用推荐系统分用户标签(支持多维分析、可视化统计)、推荐系统(计算近邻及安装概率)、数据仓库(支持数据清洗、转换、IP解析)、网络爬虫模块;江澄[32]提出基于QoS历史记录的服务组合推荐系统分结果解释、服务组合(按用户请求基于DCAH、CBSC法组合推荐服务)、大数据集成、服务大数据采集模块;肖敏[22]提出问诊推荐系统分用户交互、医生推荐(基于Hadoop、协同过滤算法离线构建用户-用户、医患相似矩阵结合Web服务器在线增量计算并推荐)、疾病诊断(基于BP神经网络模型结合用户病症诊断)模块,涉及Nutch服务器(爬取医疗网站形成实验数据集);王啸[33]提出基于移动互联网推荐系统分结果推荐(随机向新用户推荐,基于用户协同过滤、兴趣群组向老用户推荐)、用户兴趣群组构建(向量表示用户兴趣,基于Canopy算法发现)、网页采集与分类(基于Venus采集并构建规则库、集成分类器分类)模块。

5 基于大数据的信息推荐机理

基于大数据的信息推荐机理旨在设计推荐系统实现预期目标的协作方式和流程,主要涉及分布式数据采集、预处理(抽取、分类[34]、过滤[5,32,35]、清洗[10,21,23,32,34,36~37](重复访问记录、登录提示/错误、编辑(上载新闻)页面、特定后缀网址等[23])、去重[5]、补充[10](扩展[4])、标准化[4,10,34~35]、融合[10,34,36]、变换[4,36](归并中间记录网址、分类网址[23])、归约[36](按需提取、删除属性[23])等)、存储(缓存)、特征提取、用户及项目建模、推荐算法处理和推荐结果展示。

5.1 基于大数据的电子商务推荐系统

邓玉林[4]、严克文[29]提出电子商务[4]、物流[29]推荐流程:采集用户数据(检索[4]、评分[29]、偏好)并存于数据库,预处理后基于潜在语义分析、分片聚类分别分析用户长期、短期兴趣[4],基于相异度矩阵构建用户兴趣模型[29]并结合推荐算法推荐,基于用户选择评价增量、局部进化用户兴趣模型[29];贾利娟[27]提出基于运营商大数据产品推荐流程:采集、预处理运营商数据,基于两步聚类挖掘用户目标特征集,基于时序关联规则挖掘生成集合进而预测用户行为集并去重后生成推荐列表;金石[38]提出基于运营商管道大数据电子商务推荐流程:采集运营商管道家庭宽带用户流量数据,基于深度包解析技术提取用户特征,基于用户行为提取标签、构建家庭画像,基于用户标签结合改进GBDT算法预测值、改进SVD算法预测值加权融合推荐。

5.2 基于大数据的教育推荐系统

陈阳雪[6]提出基于MOOC的课程推荐流程:采集用户、日志、行为及课程数据并存储,基于MOOC隐式评分模型改进传统偏置矩阵分解算法、基于项目协同过滤算法过滤并排序后推荐。

5.3 基于大数据的图书馆推荐系统

刘海鸥[30]提出移动图书馆推荐流程:基于移动图书馆、移动终端、社交网络、WiFi、RFID采集用户、行为、情境数据,构建用户情境兴趣模型(基于大数据处理法构建用户-项目评分矩阵、结合情境修正相似度算式并计算相似度)并通过相似度预测未评分项目进行情境化推荐;马晓亭[35]提出图书馆个性化阅读推荐流程:基于图书馆大数据资源(文件、音视频、图像),预处理后匹配、挖掘、提取价值并整合成个性化阅读服务支持大数据,基于大数据分析(相关性分析、关键读者发现与ID匹配)预测读者需求,定制(基于阅读方式、喜好、情绪预测需求)、精准实时推送(基于阅读方式、服务安全性管理、质量监控)个性化服务,基于QoS评估(服务总收益率)控制、优化读者需求发现过程;柳益君[34]提出高校图书馆个性化推荐流程:全面采集并格式化用户历史行为的显隐式反馈,构建用户行为本体模型(基于云平台存储用户行为大数据并存储、检索、应用RDFS/OWL本体模型,预处理成格式一致、结构清晰、易扩展基础数据以整合用户行为大数据),构建并存储用户兴趣本体(提取多样隐性本体(基于神经网络建模预测用户环境情境兴趣,基于聚类结合协同过滤、关联规则算法挖掘用户情境兴趣,基于JGraphx、大规模网络深度分析发现主题兴趣)、显性本体(基于行为日志统计分析)并以RDFS/OWL本体模型表示),基于用户兴趣模型推荐;刘芷茵[37]提出图书推荐流程:采集(基于图书馆系统)并清洗图书数据后存储,基于并行计算、协同过滤算法离线计算用户相似度以发现并缓存近邻,基于Kafka、Flume实时采集结合Storm增量运算(提高近邻精确性)、离线计算结果实时推荐;刘海鸥[39]提出基于用户画像图书馆知识服务情境化推荐流程:采集用户(基于注册、门禁、检索、门户网站)、情境(基于GPS、RFID、WiFi、基站、传感器)信息并预处理、存储,构建多维标签模型库、用户画像模型,基于并行计算、情境建模发现相似资源并结合协同过滤算法匹配用户与资源推荐。

5.4 基于大数据的电影/音乐/电视推荐系统

沈杰[8]、房璐璐[9]、周梦蒲[12]提出电影推荐流程:基于数据接口[8~9]、Flume[8]采集用户行为(评分、日志)、项目数据并储存,经抽取、清洗、离线计算(基于用户、项目协同过滤、Slope One、LPTA算法[8])生成离线推荐结果并存储[8],结合在线推荐部分推荐;郭博林[10]提出音乐推荐流程:采集音乐系统数据(涉及用户信息、音乐作品、用户日志(行为及其静态上下文(主要是用户基本信息)、动态上下文(基于日志系统、上下文感知技术获取听歌时用户位置、时间、播放次数、评分等动态信息)信息))、传感器(获取原始信息(常含混、不准甚至矛盾)并在感知层预处理以分离上下文获取与应用)和网络接口数据并预处理,聚类(K-Means++)用户兴趣,结合因子分解机计算影响因子(兴趣变化及地域化、作品生命周期、区域环境、季节)权值动态建模用户兴趣,基于内容推荐生成候选集并结合作品热度推荐。

5.5 其他

崔金栋[40]提出基于大数据和微本体的微博信息推荐流程:基于爬虫采集微博信息,存储并预处理构建微博信息微本体(基于ICTCLA分词、标注词性、降噪后基于TF-IDF挖掘微博热点词汇、话题抽取领域概念层次后聚类并以三元组文件存储,基于Jena结构化OWL本体后导入Protégé)、主题微本体(提取并预处理标签、确定词间关系、标签聚类(K-Means)建模、微博主题本体化并储存),基于图匹配算法匹配微本体及主题本体进行推荐;陈军[21]提出就业推荐流程:爬取第三方平台就业数据并预处理、存储,构建事实标签(经文本无格式化、切词、词汇过滤(无意义、停用、缺失词)、词频统计、中心性计算以确定高频关键词并基于TF-IDF赋权,结合LDA主题模型聚类高频关键词主题),构建标签模型(基于K-Means法聚类事实标签),计算聚类相似度并据此推荐用户画像标签(相似学生、学生群、企业群属性),结合用户历史信息(基于学生与企业性质及招聘等信息聚类企业和学生)、在线行为(涉及搜索、转发、下载、浏览等,基于协同过滤算法推荐学生近邻、合适工作)、社交网络关系(混合基于内容、协同过滤推荐算法及在线相似度测试进行推荐)推荐职位并构建反馈机制进行优化;周浩[41]提出微博好友推荐流程:爬取并存储微博文本,预处理(分词、标注词性、去停用词)数据并用模型(布尔、向量空间)表示(基于文档频率法、信息增益法、互信息法选择特征,基于布尔权值、词频法、TF-IDF计算权值)后基于K近邻、支持向量机算法分类微博文本,基于信任度和局部随机游走算法计算用户相似度,构建推荐候选集并结合时间衰减兴趣分类算法推荐;江澄[32]提出基于QoS历史记录的服务组合推荐流程:采集(基于传感器、网页点击、移动设备应用服务、RFID等)历史服务数据并记录(选择元数据构建后续所需数据结构)、预处理后存储,基于DCAH(基于分解全局约束和取历史记录均值策略的服务组合推荐法提高推荐时效性)、CBSC(基于CLARA聚类的服务组合推荐法提高推荐精度)法推荐最佳服务组合;胡蓉[19]提出服务推荐流程:采集(用户使用、服务描述)数据,聚类用户(预处理用户日志,构建用户兴趣模型进而聚类)、服务(提取、预处理服务标签、功能,计算特征相似度进而聚类)进而基于用户聚类结果过滤用户(提取用户使用服务上下文(影响用户选择和评分服务),过滤生成上下文一致用户集),结合用户评分、上下文一致用户集、目标服务所在蔟,计算评分相似度并基于阈值选择近邻以协同过滤推荐目标服务;张兴旺[18]提出移动推荐服务流程:采集用户、历史行为信息并提取用户特征进而检索、生成推荐信息集,基于机器学习算法优化移动推荐指标(如点击率、评分)生成移动推荐服务模型,分别计算用户对推荐集、推荐集中各信息认可度后按推荐指标排序推荐;董小妹[36]提出技术创新平台技术推荐流程:采集Web内容、使用、结构数据及用户信息,预处理后挖掘(构建模型(表示为用户-项目评价矩阵、主题关键词列表、加权关键词向量)、发现模式及知识规则)并同步至推荐系统,通过基于本体协同过滤算法在线推荐;段文彬[42]提出基于大数据联盟数据资源推荐流程:检索、分析、整理Web资源信息生成RSS文档并聚类、基于集结器整合信息内容并结合用户兴趣库基于RSS feed汇总推荐。

6 结语

综上,本文从体系结构、功能模块、推荐机理三方面阐述了国内基于大数据的信息推荐架构体系研究进展:基于大数据的信息推荐架构体系遵循请求分散化、推荐离线化、业务专业化、存储分布化、计算并行化、开发迭代化原则[3],以应用场景为导向、信息推荐功能及关键技术为核心、依托大数据资源及信息基础设施,通过体系结构组织的功能模块(可动态调整、低耦合高内聚)、面向应用场景的推荐机理有效构建领域性基于大数据的信息推荐分布式架构体系:体系结构常分用户交互层、服务提供层(含推荐引擎)、业务逻辑层、数据访问层、数据资源层、基础设施层;核心功能模块包括用户交互界面、模型管理(支持用户兴趣、推荐项目建模)、推荐引擎、大数据存储、大数据采集模块;推荐机理关键在于大数据采集、预处理、分布式存储、特征提取,用户及项目建模、推荐算法处理和推荐结果展示。

接下来,笔者将按信息推荐系统处理流程分析大数据采集、组织、挖掘与分析、展示等关键技术研究成果,揭示国内基于大数据的信息推荐关键技术研究进展。

猜你喜欢
预处理聚类架构
一种傅里叶域海量数据高速谱聚类方法
KR预处理工艺参数对脱硫剂分散行为的影响
求解奇异线性系统的右预处理MINRES 方法
手术器械预处理在手术室的应用
一种改进K-means聚类的近邻传播最大最小距离算法
功能架构在电子电气架构开发中的应用和实践
污泥预处理及其在硅酸盐制品中的运用
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于B/S架构的图书管理系统探究
构建富有活力和效率的社会治理架构