网盘智能相册系统研究与设计

2022-08-01 04:03钟地秀丁小波蔡茂贞吴灼豪
现代计算机 2022年11期
关键词:网盘聚类人脸

钟地秀,丁小波,蔡茂贞,彭 琨,吴灼豪

(中移互联网有限公司云产品事业部,广州 510000)

0 引言

随着增强移动宽带、低时延高可靠海量连接的5G 时代来临,图片、视频、文本等个人数据也在不断激增,个人数据的激增势必让个人网盘在未来成为强需求。据艾媒咨询数据显示,2020 年全球数据中心存储容量将达到272 艾字节,不断扩大的个人数据和云储存需求加速了个人云服务市场的发展,预计2020 年中国个人云盘用户规模有望超过4亿人,未来个人网盘提供商的经营实力和服务能力将成为用户关注的一大焦点。

国内个人网盘行业始于PC 时代,最初以网络文件存储、备份的功能为主。随着互联网技术的兴起和智能手机的普及,个人手机上的数据(特别是照片和视频)激增,个人网盘产品也不断进化,照片和视频的核心场景逐渐从个人网盘中独立出来,从文件存储分离出相册产品。再到人工智能时代,大数据和图像识别技术的引入为多媒体内容的识别和分析带来诸多便利,孵化出如智能相册、智能P 图和自动视频聚合等应用。本文重点关注基于图像识别的网盘智能相册系统。

1 网盘智能相册功能

智能相册基于AI 图像识别技术,为网盘用户提供良好的照片管理服务,包括人脸识别、物品分类以及场景理解、智能搜索等功能,通过理解图片本身的视觉内容帮助用户进行更多维度的分析管理。

(1)人脸识别。应用人脸检测、人脸特征提取及聚类技术,自动识别出相册图片中包含哪些人,并将人物按照身份分组呈现给用户,便于用户浏览与查找。

(2)物品分类。应用物体检测、物体分类技术,自动定位并识别出图片中包含的主体位置和主体属性标签,如猫、狗、花、火车等,并基于图片属性标签完成图片分组展示。

(3)场景理解。应用图像识别技术,分析图片中出现的场景主题类别,如天空、海洋、草坪、婚礼等,以主题形式对用户相册进行分类管理,便于用户记录生活轨迹及美好瞬间。

2 网盘智能相册系统架构

本文基于图像识别及目标检测等技术实现网盘智能相册,实现的基本功能如图1所示,针对用户网盘相册图片集数据,系统可根据图片视觉内容进行自动识别和自动分组,最后形成以人物个体或其它内容标签为单位的图片集,从而便于用户更加快速高效地浏览及查找目标对象,实现智能高效管理相册的目的。

图1 智能相册功能示意图

为实现上述基本功能,本文设计的智能相册系统架构如图2所示,整体架构分为模型训练和服务应用两大部分,模型训练完成各类智能算法模型参数优化训练,并为服务应用模块提供算法技术支撑,实现相册智能分类业务。本文网盘智能相册具备人脸识别、物品分类、场景理解三大智能算法能力,基于基础算法能力可为网盘用户提供人像聚类及事物分类两大智能相册业务服务。

图2 智能相册系统框架图

2.1 智能相册算法模型训练

模型训练是整个系统框架的核心部分,智能相册业务应用效果都依赖于模型训练的高准确率,其基本组成部分如图2 所示,包括用于模型优化训练的图片数据集、图片数据预处理以及智能算法池三个模块。本文智能相册实现过程中需完成人脸识别、物体识别及场景理解三个模型训练优化,具体详情阐述如下。

为完成智能相册算法模型训练,本文采用网络爬虫及开源数据融合方式获取训练图片集。图片训练集获取后进行图片清洗、筛选标注等一系列工作,并可依据不同的训练任务执行相应的数据预处理操作。图片数据预处理包括通用预处理方法及特定预处理方法两类,通用预处理方法通常为视觉任务共用的图像预处理手段,特定预处理可根据任务模型需求而设定。

通用预处理方法:三个任务均采取均值消除,值域归一化预处理训练集数据。

特定预处理方法:采取数值标准化(normal⁃ize),并使用对比度、色调扩增预处理人脸图片集;采取数值标准化(normalize),并使用随机剪裁、随机旋转扩增预处理物体图片集;针对场景图片集,实验对比发现数值标准化方法对场景色彩影响较大,易造成大面积色彩相近的场景图混淆错分,故本文不采用该方法预处理场景图片,而是采用随机灰度化来降低色彩对场景标签的影响,同时采取亮度、对比度调整扩增场景图片集。

2.1.1 人脸识别

人脸识别完成的任务是通过人物面部特征提取分析,实现人脸身份确认,本文系统中人脸识别流程主要由人脸检测、人脸矫正和人脸特征比对三个部分完成。

(1)人脸检测。人脸检测完成从照片中检测获得人脸坐标框以及人脸关键点坐标的任务,文 本 系 统 采 用 基 于 开 源WIDERFACE和LFPW数据集训练完成的MTCNN实现人脸框和人脸关键点生成工作,模型训练完成后在网络爬虫数据集上进行测试,测试结果如表1 所示。测试图片数目为1000 张,包含总人脸数目为2503张,测试人脸图片具备不同光照、肤色、表情及部分遮挡等多种形态,模型作用于图片预测输出图片中所有人脸框4个坐标点以及脸部5个关键点坐标。

表1 MTCNN人脸检测结果

(2)人脸矫正。为获得更佳的人脸识别效果,在人脸检测后需要对部分人脸图片进行矫正,减小偏转幅度过大的人脸倾斜角度。本文采用仿射变换完成人脸矫正,具体步骤如图3左图所示,通过调整人脸两眼中心点连线的倾斜角度实现人脸旋转角度矫正,矫正效果如图3右图所示。

图3 人脸矫正方案(左)人脸矫正效果(右)

(3)人脸特征比对。人脸矫正完成后,应用人脸特征提取模型获取人脸区域特征作为该人脸身份的表示向量,通过对比两张人脸的表示向量判定人脸是否为同一人,从而确认人脸身份。本文采取insightface模型作为人脸特征提取模型,并应用欧式距离度量人脸特征表示。模型训练集采用百度谷歌爬虫获得人物图片集,包含1509 个人物ID,共94764 张图片,模型主干网络选择Resnet50,损失函数采用基础的softmax 损失,输出人脸特征向量维度为512 维。模型训练收敛后采用微博爬虫图片集进行测试,共包含1000 个微博人物ID,测试时随机抽取3000 对相同人脸图片及3000 对不同人脸图片,测试结果如表2所示。

表2 人脸识别模型测试结果

2.1.2 物体识别

物体识别分辨出图片中存在哪些物体,预测输出图片中包含的所有物体类别标签。本文物体识别应用yolov5目标检测模型实现,选择日常生活中常见标签(见表3),训练图片集由从开源coco数据集中抽取的部分标签样本集以及网页爬虫获取的部分图片集组成,训练模型结构选用yolov5l 模型,并载入release 预训练权重完成模型参数初始化。测试数据集由网页爬虫获取,每类测试图片为100张,测试仅计算物体识别结果,测试结果如表3所示。

表3 物体识别测试结果

续表3

2.1.3 场景理解

场景理解解析图像所处的场景环境,如天空、草地等,与物体识别结合使用,完成网盘相册事物分类服务,为网盘用户提供照片的智能自动分组及管理。场景理解预测输出图片所属场景类别标签,属于图片多标签识别任务,本文采用经典resNet50卷积模型完成场景分类任务。为实现场景多标签预测,本文替换原resNet 模型中的softmax 激活分类层为sigmoid 激活,同时考虑到样本不均衡问题,本文采用非对称损失ASL 进行分类模型优化。场景标签选择常见的26 类生活场景标签,通过网页爬虫获得训练样本集和测试样本集,训练集每类图片数目3000~5000 张,测试集图片每类100 张,模型训练测试结果如表4所示。

表4 场景理解测试结果

2.2 智能相册算法服务应用

网盘智能相册基于人脸识别、物体识别及场景理解基础算法技术形成人像聚类及事物聚类两大类应用,可以根据图片标签属性将相册图片进行分组划分,例如将相同人物照片划分为同一组,将事物图片聚合分为风景、美食、建筑等类别,也可以将人物场景事件分为聚餐、运动、演出等类别。

2.2.1 人像聚类

基于人脸特征向量间欧式距离设置两层阈值完成相同照片人脸聚合,第一层阈值用于进行相似图像的聚类组合,可存在一张图片属于多种聚类组合中;第二层阈值对于存在聚类组合的图像进行过滤与整合,输出结果保证每张图像只存在一种聚类组合。聚类流程如图4 所示。人脸特征向量由人脸识别模型获得,以特征向量间的欧式距离作为人脸相似度度量。

图4 人像聚类方案(左)和人像聚类示例(右)

第一层阈值聚类:第一层阈值聚类组合将相似度大于所设定的第一阈值人脸图片划分为同一类别;

第一聚类结果合并:第一层聚类完成后对没有聚类结果的图片进行过滤,并对存在共同人脸图片的聚类组合进行合并;

第二层阈值聚类:遍历合并后的第一聚类结果,计算聚类结果类别中人脸平均相似度,并基于相似度对聚类结果进行二重筛选。具体做法是,若一张图片与类别中的其他图片最小相似度和平均相似度都不符合设定的第二阈值,则将此图片剔除出此类别的聚类结果。

2.2.2 事物聚类

通过图片物体及场景输出标签聚合形成网盘照片事物聚类应用,为便于用户浏览与查找,可根据图片细分标签将图片聚合为多个主题大类,如表5所示。

表5 事物聚类主题列表

可将物体标签与场景标签聚合为交通、动物、美食、建筑等大类,实现网盘智能相册事物图片智能分组应用,实现效果如图5所示。

图5 事物聚类示例

3 结语

随着5G 技术的发展及人们生活品质的不断提高,用户对网盘存储有了更高的要求,即要保证速度与容量,还要足够智能。本文基于深度学习算法技术设计实现了网盘智能相册系统,包含模型训练及服务应用两大模块,模型训练模块训练输出人脸识别、物体识别及场景理解系列算法模型用以支撑服务应用模块的网盘人像聚类及事物聚类业务应用,该应用服务可根据图片视觉内容进行自动识别和自动分组,形成以人物个体或其它内容主题为单位的图片集,便于用户更加快速、高效地浏览及查找网盘相册图片,实现智能高效的相册管理。本系统架构后续还可进行扩展以支撑更多网盘智能应用,如扩增智能算法池算法类型以支撑网盘文本、视频智能分类处理,也可基于基础算法模型扩展服务应用类型,如可实现基于人脸识别及事物识别的智能搜索应用服务。

猜你喜欢
网盘聚类人脸
基于数据降维与聚类的车联网数据分析应用
玻璃窗上的人脸
将网盘文件集中到Office 365网盘
基于模糊聚类和支持向量回归的成绩预测
网易网盘消逝谁是“凶手”?
智力考场:有趣的图片测试
基于密度的自适应搜索增量聚类法
360网盘内容的快速转移
“领家系”可爱脸VS“高冷系”美人脸
网盘关停