基于机器学习的视频识别与自适应推送算法

随着移动互联网技术与网络环境的不断改善，传统的以文本为主的交流方式正逐渐向视频和图片过渡，这一转变促进了短视频行业的蓬勃发展[1].调查指出，短视频行业从2016年开始爆发式增长，到2017年其规模已达到57.3亿元，并将于2020年达到300亿元[2].相较于传统行业，短视频行业具有流量、内容成本低，回报率高的特点.但要真正挖掘其商业价值，提升其内容变现能力仍是各大短视频平台的痛点.因此，如何结合短视频的内容和商业化产品的特点来提升短视频平台的变现能力，且将短视频流量精准地匹配到商业化路线上，仍面临巨大的挑战[3-5].

目前，国内的短视频平台主要有抖音视频、西瓜视频和快手视频等[6]，这些短视频平台主要采用一种隐藏的形式推送广告，即将不同长度的广告与常规视频相结合，在用户观看短视频的同时必然会接收到所推送的广告[7-9].但该广告推送方式无法根据用户的特点推送，其针对性较差.而国外短视频平台如OneWay等，旨在为开发者和广告客户提供更优的短视频广告解决方案.其根据用户的历史观看记录来提供精准的广告投放，提高所投放广告的有效性[10-12].同时，OneWay也使用开屏广告与360°全景广告的方式来丰富广告投放的形式.但此广告投放方式并未结合当前用户观看的短视频内容，无法提供物体级的广告投放方案[13-15].

物体级广告投放即使用图像处理技术，从短视频中提取出关键帧并在其中进行检测，且根据检测结果投放广告[16].其中关键帧提取方法包括：1)基于镜头边界的方法，使用帧平均来提取每个镜头的关键帧，或直接将最开始一帧与最后一帧作为关键帧[17]；2)基于运动分析的方法，仅在视频的静止点处提取关键帧.

本文提出了一种基于机器学习的视频识别与自适应推送算法，该算法通过准确地检测出短视频中的物体，并结合基于用户行为的内容推荐算法，向用户推荐其感兴趣的内容.本文所提出的内容推荐算法不但不会引起用户的反感，且还能增加推荐内容的点击概率，提升推荐内容的收益率.

1 视频内容检测识别算法

本文从物体级广告投放方式出发，提出了一种基于深度学习的图片检测与内容推荐算法.该算法首先使用FFMpeg解析短视频，然后使用基于内容的关键帧提取算法，提取出短视频的关键帧，并使用Faster-RCNN目标检测算法对视频中的目标进行检测、分类.最后，通过将检测出的物品与需要推荐的内容信息进行匹配，自适应地向用户推荐与视频内容相关的广告.本文所提出方法的整体流程，如图1所示.该方法主要包括：关键帧提取、目标检测与识别和广告推荐3个模块.

1.1 关键帧提取

本文直接从CDN采集的视频信息中获取视频帧，并采用关键帧提取技术来排除冗余图像.其中，关键帧能代表一组视频的内容概要，其提取过程相当于一个数据压缩过程，且目标是最小化帧与帧间的相似性.

本文首先将视频序列的第一帧作为参考帧，然后依次计算其他各帧与选定参考帧间的相似度.通过与相似度阈值δ进行比较来确定新的一帧是否可以设置为新的关键帧.当相似度小于阈值δ时，将该帧设为关键帧，并将其作为后续帧的参考帧.循环上述过程，直至结束遍历视频序列.本文使用颜色、纹理和形状信息作为相似度计算指标，其中基于颜色直方图的相似度计算过程如下：

1) 设置颜色相似度阈值为δC，采样步长为s.对于给定的视频序列，首先使用FFmpeg抽取出视频序列的每一帧，设定该序列的第一帧为关键帧，然后每隔s帧采样，计算其与关键帧间的颜色直方图通道参数.假设当前视频帧下标为i，上一关键帧的下标为j，两个视频帧的直方图通道参数分别为Ri，Gi，Bi和Rj，Gj，Bj.每个直方图可以用K维向量表示，则

表示第i帧的r通道在k区间上具有的像素数量，第i帧与j帧在各通道上的颜色相似度Sij计算表达式为

2) 当Sij<δC时，则表示该帧与上一关键帧具有较小的相似度，即当前帧所包含的额外信息较少，本文将该帧作为新的关键帧；当Sij≥δC时，表示该帧与上一关键帧具有较高的相似度，则舍弃该帧.

1.2 目标检测与识别

使用上文所述的方法提取出关键帧后，本文使用Faster R-CNN物体检测框架进行实时检测.使用Faster R-CNN算法处理一张M×N大小的图片，首先需要进行一系列卷积与池化操作得到特征图，然后在特征图上采用3×3的滑动操作，每次滑动将产生9个锚框.这9个锚框的中心对应着滑动窗口的中心，且具有3种不同的面积：1 282、2 562和5 122；3种不同的长宽比：2∶1、1∶1和1∶2.

得到锚框特征后，Faster R-CNN算法使用1×1×256×18与1×1×256×36两个卷积层，分别得到一个18维的向量和一个36维的向量.具体生成网络操作如图2所示，图2中将256维特征回归到4k个候选框的位置坐标中，并分类为2k个类别中的一类.根据位置和类别信息，可以将这些候选框归类为正负样本，即将与真实区域大于0.7的框作为正样本；将真实区域小于0.3的框作为负样本.

为了优化上述目标检测网络，Faster R-CNN算法对候选区域进行Softmax二分类，并设目标函数为

式中：m为候选框的下标，若该候选框为正样本，则

否则

为正、负样本概率；

为正、负样本所对应的候选区域的真实坐标；Lcls为分类损失；Ncls为随机选取的锚框大小；Nreg为锚框的数量；λ=10为损失权衡值；Lreg(x)为检测框回归损失，且有

该目标检测网络的训练过程如下：

1) 使用ImageNet数据集对预训练模型进行初始化，并独立训练区域生成网络；

2) 使用步骤1)训练好的区域生成网络训练目标检测网络；

3) 使用步骤2)得到的网络初始化一个新的区域生成网络，将步骤1)得到的区域生成网络与Fast R-CNN网络的权重固定，仅更新区域生成网络的权重；

4) 固定权重共享的网络层，加入Fast R-CNN所特有的特征提取层形成一个统一的网络，然后继续训练，并微调整个网络.

1.3 基于反馈的推荐系统

本文提出了一种基于反馈的推荐系统，通过搜集和分析不同用户在观看短视频时的行为来调整用户对系统所推荐广告的权重.推荐系统整体流程如图3所示，可以看出，该系统使用闭环设置，根据用户的行为调整系统.

基于系统根据用户在观看短视频时的行为来调整系统所推荐的广告权重，行为级别的具体设置过程如下：

1) 在播放视频时，系统并未推送任何广告，但用户主动触发目标检测操作来观察视频中的某一物体时，具有最高级别的权重；

2) 在播放视频时，用户看到广告，并点击广告链接，这一过程具有第二高的权重；

3) 在播放视频时，用户看到广告推送，但未进行任何操作直至广告结束，这一过程具有第三高的权重；

4) 在播放视频时，用户看到广告并点击关闭广告，这一过程具有第四高的权重.

本文根据上述用户行为的反馈，设置了如表1所示的权重调整表.系统根据用户的喜好来调整权重，并通过反复试验来设置用户感兴趣阈值和不感兴趣阈值.

2 系统实现与测试

本文使用C/S架构实现基于机器学习的视频识别与自适应推送算法，该系统使用云端预处理模块提供静态文件分发和负载均衡服务；使用网络接口模块作为客户端与服务器进行数据传输的通道；使用视频展示模块实现视频解码和渲染，从而进一步实现视频播放与广告推送展示.基于该系统软硬件平台，本文分别进行关键帧采样测试实验与用户喜好阈值设置实验.

2.1 关键帧采样测试实验

为了研究采样步长和相似度阈值对关键帧提取算法的影响，使用一段时长为100 s的短视频进行仿真测试.本文测试不同采样步长与相似度阈值组合下的关键帧提取的数量，结果如表2所示.

通过多组人工测试结果表明，该组视频实际包括20帧关键帧.对比表2的结果可知，当采样步长为2～4 s，相似度阈值在0.5～0.7时提取出的关键帧数量符合真实情况.当增加相似度阈值或减小采样步长时，提出的关键帧数量将增加；而减小相似度阈值或增加采样步长时，提出的关键帧数量将减少.综合考虑计算量与提取出的关键帧的数量，本文设置采样步长为3 s，相似度阈值为0.6.

2.2 用户喜好阈值设置

本文算法根据用户与视频的交互行为来生成用户偏好表，以记录用户对不同物品的偏好分数.将用户对每个类别的物品偏好分数设置为0～100间的整数，并初始化为50.在系统运行时，根据表1给出的权值实时更新该偏好分值.

本文使用直方图统计用户偏好分值的分布情况，设置一组包含200种不同物品，100个用户的实验进行仿真测试.用户偏好分值的直方图分布如图4所示.

当偏好阈值设置过高时，仅有极少的物品能被推送给用户；而阈值设置过低时，则无法达到减少物体类别的要求.本文通过权衡用户偏好和物品数量来选取喜好阈值，并设置用户喜好阈值为70.

2.3 推荐算法测试实验

基于上述分析和参数设置，本文使用25部时长为300 s的短视频测试文中提出推荐算法的有效性.其中这25个短视频包括15个不同的物体类别，本文算法能依次匹配这些物体及广告信息.文中将这25个视频分为不同时长的5组视频，表3给出了不同方法在这些短视频上的广告推荐结果.从表3中可以看出，本文算法平均能达到84.19%的推荐精度，相比于文献[16]所提出的算法，推荐精度有所提升.

3 结论

本文提出了一种基于机器学习的视频识别与自适应推送算法.该算法使用基于颜色相似度的关键帧提取算法，从短视频中提取出关键帧，形成短视频的信息摘要；使用Faster R-CNN目标检测算法，可以快速检测出关键帧中包含的目标来形成广告推荐；所提出的基于用户偏好的广告推荐算法可以实时更新用户的偏好权重来进行广告推荐.算法实现与仿真测试结果表明，所提出的方法不但不会引起用户的不适感，而且可以增加推荐内容的点击概率，提升广告推送的收益率.

[1]顾其威，郭鹏，潘锋.手机广告推荐中的用户兴趣建模研究 [J].计算机应用研究，2012，29(2)：579-581.

(GU Qi-wei，GUO Peng，PAN Feng.Research on user interest modeling in mobile Ad recommendation [J].Application Research of Computers，2012，29(2)：579-581.)

[2]黄立威，江碧涛，吕守业，等.基于深度学习的推荐系统研究综述 [J].计算机学报，2018，41(7)：1619-1647.

(HUANG Li-wei，JIANG Bi-tao，LÜ Shou-ye，et al.Survey on deep learning based recommender systems [J].Chinese Journal of Computers，2018，41(7)：1619-1647.)

[3]郑怀宇.基于用户聚类的二分图网络协同推荐算法 [J].沈阳工业大学学报，2018，40(3)：316-321.

(ZHENG Huai-yu.Bipartite graph network collaborative recommendation algorithm based on user clustering [J].Journal of Shenyang University of Technology，2018，40(3)：316-321.)

[4]Yao D L，Ling Y C，Haibin S，et al.Joint content recommendation and delivery in mobile wireless networks with outage management [J].Entropy，2018，20(1)：64-68.

[5]Liu D，Yang C.A learning-based approach to joint content caching and recommendation at base stations [C]//IEEE Global Communications Conference.Hangzhou，China，2018：566-573.

[6]Kim Y，Jung S，Ji S，et al.IoT-based personalized NIE content recommendation system [J].Multimedia Tools and Applications，2018，38(4)：98-106.

[7]Lian D，Ge Y，Zhang F，et al.Scalable content-aware collaborative filtering for location recommendation [J].IEEE Transactions on Knowledge and Data Engineering，2018，9：13-19.

[8]Ling Y C，You X S，Wen B L，et al.Explicit content caching at mobile edge networks with cross-layer sensing [J].Sensors，2018，18(4)：940-946.

[9]Lee S，Lee D.A personalized channel recommendation and scheduling system considering both section video clips and full video clips [J].Plos One，2018，13(7)：748-756.

[10]张圣筛，陈家琪.一种改进相似度计算的Slope One推荐算法 [J].电子科技，2017，30(10)：116-118.

(ZHANG Sheng-shai，CHEN Jia-qi.A Slope One recommendation algorithm for improved similarity calculation [J].Electronic Science and Technology，2017，30(10)：116-118.)

[11]卢军，李哲，黄一杰，等.一种基于协同过滤与语义分析的个性化网络广告投放方法研究 [J].现代电子技术，2016，39(19)：107-110.

(LU Jun，LI Zhe，HUANG Yi-jie，et al.Research on a personalized online advertising delivery method based on collaborative filtering and semantic analysis [J].Modern Electronic Technology，2016，39(19)：107-110.)

[12]朱艳平，赵喜玲.混沌键控视频加密方案研究 [J].重庆邮电大学学报(自然科学版)，2017，29(1)：90-97.

(ZHU Yan-ping，ZHAO Xi-ling.Chaotic keying video encryption scheme research [J].Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition)，2017，29(1)：90-97.)

[13]Yuta S，Yosuke Y，Megumi H，et al.Public subsidies and the recommendation of child vaccines among primary care physicians：a nationwide cross-sectional study in Japan [J].BMJ Open，2018，8(7)：923-932.

[14]Wang C S.An AR mobile navigation system integrating indoor positioning and content recommendation services [J].World Wide Web，2018，9：481-488.

[15]Jang Y H，Park S C，Kim H.Design and implementation of social content recommendation system based on influential ranking algorithm management [J].Journal of Ambient Intelligence and Humanized Computing，2019，2：352-368.

[16]Nzeko A J N，Tchuente M，Latapy M.A general graph-based framework for top-n recommendation using content，temporal and trust information [J].IEEE Transactions on Computer Science，2019，58(8)：669-678.

[17]Alexandridis G，Chrysanthi A，Tsekouras G E，et al.Personalized and content adaptive cultural heritage path recommendation：an application to the Gournia and Catalhöyük archaeological sites [J].User Modeling and User-Adapted Interaction，2019，29(1)：201-238.