【论文翻译】Deep Video Prediction Network-Based Inter-Frame Coding in HEVC_综合

Deep Video Prediction Network-ased Inter-Frame Coding in HEVC
JUNG-KYUNG LEE, NAYOUNG KIM, SEUNGHYUN CHO, AND JE-WON KANG, (Member, IEEE)

摘要本文提出了一种基于卷积神经网络（CNN）的视频编码技术，利用视频预测网络（VPN）来支持高效视频编码（HEVC）中的增强运动预测。具体地说，我们设计了一个CNN VPN来生成一个虚拟参考帧（VRF），该虚拟参考帧是利用先前编码的帧合成的，以提高编码效率。提出的VPN采用两个子VPN架构级联在同一时间实例中预测当前帧。VRF被期望具有比传统参考帧更高的时间相关性，因此它被替换为传统的参考帧。所提出的技术被整合到HEVC帧间编码框架中。特别地，VRF被管理在HEVC参考图片列表中，使得每个预测单元（PU）可以通过率失真优化来选择一个更好的预测信号，而不需要任何附加的旁侧信息。此外，在当前PU以VRF为参考帧的情况下，对高级运动矢量预测的HEVC帧间预测机制进行了改进，自适应地合并了模式。这样，所提出的技术可以利用HEVC中的多假设预测技术。由于所提出的VPN可以执行视频内插和外推，因此它可以用于随机接入（RA）和低延迟B（LD）编码配置。实验结果表明，与HEVC参考软件hm16.6版本相比，该技术在RA和LD编码结构中分别提供了-2.9%和-5.7%的编码增益。

索引术语 视频编码，深度学习，卷积神经网络，视频预测网络，交互预测，虚拟参考框架，HEVC，VVC。

I.介绍
卷积神经网络（CNN）是视频编码领域中备受关注的研究课题。由于CNN能够解决视频中复杂的时空动态，因此它被积极应用于视频编码技术，以提高编码效率[1]–[8]。最近，一些基于CNN的视频编码技术[9]-[13]是为了响应正在进行的视频编码标准化的招标（CfP），称为多功能视频编码（VVC）[14]。研究人员一直关注在视频编码中使用CNNs的好处，并通过标准活动研究这些方法对性能和复杂性的影响。

目前基于CNN的视频编码技术是建立在混合视频编码框架上的，以提高码率失真（R-D）性能。首先，CNN被用于环路滤波器[1]、[2]、[15]和后滤波器[16]，以提高重建帧的感知质量。由于量化过程产生独特的失真模式，如振铃和阻塞伪影，CNN被用来学习要去除的不希望的伪影。基于CNN的环内滤波器被放置在传统环路滤波器链中，即自适应环路滤波器（ALF）、采样自适应偏移（SAO）滤波器和去块滤波器[17]、[18]，但也用于替换整个链[19]。

对于预测编码，CNN用于增强预测信号的时空信息。超分辨率（SR）CNN被积极应用于在不同的编码管道中生成更丰富的空间信息[3]，[20]–[23]。Li等人。为帧内编码开发一个基于CNN的块上采样和下采样框架[3]。每个块可以按原始分辨率进行编码，也可以进行下采样并以较低的分辨率进行编码。使用标称HEVC帧内编码[3]或帧间编码[22]、[23]压缩低分辨率的块，然后由CNN对解码后的块进行超分辨。Lin等人。采用非关键帧的概念，该帧以降低的分辨率编码，并由SR[24]在解码器中恢复。当量化失真比混叠失真占主导地位时，这些工作在较低的比特率下提供了改进的编码性能。

增强的时间信息也给CNNs带来了显著的编码性能。在我们之前的工作[7]、[25]中，最初为视频帧速率上转换而开发的深度视频预测网络（VPN）[26]已经通过合成参考帧应用于视频编码。赵等。[27]和Choi和Bajic[28]使用相同的VPN架构来提高帧间编码的编码效率。VPN使用多个卷积核，用相邻帧的空间和时间相邻样本训练，用于视频插值[26]、[29]或外推[30]、[31]。然而，虽然VPN可以提高时间分辨率和预测精度来提高编码性能，但我们认为基于CNN的视频编码技术利用时间相关性的研究还不多见。

本文在总结前人研究成果和vpn最新进展的基础上，着重于提高视频帧的质量，提出了一种新的基于CNN的视频帧间预测技术。我们的主要贡献总结如下：

我们设计了一个扩展的VPN模型来生成一个比传统参考帧更精确的P或B预测的虚拟参考帧（VRF）。所提出的VPN具有使用多分辨率视频输出的体系结构，以解决传统VPN无法预测高分辨率视频中运动的问题。
提出的VPN支持视频内插和视频外推。因此，VPN可以应用于随机接入RA）和低延迟（LD）编码配置，以提高编码性能，而我们之前的研究[7]仅适用于RA编码。
我们将所提出的技术整合到HEVC参考软件的框架中。HEVC预测采用高级运动矢量预测（AMVP）和VRF合并模式。以这种方式，所提出的技术支持多假设预测，而传统的文献[8]、[27]、[28]仅对VRF使用零运动矢量（即直接模式预测）。
我们进行了大量的实验来评估所提出技术的性能，并研究了许多分析。实验结果表明，与hm16.6相比，该技术在RA和LD编码结构下分别提供了2.9%和d5.7%的编码增益。

论文的其余部分安排如下。在第二节中，我们回顾了相关的工作。我们解释了第三节中提出的VPN体系结构和第四节中提出的帧间编码技术。第五节进行了实验评估。我们在第六节中给出了评论。

II.相关工作
A.深度视频预测网络
传统的视频预测技术使用光流或平移二维运动矢量进行运动预测。最近与传统方法相比，基于CNN的视频预测网络（CNN-VPN）通过以端到端的方式学习时间变化，显著提高了预测性能。最近对CNN VPN的研究可以分为基于流的VPN方法[32]、[33]和基于内核的VPN方法[26]、[29]、[31]、[34]。

基于流的[32]、[33]进行两步视频生成过程，包括逐像素的运动预测和到目标帧中相应像素的扭曲。一开始，Fischer等人。建议使用CNN来估计后续帧中的光流[32]。他们试图用一种有监督的学习方式来训练这些流，但是要获得足够数量的光流的基本真相是有问题的。后来，刘等。尝试使用过去和未来视频帧中混合像素的体素来解决这个问题[33]。该模型能够以无监督的学习方式训练体素中的流。这些方法能够使用流向量显式地表示运动信息。然而，由于遮挡和光照变化以及不准确的视频预测和生成，它们的对应关系很不清晰。

基于内核的VPN[26]、[29]、[31]、[34]通过将时间上相邻帧的像素卷积并将结果演化为后续帧来预测当前帧帧。而这些方法不一定需要流向量，应该允许一些可训练的核函数来进行更灵活的帧预测和生成。Jia and de Brabandere[35]和Kim and Kang[34]提出使用动态卷积网络和长短期记忆（LSTM）模型训练运动核，应用于长期视频外推任务。这些作品为人类的长期预测提供了看似合理的框架。最近，Niklaus等人。提出了一种用于运动预测的自适应可分离CNN[26]。他们的CNN-VPN使用四个可训练的滤波器将像素卷积到两个时间相邻帧中的水平和垂直方向，并且在可控制的计算复杂度上显示了相当好的预测结果。它最初是为帧速率上转换中的视频插值而开发的，但也扩展到使用传输学习的视频外推[30]。我们的VPN也受到基于内核的研究的启发，因为它使用卷积核来预测视频的前向或后向。

B.基于CNN的帧间编码技术
当前使用CNN vpn的帧间预测技术的目的是利用先前编码的信号生成合成的参考块[5]–[8]，[28]。赵等。提出了一种利用CNN-VPN来推断预测块的双向（B）运动预测技术[6]。传统的B预测信号被网络增强以提供进一步的时间相关性。Lee等人。[7] 赵等。[8] 应用预先训练好的视频插值CNN-VPNs[26]在HEVC的分层B编码结构中生成参考帧。在文献[7]中，生成的参考系被HEVC中现有的参考系所取代。在文献[8]中，引入了一种直接预测模式，其中生成的参考帧的同位块用于重建块。直接预测模式在编码树单元（CTU）中发信号以指示当前块是利用生成的参考块还是传统的B或P预测块。文[27]对编码方案进行了扩展，通过CNN提高了参考帧的质量。以类似的方式，Choi和Bajic[28]通过重新训练相同的VPN架构，提出了一种适用于HEVC RA和LD编码配置的基于块的直接预测模式[26]。

我们的工作与之前使用CNN vpn的作品有着相似的直觉。在HEVC参考图片列表中管理的VRF用于预测单元通过R-D优化选择更好的预测信号，而不需要任何旁侧信息。然而，所提出的技术有很大的不同。在[8]、[27]、[28]中，生成的参考块通过直接预测模式直接用于重建。换句话说，块是用零运动矢量预测的。然而，在所提出的技术中，生成的参考帧被管理在参考图片列表中，因此该技术支持HEVC中的PU-wise多假设预测。此外，该技术不传输额外的信息，也不需要额外的存储器来管理帧列表。与我们之前的工作[7]只应用于RA编码配置相比，CNN VPN自适应地选择了change，以提供更好的预测精度，同时也支持LD编码配置AMVP和Merge模式根据生成的参考帧进行自适应修改。

III. 提出了一种基于CNN的视频预测网络
A.模型体系结构
提出的CNN-VPN的目标是使用两个输入帧（用Xτ1和Xτ2表示）和一组网络参数θ来精确预测当前帧。让Xt和Xt’分别表示当前视频帧和预测帧。然后，学习一组最佳网络参数θ*以尽可能接近地预测当前帧，给出在这里插入图片描述

其中是一组可能的网络参数，VPN（）表示生成视频帧的预测函数。该模型体系结构是为支持基于输入视频的视频内插和外推而设计的类型。输入一方面，Xτ1和Xτ2分别是过去帧和未来帧，因此通过双向预测对当前帧进行插值。另一方面，当当前帧通过单向预测外推时，这两个输入可以来自过去的帧。

图1显示了具有卷积层和反褶积层对称形状的整体VPN架构。卷积层提供输入帧的潜在特征向量，反褶积层从特征向量中产生与视频内容相适应的相应核。在网络的最后，内核与原始输入帧卷积以预测当前帧，这是由Niklaus的视频插值网络[26]驱动的。具体来说，网络使用四个一维可分离核。用kτ1，v和kτ1，h表示的两个一维核分别表示输入框Xτ1的垂直和水平运动方向。另外两个由kτ2，v和kτ2，h表示的核用于输入帧Xτ2。预测帧bXt得到如下：在这里插入图片描述

其中?表示卷积运算符，如图1所示。虽然CNN VPN架构和可分离卷积方案最初是为双向预测而开发的，但它可以通过重新训练网络参数来扩展，以支持单向或双向预测[28]，[30]目的。在换句话说，他们使用相同的VPN架构，其中网络参数被重新配置为不同的任务。我们的工作共享相同的计划。
在这里插入图片描述
B.U+DVPN方案
CNN VPN架构展示了视频内插和外推的最新性能。然而，由于网络结构最初是为低分辨率视频的插值任务而开发的，它在视频外推和高分辨率视频中显示出一些缺点。生成的帧的质量明显下降。这种现象非常关键，尤其是在LD编码结构中。

为了解决这一问题，我们开发了一个由下采样分辨率VPN（DVPN）和上采样分辨率VPN（UVPN）级联的多分辨率VPN体系结构。DVPN向下采样h×w的输入帧到h/2×w/2的大小，用XDτ1和XDτ2表示，并产生预测的下采样假设，用XDτ’表示。然后我们将XDτ’上采样到XDUτ’的原始大小h×w，并将两个原始输入帧和假设bxdut按时间顺序连接起来，并将它们输入到UVPN。UVPN将预测帧Xτ’的最终实现作为中间结果的加权组合，如下所示：在这里插入图片描述

其中XDτ’和XDUτ’分别从UVPN和DVPN的输出获得。M是一个经过训练的权值映射，范围从0到1，运算符·表示帧中像素的逐元素乘法。M控制两个输出的重要性。权值图通过端到端学习与网络参数联合学习。

图2示出了通过权重映射在测试视频中激活区域的几个示例。明亮的区域代表更高的激活。如图所示，权重贴图对具有运动而不是静态背景的对象作出响应。因此，DVPN给出的区域在快速运动中更为重要。实际上，由于原始内核的大小有限，大分辨率可能很难管理VPN。但是在所提出的技术中，使用多分辨率扩展可以缓解这个问题。
在这里插入图片描述
表1总结了详细的超参数。DVPN和UVPN共享同一个网络建筑。在换句话说，每个网络由卷积层和反褶积层组成，其中核的大小为3。每三层插入一个池或上采样层。在此基础上，我们从DVPN的核心到UVPN中卷积层的特征映射进行跳转连接，以保持训练上下文并进行更可靠的运动预测。该连接允许在下面的UVPN中考虑DVPN的运动特性。
在这里插入图片描述
C. 训练
1）损失函数
在训练中，我们定义了一个损失函数L来考虑生成视频的质量，如（1）所示。我们把（3）加到（1）中，给出
其中，损失函数在训练过程中同时考虑DVPN和UVPN的输出，以测量具有均方误差的差值。损失函数变得简单如下在这里插入图片描述
两个子vpn的成本很容易计算。

我们使用Pytorch实现了该网络，并使用AdaMax对其进行了优化，训练参数β1设置为0.9，β2设置为0.999。学习率为10-4。批量大小是32。在训练中，使用NVIDIA TITAN X GPU的迭代次数是150万次。

2）训练集
对于训练视频，我们使用从YouTube获得的高清和超高清视频。在选择训练视频时，要仔细检查视频中相邻帧是否包含足够的运动。当光流的大小大于阈值时，我们计算光流并接受训练集中的视频。在我们的数据集中，考虑到可控制的学习时间和内存大小，视频样本采用256×256块大小的补丁进行管理。我们的数据集包括大约35万个视频补丁，用于训练。因为我们使用原始的过去和将来的帧来训练网络是唯一一个用于不同量化参数（QPs）的网络。

D. 帧预测性能评估
我们展示了我们的CNN VPN在视频内插（VI）和视频外推（VX）中的帧预测性能，如表2所示。在虚拟仪器中，时间t1和t+1的输入帧用于生成中间帧，并且，类似地，在VX中，时间t-1和t-2的输入帧用于生成当前帧。将生成的帧与原始帧进行比较，以测量每个视频中100帧的luma分量的峰值信噪比（PSNR）值。训练和测试视频序列不重叠。每个YUV通道单独通过VPN。
在这里插入图片描述
在表2中，我们比较了图1中使用U+DVPN架构时的PSNR值，以及仅使用UVPN架构时的PSNR值，以查看通过DVPN改进的性能。在比较中，我们观察到在VI和VX中PSNR分别提高了0.2dB和0.4dB。在检查性能差异时，我们还可以看到测试视频的特征。测试视频TV6?TV10的分辨率低于1280×720。在虚拟仪器中，预测性能基本相同。然而，TV1?TV5的差异增大，其分辨率高于TV6?TV10。这种差异是由VPN的金字塔结构造成的，以处理高分辨率的视频。一些低分辨率的结果表明，由于U+DVPN的上采样和下采样过程，VI的性能会有所损失。在VX中，U+DVPN在几乎所有序列中都优于UVPN。

图3（a）和（b）分别比较了VI和VX中不同CNN vpn的视觉质量。第一列中的图像显示目标帧，第二列和第三列分别显示仅从UVPN和U+DVPN生成的帧。我们可以看到，当在视频帧中的某些区域缩放时，U+DVPN可以产生更好的视觉质量，以保持原始质量并捕捉更多细节的运动。图3（a）在UVPN和U+DVPN中的平均PSNR值分别为22.57dB和23.04dB；图3（b）在UVPN和U+DVPN中的平均PSNR值分别为23.57dB和23.99dB。对于定量结果，我们在表2中给出了超过100帧的luma组件的平均峰值信噪比。在VI中，U+DVPN的预测性能略优于UVPN。在VX中，U+DVPN的平均性能优于UVPN约0.43dB。
在这里插入图片描述

IV. 提出了帧间编码技术
A. 拟议的帧间预测概述
图4示出了解码器的框图，其中在所提出的技术中修改或添加了灰色模块。VPN产生一个由Xt’表示的新参考帧，我们称之为虚拟参考帧（virtual reference frame，VRF），因为该帧不仅作为参考帧用于运动估计，而且还用于编解码器中新生成的参考帧。VRF是使用解码图片缓冲器（DPB）中先前编码的帧Xt-a’生成的。传统的参考帧倾向于包含与当前帧中的同位置块不同的信息距离。那个时间差越大，向运动矢量发送信号所需的比特数就越大。VRF被生成来近似于同一时间实例t中的当前帧，因此，它具有更高的时间相关性。因此，VRF可以代替参考图片列表中的现有参考帧，以便更有效地进行运动预测。编码器和解码器使用相同的vpn，因此在运动补偿的两侧保持相同的VRF。
在这里插入图片描述
在对HEVC中的预测单元（PU）进行解码时，编码器选择的最佳预测模式p和相关联的运动相关参数集r是熵-解码。它如果使用AMVP模式或合并跳过模式对PU进行编码，则在p中指定。它也在r中规定，其中参考信号来自参考图片索引ζ和参考图片列表ψ进行管理。由于VRF被放置在HEVC参考图片列表中，因此利用ζ和ψ来表示当前PU的VRF的使用，编码器尽最大努力通过HEVC中的R-D优化。在我们的工作中，VRF代替了列表中现有的参考框架。如果一个VRF被附加到列表而不是替换，索引的范围仅仅增加以表示一个额外的参考帧。

B. 随机存取与低延迟编码
我们根据不同的编码场景使用不同的输入帧。在RA编码配置中，VPN使用前向参考帧Xt-a’和后向参考帧Xt+a’作为输入，使得α是DPB中存储的可用参考帧中的最小索引。Xt-a’和Xt+a’用于生成VRF，如下所示：在这里插入图片描述
其中θRA是在RA中为视频插值训练的网络参数。在LD编码配置中，VPN使用过去两个时间上最近的参考帧Xt-1’和Xt-2,
值得注意的是，我们使用相同的VPN架构，但是网络参数θRA和θLD会根据编码配置而改变。

C. 参考图片列表的重组
我们重新组织HEVC参考图片列表ψ={ψ0，ψ1}，其中ψ0和ψ1分别是HEVC中的RefPicList0和RefPicList1。表3显示了当帧内帧的周期为8时，要编码的当前帧Xt（t＝1?8）及其在每个列表和索引中的参考帧。X0是瞬时解码刷新（IDR）帧。VRF与当前帧具有相同的时间索引t。在表3中，参考图片索引的数量与HM软件配置中的相同。在RA中，在两个参考图片列表ψ0和ψ1中，最多有两个索引，即ζ0和ζ1。在LD中，有多达四个指标，即ψ0（=ψ1）中的ζ0?ζ3。
在这里插入图片描述
在RA中，与第一个指数（ζ0）相对应的参考帧保持在HM软件中。然而，与第二个指数（ζ1）相对应的参考坐标系可替换为VRF。在表3中，VRF应用于分层B图片编码结构的最后一层，例如t＝1、3、5和7，因为它们可以使用最近时间距离中的输入帧来生成。例如，作为VRF的X1’是从X-0’和X-2’生成的，X-0’和X-2’作为向前和向后方向上的时间上最近的参考帧。此外，VPN产生的输出帧略有不同，这取决于输入帧的时间顺序。换句话说，当输入被置于正向（例如X0’和X2’）和反向（例如X2’和X0’）时，VRFs可以不同。在表3中，用XF1’和XB1’表示的VRF的两个不同版本分别放在ψ0和ψ1中。

在LD中，HEVC参考图片列表也被重新组织，使得VRF总是被放在第三个索引中。VRF由两个时间上最近的帧生成，即Xt-1’和Xt-2’。由于VRF是使用同一GOP中的参考帧生成的，因此该列表仅更改短期引用。

参考图片列表的重组是在考虑编码效率的情况下根据经验决定的。我们将在第五节展示不同配置的性能分析。还应注意到可用参考帧的数量与HEVC参考软件。因此如果存在编码增益，则它来自于用VRF代替传统的参考帧。相同的配置被重复到每一组图片（GOP）。

D. AMVP 和 MERGE中使用虚拟参考帧
在HEVC帧间预测中，运动参数包括运动矢量预测器、参考图像列表和参考图像索引，在预先定义的空间块候选和时间块候选中进行搜索。原始设计考虑了当前块与相邻块候选块的统计相关性。因此，当VRF参与运动预测时，需要自适应地改变搜索机制。

AMVP模式
我们通过检查当前块和相邻块是否使用相同的VRF作为参考帧来搜索候选的空间运动矢量。如果它们使用相同的VRF，则由于相同的时间实例，会给出一个零运动矢量作为候选。然而，如果参考帧的类型彼此不同（例如，一个对应于VRF，另一个对应于常规参考），则在运动矢量候选推导过程中不考虑运动矢量候选者。如果两个块都使用传统的参考帧，则遵循原始的HEVC AMVP推导过程。

在HEVC中，当搜索时间运动矢量候选者时，首先指定在片头中发信号的同位图片（col Pic），然后在图片中指定同位预测块（col PB）。一旦col PB可用，则使用col Pic与col PB的参考图片之间的时间差以及当前图片与其参考图片之间的时间差来缩放运动向量，然后将其用于候选者。在所提出的算法中，当涉及到VRFs时，我们在两种情况下改变AMVP时间运动矢量搜索。具体地，当前块可以使用VRF编码，或者col Pic可以被确定为VRF。对于这两种情况，当时间差假设为0时，无法进行运动矢量缩放过程。因此，在这些场景中，我们将候选的时间运动矢量设置为零运动矢量。

MERGE模式
在依次检查空间块候选块和时间块候选块之后，将候选块中的最佳块位置的索引发送到解码器，如HEVC中所示。对于空间块候选者，无论对应的块用VRF编码与否，都可以用与块位置相对应的索引来使用最佳运动参数。如前所述，对于时间块候选者，当在搜索过程中考虑VRF时，以将运动矢量设置为零的方式改变合并模式。

因此，通过最小化HEVC中的拉格朗日代价J，在编码器侧选择预测模式及其相关的运动参数，计算如下：J = D + λR,D是失真，R是比特率，λ是HEVC中的拉格朗日乘子。如上所述，模式和运动参数用于指定是否在解码器侧使用VRF重建块。

V. 实验结果
A. 测试配置和测试顺序
所提出技术的实现基于最新的HEVC参考软件，即HM版本16.6[36]。软件配置JCT-VC通用测试条件（CTC）[37]，并在仿真结果中用作锚定。量化参数（QP）为22，27，32和37。分类为A级?E级的测试视频序列的各种分辨率用于性能比较。我们通过将编码器配置为使用“随机存取（RA）”或“低延迟B（LD）”来进行实验。实验在3.60ghz英特尔CPU，8.0gbram，nvidiatitanxgpu的pc机上进行。

B. 编码性能与复杂度评估分析
与文献[8]、[27]、[28]中的几种最新算法相比，我们给出了用编码和解码时间测量的R-D性能和计算复杂度。比较的算法在同一参考软件上实现，HM 16.6版本。使用Bjontegaard增量速率（BR）降低来计算编码性能。在比较中，BR减少中的负值表示正比特率节省。

我们分别在表5和表6中展示了所提技术在RA和LD配置下改进的R-D性能。在测试中，负的BD速率意味着编码性能比HM16.6有所提高算法与锚相比，所提出的技术为luma组件提供了相当好的编码性能，与锚相比，RA的BR减少了2.9%，LD的BR减少了约5.7%。尤其是“PeopleOnStreet”、“BQMall”、“RaceHorses”和“BasketBallPass”显示编码增益显著提高，超过了-4.0%的BR降低。在LD中，“ParkScene”、“BQMall”、“Johnny”、“FourPeople”和“Kristantandsara”的BR减少量甚至超过了-8.0%。
在这里插入图片描述

利用GPU和CPU测量编码时间和解码时间。使用GPU时，编码时间变化不大，RA和LD分别为100%和101%，RA和LD的解码时间分别增加到120%和143%。然而，当仅使用CPU时，RA和LD的编码时间分别为418%和796%。在RA和LD中，解码时间也大大增加到35156%和108213%。

为了证明该方法的有效性，我们给出了运动矢量差（MVD）的分布。图5显示了所提出的技术和HM16.6的分布。如图所示，在所提出的技术中，MVD的分布更加紧凑，并且偏向于零运动矢量。由于使用VRF的统计特性，编码运动的比特数减少向量。我们进一步显示通过从预测帧减去原始帧而获得的残余图像，以了解VRF如何有效地用于运动预测。图6显示了使用“BasketBall”和“Kimono”在RA配置下以及“Four People”和”ParkScene”在LD配置下。第三列中的残差图像是原始帧与VRFs之间的差异。同时，第二列中的残差图像是原始帧与传统参考帧之间的差异。与传统参考坐标系相比，VRFs的误差较小。结果表明，VRF可以有效地代替传统的参考帧进行运动预测。
在这里插入图片描述
我们将所提出的技术与以前的算法[8]、[28]进行比较，因为它们通常在HEVC帧间预测中使用CNN-VPN。我们回顾了被测试算法之间的差异。在[8]中，赵等。提出一种直接模式，在这种模式下，生成的块直接用于重建，并且每个CTU都有一个标志。他们使用的是最初训练用于视频插值的Niklaus CNN VPN，因此他们只将研究应用于RA。在[28]中，Choi等人。建议通过对参数进行再训练，将网络扩展到LD。因此，我们在RA中使用了Zhao算法，在LD中使用Choi算法进行了比较。我们保留了与U+DVPN网络中相同的数据集和条件来训练网络模型。在RA中，我们还实现了Zhao[27]的增强CNN（VECNN）来降低VRF中的量化噪声，并对其性能进行了比较。在相同的参考软件和条件下，将研究结果与所提出的方法进行了比较。我们观察到，所提出的技术在RA中比luma的d 1.5%和色度超过[8]的d 1.0%和luma超过[27]的d 1.0%以及LD中的d 4.0%和d 3.3%的色度。我们的方法显示了增加的编码增益，因为在VRF处选择了CU（编码单元）级的块，而[8]、[27]、[28]在CTU使用VRF-水平。而且，以前的算法对存储额外参考帧的内存要求更高。在[8]和[28]中，他们使用生成的参考帧和现有的参考帧对所有的情况进行比较，然后选择最佳候选。因此，它们需要在解码图像缓冲器中支持一个以上的参考帧。然而，所提出的技术保持了与锚相似的计算资源水平。事实上，我们观察到轻微的编码增益，当使用VRF时，除了现有的参考帧，以进一步的编码复杂性为代价。

该技术在改进的VPN体系结构的基础上，允许HEVC帧间预测技术使用VRF，而不需要任何旁侧信息。特别是，由于VPN架构，在LD中我们观察到更多的编码增益。

具体地说，我们进行了一个消融测试，以观察当所提出的技术使用不同的VPN时，即我们的CNN VPN和Niklaus CNN VPN时的编码增益。如前一小节所述，两个网络都配置了视频外推，并使用相同的视频样本进行训练。在表7中，我们可以清楚地看到，当我们在LD中选择VPN架构时，luma的编码性能从-3.9%提高到-5.7%。此外，我们还测试了该算法在低延迟P场景下的性能，如表8所示。我们发现编码性能比HM16.6显著提高了7.2%。
在这里插入图片描述

C.各种配置下的性能分析
我们评估了该技术在较宽的比特率范围内的编码性能。为此，我们使用qp12、17、22和27来检查较高比特率（HB）和qp32、37、42和47在较低比特率（LB）下的性能。表9显示了RA和LD的结果。在RA中，该技术在HB和LB中的编码增益分别为-1.9%和-3.0%。在LD中，该技术在HB和LB中的编码增益分别为-3.7%和-7.5%。当考虑表5和表6中的CTC编码增益时，我们观察到所提出的技术中结果的一致性行为。也就是说，在较低的比特率下，编码性能提高得更多。在较低的比特率下，随着QP的增加，Langrangian乘法器λ变得更大，并且编码器可能选择具有较小运动矢量的预测块来节省比特。在这种情况下，VRF在R-D优化中起着更重要的作用。相反，在较高的比特率下，编码器选择使用更精确的运动矢量预测来保持预测块的高保真度。在这种情况下，传统的参考坐标系有更好的机会。
在这里插入图片描述
我们还测试了不同组织的参考图片列表在RA和LD中的编码性能。我们考虑VRF的不同参考图片索引，而不是表3中的索引。在表10中，“Prop+Idx Change”显示了使用相应的参考图片索引时的相关R-D性能。在RA中，“Prop+Idx Change（ζ0）”使用第一个参考图片索引时，平均产生约-1.2%的编码增益。第二个指标给出了更好的编码增益，约为-2.9%。在LD中，“Prop+Idx Change（ζ0）”、“Prop+Idx Change（ζ1）”、“Prop+Idx Change（ζ3）”提供编码增益或损失。当使用第一、第二和第四参考图像索引时，我们观察到编码损失约为+2.6%，编码增益约为-3.9%和-4.8%。根据上述结果，我们根据经验确定了表3中的参考图片组织。
在这里插入图片描述
VI. 结论
提出了一种基于CNN的视频预测网络（VPN）视频编码技术。提出了一种新的VPN模型来生成一个虚拟参考帧（VRF），该虚拟参考帧是利用先前编码的帧合成的。在编解码器中，VRF代替了传统的参考帧以提高编码效率。我们的VPN采用两个子VPN架构级联，在同一时间实例中预测当前帧，与传统的参考帧相比，VRF具有更高的时间相关性，尤其是在视频中外推法该技术已集成到HEVC框架中，以开发先进的运动矢量预测和合并预测。为此，将VRF存储在HEVC参考图片列表中，以便每个预测单元（PU）通过率失真优化来选择一个更好的预测信号，而不需要任何旁侧信息。我们进行了大量的实验来评估该技术的性能。实验结果表明，与hm16.6相比，该技术在RA和LD编码结构中分别提供了-2.9%和-5.7%的编码增益。