当前位置: 开发笔记 > 后端 > 正文

低成本更清晰，下一代视频编码技术将如何实现这一目标？

作者：张琇萍家云 | 来源：互联网 | 2023-06-19 22:42

如何,进行,版本,下一代,视频,编码,技术,将如,

摘要：下一代的视频编码技术仍是采用传统的演进思路——在经典架构上做模块增强。

随着短视频、直播的兴起，在线视频领域用户使用时长已超过社交领域，而5G时代视频在互联网的流量占比将会增长至85~90%。面对用户对视频画质要求的不断提高，如何在有限带宽的网络环境中，实现更清晰、更低成本的视频信号传输，一直是众多视频应用企业关心的问题。

来自华为云的云视频服务的产品经理左雯，为大家分享华为云视频对下一代视频编码技术发展的想法和应用成果。分享的主题包括三个部分，首先是华为云视频对视频行业发展趋势的一些看法，以及这些趋势对下一代视频编码技术提出的挑战；其次从标准角度来介绍下一代视频编码技术；最后从云视频应用角度来具体介绍华为云在视频编码技术上的一些实践和探索，希望能给大家带来启发。

1. 视频行业趋势

5G、云、AI 已经成为ICT 行业甚至是整个社会的发展趋势，促使整个视频行业需求和技术不断演进，推动整个视频行业不断升级。视频生命周期的每个环节都在更新升级，包括视频生产、视频处理、视频传输和视频消费。

视频生产：多源数据的采集，包括超高清、VR、自由视角、3D建模和视频渲染

视频处理：基于 AI 让视频处理更实时、智能和准确，包括各种编码方式
视频传输：超低时延的传输，云边协同等等
视频消费：智能终端的深度结合提供视频服务的最佳体验

视频行业本质是对媒体数据的处理，背后是算力、存储、网络、AI 的支撑，同时视频行业又推动着5G、云、AI 的不断前行，相辅相成！

视频演进带动了算力、存储、带宽需求的大幅增长。简单来看，视频分辨率越来越高，从高清到超高清再到8K/VR。算力增长 24 倍，存储增长12 倍，带宽增长 20 倍。这些需求通过云，也只有通过云才能得到很好的满足，实现高质量的视频体验。云原生视频是行业趋势，视频将成为云的基础服务能力。

前面说的是行业的整体趋势，下面说一下具体场景。互联网视频发展已经历了两个阶段，第一阶段从08 年到13 年，以长视频VOD、点播观看为热点；第二阶段，从13 年到19 年，也就是去年，其实还在延续，以直播、短视频为热点；第三阶段，也就是下一代，会以什么为热点？我们认为因为5G、云、AI 的推动，视频将进入实时互动、VR/AR 时代。

视频新玩法提出新诉求，互动视频方式从IM 向实时音视频过渡。直播连麦、主播PK、直播带货、视频分发方式的升级，百毫秒级超低时延下一代视频RTC成为趋势；VR/AR，360 度视角沉浸式体验革命，用户从看视频向玩视频过渡，体验提升的同时，视频传输能力从兆级向十兆甚至百兆级单流带宽；云游戏带来游戏行业变革，十毫秒级别时延要求，推动媒体处理能力从云上向边缘迁移。

RTC 实时音视频会成为5G 时代基础设施的核心控制点，RTC 应用很广泛，它的市场年增长率超过30%，而且这项技术不仅能赋能直播、游戏等泛娱乐行业，更能在在线医疗、教育、金融等大视频行业渗透。

现有的实时音视频市场正处于爆发期，玩家很多，但由于它是非云厂商，难以持续发展。原因之一是它的技术门槛比较高，特别是像音视频编码或者整个RTC网络的构建，另一点是目前各家均采用私有协议的方式接入，各家互通、客户的自由切换都比较困难。在RTC 业务产品上，我们认为音视频编码处理将是各家构建技术壁垒和性能差异化竞争力的关键之一。

另外一个应用场景就是Cloud VR，我们一直认为VR 是5G 技术发展下的关键场景。VR 发展是一波三折的，但在目前来看，之前碰到的一些问题正在逐渐改善。从终端的角度来看，之前的终端很贵，但是目前千元终端机已经逐渐来临，而且体验也会越来越好。除了设备终端，VR 此前还面临内容缺失的重大问题，而VR 直播很大程度上缓解了内容缺乏的问题。

虽然困境在逐步改善，但VR 目前还面临着新的问题。互联网VR 业务很难形成商业闭环，主要原因在于VR 业务带来了收入增加，但与此同时带宽成本增加更多，VR 追求的高质量体验需要通过更高带宽来实现，高带宽势必会带来高成本，而高成本就会导致商业无法闭环。

在这样的前提下，很多玩家都会通过降低体验来开展VR，比如说内容采用4K 以下，码率采用10 兆以下，终端采用卡片机来体验VR，虽然这样可以将VR 的业务打通，但体验效果是很差的，也导致付费用户非常少，产业发展比较缓慢。所以在VR 的发展上，我们认为通过视频压缩编码以降低带宽是关键，是可以帮助实现商业闭环的一个关键要素。

从前面讲述视频行业趋势不难看出，用户体验升级、视频产业升级、商业成本等驱动着视频全方位升级，分辨率从高清到8K，帧频从30 帧到120 帧，视场角从不到90 度到360 度，从SDR 到HDR 等，这些参数升级推动着视频压缩编码技术不断演进，追求压缩比是永恒不变的！

另外，前车之鉴，HEVC/H.265，其实是很优秀的编码技术，但因为前期不友好的专利政策，市场占有率一直不高于13%。还好目前有所好转！整个行业急需压缩比更高、生态更完善、专利政策更合理的视频编码技术。

提升压缩比有两条路线，这也是各厂商正在做的：

标准技术路线，作为基础内核，H.266、AV1、AVS3、AI编码

非标技术路线，依赖基础标准，结合人眼感知特征，感知编码、内容编码、ROI 编码

2. 下一代视频编码技术

下面将从这两个角度来介绍华为云视频在下一代视频编码技术上的一些工作。这些技术得益于华为2012 媒体技术院全力支持。

2.1 下一代视频编码标准技术

从上图可以看出，下一代的视频编码标准大概分为三个阵营或者三个类型：

国际标准：由MPEG、VVC联合推动的像 VVC/H.266还有 EVC

国内标准：国内标准组织正在推出或已经推出的 AVS3 的 phase1、AVS3 的 phase2，两者主要差别在于AVS3 的第1 阶段标准瞄准H.266，第二阶段的标准则是瞄准未来, 可能会加入一些智能编码的技术

谷歌牵头的AOM联盟推出的 AV1，是一个开源技术

下一代的视频编码技术仍是采用传统的演进思路——在经典架构上做模块增强。在H.266CFP 时，华为联合其他几家公司提了P41 提案，在PSNR 和MOS 评估方面都是排名第一，这个提案也是后面的基础。华为在VVC 里的核心专利数量已属于第一阵营，这是一个了不起的成就，也说明了国内的视频压缩编码基础研究实际上不弱于欧美传统的公司。

以VVC 为例，对其新增的增强工具进行盘点。纵轴是每个工具的压缩收益，横轴是每个工具编解码复杂度，编码复杂度的权重可能会更高一点。VVC 在块划分、帧内预测、帧间预测、熵编码、变换量化等多个模块上进行了增强，其中主要的增强是帧内、帧间预测、块划分、滤波的增强以及机器学习工具演进带来的收益。VVC 暂时没有引入深度学习这一类编码工具。

图中还有三个用红圈标出来的工具，这是VVC 中公认trade off 比较好的三个工具点。蓝色的是ALF，这是大家比较熟悉的自适应环路滤波，其实它在H.265的时代就已经有了， H.266 将它引入标准中；绿色的是仿射运动预测，这个主要是由华为提出的；橙色的是量化技术。

EVC 标准的提出某种程度是因为H.265/H.266的专利政策不友好，有可能导致H.266 的落地都比较困难。MPEG 希望能通过一个新的专利友好的标准来推动落地，同时也促使改变H.266、H.265 的专利授权政策。EVC 由华为、三星、高通等共同提出推动，华为在这里面加入了很多技术。在标准立项时期望它比H.265 的压缩性能提升20%，实测在4K 娱乐视频上相比H.265 压缩效率提升达30% 以上，目前已经进入了最终的标准投票阶段。

AVS3 是国内提出的标准，它的phase1 是瞄准H.266 标准的，并且在2019 年3 月份就已经制定完成率先推出，在2019 年9 月份，华为海思也同步推出了AVS3 8K 的解码芯片，AVS3 相对H.265 性能提升了20% 以上，并且针对娱乐视频和监控视频做了很多针对性的设计，性能上还可进一步提升。

H.266 实际已经基本定稿，它的压缩效率在4K视频场景下相较于H.265 能提升40% 左右，其解码复杂度相对提升60%，目前看最大的问题还是专利政策不够透明，而且专利费可能比较高，推广节奏可能相对比较慢。

EVC 也基本定稿，而且其压缩效率也能提升30% 左右，解码复杂度相对H.265 增加60%。其专利收费可能相对比较低，第二是他的专利收费比较透明和明确，目前主要依靠三星、华为、高通来做产业的推动和生态的构建。

AVS3 在2019 年3 月份推出，在性能上还是有保证的，压缩效率能够提升25%，复杂度增加相对较低，其专利收费也是比较低的，正通过互联网等行业做产业的推动和生态构建，目前实际上有很多联盟和公司正在做推动，我们也希望AVS3 尽快落地。

表格中没有列举AV1 的数据，这主要是因为它和其他三个标准不太一样，AV1 开源软件实际上是瞄准商用化去做的，大家也比较清楚其压缩效率和解码复杂度。AV1 有个很大的优势就是没有专利费，这是AOM 联盟的承诺。在产业落地方面AV1 做的很好，生态构建走的较前。

2.2 AI编码

下一代视频编码标准还有一个趋势就是AI 编码，这一块实际上从HEVC、VVC 标准制定就有提出，但因为考虑计算复杂度以及AI 硬件普适性，都暂时搁置了。但这是个技术趋势。

AI 编码包括两个演进思路：

第一个是全新架构，类似于图像编码，实际上AI 的图像编码已经取得了不错的成效，谷歌牵头的AI 图像编码技术都已经得到了很好地应用，但针对视频中的应用还在探索过程中。所谓的全新架构，就是不用传统架构，视频进入黑盒后会得出一个压缩过的视频，这个视频可能没有块划分，也没有各种其他的方式，它的压缩效率会非常高，但这一切还处于研究的过程中。

另外一个思路是基于经典架构，对每个架构里的模块做增强。例如针对块划分、变换、矢量量化、帧内预测做不同的AI 网络适应和增强。实际上华为也在做这方面的研究，未来可能会提出一些AI 编码方面的论文或提案。并且我们认为AI 编码的这两种思路，最终将是融合设计的过程，不会呈相互孤立的状态。

3. 华为云视频应用和实践

3.1 云视频简介

上面简单介绍了下一代视频编码标准技术，下面介绍一下从实际商用及非标角度，介绍一下华为云视频在视频编码技术上的应用和实践。

首先介绍一下华为云视频，华为云视频是从2017 年开始构建的，目前包括两大类业务，一种是比较传统的直播、点播、媒体处理以及监控业务，另一种是整个行业正在新晋的服务，比如RTC、VR/AR 以及超高清直播。华为云视频面向很多的场景，例如娱乐直播、短视频、在线教育、企业直播、4K 直播、4K 制作等等，我们致力于帮助行业客户、伙伴、开发者、ISV 快速上线应用，并帮他们构建差异化的竞争力，实现商业闭环。这里需要重点提一下RTC，RTC 是华为云视频对下一代视频的理解并作出了实际的推动，针对RTC，我们重点构建超低时延、音视频质量等差异化竞争力。

3.2 视频编码技术

3.2.1视频编码框架

结合今天的主题，下面重点讲解华为云视频在视频编码技术上的一些工作。这些技术得力于华为2012 媒体技术院全力支持。编码内核采用了一个标准的编码器，类似于前面提到的H.264、H.265、AVS3、H.266 或者EVC 这一类，在这个编码内核的基础上，我们面向不同的场景做了不同的编码技术的优化和实践。比如面向RTC 实时音视频场景，采用低时延编码技术；面向VR 场景，采用FOV tile 编码；面向多视角场景，采用空间云边协同编码；面向监控场景，采用智能语义编码；面向直播、点播，采用感知编码和画质增强等；另外，华为云视频借助鲲鹏、昇腾两大专有硬件，加速视频编转码效率。鲲鹏主要面向CPU 这类计算，昇腾主要面向AI 方面的加速。

3.2.2标准编码内核

接下来分别介绍一下视频编码的技术，第一是编码内核，华为云在商用编码器上面也有很多的技术积累。比如说近几年在MSU 的大赛上，HW265 编码器连续两年获得多项测评的第1 名，今年我们也会向MSU 推出新的编码器。

3.2.3 高清低码

第二个技术是高清低码，高清低码目前在各个厂商或者商业领域里是大家比较默认的技术，也就是说在基于标准编码内核的基础上，能降低码率的同时保证主观质量没有下降，但实际上高清低码理论可行性是现有视频编码是基于香农定理，它的率失真模型都是连续的，但是人眼视觉模型是阶梯性非连续的，在这个阶梯上存在一个降码率的空间。

高清低码一般情况下包括三个模块：
第一是基于人眼 JND 模型，就是说如何找出JND；
第二是基于 JND去做感知编码；
第三就是通过感知编码来控制标准编码内核输出，在主观质量不变的情况下大幅降低码率。

华为云视频在这方面做了很多的工作，目前针对不同的应用场景，能达到30~50% 的码率降低。

高清低码技术现在也走到了一个瓶颈期，原有高清低码的考虑仅来源于编码与传输信道，随着AI 技术的发展，是否还有进一步的发展空间？华为提出了一种新的思路：在原有的率失真模型上，加入一个接收端（解码端）复杂度的因子，也就是在发送端主动退化，把它通过时域或者空域的下采样变成一个相对数据量比较小的视频，这样做使得编码的码率相对更低，达到有效降低码率的目标。通过一些辅助信息再加上低码率、低分辨率的编码码流，在接收端通过AI 技术进行超分、插帧或者是增强，将视频还原，如此整个链路上传输的码率会大幅下降，我们初步试验发现至少能降低60% 以上的码率。

3.2.4 超低时延编码

RTC 场景是我们面向下一代视频产业重点打造的服务能力，RTC 场景下主要是超低时延的编码，我们提出了一个综合的超低时延方案，比如编码和渲染联合优化、编码的内核以及分层编码和信源信道协同等技术手段，面向不同的实时场景会做不同的组合或者应用，我们初步试验发现在1080P 这种场景下进行编码和解码，整体的时延能达到十毫秒级别。

3.2.5 VR FOV编码

面向VR 场景，特别是面向360°场景，我们提出来FOV TWS 的编码技术。这个技术原理是将高分辨率的全景视频分片，多个FOV 的小分片加上一路4K 的背景流，这样4K 终端的播放器就能通过相应的视角FOV分片和4K 全景背景流实现8K VR 全景视频播放，同时还能保证MTP，不会出现眩晕感。该技术已经写入OMAF 的标准。整体体验上也得到了用户的认可。

3.2.6 智能语义编码

当面向监控场景的时候，我们提出了一种智能语义的编码，主要通过背景建模加上视频内容和运动分析，再加上端侧的一些实时超分、插帧来构建智能语义编码的方案。监控场景的画面往往有很多细节，各种机器分析的识别率不能降低，如果压的太狠，识别率可能就会下降。初步的原型结果显示能做到在人和机器的识别率都不降低的前提下，达到70% 以上的码率节省。

3.2.7 空间视频云边协同编码

另外一个技术是空间视频编码，所谓空间视频就是自由视角或多视角，这也是以后技术发展的一个方向。人们不再满足于一个固定视角视频观看，希望多视点或者自由视角的观看视频。在空间视频的编解码当中，我们提出一种云边协同编码，通过这种编码可以在边缘非常短的时间内按需动态的生成任意时刻的切换流，大幅减少一般方案中切换流的码率，初步试验发现至少能降低60% 左右的带宽成本。

3.2.8 AI视频增强

视频质量、视频码率时视频产业最关键的两个指标。前面讲的技术，不管是标准的技术、还是非标的技术，都是追求在同等画质的前提下，如何降低码率。
硬币的另一面则是，在同等码率下，如何追求视频主观体验质量。我们在这方面也做了很多尝试，根据不同的场景特征，基于云端、终端AI 能力，从分辨率、帧频动态范围等维度对视频进行修复、增强和重建。并且考虑真实场景中往往是包含多种混合失真的等因素，我们提出一种面向混合失真的多任务视频增强框架，能够很好地适应不同场景和不同需求。

以上内容介绍的是华为云视频在视频编解码上的一些实践和探索，希望能带给大家一些启发。谢谢大家！

本文分享自华为云社区《下一代视频编码技术的视频云应用探索》，原文作者：音视频大管家。

点击关注，第一时间了解华为云新鲜技术~

推荐阅读

nlp
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
nlp
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
php
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
php
腾讯BERT推理模型TurboTransformers的快速推理能力

本文介绍了腾讯最近开源的BERT推理模型TurboTransformers，该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想，通过简化问题和加速开发，实现了快速推理能力。同时，文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题，并提出了合并计算的解决方案。 ... [详细]

蜡笔小新 2023-12-12 13:48:41
php
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
nlp
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
nlp
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
java
恶意软件分析的最佳编程语言及其应用

本文介绍了学习恶意软件分析和逆向工程领域时最适合的编程语言，并重点讨论了Python的优点。Python是一种解释型、多用途的语言，具有可读性高、可快速开发、易于学习的特点。作者分享了在本地恶意软件分析中使用Python的经验，包括快速复制恶意软件组件以更好地理解其工作。此外，作者还提到了Python的跨平台优势，使得在不同操作系统上运行代码变得更加方便。 ... [详细]

蜡笔小新 2023-12-10 18:39:23
php
互联网思维中的3个段子，9大分类和19条法则

本文介绍了互联网思维中的三个段子，涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例，探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验，三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]

蜡笔小新 2023-12-10 14:58:10
php
TCL华星成功研制出全球最窄LCD下边框模组产品

TCL华星成功研制出全球最窄LCD下边框模组产品，该模组下边框较现有规格减小20%。面板技术和工艺的不断演变使得手机屏幕的左、右、上三边边框已达到极致规格，但下边框仍然是影响屏幕屏占比的最大因素。为了突破下边框的技术难题，TCL华星成立了专项技术团队，经过2年的攻关，他们通过创新的IC设计、面板设计、制程工艺等方面的突破，将LCD模组下边框压缩至全球最小2.4mm。 ... [详细]

蜡笔小新 2023-12-10 11:47:22
php
Sleuth+zipkin链路追踪SpringCloud微服务的解决方案

在庞大的微服务群中，随着业务扩展，微服务个数增多，系统调用链路复杂化。Sleuth+zipkin是解决SpringCloud微服务定位和追踪的方案。通过TraceId将不同服务调用的日志串联起来，实现请求链路跟踪。通过Feign调用和Request传递TraceId，将整个调用链路的服务日志归组合并，提供定位和追踪的功能。 ... [详细]

蜡笔小新 2023-12-09 19:14:50
php
数据结构与算法的重要性及基本概念、存储结构和算法分析

数据结构与算法在编程领域中的重要性不可忽视，无论从事何种岗位，都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外，还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]

蜡笔小新 2023-12-09 10:17:45
php
程序员如何选择机械键盘轴体？红轴和茶轴对比

本文介绍了程序员如何选择机械键盘轴体，特别是红轴和茶轴的对比。同时还介绍了U盘安装Linux镜像的步骤，以及在Linux系统中安装软件的命令行操作。此外，还介绍了nodejs和npm的安装方法，以及在VSCode中安装和配置常用插件的方法。最后，还介绍了如何在GitHub上配置SSH密钥和git的基本配置。 ... [详细]

蜡笔小新 2023-12-09 05:31:17
php
顾客信息表mysql_客户基本信息数据库表

{moduleinfo:{card_count:[{count_phone:1,count:1}],search_count:[{count_phone:4 ... [详细]

蜡笔小新 2023-10-17 23:09:27

张琇萍家云

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章