MPEG-4的图像与视频编码技术

时间:2005-06-08 17:37:17 作者:网友整理

CODEFORMER中文版v1.3 35.85M / 简体中文

点击下载

codeformer官网v1.3 38.21M / 简体中文

点击下载

DALLE2软件v1.5 124.63M / 简体中文

点击下载

继成功定义MPEG-1和MPEG-2之后，MPEG的专家们又即将推出新的ISO／IEC标准MPEG 4。MPEG-4旨在为视音频数据的通信、存取与管理提供一个灵活的框架与一套开放的编码工具。这些工具将支持大量的应用功能（新的和传统的）。尤为引人注目的是，MPEG-4提供的多种视音频（自然的与合成的）的编码模式使图像或视音频中对象的存取大为便利。这种视频、音频对象的存取，常被称作基于内容的存取。基于内容的检索是它的一种特殊形式。

实际上，数字化电视（自然的内容）、交互式图形应用（合成的内容，如PC游戏、虚拟环境、GUI等）及WWW（内容的分布与存取）这三个领域的成功促进了MPEG-4的诞生。MPEG-4将提供多个标准化技术元素，以促进上述三个领域中各种形式的内容制作、分布与存取的集成。

总的来说，MPEG-4是通用标准，这种通用性集中体现在它所支持的应用、比特率、分辨率、质量和服务上。然而从标准的进展状况来看，MPEG-4把对基于内容的应用(Content Based Application，CBA)的支持放在了非常重要的地位，这种支持是多层面的。

1.MPEG-4图像与视频标准的目标和功能

在MPEG-4图像与视频标准中，视频表示工具的目标是为多媒体环境下的纹理、图像和视频数据的有效存储、传输及管理提供标准化的核心技术，尤其强调这些工具对图像和视频内容的原子单位（称为视频对象VO）的编解码能力，要能对任意形状的视频对象进行有效的表示，以支持所谓基于内容的功能集。一个讲话者（不包括背景）可视为一个VO，这个讲话者又可通过与其它AVO复合构成场景。另外，MPEG-4还支持MPEG-1和MPEG-2中已有的大多数功能，包括对标准的矩形图像序列的有效压缩（支持多种数据格式、帧率、比特率和多层次的时间、空间及服务的伸缩度）。传统的矩形图在MPEG-4中被看作是VO的一种特例。

为达到这样一个“宽广的”目标，而不局限于过窄的应用面中，MPEG-4把各种应用中相似的功能分门别类集中起来，以工具和算法的形式解决这些问题，包括：

·图像和视频的有效压缩；

·纹理的有效压缩（用于二维与三维网格上的纹理映射）；

·隐含的二维网格的有效压缩；

·控制网格运动的时变几何参数的有效压缩；

·对各种可视对象的有效随机存取；

·对图像和视频序列的扩展操纵管理功能；

·图像和视频基于内容的编码；

·纹理、图像和视频基于内容的可伸缩性；

·空间、时间和质量可伸缩性；

·在易错(Error Prone)环境下的鲁棒性。

上述大部分功能（除第一条外）很容易使人联想到内容的制作、分布与存取。事实上， MPEG-4设定的很多特有的功能目标是由基于内容的应用抽取、提炼出来的。

2.MPEG-4图像与视频标准的技术结构

图2是MPEG-4图像与视频标准目前所提供的比特率和功能的初步分类。下面对比特率与功能集之间的关系进行讨论，以便对各技术及其相应功能在标准中所处的位置有更清晰的认识。

底部的VLBV(Very Low Bit rate Video)内核为在超低比特率(5k～64kb/s)环境下运作的应用提供算法和工具，支持低分辨率(低于CIF格式)和低帧速(低于15Hz)的图像序列。VLBV支持的面向应用的基本功能包括：

·为实时多媒体通信应用提供传统矩形图像序列的VLBV编码方法，这些方法以高压缩比、高容错度、低延迟和低复杂度为显著特征。

·为VLBV多媒体数据库存取应用中的“随机存取”、“快进”、“快退”提供支持。

上述功能在较高比特率时同样受到支持。这时，输入信号的时空分辨率增高（有时达到ITU-R Rec.601的分辨率），但仍采用与VLBV内核相同或类似的技术和工具。高比特率的动态范围为64kb/s～4Mb/s。这一范围内的典型应用是具有数字电视质量信号的广播及交互式检索。为支持这些较高比特率的应用，MPEG-4中规定了编码隔行信号工具。

基于内容的功能集支持内容（即场景中的物理对象VO）的单独编码和解码。MPEG-4的这一特性为交互性提供了有力的底层机制支持，也为在压缩域对图像或视频的VO内容进行灵活的表示和管理提供了有利条件。这种支持使接收端无需做进一步的图像分割或变换，为实时应用提供了便利。

另外，对于自然与合成视频数据的混合编码（如虚拟环境的展示），基于内容的编码功能允许把若干不同来源的VO与合成的对象（如虚拟背景）合在一起。

3.传统编码与基于内容编码的统一

MPEG-4图像与视频标准统一支持传统矩形和任意形状图像与视频的编解码。图3解释了这一思想。

传统的图像和视频编码采用类似于MPEG-1/2的技术，包括运动预测/补偿及随后的纹理编码。对于基于内容的应用，输入的图像序列可能具有任意形状和位置。这时，传统的途径可以通过附加编码形状和透明信息来扩展。形状可以用8位透明分量表示（一个VO由多个其它对象构成时）或用一个二值掩模描述。另外，通过对场景中每个物体采用适当的和精细的基于对象的运动预测工具，可以大大提高某些视频序列的压缩比。这是基于内容编码方法的一个重要优点。

总的来说，对于MPEG-4，扩展的基于内容的编码可视为传统的VLBV内核或HBV工具由矩形输入向任意形状输入的逻辑延伸。在基于内容的编码中，一些附加的元素被补充到由VLBV 和HBV内核提供的工具中，在这个意义上，基于内容的编码是VLBV和HBV内核的超集。

加载全部内容