MPEG-4 Parte 3

MPEG-4 es un grupo de estándares que contiene múltiples “partes”. Cada parte estandariza varias entidades referentes a los contenidos multimedia, como pueden ser el audio, vídeo o formatos de archivos. Para saber más sobre las diferentes partes y a qué se refieren éstas, consultad la entrada MPEG-4.

MPEG-4 Part 3 (llamado formalmente ISO/IEC 14496-3) es la tercera parte del estándar del ISO/IEC MPEG-4. Éste especifica los métodos de codificación de audio que propone este estándar.

Origen del estándar AAC

AAC (Advanced Audio Coding) se basa en una mejora del estándar MPEG-2 Parte 7, con la intención de proporcionar audio de mejor calidad a una misma tasa de bits (bit rate).

Actualmente no se conoce ningún reproductor o codificador que diferencíe los dos estándares y los haga incompatibles. Este hecho cambiará en un futuro próximo, cuando empiecen a aparecer codificadores que utilicen las ventajas de AAC.

Múltiples codificadores de AAC:

Low Complexity Advanced Audio Coding (LC-AAC)
High-Efficiency Advanced Audio Coding (HE-AAC)
Scalable Sample Rate Advanced Audio Coding (AAC-SSR)
Bit Sliced Arithmetic Coding (BSAC)
Long Term Predictor (LTP)

HE-AAC

HE-AAC es una extensión de AAC que se basa en utilizar la replicación de banda espectral (Spectral Band Replication) y el estéreo paramétrico (Parametric Stereo). El primero de estos métodos se dedica a hacer una codificación en el dominio frecuencial (aprovechando las características de respuesta en frecuencia del sistema auditivo humano), mientras que el segundo la hace en el dominio espacial. Está diseñado para incrementar la eficiencia de codificación a tasas de bits bajas usando una representación paramétrica de la señal de audio.

AAC-SSR

AAC Scalable Sample Rate fue introducido al estándar MPEG-4 por parte de Sony. Primero, la señal de audio se separa en 4 bandas usando un banco de filtros de cuadratura de polifase ( PQF). Entonces, a estas cuatro bandas se les aplica la transformada de coseno discreta de tamaño “k”, que toma por valor 32 o 256. Este caso es similar a MPEG-4 AAC, que usa la MDCT con un tamaño “k” de 128 o 1024 directamente sobre la señal.

La ventaja de esta técnica es que se puede commutar los bloques pequeños para cada banda que te da el banco de filtros. De esta forma, las altas frecuencias se pueden codificar con bloques más pequeños y así incrementar la resolución temporal. Por otro lado, las frecuencias bajas se pueden codificar con una resolución espectral más elevada. Aun así, debido al aliasing entre las distintas bandas del PQF, tenemos una eficiencia peor que MPEG-4 AAC en este sentido.

La codificación de MPEG-4 AAC-SSR es muy similar a la de los sistemas ATRAC y ATRAC-3.

Por qué se introdujo el AAC-SSR

La idea que está detrás del AAC-SSR no es sólo la ventaja mencionada anteriormente, sino la posibilidad de seleccionar si queremos descartar una, dos o tres de las bandas PQF superiores en nuestro descodificador. A esto se le llama escalabilidad, y nos permite reducir la tasa de bits que recibimos sencillamente seleccionando qué parte de la información de la señal queremos descodificar e ignorando el resto.

Ejemplo:

4 subbandas: tasa de bits = 128 kbit/s, frecuencia de muestreo = 48 kHz, f_passabajo = 20 kHz
3 subbandas: tasa de bits ~ 120 kbit/s, frecuencia de muestreo = 48 kHz, f_passabajo = 18 kHz
2 subbandas: tasa de bits ~ 100 kbit/s, frecuencia de muestreo = 24 kHz, f_passabajo = 12 kHz
1 subbanda: tasa de bits ~ 65 kbit/s, frecuencia de muestreo = 12 kHz, f_passabajo = 6 kHz

BSAC

Bit Sliced Arithmetic Coding es un estándar de MPEG-4 (ISO/IEC 14496-3 subpart 4) para codificación escalable de audio. BSAC utiliza una codificación alternativa a la de AAC sin ruido y con el resto del procesado igual que el original. Este soporte para la escalabilidad permite una calidad de sonido casi transparente para tasas de 64 kbps y una degradación baja para bitrates menores. La codificación con BSAC responde mejor para bitrates contenidos en el rango de 40 a 64 kbps, aunque opera entre 16 y 64 kbps. La codificación AAC-BSAC se utiliza en aplicaciones de Digital Multimedia Broadcasting (DMB).

Véase también

Datos: Q1148299