Umbral de enmascaramiento

En psicoacústica, el umbral o nivel de enmascaramiento es el nivel de presión sonora (SPL) de un sonido de prueba necesario para que este sea apenas audible en presencia de una señal enmascarante. Este nivel depende también en gran medida de la frecuencia y de las características del enmascarado y del enmascarador. El efecto aparece normalmente entre tonos muy cercanos en frecuencia. Que no sea audible implica ciertas ventajas en el mundo de las transmisiones. En cuanto a codificación de audio, por ejemplo, implica la posibilidad de pasar por alto dicho tono consiguiendo así una mejor compresión o, en su alternativa, la codificación con menos peso, es decir, menos bits y por consiguiente reducir el tamaño del fichero resultante.

Habitualmente no se trabaja con un solo tono sino con varios de forma simultánea. Así que para una sola frecuencia se tienen más de una posible señal enmascaradora. Para estas situaciones se calcula el que se conoce como umbral de enmascaramiento global. Este se cuantifica en función de un espectro de alta resolución de la señal (habitualmente de audio) a partir de una Transformada rápida de Fourier (FFT) de 512 o 1024 puntos. En primera instancia se calculan los umbrales individuales teniendo en cuenta el nivel de señal, el tipo de enmascarador (ya sea señal o ruido) y la banda de frecuencias (hay frecuencias inaudibles para el oído humano). Posteriormente se suman todos los umbrales añadiéndose el umbral de tranquilidad, de esta forma se asegura que el umbral de enmasacaramiento total no estará nunca por debajo de este último. Finalmente se puede calcular el SMR (Signal to Mask Ratio). La anterior operación es la que se lleva a cabo en codificación de audio.

En el siguiente gráfico se muestra el caso de tener un tono a 1kHz. Se puede observar el umbral de tranquilidad o silencio debajo del cual ningún sonido es perceptible. Ahora bien, al sobreponer el tono este nivel varía alrededor de la frecuencia central del enmascarador haciendo más difícil oír las posibles frecuencias cercanas a este.

Aplicación. El modelo Psicoacústico

Una aplicación del umbral de enmascaramiento la encontramos en las codificaciones de audio que usa MPEG. En estos esquemas se incluye el bloque denominado 'modelo psicoacústico'. Este está comunicado con el banco de filtros y el bloque de cuantificación (o asignación de bits). El modelo psicoacústico es el encargado de analizar la muestras que provienen del banco de filtros calculando, para cada banda, el nivel de enmascaramiento. El procedimiento, como ya se ha comentado en el parágrafo anterior, se lleva a cabo mediante un FFT. Según la capa de MPEG en la que estemos trabajando se utilizan más o menos puntos. A partir de todos los distintos niveles se calcula el SMR que se pasa al cuanitificador. El cuantificador es el encargado de asignar más o menos bits a cada uno de los bloques frecuenciales teniendo en cuenta el SMR. El bloque con máxima relación señal-enmascaramiento se codificará con el máximo de bits posible mientras que el tenga la peor relación con el mínimo, llegando a ser cero bits.

En definitiva, el cálculo del umbral de enmascaramiento es tenido cuenta por ciertos códecs de audio con tal de no codificar muestras que, al fin y al cabo, si se codificaran, serían igualmente inaudibles para el oído humano. De este modo se utilizan menos bits y en consecuencia se reduce el tamaño del archivo de audio consiguiendo así una mejor compresión.

Véase también

Datos: Q3781545