Recuperación de información multimedia
La Recuperación de Información Multimedia (Multimedia Information Retrieval, MMIR o MIR, por sus siglas en inglés) es una disciplina de investigación de la Ciencia de la Computación que tiene como objetivo extraer información semántica de fuentes de datos multimedia.[1] Las fuentes de datos incluyen medios directamente perceptibles como audio, imagen y video, y fuentes perceptibles indirectamente tales como texto, bioseñales y fuentes no perceptibles como bioinformación, precios de acciones, etc. La metodología de la recuperación de información multimedia se puede organizar en tres grupos:
- Métodos para resumir el contenido multimedia (extracción de características). El resultado de la extracción de características es una descripción.
- Métodos para filtrar las descripciones de los medios (por ejemplo, eliminación de la redundancia).
- Métodos para la categorización de descripciones de medios en clases.
Métodos de extracción de características
La extracción de características está motivada por el tamaño de los objetos multimedia, así como por su redundancia y, posiblemente, ruido.[1] En general, se pueden lograr dos objetivos posibles mediante la extracción de características:
- Resumen del contenido de los medios. Los métodos para el resumen incluyen en el dominio de audio, por ejemplo, los Coeficientes Cepstrales en las Frecuencias de Mel, frecuencia de cruces por cero, energía de corto tiempo. En el dominio visual, los histogramas de color[2] como el descriptor de color escalable MPEG-7 se pueden usar para el resumen.
- Detección de patrones por autocorrelación y / o correlación cruzada. Los patrones son trozos de medios recurrentes que pueden detectarse comparando trozos sobre las dimensiones de los medios (tiempo, espacio, etc.) o comparando los trozos de medios con las plantillas (por ejemplo, plantillas faciales, frases). Los métodos típicos incluyen codificación predictiva lineal en el dominio de audio / bioseña,[3] descripción de textura en el dominio visual y n-grams en la recuperación de información de texto.
Mezcla y métodos de filtrado
La recuperación de información multimedia implica que se emplean múltiples canales para comprender el contenido multimedia.[4] Cada uno de estos canales se describe mediante transformaciones de características específicas de los medios. Las descripciones resultantes deben combinarse con una descripción por objeto multimedia. La mezcla se puede realizar por concatenación simple si las descripciones son de tamaño fijo. Las descripciones de tamaño variable, como suelen ocurrir en la descripción de movimiento, primero deben normalizarse a una longitud fija.
Los métodos usados frecuentemente para el filtrado de descripciones incluyen análisis de factores (por ejemplo, por PCA), descomposición de valores singulares (por ejemplo, como indexación semántica latente en la recuperación de texto) y la extracción y prueba de momentos estadísticos. Conceptos avanzados como el filtro de Kalman se utilizan para la mezcla de descripciones.
Métodos de categorización
En general, todas las formas de aprendizaje automático se pueden emplear para la categorización de descripciones multimedia[1] aunque algunos métodos se usan con más frecuencia en un área que en otra. Por ejemplo, los modelos ocultos de Markov son el state-of-the-art en reconocimiento de voz, mientras que la técnica dynamic time-warping, un método semánticamente relacionado, es el state-of-the-art en alineamiento de secuencias genéticas. La lista de clasificadores aplicables incluye lo siguiente:
- Enfoques métricos (análisis de clústers, modelo de espacio vectorial, distancias de Minkowski, alineación dinámica)
- Métodos del vecino más cercano (algoritmo KNN, K-means, mapas autorganizados)
- Minimización de riesgos (regresión de vectores de soporte, máquina de soporte vectorial (SVM), análisis discriminante lineal)
- Métodos basados en la densidad (redes Bayesianas, procesos de Markov, modelos de mezclas)
- Redes neuronales (perceptron, memorias asociativas, redes de spiking)
- Heurística (árboles de decisión, bosques aleatorios, etc.)
La selección del mejor clasificador para un problema determinado (conjunto de pruebas con descripciones y etiquetas de clase, denominada ground-truth) se puede realizar automáticamente, por ejemplo, usando Weka Data Miner.
Problemas abiertos
La calidad de los sistemas de recuperación multimedia[5] depende en gran medida de la calidad de los datos de entrenamiento. Las descripciones discriminatorias se pueden extraer de las fuentes de los medios en diversas formas. El aprendizaje automático proporciona métodos de categorización para todo tipo de datos. Sin embargo, el clasificador solo puede ser tan bueno como los datos de entrenamiento dados. Por otro lado, se requiere un esfuerzo considerable para proporcionar etiquetas de clase para grandes bases de datos. El éxito futuro de los MMIR dependerá de la provisión de tales datos.[6] La competencia anual de TRECVID es actualmente una de las fuentes más relevantes de verdad de terreno de alta calidad.
Áreas relacionadas
La Recuperación de Información Multimedia proporciona una visión general de los métodos empleados en las áreas de recuperación de información.[7][8] Los métodos de un área se adaptan y emplean en otros tipos de medios. El contenido multimedia se fusiona antes de que se realice la clasificación. Los métodos de recuperación de información multimedia son, por lo tanto, usualmente reutilizados de otras áreas tales como:
- Análisis de bioinformación
- Procesamiento de bioseñales
- Recuperación de imágenes y videos basados en contenido
- Reconocimiento facial
- Clasificación de audio y música
- Reconocimiento de voz
- Análisis del cuadro técnico
- Video navegación
- Recuperación de información de texto
El Journal of Multimedia Information Retrieval[9] documenta el desarrollo de la Recuperación de Información Multimedia como una disciplina de investigación que es independiente de estas áreas. Consultetambién el Handbook of Multimedia Information Retrieval[10] para obtener una descripción completa de esta disciplina de investigación.
Referencias
- ↑ a b c H Eidenberger. Fundamental Media Understanding, atpress, 2011, p. 1.
- ↑ A Del Bimbo. Visual Information Retrieval, Morgan Kaufmann, 1999.
- ↑ HG Kim, N Moreau, T Sikora. MPEG-7 Audio and Beyond", Wiley, 2005.
- ↑ MS Lew (Ed.). Principles of Visual Information Retrieval, Springer, 2001.
- ↑ JC Nordbotten. "Multimedia Information Retrieval Systems". Retrieved 14 October 2011.
- ↑ H Eidenberger. Frontiers of Media Understanding, atpress, 2012.
- ↑ H Eidenberger. Professional Media Understanding, atpress, 2012.
- ↑ Raieli, Roberto. "Introducing Multimedia Information Retrieval to libraries". JLIS.it. 7 (3): 9–42. doi:10.4403/jlis.it-11530. Retrieved 8 October 2016.
- ↑ "Journal of Multimedia Information Retrieval", Springer, 2011, Retrieved 21 October 2011.
- ↑ H Eidenberger. Handbook of Multimedia Information Retrieval, atpress, 2012.