Compresión audio (datos)

Elija su lengua:
English | Français | Español | Italiano | Português | Deutsch | Nederlands | Svenska | Ελληνικά | Русский | 한국어 | 日本語 | 简体中文 | 繁體中文 | العربية

Bookmark and Share
 

Compresión audio (datos)

Para los procesos que reducen la cantidad de tiempo que toma para escuchar y entienden una grabación, vea discurso tiempo-comprimido.

Compresión audio es una forma de compresión de datos diseñó reducir el tamaño de archivos audio. Compresión audio algoritmos se ponen en ejecución en software como codecs audio. Genérico compresión de datos los algoritmos se realizan mal con los datos audio, reduciendo raramente tamaños del archivo mucho debajo del 87% de la original, y no se diseñan para el uso en tiempo real. Por lo tanto, audio específico “lossless“y”lossyse han creado los “algoritmos. Los algoritmos del lossy proporcionan cocientes lejos mayores de la compresión y se utilizan en los dispositivos de corriente del audio del consumidor.

Como con compresión de la imagen, el lossy y los algoritmos lossless de la compresión se utilizan en la compresión audio, lossy que es los mas comunes para el uso diario. En el lossy y la compresión lossless, se reduce la redundancia de la información, usando métodos tales como codificación, el reconocimiento de patrón y la predicción linear para reducir la cantidad de información usada para describir los datos.

La compensación de la calidad audio levemente reducida se compensa claramente para la mayoría de los usos audio prácticos donde los usuarios no pueden percibir ninguna diferencia y los requisitos de espacio se reduce substancialmente. Por ejemplo, en un CD, uno puede caber una hora de la música de la alta fidelidad, menos de 2 horas de música comprimidas losslessly, o 7 horas de música comprimidas en MP3 ajustaron a formato.

Contenido

Compresión del audio de Lossless

Como el almacenaje de archivo y la anchura de banda de las comunicaciones han llegado a estar menos costosos y más disponibles, el renombre de formatos lossless por ejemplo Audio del mono, FLAC y Acórtese ha aumentado agudamente, pues la gente está eligiendo mantener un archivo permanente de sus archivos audio. Los usuarios primarios de la compresión lossless han sido ingenieros audio, audiophiles y esos consumidores que desean preservar una copia exacta de sus archivos audio, en contraste con los cambios irreversibles de técnicas de la compresión del lossy por ejemplo Vorbis y MP3. Los cocientes de la compresión son similares a ésos para la compresión de datos lossless (alrededor 50-60% del tamaño original). Formatos de Lossless por ejemplo TrueHD Dolby también se están introduciendo junto con de alta definición DVD formatos.

Es difícil mantener todos los datos en una corriente audio y alcanzar la compresión substancial. Primero, la mayoría extensa de grabaciones de sonidos es altamente compleja, registrado del del mundo real. Pues uno de los métodos dominantes de compresión es encontrar patrones y la repetición, datos más caóticos tales como audio no comprimen bien. De una manera similar, fotografías la compresa menos con métodos lossless que imágenes originadas en ordenador más simples eficientemente. Pero interesante, incluso los sonidos originados en ordenador pueden contener muy complicado formas de onda ese presente un desafío a muchos algoritmos de la compresión. Esto es debido a la naturaleza de las formas de onda audio, que son generalmente difíciles de simplificar sin la conversión de a (necesariamente lossy) a la información de la frecuencia, según lo realizado por el oído humano.

La segunda razón es que los valores del audio muestras cambie muy rápidamente, compresión de datos tan genérica algoritmos no trabaje bien para el audio, y las cadenas de octetos consecutivos no aparecen generalmente muy a menudo. Sin embargo, circunvolución con el filtro [- 1 1] (es decir, tomando la primera diferencia) tiende a levemente blanquee (decorrelate, haga plano) el espectro, de tal modo permitiendo que la compresión lossless tradicional en el codificador haga su trabajo; la integración en el decodificador restaura la señal original. Codecs por ejemplo FLAC, Acórtese y TTA uso predicción linear a estimación el espectro de la señal. En el codificador, lo contrario del perito es utilizado para blanquear la señal quitando picos espectrales mientras que el perito se utiliza para reconstruir la señal original en el decodificador.

Los codecs audio de Lossless no tienen ninguna edición de la calidad, así que la utilidad se puede estimar cerca

  • Velocidad de la compresión y de la descompresión
  • Grado de compresión
  • Ayuda del software y del hardware
  • Corrección de la robustez y de error

Compresión del audio del lossy

La compresión audio del lossy se utiliza en una gama de usos extremadamente amplia. Además de los usos directos (los jugadores mp3 o las computadoras), las corrientes audio digital comprimidas se utilizan en la mayoría del DVDs video; televisión digital; medios que fluyen en Internet; radio del satélite y del cable; y cada vez más en difusiones de radio terrestres. La compresión del lossy alcanza típicamente la compresión lejos mayor que la compresión lossless (datos de 5 por ciento a 20 por ciento de la corriente original, más bien que 50 por ciento a 60 por ciento), desechando datos menos-críticos.

La innovación de la compresión audio del lossy era utilizar psychoacoustics para reconocer que no todos los datos en una corriente audio se pueden percibir por el sistema auditivo humano. La mayoría de la compresión del lossy reduce redundancia perceptiva por los primeros sonidos que identifican que se consideran perceptually inaplicables, es decir, los sonidos que son muy duros de oír. Los ejemplos típicos incluyen de alta frecuencia, o los sonidos que ocurren al mismo tiempo que sonidos más ruidosos. Esos sonidos se cifran con exactitud disminuida o no se cifran en todos.

Mientras que quitar o la reducción de estos sonidos “unhearable” puede explicar un porcentaje pequeño de los pedacitos ahorrados en la compresión del lossy, los ahorros verdaderos vienen de un fenómeno complementario: el formar del ruido. La reducción del número de los pedacitos usados para cifrar una señal aumenta la cantidad de ruido en esa señal. En la compresión psychoacoustics-basada del lossy, la llave verdadera es “ocultar” el ruido generado por los ahorros del pedacito en áreas de la corriente audio que no puede ser percibida. Esto se hace cerca, por ejemplo, con muy una pequeña cantidad de pedacitos para cifrar los de alta frecuencia de la mayoría de las señales - no porque la señal tiene poca información de alta frecuencia (ésta es sin embargo también a menudo verdad también), pero algo porque el oído humano puede percibir solamente señales muy ruidosas en esta región, para no oír sonidos más suaves “ocultados” allí simplemente.

Si la reducción de redundancia perceptiva no alcanza la suficiente compresión para un uso particular, él puede requerir la compresión adicional del lossy. Dependiendo de la fuente audio, esto todavía puede no producir diferencias perceptibles. El discurso por ejemplo se puede comprimir lejos más que música. La mayoría de los esquemas de la compresión del lossy permiten que los parámetros de la compresión sean ajustados para alcanzar un índice de la blanco de datos, expresado generalmente como a índice binario. Una vez más la reducción de datos será dirigida por un cierto modelo de cómo es importante el sonido está según lo percibido por el oído humano, con la meta de la eficacia y de la calidad optimizada para la tarifa de datos de la blanco. (Hay muchos diversos modelos usados para este análisis perceptivo, algún mejor satisfecho a diversos tipos de audio que otros.) por lo tanto, dependiendo de los requisitos de la anchura de banda y de almacenaje, el uso de la compresión del lossy puede dar lugar a una reducción percibida de la calidad audio que se extiende de ningunos a severo, pero una reducción obviamente audible en calidad es generalmente inaceptable a los oyentes.

Porque los datos se quitan durante la compresión del lossy y no se pueden recuperar por la descompresión, alguna gente puede no preferir la compresión del lossy para el almacenaje archival. Por lo tanto, según lo observado, iguale a los que utilicen la compresión del lossy (para los usos audio portables, por ejemplo) puedan desear guardar un archivo losslessly comprimido para otros usos. Además, la tecnología de la compresión continúa avanzando, y la realización de una compresión avanzada del lossy requeriría uno comenzar otra vez con los datos audio y la compresa lossless, originales con el nuevo codec del lossy. La naturaleza de la compresión del lossy (para el audio y las imágenes) da lugar a la degradación de aumento de la calidad si se descomprimen los datos, después recompressed con la compresión del lossy.

Historia

Una variedad grande de sistemas de codificación audio verdaderos, de trabajos fue publicada en una colección en el diario de IEEE en áreas seleccionadas en las comunicaciones (JSAC), febrero de 1988. Mientras que había algunos papeles a partir antes de ese vez, este compendio de papeles documentó una variedad entera de codificadores audio acabados, de trabajos, casi todos el usar perceptivo (es decir. ) técnicas que enmascaran y una cierta clase de análisis de frecuencia y de codificación silenciosa back-end.[1] Varios de estos papeles comentaron en la dificultad de obtener buena, audio digital limpio para los propósitos de la investigación. La mayoría, si no todos los, autores en la edición de JSAC eran también activos en el comité del audio MPEG-1.

El sistema audio de la compresión de la primera automatización comercial de la difusión del mundo fue desarrollado por Oscar Bonello, profesor de la ingeniería en Universidad de Buenos Aires.[2] En 1983, usando el principio psychoacoustic de enmascarar de las vendas críticas primero publicadas en 1967,[3] él comenzó a desarrollar un uso práctico basado en el recientemente desarrollado PC DE IBM la computadora, y el sistema de la automatización de la difusión fueron lanzados en 1987 bajo el nombre de Audicom. 20 años más adelante, casi todas las estaciones de la radio en el mundo utilizaban la tecnología similar, fabricada por un número de compañías.

Métodos de la codificación

Transforme los métodos del dominio

Para determinarse qué información en una audioseñal es perceptually inaplicable, la mayoría del uso de los algoritmos de la compresión del lossy transforma por ejemplo el coseno discreto modificado transforma (MDCT) convertir dominio de tiempo formas de onda muestreadas en un dominio del transformar. Una vez que esté transformado, típicamente en dominio de la frecuencia, las frecuencias componentes pueden ser pedacitos asignados según cómo es audible son. La audibilidad de componentes espectrales es determinada primero calculando a umbral que enmascara, debajo de que se estima eso suena estará más allá de los límites de la opinión humana.

El umbral que enmascara es el usar calculado umbral absoluto de la audiencia y los principios de el enmascarar simultáneo - el fenómeno en donde una señal es enmascarada por otra señal separada por la frecuencia - y, en algunos casos, el enmascarar temporal - donde una señal es enmascarada por otra señal separada por tiempo. contornos de la Igual-intensidad puede también ser utilizado cargar la importancia perceptiva de diversos componentes. Los modelos de la combinación humana del oído-cerebro que incorpora tales efectos se llaman a menudo modelos psychoacoustic.

Métodos del dominio de tiempo

Otros tipos de compresores del lossy, tales como codificación profética linear (LPC) utilizado con discurso, sea codificadores fuente-basados. Estos codificadores utilizan un modelo del generador de sonido (tal como la zona vocal humana con el LPC) para blanquear la audioseñal (es decir, aplane su espectro) antes del quantization. El LPC se puede también pensar en como técnica perceptiva básica de la codificación; la reconstrucción de una audioseñal que usa a un predictor linear forma el ruido del quantization del codificador en el espectro de la señal de la blanco, enmascarándolo parcialmente.

Usos

Debido a la naturaleza de los algoritmos del lossy, calidad audio sufre cuando se descomprime un archivo y recompressed (las pérdidas generational). Esto hace la compresión del lossy inadecuada para almacenar los resultados intermedios en usos audio profesionales de la ingeniería, tales como corregir del sonido y grabación de varias trayectorias. Sin embargo, son muy populares entre los usuarios finales (particularmente MP3), como megabyte puede almacenar el valor alrededor de de un minuto de la música en la calidad adecuada.

Utilidad

La utilidad de los codecs audio del lossy se determina cerca:

  • Calidad audio percibida
  • Factor de la compresión
  • Velocidad de la compresión y de la descompresión
  • Estado latente inherente del algoritmo (crítico para los usos que fluyen del tiempo real; vea abajo)
  • Ayuda del software y del hardware

Los formatos del lossy son de uso frecuente para la distribución del audio que fluye, o los usos interactivos (tales como la codificación del discurso para la transmisión digital en redes de teléfono de la célula). En tales usos, los datos se deben descomprimir como los flujos de datos, más bien que después de que se haya transmitido la secuencia de datos entera. No todos los codecs audio se pueden utilizar para los usos que fluyen, y para tales usos un codec diseñado para fluir los datos será elegido con eficacia generalmente.

El estado latente resulta de los métodos usados para codificar y para descifrar los datos. Algunos codecs analizarán un segmento más largo de los datos para optimizar eficacia, y después lo cifran de una forma que requiera un segmento más grande de datos contemporáneamente para descifrar. (Los codecs crean a menudo los segmentos llamados un “marco” para crear los segmentos de datos discretos para codificar y descifrar.) el inherente estado latente de la codificación el algoritmo puede ser crítico; por ejemplo, cuando hay de dos vías la transmisión de datos, por ejemplo con una conversación de teléfono, significativa retrasa puede degradar seriamente la calidad percibida.

En contraste con la velocidad de la compresión, que es proporcional al número de operaciones requirió por el algoritmo, aquí estado latente refiere al número de las muestras que deben ser analizadas antes de que un bloque del audio se procese. En el caso mínimo, el estado latente es las muestras cero 0 (e.g., si el codificador/el decodificador reduce simplemente el número de los pedacitos usados para cuantificar la señal). Los algoritmos del dominio de tiempo tales como LPC también tienen a menudo estados latentes bajos, por lo tanto su renombre en la codificación del discurso para la telefonía. En algoritmos tales como MP3, sin embargo, una gran cantidad de muestras tienen que ser analizadas para poner un modelo en ejecución psychoacoustic en el dominio de la frecuencia, y el estado latente está en la orden del ms 23 (ms 46 para la comunicación de dos vías).

Codificación del discurso

Codificación del discurso es una categoría importante de la compresión de datos audio. Los modelos perceptivos usados para estimar lo que puede oír un oído humano son generalmente algo diferentes de ésos usados para la música. La gama de las frecuencias necesitadas para transportar los sonidos de una voz humana es normalmente lejos más estrecha que lo necesitada para la música, y el sonido es normalmente menos complejo. Consecuentemente, el discurso se puede codificar en la alta calidad usando índices binarios relativamente bajos.

Esto es lograda, generalmente por una cierta combinación de dos acercamientos:

  • Solamente sonidos de codificación que se podrían hacer por una sola voz humana.
  • Lanzar lejos más de los datos en la señal -- el guardar lo suficiente para reconstruir una voz “inteligible” más bien que la gama de frecuencia completa del ser humano audiencia.

Quizás los algoritmos más tempranos usados en la codificación del discurso (y la compresión de datos audio en general) eran algoritmo de la Uno-ley y algoritmo de la µ-ley.

Glosario

ABR
Bitrate medio
CBR
Bitrate constante
VBR
Bitrate variable

Referencias

Vea también

Acoplamientos externos


 

The original work was translated from English to Spanish. To view the original article please click here.
Creative Commons Licence