UNIVERSIDADE FEDERAL DO PARANÁ
SETOR DE TECNOLOGIA
DEPARTAMENTO DE ELETRICIDADE
DISCIPLINA: PROCESSAMENTO DIGITAL DE SINAIS

MPEG-1 LAYER-3 – MP3
 
 

Alunos:
Flavio Henrique Araque Gurgel
João Luiz Dallamuta Lopes
Katiana Reksidler Bora
Ricardo Augusto Blauth

Professor:
Eduardo Parente Ribeiro

Itens:
1 INTRODUÇÃO
2 MP3: O QUE SIGNIFICA
3 PADRÃO DE COMPRESSÃO DIGITAL DE ÁUDIO- MPEG
4 AS 3 CAMADAS – LAYERS 1, 2 E 3
5 O MODELO PSICOACÚSTICO
6 IMPLEMENTAÇÔES DE SOFTWARE EM TEMPO REAL
7 QUALIDADE DO SOM
8 COMO OUVIR MP3
9 CONCLUSÃO
10 BIBLIOGRAFIA


 




1 INTRODUÇÃO

 As taxas de transmissões digital de áudio, comparada com a maioria das outras transmissões digitais (com exceção de video digital), quando não comprimida, pode atingir índices muito elevados.
Para visualizar estes índices, como exemplo é interessante calcular quanto tempo levaria o download de uma música de 1 minuto. Para obter a qualidade de CD, o sinal de áudio deve ser amostrado a uma taxa de 44.1 kHz, dois canais (estéreo) com 16 bits por amostra. O trecho de 1 minuto da música ocuparia:
44100amostras/s * 2 canais * 2 bytes/amostra * 60 s/min = 10 Mbytes
Considerando que a maioria dos computadores atuais têm em média uma velocidade de 28.800bits/s, o tempo que leverá este download será:
10000000bytes * 8 bits/bytes /(28800bits/s * 60s/min) = em torno de 49 minutos para um trecho de música de 1 minuto.
Fica claro que sem a compressão de áudio a transmissão torna-se inviável. A compressão digital de áudio se baseia na forma como o ouvido humano percebe o sinal sonoro através de um algorítimo conhecido como modelo psicoacústico. Atualmente o padrão de compressão mais difundido é o MP3.
2 MP3: O QUE SIGNIFICA
MP3 significa MPEG-1 Layer-3 (3o camada), onde MPEG significa "Motion Picture Experts Group".
Com relação ao MPEG, existem dois padrões: MPEG-1 e MPEG-2. Ambos utilizam a mesma família de codificadores de áudio. O MPEG-2 é destinado para uma extensão de baixo índice de amostragem (8kbps), para aplicações que requerem larguras de banda limitadas (amostragem de 16, 22.5 ou 24kHz). Também possui uma extensão multicanal (5 canais com um opcional extra para baixas frequências). O MPEG é dedicado para aplicações estéreo de dois canais apenas. O decodificador MPEG-2 aceita formatos MPEG-1. O decodificador MPEG-1 pode aceitar formatos MPEG-2 desde que este seja multiplexado da seguinte forma:
Canal esq= esq. + central + surround esq. e canal dir= dir. + central + surround dir.
Com relação às camadas, existem 3: layer 1, 2 e 3. Estas camadas são caracterizadas por um nível hierárquico relacionando nível de compressão, qualidade e complexidade do algorítimo de compressão. As duas primeiras propriedades estão exemplificadas na tabela abaixo:
Camada
Kbps
Compressão
1
384
1:4
2
256...192
1:6...1:8
3
128...112
1:10...1:12


3 PADRÃO DE COMPRESSÃO DIGITAL DE ÁUDIO- MPEG

A alta performance do algorítimo de compressão é devida a exploração do mascaramento auditivo. Este mascaramento é uma fraqueza perceptiva do ouvido humano que ocorre sempre que um sinal de áudio forte torna a vizinhança espectral de sinais fracos imperceptíveis.
Devido a esta limitada resolução em freqüência do ouvido humano, o nível do mascaramento para ruído para qualquer freqüência dada, depende somente da atividade do sinal dentro de uma banda crítica limitada por determinadas freqüências. Estas bandas críticas estão exemplificadas na tabela abaixo (a freqüência especificada corresponde ao limite superior da banda).
Banda no
Freq. (Hz)
Banda no
Freq. (Hz)
Banda no
Freq. (Hz)
0
50
9
940
18
3840
1
95
10
1125
19
4690
2
140
11
1265
20
5440
3
235
12
1500
21
6375
4
330
13
1735
22
7690
5
420
14
1970
23
9375
6
560
15
2340
24
11625
7
660
16
2720
25
15375
8
800
17
3280
26
20250
Para aproveitar esta propriedade do ouvido humano, a compressão de áudio transforma o sinal para o domínio da freqüência e divide o sinal resultante em sub-bandas que se aproximam das bandas críticas e finalmente quantizam cada sub-banda de acordo com a audibilidade do ruído de quantização naquela banda. Para uma boa compressão, cada banda não deve ser mais quantizada do que a quantidade necessária para fazer o ruído de quantização inaudível.
A figura a seguir é uma representação de alto nível em diagrama em blocos do codificador e decodificador de áudio MPEG.
O sinal de entrada passa por um banco de filtros que o divide em 32 sub-bandas e também simultaneamente por um modelo psicoacústico (algorítimo que determina qual a freqüência predominante na qual ocorre o mascaramento). O bloco bit/noise allocation usa a razão sinal/máscara para decidir como adequar o número de bits disponíveis para a quantização dos sinais das sub-bandas para minimizar a audibilidade do ruído de quantização. O último bloco formata a informação em um bit stream decodificável. O decodificador reverte a formatação, reconstrói os valores quantizados das sub-bandas e transforma este conjunto num sinal de áudio no domínio do tempo.
4 AS 3 CAMADAS – LAYERS 1, 2 E 3
Conforme já mencionado, o padrão MPEG tem 3 distintas camadas para a compressão. A camada 1 possui o algoritmo mais básico, as seguintes (2 e 3) são aprimoradas melhorando a performance da compressão, mas usam alguns elementos da primeira.

LAYER 1 – Nesta camada o banco de filtros divide o sinal em 32 bandas constantes de freqüências. Estas 32 bandas constantes não refletem muito precisamente as bandas críticas do ouvido, conforme ilustrado a seguir.

Para baixas freqüências, as bandas são muito largas, assim o número de bits não pode ser especificamente sintonizado para a sensibilidade de ruído dentro de cada sub-banda crítica. Uma outra desvantagem desta camada é que as bandas de filtros adjacentes têm uma significativa sobreposição de freqüências; o sinal de uma única freqüência pode afetar dois bancos de filtros adjacentes.
O banco de filtros fornece 32 amostras de freqüência. O algoritmo desta camada agrupa 12 amostras para uma das 32 bandas, dando um total de 384 amostras por quadro.

LAYER 2 – A segunda camada é um simples aprimoramento da primeira. A performance da compressão é melhor porque codifica informação em grupos maiores. Esta camada codifica quadros de 3 por 12 por 32 = 1152 amostras por canal de áudio. Na figura abaixo está esquematizada estas etapas para os Layers 1 e 2.
 


LAYER 3 – Esta camada é muito mais refinada comparada com as anteriores. Apesar de usar o mesmo banco de filtros das outras, ela compensa a deficiência do banco processando a saída dos filtros com a Transformada de Cosseno Discreta Modificada (MDCT). Os blocos MDCT’s, ilustrados na figura a seguir, subdividem as saídas do banco de filtros em freqüências para proporcionar uma resolução espectral melhor. Esta camada tem dois comprimentos diferentes de blocos MDCT's: um bloco longo de 36 amostras ou um bloco curto de 12 amostras. O bloco curto melhora a resolução no tempo para eliminar transientes. O comprimento de um bloco curto tem um terço do bloco longo, que quando usado, três blocos curtos substituem um longo.

O chaveamento entre os dois blocos não é instantâneo. Um bloco longo com uma janela de dado especializada curta/longa ou longa/curta proporciona um mecanismo de transição de um bloco longo para um curto. O Layer 3 tem 3 modos de bloqueio: dois modos onde a saída do banco passa por MDCT’s com o mesmo comprimento de blocos e um bloco misto onde as duas bandas de mais baixa freqüência usam blocos longos e as restantes usam blocos curtos.
Para demonstrar a superioridade do Layer 3 sobre os dois outros, vale a pena citar três características principais:

- Redução de alias: Esta camada providencia um método de processamento dos valores MDCT para eliminar redundâncias causadas pela sobreposição de bandas no banco de filtros dos Layers 1 e 2.

- Quantização não uniforme: O sinal de entrada é elevado à potência ¾ antes da quantização, de tal forma que proporciona um nível mais consistente da razão sinal ruído para o alcance dos valores quantizados. O decodificador lineariza o sinal elevando a saída a potência 4/3 .

- Uso de um bit reserva: Como o Layer 2, este também processa 1152 amostras por quadro, mas a informação codificada que representa estas amostras não é necessariamente fixa. O codificador pode doar ou emprestar bits do reservatório quando apropriado.


5 O MODELO PSICOACÚSTICO

O modelo psicoacústico é o componente chave do codificador MPEG que possibilita sua alta performance. A função deste modelo é analisar  o sinal de entrada e determinar onde no espectro o ruído de quantização será mascarado. O codificador usa esta informação para decidir como representar melhor o sinal com o número limitado de bits. Os passos básicos deste modelo estão listados a seguir:

- Alinhamento de dados de áudio no tempo: O modelo psicoacústico deve levar em conta o atraso do sinal ao passar pelo banco de filtros e o deslocamento de dados para  que os dados relevantes sejam centralizados em sua janela de análise. Exemplo: o atraso do banco de filtros do Layer 1 é 256 amostras e o deslocamento requerido para centralizar na janela de dados de 512 pontos é (512-384)/2=64 pontos.

- Converter áudio para o domínio espectral: O modelo psicoacústico usa a transformada de Fourier com 512 ou 1024 pontos para converter o sinal. O padrão Hann aplicado antes da transformada condiciona os dados de modo que os efeitos da fronteira da janela sejam reduzidos.

- Partição dos valores espectrais em bandas críticas: Agrupamento dos valores de frequência em quantuns perceptivos.

- Incorporação de nível mínimo de silêncio: Determinado empiricamente, este nível é o limite mínimo para mascarar o ruído e é determinado na ausência do sinal de mascaramento.

- Separação em componentes tônicos e não tônicos: Identifica e separa os componentes tônicos e tipo ruído porque as características ruído-mascaramento destes dois tipos são diferentes.

- Achar um nível mínimo de mascaramento para cada sub-banda.

- Calcular a razão sinal-mascaramento.

Devido a uma fraqueza perceptiva do ouvido, que, acima de 2kHz o ouvido baseia sua percepção de estéreo mais no envelope temporal no que na estrutura temporal fina, o algorítimo suporta dois tipos de codificações de redundância estéreo:

O primeiro (Intensity Stereo Mode) codifica algumas saídas de frequências mais elevadas do banco como um único sinal somado para canal esquerdo e direito para cada uma das saídas dos 32 filtros.

O segundo (MS-Midddle/Side) codifica os sinais do canal direito e esquerdo em certas escalas de frequência como a soma direito e esquerdo e a subtração dos canais.


6 IMPLEMENTAÇÔES DE SOFTWARE EM TEMPO REAL

A seguir será mostrado como um número de multiplicações e adições usados num certo cálculo podem ser reduzidos por um fator de 12.

O fluxograma abaixo representa a análise das sub-bandas dos filtros usada por codificador MPEG.

A maioria da carga computacional é devida ao penúltimo bloco, porque este contém a seguinte multiplicação de matrizes:

        para i=0 ... 31.

Cada um dos 32 valores de S(i) requer 63 somas e 64 multiplicações. Para otimizar este cálculo, nota-se os coeficientes M(i,k) são similares aos coeficientes usados por uma transformada de cosseno discreta inversa não normalizada de 32 pontos (DCT) dada por:

                           para i=0 ... 31.

S(i) é idêntica à f(i) se F(k) é calculada da seguinte maneira:

F(k)=Y(16) para k=0;
       =Y(k+16)+Y(16-k) para k=1 ... 16;
       =Y(k+16)+Y(80-k) para k=17 ... 31.

Fazendo estas modificações, as multiplicações e adições diminuem pela metade. Uma redução de mais de um sexto é obtida quando é usado um dos muitos algorítimos rápidos para o cálculo da inversa da DCT.
 

7  QUALIDADE DO SOM
Algumas performances típicas de dados do MP3 são:
 
Qualidade Som
Comprimento de banda
Modo
Bitrate
Razão de redução
som de telefone
2.5kHz
mono
8kbps
96:1
melhor q ondas curtas
4.5kHz
mono
16kbps
48:1
melhor q rádio AM
7.4kHz
mono
32kbps
24:1
similar a rádio FM
11kHz
estéreo
56 ... 64kbps
26 ... 24:1
próximo de CD
15kHz
estéreo
96kbps
16:1
CD
> 15kHz
estéreo
112 ... 128kbps
14 ... 12:1

Em todos testes internacionais, o padrão MP3 provou sua performance superior, mantendo a qualidade original do som com uma redução de dados de 1:12 (em torno de 64kbits/s por canal de áudio). Se algumas aplicações tolerarem um comprimento de banda reduzido em torno de 10kHz, uma qualidade razoável de som estéreo pode ser obtida com uma compressão de até 24:1.
 

8 COMO OUVIR MP3
Para que se possa simplesmente ouvir músicas em MP3, basta ter um programa decodificador.
No PC pode-se usar o WinAmp, o mais popular de todos. Atualmente ele é Freeware (pode ser utilizado gratuitamente) e pode ser baixado do site http://www.winamp.com. Além de decodificar arquivos MP3 o WinAmp pode ser utilizado para data streaming e ouvir músicas on-line.
Para transformar uma música de CD para MP3 é necessário um programa ripper, que transforma as músicas de CD em um arquivo no disco rígido. Depois, deve-se usar um programa codificador, que transformará o arquivo do disco rígido (geralmente um wave do windows) para um arquivo com os dados MP3.


9 CONCLUSÃO

Este trabalho teve como objetivo mostrar as bases da compressão de áudio, de forma que o leitor possa ter uma idéia sobre como é possível reduzir tanto a quantidade de informações digitais disponíveis em um arquivo de áudio. O MP3 é interessante também pelo fato de que um sinal de áudio contém muita informação inútil que pode ser descartada através das técnicas descritas.
É importante ressaltar que o desenvolvimento de padrões de compressão de áudio é constante, como, por exemplo, já existe o MP4 (MPEG1 - Layer 4) e o VQF, sendo que o VQF tem a fama de comprimir mais um arquivo do que o MPEG através da utilização de taxas de amostragem ligeiramente mais baixas sem perder qualidade em termos auditivos. É claro que algumas amostras/s a menos podem representar vários kb em termos de tamanho final de arquivo.
Outro formato bastante difundido na Internet é o Real Audio, mas ele é mais utilizado para baixas taxas de amostragem.
O padrão MP4 é ainda uma novidade e não existem muitos decodificadores comerciais disponíveis. Sua proposta é aumentar a compressão e ao mesmo tempo a qualidade final.
E o MP3, sendo muito popular, vai continuar gerando muitas polêmicas com relação a direitos autorais. Mas isso é assunto para um trabalho de Direito.


10 BIBLIOGRAFIA

1 Davis Yen Pan: Digital Audio Compression,Digital Technical Journal Vol. 5 No. 2, Spring 1993
2 Th. Sporer, Kh. Brandenburg, B. Edler: The  Use of Multirate Filter Banks for Coding of High Quality Digital Audio,6th European Signal Processing Conference (EUSPICO), Amsterdam, June 1992, Vol.1, pages 211-214
3 Davis Pan: A Tutorial on MPEG/Audio Compression, IEEE Multimedia Journal, sommer 1995.
4 http://iis.fhg.de/amm/technif/layer3/index.html
5 http://iis.fhg.de/amm/technif/layer3/layer3faq/index.html
6 http://iis.fhg.de/amm/technif/basics.html
7 http://whatis.com/mp3.htm
8 http://whatis.com/compress.htm
9 http://whatis.com/ripper.htm
10 http://whatis.com/encoder.com