A Review of Algorithms for Audio Fingerprinting - PowerPoint PPT Presentation

About This Presentation
Title:

A Review of Algorithms for Audio Fingerprinting

Description:

A Review of Algorithms for Audio Fingerprinting Autores : Pedro Cano Ton Kalker IEEE - MMSP International WorkShop on Multimedia Signal Processing – PowerPoint PPT presentation

Number of Views:101
Avg rating:3.0/5.0
Slides: 19
Provided by: Dieg46
Category:

less

Transcript and Presenter's Notes

Title: A Review of Algorithms for Audio Fingerprinting


1
A Review of Algorithms for Audio Fingerprinting
  • Autores
    Pedro Cano
  • Ton
    Kalker

IEEE - MMSP International
WorkShop on Multimedia Signal Processing
2003
2
Introdução
  • O AudioFingerPrint é uma assinatura gerada do
    conteúdo do sinal do áudio.
  • Pode ser utilizado para identificar um som
    desconhecido rapidamente em uma base de músicas (
    idependente do formato do áudio )

3
Introdução
  • Neste trabalho avaliamos diferentes técnicas e
    modelos de Fingerprint.
  • Quando apresentado um audio desconhecido sua
    FingerPrint é calculada e comparada ( matching)
    com FingerPrints armazenadas em um Banco de
    Dados.
  • Usando bons algoritmos de matching até mesmo
    áudio com ruídos podem ser identificados.

4
Desafio
  • A grande dificuldade de identificar o audio
    automaticamente
  • 1 - Seu conteudo deriva de uma elevada
    dimensionalidade.
  • 2 - Existe uma variancia significativa dos
    dados de audio para uma música similar.

5
Pré - Requisitos
  • O sistema deve ser equivalente ao reconhecimento
    humando de uma determinada música.
  • Pequenos trechos arbitrários de uma música, devem
    ser suficientes para o reconhecimento.
  • Deve ser robusto o suficiente contra ruídos,
    gravação de má qualidade, low bit-rate,etc.

6
Feature Extraction
  • Extração de features é uma etapa fundamental que
    influencia diretamente no desempenho geral do
    sistema.
  • A configuração atual do audio é segmentado em
    janelas, onde cada janela é mapeada em uma
    representação espectral.

7
Training
  • Os vetores de features são normalizados.
  • Utiliza-se um classificador linear que se baseia
    em uma representação compacta dos vetores de
    training.
  • A classificação é realizada usando um padrão NN (
    Nearest Neighbor ).

8
Training
  • VQ ( Vector Quantizantion )
  • K means
  • RMSE ( Root Mean Square Error)
  • Code Vector ( FingerPrint)
  • Code Book

9
Matching
  • Para cada música um codebook é gerado e associado
    a um metadado
  • . Nome da Música
  • . Artista
  • . Genero
  • Para identificar um audio desconhecido, uma
    sequencia de vetores é gerado a partir da amostra
    deste audio e depois comparado ( aproximado ) a
    cada codebook da base de músicas.

10
Arquitetura do Sistema

11
Requisitos de Robustez
  • Cropping
  • Audio Encoding
  • Change volume
  • Noise
  • LoudSpeaker - Microfone

12
Requisitos Computacionais
  • Fingerprint é rápido.
  • Tarefa de matching é custosa dependendo do
    algoritmo de casamento, do tamanho da base e
    tamanho do fingerprint.

13
Avaliação
  • Um fator determinante no desempenho do sistema é
    a escolha de boas features.
  • . LoudNess
  • . SFM ótima para discriminar
    diferentes sinais de áudio.

14
Avaliação
15
Avaliação
16
Aplicações
  • Monitoramento de rádio.
  • Identificação de uma música e linking ao
    metadado.

17
Conclusões
  • Claramente ainda há um longo caminho para que o
    sistema seja tão eficaz em reconhecer determinada
    música comparado ao ouvido humano.
  • No entanto o atual nível de desempenho ja abre
    portas para um número interessante de aplicações.

18
Referências
  • K. El-Maleh, M. Klein, G. Petrucci, and
    P. Kabal. Speech music discrimination for
    multimedia applications. In ICASSP, vol. IV,
    pages 2445-2448, 2000.
  • E. Wold, T. Blum, D. Keislar, and J.
    Wheaton. Contentbased classification, search, and
    retrieval of audio. In IEEE Multimedia, vol. 3,
    pages 27-36, 1996.
  • A. K. Jain, R. P. W. Duin, and J. Mao.
    Statistical Pattern Recognition A Review. IEEE
    Transaction in Pattern Analysis and Machine
    Intelligence, 2(1), 2000.
  • E. Zwicker, and H. Fastl.
    Psychoacoustics. Springer, Berlin, 2nd edition,
    1999.
  • N. Jayant, and P. Noll. Digital Coding of
    Waveforms.Prentice-Hall, Englewood Cliffs, NJ,
    1984.
Write a Comment
User Comments (0)
About PowerShow.com