Biblioteca Digital da UEM: Sistema Nou-Rau
Pgina Principal  Portugus   English  Español   Aumentar Texto  Texto Normal  Diminuir Texto
  Principal | Apresentao | Objetivos | Instrues Autores | Estatsticas | Outras Bibliotecas Digitais
  Sistema Integrado de Bibliotecas - SIB / UEM
Entrar | acessos | verso 1.1  
ndice
Pgina principal
Documentos
Novidades
Usurios

Aes
Consultar
Procurar
Exibir estatsticas

Procurar por:
Procura avanada

Dvidas e sugestes


Consultar: Programa de Ps-Graduao em Cincia da Computao

Incio > Dissertaes e Teses > Cincias Exatas e da Terra > Cincia da Computao > Programa de Ps-Graduao em Cincia da Computao

Ttulo [PT]: Classificao de gneros musicais utilizando convolutional neural network e data augmentation
Autor(es): Rafael de Lima Aguiar
Palavras-chave [PT]:

Classificao de gneros musicais. Recuperao de informao musical. Espectrogramas. Deep learning. Data augmentation. Brasil.
Titulao: Mestre em Cincia da Computao
Banca:
Yandre Maldonado e Gomes da Costa [Orientador] - UEM
Diego Bertolini Gonalves - UEM
Carlos Nascimento Silla Junior - PUCPR
Resumo:
Resumo: Esta dissertao de mestrado aborda o problema de classificao de msicas em gneros musicais, que uma tarefa de reconhecimento de padres aplicada em recuperao de informao. Ao invs de manipular diretamente o sinal de udio, sugerimos utilizar o domnio visual, imagens de espectrogramas. Essas imagens vem sendo empregadas com sucesso nessa finalidade desde 2011 e o principal atributo visual delas a textura. O diferencial deste trabalho a abordagem utilizada para classificao e as tcnicas de manipulao e aumento da base de dados que so empregadas. Para classificao usamos as redes neurais convolucionais, CNNs. Elas so tcnicas de aprendizagem profunda, {deeplearning, e vem sendo bastante utilizadas na literatura de reconhecimento de padres. A aprendizagem profunda e as CNNs foram inspiradas no crebro humano e no sistema visual dos mamferos, respectivamente. Uma dificuldade recorrente quando se utiliza CNNs o overfitting, que ocorre normalmente devido a uma quantidade insuficiente de amostras de treino. Para solucionar esse problema propomos explorar tcnicas de data augmentation que incluem meios de segmentar o espectrograma e a manipulao direta do sinal do udio como, por exemplo, alterao da tonalidade da msica e separao de elementos harmnicos e percussivos do udio. Essas tcnicas devem gerar mais amostras para o treino da rede neural e so empregadas at mesmo no conjunto de teste, j que esse emprego se mostrou adequado em outros trabalhos. Os experimentos deste trabalho foram executados utilizando The Latin Music Database e o melhor resultado obtido superior ao resultado encontrado que utiliza apenas CNN e prximo do estado da arte.

Abstract: In thiswork, wepresent a master dissertation addressing automatic music genre classification as a patter recognitiontask. The content of the music pieces were described using features obtained in the visual domain, by using spectrograms created from the audio signal. This kind of image has been successfully used in thistasksince 2011 by exploring the main visual attribute that can be found in this kind of image (i.e. texture). In this work, the patterns were described by using representation learning. For this, convolutional neural networks (CNN) were used. CNN is a deep learning architecture and it has been widely used in the literature of pattern recognition. Deep learning is inspired in the human brain and CNNs in the mammal visual system. Overfitting is a recurrent problem when a classification problem is addressed by using CNN, it may occur due to the combination of lacking of training samples and a high dimensionality space. To address this problem we propose to explore data augmentation techniques. In this application domain, examples of data augmentation techniques are: cropping spectrogram images, changing the pitch of a music piece and separating harmonic and percussive components of the sound. Such procedures are implemented in both training and testing sets. In this work we present results obtained with The Latin Music Database and the best accuracy we acquired is close to the state of the art and outcome the best system we known based only in CNN.
Data da defesa: 21/07/2017
Cdigo: vtls000227113
Informaes adicionais:
Idioma: Portugus
Data de Publicao: 2017
Local de Publicao: Maring, PR
Orientador: Prof. Dr. Yandre Maldonado e Gomes da Costa
Instituio: Universidade Estadual de Maring . Centro de Tecnologia . Programa de Ps-Graduao em Cincia da Computao
Nvel: Dissertao (mestrado em Cincia da Computao)
UEM: Departamento de Informtica

Responsavel: edson
Categoria: Aplicao
Formato: Documento PDF
Arquivo: dissertacao.pdf
Tamanho: 18737 Kb (19186912 bytes)
Criado: 30-11-2017 17:13
Atualizado: 30-11-2017 17:53
Visitas: 321
Downloads: 26

[Visualizar]  [Download]

Todo material disponvel neste sistema de propriedade e responsabilidade de seus autores.