PESC publications Separação de Fontes Sonoras Auxiliada por Deep Learning

Authors:

Autores

id	Person role	Person	url
7108	Jéssica Richards Nascimento	3134,2489
7109	Carlos Eduardo Pedreira (Leader)	3134,2489

Informations:

Pesc publication

3033

Title

Separação de Fontes Sonoras Auxiliada por Deep Learning

Identification Number

Date

12/14/2021

tituloi

Resumo

Um stream auditivo é um grupo de sons que no entendimento humano pertencem à mesma cena. O uso de máscaras binárias para separar uma cena auditiva em dois ou mais streams tem se mostrado muito efetivo. Abordagens mais recentes usam métodos de aprendizado supervisionado para gerar essas máscaras. Os áudios utilizados nos experimentos foram gerados artificialmente, uma mistura de vogal falada e outro áudio. O trabalho utiliza esses áudios monoaurais, propondo encontrar uma máscara binária para o stream de interesse. Para encontrar essas máscaras duas abordagens foram utilizadas: a primeira trabalha com os coeficientes de frequência mel e rede neural convolucional, e a segunda com os espectrogramas dos áudios e uma rede U-Net. A primeira abordagem não se mostrou muito efetiva. A segunda apresentou melhores resultados.

Abstract

An auditory stream is a group of sounds that in human perception belong to the same scene. The use of binary masks to segregate an auditory scene in two or more streams has shown to be very effective. More recent approaches use supervised learning models to create these binary masks. The audios used in the experiments were artificially created, a mixture of vowel sound and other audio. The work uses these monaurals audios, proposing to find a binary mask for the stream of interest. To find these masks two approaches were explored: the first one uses the mel frequency cepstral coefficients and the convolutional neural network, and the second one uses the audios spectrograms and a U-Net network. The first approach wasn’t very effective. The second presented better results.

File

3033.pdf

url