Extracción de información de platillos

Cálculo del área oscura

Idea

Para extraer información de posicionamiento relativo de los platos entre sí, se observó que al abrirlos se genera un área oscura en las caras internas de los mismos, producto de la poca luz que entra por la forma de campana que estos tienen, de la iluminación lateral y del reflejo de la luz con las camperas de color oscuro.

Se analizó en un principio utilizar la detección de manos para definir que zona especifica observar para buscar el área oscura, sin embargo debido al posicionamiento de las cámaras y al movimiento de los músicos (dificultad prevista previamente), no es posible posicionar correctamente las manos.

Luego de descartada esta posibilidad, se observo que mas allá de la variación del área oscura, el resto de los colores oscuros presentes en la imagen se mantienen presentes a lo largo del video, o tienen una variación mucho mas lenta que proviene del movimiento del músico. Con esta consideración, se procedió a enmascarar los colores oscuros y calcular el área de esta mascara.

Refinado de parámetros

Los resultados de el área hallada se filtraron pasabajos mediante una media móvil para quitar los picos generados por la baja calidad de la imagen y otros ruidos no deseados. Y luego se filtró pasa altos, para eliminar la variación lenta del color total, proveniente del movimiento de los músicos en el cuadro.

Se graficó el valor calculado sobre la pista de audio, y se observó que mostraba picos de amplitud en los mismos instantes que los mínimos del área, como era esperado. También se hallaron los picos mínimos (instante de cierre de los platos) y se graficaron estos puntos temporales sobre la señal de audio para verificar la detección de golpes y optimizar los parámetros disponibles (ancho de la media móvil, frecuencia de corte del filtro pasa altos, ancho y prominencia de los picos calculados, etc.).

El ultimo paso de optimización de parámetros consistió en la aplicación de un "flash" sobre el video del músico en cada pico detectado. Con este ultimo método se observo que los resultados obtenidos captan un alto porcentaje de golpes, pero también se detectan golpes en momentos donde no los hay. Sin embargo este análisis sumado a un estudio del audio puede complementarse de buena forma.

Generalización

El siguiente paso consistió en aplicar el método de los flashes a distintos videos, sin analizar el audio, y se verifico que los parámetros hallados son bastante generales.

Etiquetado

Por ultimo se buscó etiquetar los golpes en función de la información de la sombra, para esto se tuvo en cuenta dos factores:

  • La cercanía entre picos, ya que dos golpes muy seguidos no pueden ser muy abiertos y por lo tanto serán un tipo de golpe cerrado
  • La presencia de un pico invertido (mucha sombra) grande entre dos golpes, lo cual correspondería a un golpe abierto.
Proyecto Final - TImag 2019 - Facultad de Ingeniería - Universidad de la República - Uruguay
Creado con Webnode
¡Crea tu página web gratis! Esta página web fue creada con Webnode. Crea tu propia web gratis hoy mismo! Comenzar