Jaka to melodia?

11-04-2018

TuneFollower to oprogramowanie, dzięki któremu prostsze będzie przetwarzanie, filtracja i analiza dźwięku. Jego autorem jest dr inż. Bartłomiej Stasiak z Wydziału Fizyki Technicznej, Informatyki i Matematyki Stosowanej, który dla PŁ porzucił pracę w orkiestrze Teatru Wielkiego w Łodzi.

Oprogramowanie to jeden z elementów Pana projektu, czy najważniejszy?

Oprogramowanie to podstawowy element projektu. Właśnie o to chodzi, aby nie był potrzebny żaden specjalistyczny sprzęt, a zwykły mikrofon (nawet taki wbudowany w laptopa) mógł posłużyć do akwizycji sygnału dźwiękowego do analizy. Mówimy tu zasadniczo o narzędziach do wyszukiwania wzorców melodycznych typu Query-by-Singing, albo inaczej Query-by-Humming (QbH). Pozwalają one np. na znalezienie piosenki, która „chodzi nam po głowie”, ale nie pamiętamy tytułu, ani wykonawcy. Teraz możemy po prostu zaśpiewać ją do mikrofonu i dostaniemy szczegółowe informacje na jej temat – o ile tylko znajduje się w bazie danych. System tego typu może być oczywiście zbudowany z elementów wziętych „z półki” (implementacje algorytmów, gotowe biblioteki programistyczne), ale zawsze pozostaje problem ich integracji, dostrojenia parametrów, itd. Tworząc wszystko samodzielnie miałem większą kontrolę nad każdym szczegółem, a poza tym mogłem uwzględnić pewne elementy innowacyjne poprawiające skuteczność działania.

Gdzie znajdzie zastosowanie to oprogramowanie?

Przede wszystkim w branży muzycznej, w usługach związanych z analizą i wyszukiwaniem nagrań. Pracujemy także nad zastosowaniami związanymi ze śledzeniem linii melodycznej w czasie rzeczywistym, pozwalającymi na tworzenie interaktywnych gier muzycznych i aplikacji edukacyjnych np. do ćwiczenia intonacji. Jako dyplomowany muzyk (od red. Bartłomiej Stasiak przed przyjściem na PŁ pracował w orkiestrze Teatru Wielkiego) i pedagog z wieloletnim doświadczeniem w szkolnictwie muzycznym, dostrzegam tu duży potencjał do wykorzystania.

Na jakim etapie prac jest projekt?

Podstawowe elementy systemu (algorytmy analizy częstotliwości podstawowej dźwięku, moduł indeksowania i porównywania linii melodycznych) zostały zintegrowane i dokładnie przetestowane, a skonstruowany system był weryfikowany przez kilka kolejnych edycji międzynarodowego konkursu MIREX (Music Information Retrieval Evaluation eXchange), uzyskując dobre wyniki. Kluczem do praktycznego wykorzystania i wdrożenia systemu typu QbH jest oczywiście baza nagrań, której opracowanie jest podstawowym celem w najbliższej przyszłości.

(…)

Jak działa zaproponowane przez Pana oprogramowanie?

Podstawowym celem realizowanym przez oprogramowanie o nazwie TuneFollower jest wyszukiwanie wzorców melodycznych w multimedialnych bazach danych. Wykorzystując analizę wysokości dźwięku i algorytm DTW (ang. Dynamic Time Warping) umożliwia ono porównanie tysięcy sekwencji melodycznych na sekundę, określając stopień podobieństwa bez względu na lokalne zmiany tempa i inne zakłócenia.

Dysponujemy również własną biblioteką narzędzi do przetwarzania dźwięku. (…)

Duży nacisk w ich projektowaniu i implementacji został położony na szybkość przetwarzania sygnału dźwiękowego, również w czasie rzeczywistym. Moje oprogramowanie zawiera wiele cech o charakterze innowacyjnym, jak np. mechanizm efektywnego indeksowania wzorców w przestrzeni wielowymiarowej i doboru długości wzorca oraz autorską technologię TuneFollower, pozwalającą na śledzenie sekwencji dźwiękowych w sposób zbliżony do analizy dokonywanej przez człowieka.

Na czym polega innowacyjność TuneFollowera?

Na tym, że nie jest doskonały (uśmiech). Potrafi Pani śpiewać? Ja też, i wielu osobom także się wydaje, że potrafią... ale to nie zawsze prawda. Nawet szkolonym głosom zdarza się czasem „zjechać” do innej tonacji i klasyczne algorytmy porównywania melodii mają wtedy problem. TuneFollower bierze pod uwagę możliwe niedoskonałości wykonania melodii, którą użytkownik ma na myśli i próbuje się do nich dostosować, „psując” trochę dopasowywany wzorzec, aby bardziej odpowiadał rzeczywistemu nagraniu.

Oczywiście nie można z tym przesadzić – żeby nie doprowadzić do sytuacji, w której zbyt intensywne modyfikacje wzorca pozwolą go dopasować do każdej możliwej melodii (to tak jakbyśmy potraktowali „Sto lat” jak fałszywie zaśpiewane „Kurki trzy”). Jednak wyniki badań jasno pokazują, że odpowiednie stosowanie tego mechanizmu pozwala faktycznie poprawić wyniki rozpoznawania wzorców melodycznych w przypadku dużej liczby nagrań pochodzących od niewyszkolonych użytkowników.

Jakiego rodzaju sygnały dźwiękowe będzie analizował ten program?

Przede wszystkim „monofoniczne”, tzn. ograniczone do pojedynczej linii melodycznej. Nagrania wielogłosowe są znacząco trudniejsze do analizy i – choć jest ona możliwa (jeden z prowadzonych przeze mnie doktoratów na naszym wydziale dotyczył właśnie tej tematyki) – to jednak ma nieco inne zastosowania.

(…)

Cały tekst na stronie internetowej cyklu Nauka Movi(e).

Agnieszka Garcarek, Dział Promocji