25 rozmów na 25-lecie Fundacji. Fundacja na rzecz Nauki Polskiej obchodzi w tym roku 25-lecie swojej działalności. Z tej okazji zaprosiliśmy 25 laureatów naszych programów do rozmowy o tym, jak się ?robi? naukę. Co ich fascynuje? Co jest tak ciekawe i ważne w tym, czym się zajmują, że zdecydowali się poświęcić temu większą część życia? Jak osiąga się sukces?
Bohaterki i bohaterowie wywiadów to badacze, którzy reprezentują wiele odległych od siebie dziedzin, są na różnych etapach kariery naukowej i mają różnorodne doświadczenia. Łączy ich jedno ? uprawiają naukę na światowym poziomie, mają na koncie imponujące osiągnięcia, a w swoim bogatym CV ? różnego typu wsparcie od FNP. Kolejne wywiady będą ukazywać się cyklicznie na stronie FNP.
Zapraszamy do lektury!
Innowacyjnym pomysłom trzeba stworzyć klimat
Z Tomaszem Szwelnikiem, współautorem nowatorskiej technologii rozpoznawania mowy, rozmawia Aleksandra Stanisławska.
Zdjęcie udostępnione przez T. Szwelnika
Aleksandra Stanisławska: Zajmuje się Pan rozpoznawaniem mowy. Skąd wziął się ten pomysł?
Tomasz Szwelnik: Od dawna interesowałem się przetwarzaniem mowy oraz sygnałów cyfrowych związanych z muzyką. Ukończyłem Politechnikę Gdańską na specjalności Inżynieria dźwięku, a moja praca dyplomowa dotyczyła m.in. usuwania szumów ze starych płyt przy wykorzystaniu sieci neuronowych, a więc również przetwarzania dźwięku. Okazało się, że to, co mnie przed laty fascynowało, przydało się do stworzenia podstaw VoiceLab. Zresztą, moja fascynacja tym tematem trwa nadal.
Tworzenia technik rozpoznawania mowy próbowało wielu, ale niewielu to się udało, zwłaszcza w odniesieniu do języka polskiego. Dlaczego to taka trudna sztuka?
Język polski należy do języków trudniejszych w rozpoznawaniu mowy niż np. angielski. Przyczyną jest to, że ma więcej słów, które w dodatku podlegają odmianie, w związku z tym potrzeba więcej danych, żeby dany język rozpoznawać. Wymowa wielu słów jest również trudniejsza ze względu na występowanie specyficznych głosek. Ponieważ w VoiceLab poradziliśmy już sobie z językiem polskim, teraz przechodzimy do kolejnych wersji językowych ? mamy przygotowane wersje demonstracyjne dla języków niemieckiego i angielskiego, a wkrótce będzie ich więcej.
VoiceLab ma silną konkurencję ze strony dużych koncernów jak Apple, Microsoft czy Google, które tworzą własne systemy rozpoznawania mowy. Nie zniechęca to Pana?
Kiedy rozpoczynaliśmy działalność, niektórzy twierdzili, że to, co robimy, jest porywaniem się z motyką na słońce. Po przeprowadzeniu wielu eksperymentów uznałem, że VoiceLab jest w stanie podjąć takie wyzwanie. Ta pewność z mojej strony wiązała się również z postępem technologicznym ? wcześniejsze systemy rozpoznawania mowy napotykały barierę związaną ze sprzętem i dostępem do danych. Z czasem jednak poprawiła się infrastruktura techniczna: serwery stały się szybsze, łatwiejszy jest dostęp do większej ilości pamięci oraz nagrań mowy. Przetestowałem systemy rozpoznawania mowy tworzone przez konkurencję i stwierdziłem, że nie wszystko w tej dziedzinie działa, jak trzeba, i wiele możemy jeszcze uzyskać, zwłaszcza w zakresie rozpoznawania mowy ciągłej.
Jakie innowacje względem konkurencyjnych systemów Pan wprowadził?
Tym, co nas odróżnia od konkurencji, jest to, że jesteśmy w stanie lepiej przygotować system rozpoznawania mowy dedykowany dla danej branży, np. medycznej czy finansowej, działający na komputerze czy urządzeniu bez połączenia z internetem, dla aplikacji mobilnych oraz rozwiązań serwerowych. Ponadto, w przeciwieństwie np. do systemu Google, który przesyła swoje dane na serwery gdzieś w Kalifornii, nasz system może działać bez połączenia z chmurą danych. To oznacza, że np. wrażliwe dane bankowe pozostają na miejscu, na lokalnych serwerach klienta, co zapewnia im większe bezpieczeństwo.
A jak od strony technicznej działa system rozpoznawania mowy stworzony przez VoiceLab?
To dość skomplikowany proces. Mowę, czyli sygnał analogowy, najpierw zamieniamy na postać cyfrową. Następnie system analizuje określone parametry mowy, jej charakterystyczne cechy. Oprogramowanie weryfikuje wiele tysięcy hipotez, poszukując wśród zgromadzonych próbek tych najbardziej pasujących do przetwarzanej sekwencji zgodnie z modelem akustycznym oraz modelem języka. Dekoder wybiera najtrafniejszą hipotezę, przetwarzając fale dźwiękowe mowy na ciąg liter. Testujemy też nowe podejście do rozpoznawania mowy, w którym traktujemy reprezentację sygnału mowy jako obraz. Nie rozpoznajemy już konkretnych parametrów dźwięku, tylko analizujemy wykres jego charakterystyki, tzw. spektogram. Traktujemy to jako zbiór pikseli, z których staramy się wyodrębnić cechy charakterystyczne dla danej głoski. Przy obu typach przetwarzania mowy wykorzystujemy głębokie sieci neuronowe (ang. Deep Neural Networks), które uczą się rozpoznawania na podstawie dużej ilości nagrań mowy wraz z ich transkrypcją, czyli tym, co zostało powiedziane.
Jak wygląda wykorzystanie i zbieranie próbek mowy dla takich systemów? Aby zgromadzić duże ilości danych głosowych, trzeba dysponować ogromną bazą danych.
Proces ten nazywa się konstruowaniem modelu akustycznego. Tutaj faktycznie potrzebne są duże ilości sprzętu. Używamy wielu serwerów i wielu tysięcy procesorów. Największe zasoby procesorowe potrzebne są do treningu modelu akustycznego. Aby przyspieszyć te działania, stosujemy technologie wykorzystujące karty graficzne do przetwarzania i obliczeń numerycznych. To jeden z najnowszych trendów w tej dziedzinie, dający nam wielokrotne przyspieszenie względem klasycznych metod przetwarzania danych. Dzięki temu możemy szybciej przeprowadzać pewne eksperymenty i optymalizować parametry działania naszego systemu. W konstruowaniu systemów rozpoznawania mowy położyliśmy duży nacisk na gromadzenie nagrań próbek mowy ? zebraliśmy je od ponad 6 tys. osób tylko dla języka polskiego. Aby system działał sprawnie, potrzeba nagrań pochodzących z różnych źródeł, dlatego gromadzimy również dane z takich źródeł jak YouTube, nagrania sądowe czy sejmowe, z radia i telewizji. Im większy zbiór takich próbek, tym lepiej działa system rozpoznawania mowy.
Czy rozpoznawanie mowy ciągłej, w której specjalizuje się Pańska firma, jest trudniejsze od rozpoznawania komend głosowych, znanych m.in. ze smartfonów z systemami Android czy iOS?
Przy rozpoznawaniu komend trzeba zdefiniować określoną liczbę słów, fraz oraz ich różnych kombinacji, które interpretuje dekoder. W przypadku rozpoznawania mowy ciągłej jest to bardziej skomplikowane. Po pierwsze, trzeba stworzyć o wiele większy słownik, uwzględniający większą swobodę użycia słów. Po drugie, taki potok słów wymawianych swobodnie analizowany jest przy użyciu modelu języka. Uwzględnia on prawdopodobieństwo występowania określonych słów obok siebie w zależności od używanego słownictwa. Inny zestaw słów będzie używany w języku prawniczym, a inny w medycznym, czy bankowym.
W której z dziedzin obecnie najchętniej stosowane są narzędzia rozpoznawania mowy?
Taką dziedziną jest np. bankowość głosowa, czyli wydawanie poleceń głosowych aplikacji bankowej w formie swobodnej wypowiedzi i prowadzenia dialogu. Użytkownik może komunikować się z interfejsem analogicznie jak w przypadku systemów SIRI, Cortana czy Google Now. Dzięki temu można jedną frazą, bez wielokrotnego klikania wykonać szybko przelew, mówiąc: ?Przelej 20 zł do Jana Kowalskiego jutro?. W tym przypadku przydaje się również biometria głosowa, która identyfikuje wykonującego ten przelew i autoryzuje jego dostęp do konta bankowego. Nasz system VoiceBankingu wdrożyliśmy w banku Meritum i banku Smart oraz przygotowujemy się do wdrożeń w kolejnych bankach. Zajmujemy się również rozpoznawaniem mowy za pomocą systemu VoiceLab Analyze, który automatyzuje pracę ludzi w centrach telefonicznych, analizując tysiące godzin nagranych rozmów pod kątem występowania kluczowych fraz, kategoryzowania tematów rozmów oraz rozpoznawania emocji. Z kolei jednym z naszych najnowszych rozwiązań jest program do dyktowania VoiceLab Dictate, który już niedługo znajdzie się na półkach sklepowych wraz z dyktafonem firmy Olympus. Program ten otrzymał Złoty Medal targów innowacji INTARG 2016, co pokazuje zaawansowanie naszej polskiej technologii na tle innych rozwiązań w kraju oraz za granicą.
A jak VoiceLab radzi sobie z identyfikacją głosową ludzi mających chrypę czy katar? To chyba duże wyzwanie dla oprogramowania.
Nasz system bazuje na rozpoznawaniu parametrów charakterystycznych dla traktu głosowego, niepowtarzalnego dla każdego człowieka. Zidentyfikuje głos nawet wtedy, kiedy jest on lekko zmieniony wskutek przeziębienia. Przy poważnych zmianach traktu głosowego identyfikacja głosu może się jednak nie powieść.
Widzę, że zakres działań Pańskiej firmy jest naprawdę szeroki. A jak wyglądały początki VoiceLabu?
Sięgają one 2009 roku, kiedy to zostałem laureatem programu Fundacji na rzecz Nauki Polskiej INNOWATOR. Był to pierwszy poważny zastrzyk finansowy dla VoiceLabu na etapie zalążkowym, który pozwolił pchnąć do przodu wdrożenie naszego produktu. Nagroda ta wiązała się też ze wsparciem szkoleniowym, nieocenionym zwłaszcza na tym wczesnym etapie rozwoju. Dzięki dofinansowaniu udało się nam zweryfikować różne koncepcje i założenia techniczne, dzięki czemu nasz projekt znacznie zyskał na jakości. Otrzymane wsparcie uruchomiło też lawinę kolejnych działań na rzecz rozwoju firmy. Złożyliśmy wniosek o dotację z Programu Operacyjnego Innowacyjna Gospodarka i otrzymaliśmy kolejne fundusze. Potem pozyskaliśmy inwestora prywatnego ? Jacka Kawalca, współzałożyciela Wirtualnej Polski, który jest z nami do dziś. Dzięki tym zastrzykom finansowym mogliśmy wreszcie przestać myśleć o bieżącym utrzymaniu firmy, a skupić na rozwijaniu zespołu i produktu, nad którym pracowaliśmy. Obecnie naszym głównym tematem zainteresowań jest rozwój głębokich sieci neuronowych będących podstawą systemów, które opracowujemy i wdrażamy.
Czy dostępne w Polsce narzędzia finansowego wspierania innowacyjnych przedsiębiorców są wystarczającą stymulacją dla raczkującego biznesu?
Środki, które firma VoiceLab otrzymała od Fundacji na rzecz Nauki Polskiej w konkursie INNOWATOR oraz z Programu Operacyjnego Innowacyjna Gospodarka, bardzo usprawniły jej rozwój w początkowym stadium. Gorzej było z późniejszymi etapami realizacji naszego projektu. Tak się złożyło, że mieliśmy wówczas problemy z płynnością finansową. Banki nie były chętne do udzielenia kredytu, ale na szczęście udało nam się skorzystać z funduszu pożyczkowego przeznaczonego dla start-upów. Przydałoby się więc bardziej stabilne finansowanie badań dla takich firm jak nasza, które na innowacje przeznaczają duże środki. Moim zdaniem w Polsce wciąż jest za mało instrumentów finansowych przeznaczonych na ten cel. Problemem jest również duża biurokracja w procesie pozyskiwania środków, zwłaszcza funduszy unijnych. Efekt bywa taki, że innowacyjni przedsiębiorcy toną w robocie papierkowej, zamiast przeznaczać większość swoich sił na badania i rozwój produktu. Również czas trwania procesu decyzyjnego w przyznawaniu środków dla firm pozostawia w naszym kraju wiele do życzenia. Jeśli trwa to np. pół roku, to w tym czasie świat może pójść do przodu, przez co zmieni się też technologia opisana we wniosku.
Dziedzina, którą Pańska firma się zajmuje, wymaga wyjątkowej specjalizacji. Jak VoiceLab gromadził zespół?
Położyliśmy duży nacisk na to, by stworzyć firmę przyjazną dla pracowników, przyciągającą do siebie przedstawicieli środowiska naukowego, specjalistów w swoich dziedzinach. Blisko współpracujemy z Politechniką Gdańską, skąd przychodzą do nas do pracy studenci i absolwenci, którzy chętnie rozwijają u nas własne projekty, również w ramach realizowanych wspólnie z nami prac dyplomowych. Przyciągamy młodych, zdolnych ludzi, których nie interesuje praca w dużych korporacjach. U nas mogą rozwijać nowe technologie praktycznie od zera. Dajemy naszym ludziom dużą swobodę działania i możliwość ujrzenia efektów swojej pracy na żywym organizmie. Sprzyja temu panujący u nas start-upowy klimat: mamy dużo spotkań, chętnie dzielimy się wiedzą i pozwalamy pracownikom na rozwój zainteresowań przyniesionych tutaj z ich macierzystych uczelni.
Czy dzięki takiej filozofii prowadzenia firmy łatwiej jest tworzyć innowacyjne produkty?
Dochodzenie do konkretnych działających rozwiązań oznacza testowanie wielu hipotez, przeprowadzenie wielu eksperymentów i popełnienie wielu błędów, zanim osiągnie się upragniony cel. To wszystko jest wpisane w rozwój innowacyjnych firm. Odwiedziłem Dolinę Krzemową i widziałem tam wiele przedsiębiorstw, które działały właśnie w ten sposób. Co więcej, uważam, że jakość naszych rozwiązań nie odbiega od tego, co jest tam wytwarzane. Mogę śmiało powiedzieć, że tworzymy zaawansowane technologicznie rozwiązania na najwyższym światowym poziomie. A jest to zasługa ludzi, którzy u nas pracują i atmosfery kreatywności, jaką wszyscy razem tworzymy. Bez tego nie da się dojść do sukcesu w branży nowych technologii.
Tomasz Szwelnik, współzałożyciel i prezes firmy VoiceLab, laureat programu FNP INNOWATOR (2008).
Przeczytaj także: