Przejdź do treści

Lista wynalazków

Prezentacja wynalazku

System głosowej komunikacji dla osób niepełnosprawnych

autorzy: Petros Psyllos, MSc

Projekt jest specjalnie przystosowanym tabletem z autorskim oprogramowaniem, pozwalającym osobom niemówiącym na komunikację ze światem. Przy jego pomocy możemy utworzyć dowolne komunikaty, które zostaną zamienione na mowę przez syntezator mowy. Komunikaty zapisujemy w szufladkach, aby można było je wykorzystać w przyszłości bez potrzeby ponownego wprowadzenia tekstu. Sztuczna inteligencja podpowiada użytkownikowi fragmenty wypowiedzi, co znacząco zwiększa prędkość wpisywania. Ponadto zastosowane rozwiązania z dziedziny uczenia maszynowego umożliwiają przywrócenie brzmienia dawnego głosu na bazie próbek nagranej wcześniej mowy. Program może zostać zainstalowany na dowolnym tablecie lub smartfonie. Projekt został przetestowany przez osoby z częściową i całkowitą niepełnosprawnością fizyczną oraz przez osoby z ASD i ALS, we współpracy z którymi jest rozwijany. Do odczytywania wprowadzonych wypowiedzi można wybrać standardowy syntezator mowy Google lub (opcjonalnie) spersonalizowany syntezator mowy, który pozwala na generowanie (imitację) mowy wybranej osoby – między innymi dawnego głosu osoby, która już nie może mówić i aktualnie korzysta z aplikacji. System syntezy spersonalizowanej mowy bazuje na głębokich splotowych sieciach neuronowych (CNN), zajmujących się przetwarzaniem sekwencyjnych danych w postaci mowy - generowaniem kolejnych próbek dźwiękowych na podstawie wpisanego tekstu. Wygenerowany głos jest następnie przetwarzany przez filtry cyfrowe oraz inne metody, usuwające np. fragmenty ciszy. Uzyskany efekt jest bardziej naturalny niż w przypadku syntezatorów mowy typu Ivona i pozwala na częściowe przywrócenie dawnego głosu, który jest cechą definiującą daną osobę. Ta funkcjonalność wymaga jednak wcześniejszego nauczania sztucznej sieci neuronowej na bazie dawnych nagrań głosu oraz połączenia z chmurą obliczeniową, gdzie sieć neuronowa przetwarza dane. Aplikację możemy zainstalować na dowolnym tablecie lub smartfonie. Z programu możemy korzystać w 3 trybach sterowania – z wirtualną klawiaturą ekranową, zewnętrzną klawiaturą lub specjalnym układem, który może monitorować ruch wybranych mięśni. Istnieje możliwość połączenia programu ze wzrokowym systemem sterowania lub innymi kontrolerami. Przyszłość: trwają prace nad dodaniem opcji wyświetlania awatara (na dodatkowym ekranie, zwróconym w stronę rozmówcy), który będzie naśladował wizerunek użytkownika. W ten sposób osoba niemówiąca będzie mogła mówić swoim dawnym głosem, wprawiającym w ruch generowany przez głębokie sieci neuronowe fotorealistyczny wizerunek użytkownika. Dodatkowo prowadzone są eksperymenty nad uwydatnianiem niektórych emocji lub akcentowaniem podczas odczytywania tekstu przez syntezator. Sprawi to, że każdy, kto stracił głos, będzie mógł przy pomocy systemu wyrazić swoją osobowość.

Dostępność plus

Nagroda

Special award of Toronto International Society of Innovation & Advanced Skills TISIAS, Canada

Medal


Srebrny Medal

Ochrona własności intelektualnej

Know how

poziom gotowości technologicznej

TRL 6 skala pół przemysłowa

Polski
English
Facebook
youtube