3 kroky, vďaka ktorým sa ukrajinskému startupu podarilo oživiť hlas Jula Satinského

Na vytvorenie piatich minút novo nahovoreného textu sa musela použiť technológia „deep learning“. Využíva neurónovú sieť, ktorá spracovala hodiny audio nahrávok slovenskej legendy. Pomocou nich sa AI model učil rozpoznávať opakované vzory v hlase Júliusa Satinského, vrátane rôznych polôh hlasu a emócií.

Ako je možné, aby Julo Satinský hovoril dnes slová, ktoré nikdy nenahral? Hovorí sa tomu ,Speech to speechʽ spôsob spracovania hlasu. Potrebná je na to umelá inteligencia, ktorá dokáže na základe vstupných dát – v tomto prípade pôvodný Julov hlas – vytvoriť jeho syntetickú zvukovú kópiu.

„Väčšina spracovávaného obsahu pochádzala z analógových nahrávok, ktoré boli vytvorené začiatkom 90. rokov. Najnovšia z použitých nahrávok hlasu Júliusa Satinského bola vytvorená v roku 1994,“ vysvetľuje Volodymyr Ovsiienko, Business Development Executive ukrajinskej spoločnosti Respeecher, ktorá vytvorila syntetický hlas Jula Satinského.

Respeecher analyzoval po kvalitatívnej stránke hodiny získaného materiálu, z ktorých vyselektoval 40 minút technicky nezávadného a kvalitou dostačujúceho zvukového materiálu. Je to minimálna potrebná minutáž, s ktorou spoločnosť dokáže pracovať v rámci technológie „deep learning“, využívajúcej neurónovú sieť AI. Dôležitá bola najmä čistota nahrávky a absencia rušivých zvukov v pozadí.

V hlavnej úlohe najnovšia AI technológia

Následne začal ukrajinský startup pomocou nahrávok trénovať AI model, ktorý rozpoznával a učil sa určité opakované vzory v hlase Júliusa Satinského, vrátane rôznych polôh hlasu a emócií.

Okrem samotného hlasu sa program umelej inteligencie učil rozoznávať a imitovať aj fonetiku slovenského jazyka. Umelá inteligencia v tomto prípade nerozoznáva reč na úrovni jednotlivých slov, ale na základe zvukov, ktoré sa v danom jazyku nachádzajú a vzoru ich vzájomného fonetického usporiadania. Táto fáza trvala umelej inteligencii približne 2 týždne.

Julov hlas Respeecher následne aplikoval na podklad, ktorý v štúdiu nahral slovenský herec Michal Hudák. Jeho úlohou bolo zvoliť čo najautentickejšie tempo reči, intonáciu, frázovanie, akcent a zhmotniť v hlase emócie, ktoré by zodpovedali verbálnemu prejavu Jula Satinského. Proces aplikácie už hotového Julovho hlasu na surovú zvukovú nahrávku trval spoločnosti týždeň.

Celkovo vzniklo 5 minút audio materiálu so Satinského hlasom, ktorý znie v novej kampani Slovenskej sporiteľne. O úspechu technologickej stránky projektu hovoria aj vyjadrenia rodiny, ktorá potvrdila vysokú mieru autentickosti nových nahrávok s Julovým originálnym hlasom.

Unikát vďaka svetovému lídrovi z Ukrajiny a najnovšej technológii

Ide o vôbec prvý projekt svojho druhu na Slovensku a zároveň prvú slovenskú spoločnosť, ktorá spolupracovala s ukrajinským startupom Respeecher na vytváraní hlasu pomocou umelej inteligencie.

Respeecher vznikol ako startup v roku 2018. Založili ho Alex Serdiuk, Dmytro Bielievtsov a Grant Reaber. Dnes je považovaný za svetového lídra vo svojej oblasti v používaní umelej inteligencie a neurónovej siete, ktorá dokáže na základe vstupných dát v podobe existujúceho audio-obsahu vytvoriť verný profil charakteru vybraného hlasu. Ten je potom možné aplikovať na rečový prejav inej osoby (spravidla dabéra), čím ho zámerne modifikuje.

Táto spoločnosť stojí napríklad za tvorbou hlasu postavy Darth Vader v seriáli Obi-Wan Kenobi a postavy Luke Skywalker v seriáli Mandalorian. Spoločnosť Respeecher využíva technológiu iba v súlade s právnymi normami a so súhlasom všetkých majiteľov autorských práv vrátane rodiny.

Technologický spôsob spracovania hlasu, ktorému sa Respeecher venuje, sa diametrálne odlišuje od rozšírenejšej technológie „Text to speech“ (TTS), ktorú používatelia poznajú najmä z digitálnych prekladačov, čítačiek kníh či hlasových asistentov. TTS z textu nedokáže vytvoriť emócie, a tak je hlas často neprirodzený (tzv. robotický). Nezohľadňuje taktiež intonáciu hlasu, tá sa riadi len prednastaveným algoritmom a interpunkciou v texte.