AI dokáže vytvořit otisk vašeho hlasu s 256 čísly. Rozpozná ho za dvacet sekund

Homepage

AI dokáže vytvořit otisk vašeho hlasu s 256 čísly. Rozpozná ho za dvacet sekund
Umělá inteligence je jakožto nástroj pro budoucnost velmi důležitá. Foto: Klára Bašeová

Brno - Hlas je stejně jedinečný jako otisk prstu. To, jak široký máme hrtan, jak tenké jsou naše hlasivky, jaký máme tón hlasu a jak máme postavené zuby, dělá náš hlas výjimečným. Z těchto informací je schopná umělá inteligence vytvořit jedinečný hlasový profil každého z nás. O unikátnosti hlasu promluvili Ivana Týralová ze společnosti Phonexia a doktorand z VUT Vojtěch Staněk na přednášce festivalu umělé inteligence Dny AI.

„Systém prvně extrahuje charakteristiky hlasu z nahrávky, poté tyto charakteristiky putují do hluboké neuronové sítě (=výpočetního modelu umělé inteligence, trénovaného na tisíci vzorků) a poté se vytvoří jedinečný hlasový otisk v podobě vektoru 256 čísel. Pro vystavení hlasového otisku je potřeba alespoň dvacet sekund mluveného hlasu. Pro rozpoznání už jen tři sekundy. Třeba když Petr Novák volá do banky a chce se dostat do svého účtu a oni si chtějí ověřit, že to je opravdu on, tak stačí když bude tři sekundy mluvit do telefonu a oni záznam porovnají s tím, co mají v databázi,“ popisuje Ivana Týralová ze společnosti Phonexia zabývající se hlasovou biometrií a rozpoznáváním řeči.

Stejně jako při odebírání otisku prstu, kde se musí prst pořádně položit, aby stroj mohl všechny linky vykreslit, tak je pro rozpoznání hlasu důležitá dostatečná kvalita audia. Technická kvalita závisí na tom, v jakém formátu a na jakém přístroji je audio zpracované. Důležité je, aby nebyla velká část zkomprimovaná, s tím nemůže systém pracovat. Zvukovou kvalitu ovlivňují šumy a hlasy z okolí, jedoucí auta a tak dále.

„Přesnost systému je 97% aniž by došlo k nějaké adaptaci, zvýšení přesnosti na konkrétních datech. U nachlazení může dojít k malému rozdílu, ale pořád identifikace proběhne. Podrobili jsme technologii i identifikaci hlasu při silné kocovině a stejně to fungovalo. Pokud tam není nějaký zásadní problém, třeba nějaký závažný zdravotní, když lidé nemohou mluvit, tak by to mělo fungovat. Je ale vhodné každých deset let udělat nový hlasový profil, protože určité hlasové ústrojí se během let trochu mění,“ vysvětluje Ivana Týralová.

Jedním z možného zneužití technologií na rozpoznávání hlasu jsou DeepFakes, což znamená, že si někdo nahraje váš hlas a vydává se za vás. Mezi další hrozby patří různé manipulace s nahrávkou a možnost vytvoření syntetického hlasu. Výzkumu v oblasti rozpoznání hlasu i řečníka, detekci deepFakes a jiné práci s hlasem, se věnují na Fakultě informačních technologií VUT výzkumníci ze skupiny “řečařů“ z BUT Speech@FIT a skupiny bezpečnosti Security@FIT.

„Největším tématem jsou DeepFakes, kde jsme se společností Phonexia v projektu Nástroje boje proti hlasovým DeepFakes, který financuje Ministerstvo vnitra ČR. Pracujeme na tom, jak DeepFaky odhalit, což ale znamená, že musíme rozumět i tomu, jak DeepFaky vznikají, jaké technologie se používají při tvorbě syntetického hlasu, že existuje i tónování hlasu a spousta dalších drobných nuancí, které je potřeba znát,“ dodává doktorand Vojtěch Staněk z FIT VUT.

Nástroje umělé inteligence k rozpoznání řeči využívají armády, policie, věznice a jiné státní útvary po celém světě. Na dennodenní bázi se setkáme s AI pouze při telefonických hovorech, s podporou v podobě chatbotů, anebo při psaní úkolů a generování obrázků.

„Celá technologie na rozpoznání řeči mi přijde fascinující. Ale mám jen zkušenost, kdy jsem komunikovala s chatbotem, když jsem potřebovala něco vyřešit, ale moc mi nerozuměl, takže mi ani nemohl poradit,“ vyjadřuje názor studentka Matematické biologie a biomedicíny z Masarykovy univerzity, která navštívila přednášku.

Další články o stisk online