AI - Klonování lidského hlasu

Jedním z významných rizik spojených s umělou inteligencí a autorskými právy je klonování lidského hlasu. Technologie AI je schopna velmi realisticky napodobit hlas konkrétní osoby, což může být vnímáno jako zásah do osobnostních práv, jelikož hlas je považován za citlivý osobní údaj. Zvláštní etické dilema pak vyvstává při oživování hlasů zesnulých, například herců nebo jiných známých osobností. Často se totiž stává, že rodiny zesnulých nesouhlasí s tím, aby byl jejich příbuzný takto „oživován“ a komerčně využíván (například pro dabing filmů či seriálů). Dalším kontroverzním tématem je možnost „oživení“ mrtvých osob prostřednictvím jejich virtuálních avatarů. I v tomto případě využití AI nástrojů narážíme na řadu etických otázek.

K vytvoření naklonovaného hlasu nám stačí několikasekundový záznam konkrétní osoby, který se nahraje do speciální AI aplikace. Tato technologie se naučí hlas napodobit a následně podle textových zadání generuje hlas tak realisticky, že je k nerozeznání od originálu. Příkladem takového nástroje je ElevenLabs (https://elevenlabs.io), který umožňuje pokročilé klonování hlasu.

Použití umělé inteligence k napodobení lidského hlasu představuje zásadní hrozby, zejména v oblasti bezpečnosti, ochrany soukromí a důvěry veřejnosti. Mezi nejvýznamnější rizika patří možnost zneužití této technologie k podvodným aktivitám. Jako příklad si uveďme incident z roku 2024, kdy se automobilka Ferrari stala terčem deepfake útoku. Podvodník dokázal velmi přesvědčivě napodobit hlas generálního ředitele společnosti, aby přesvědčil finančního ředitele k převodu vysoké sumy peněz. Tento pokus se však nezdařil díky speciálním otázkám, na které mohl správně odpovědět pouze skutečný ředitel.

Dalším příkladem je incident spojený s prezidentskou předvolební kampaní v USA v roce 2024. Tisícům voličů telefonoval falešný prezident Biden. Šlo ale o falešnou nahrávku. Za vším stál demokrat Steve Kramer a pouliční kouzelník Paul Carpenter, kteří za pomoci technologie klonování hlasu vytvořili fiktivní záznam prezidentova hlasu. Tento případ jasně ukazuje, jak snadno lze takovou technologii využít k manipulaci veřejnosti a jak vážně může ohrozit demokratické procesy, například průběh voleb.

Podobná situace nastala i na Slovensku, kde byl pomocí umělé inteligence vytvořen falešný záznam hlasu jednoho z kandidujících politiků. V rámci fiktivního rozhovoru odpovídal na otázky novinářky a hovořil mimo jiné o tom, jak bude falšovat volby. Tento záznam se rychle rozšířil po internetu a zcela jistě volby ovlivnil, byť přesný rozsah jeho dopadu není znám.

Schopnost klonovat lidský hlas tak nepředstavuje riziko pouze v oblasti finančních podvodů, ale může výrazně ovlivnit i společenské a politické procesy, s potenciálně dalekosáhlými důsledky.

Klonování hlasu představuje i zásadní ohrožení soukromí. K vytvoření věrohodného hlasového klonu stačí pár veřejně dostupných nahrávek, což ohrožuje každého, kdo nějakým způsobem veřejně vystupuje. Častým cílem jsou vedle politiků a podnikatelů také celebrity. Ztráta kontroly nad vlastním hlasem pak neznamená jen zásah do identity, ale také omezené možnosti, jak se proti podobným útokům účinně bránit.

Tyto a další příklady zneužívání klonovaných hlasů k podvodům a šíření dezinformací jen zdůrazňují nutnost jak technologické, tak legislativní regulace. Klíčovou roli hraje vývoj nástrojů pro detekci manipulovaných hlasů, avšak tyto technologie mají stále své limity. Současně právní rámec na ochranu proti neautorizovanému klonování hlasu výrazně zaostává za tempem technologického pokroku. Takové situace vytváří nebezpečné prostředí, kde je snadné narušit důvěru a kde rizika nadále narůstají.

Tým E-Bezpečí

Zdroje:

Nordyke, K. (2023). Robin Williams Daughter Zelda Criticizes Using AI to Re-create His Voice. The Hollywood Reporter. https://www.hollywoodreporter.com/business/digital/robin-williams-zelda-criticizes-ai-recreate-his-voice-1235605805/

Mára, O. (2024). Ferrari čelilo deepfake útoku, podvodník téměř dokonale napodobil hlas šéfa značky. Novinky.Cz. https://www.novinky.cz/clanek/auto-ferrari-celilo-deepfake-utoku-podvodnik-temer-dokonale-napodobil-hlas-sefa-znacky-40482168

Dohnal, M. (2024). Telefonáty falešného Bidena objasněny. Stál za nimi demokrat, jemuž pomáhal ohýbač vidliček. Novinky.Cz. https://www.novinky.cz/clanek/zahranicni-amerika-falesny-biden-telefonoval-tisicum-volicu-stal-za-tim-demokrat-a-poulicni-kouzelnik-40462033

Fišer, J. (2023). Slovenské volby ovlivnila umělá inteligence: extrémně nebezpečný je deepfake. CHIP.Cz. https://www.chip.cz/slovenske-volby-ovlivnila-umela-inteligence-extremne-nebezpecny-je-deepfake

Praktické cvičení – Jak proměnit fotografii či obrázek v mluvícího avatara?

Krok po kroku si ukážeme, jak se dá pomocí umělé inteligence proměnit běžná fotografie, obrázek nebo kresba v mluvící postavu, která k nám promlouvá a říká to, co chceme, aby říkala. Obsah konkrétní promluvy zadáme umělé inteligenci pomocí textů. AI následně promění statický obrázek či fotografii v mluvicího avatara. Toto cvičení ocení především ti, kteří chtějí vytvářet materiály například do dějepisu pro motivační část hodiny. Ukážeme si totiž, jak rozmluvit významnou osobnost – konkrétně k nám bude promlouvat biskup Jednoty bratrské a pedagog Jan Amos Komenský.

Název aplikace: D-iD

Web: https://www.d-id.com/

Pro praktickou ukázku využijeme aplikaci D-iD, kterou si můžete vyzkoušet zdarma v základní verzi (Trial). Pokud byste chtěli tuto aplikaci využívat pravidelně, bude potřeba zaplatit měsíční poplatek, který je přibližně 5 dolarů. Cena může růst v závislosti na tom, kolik avatarů budete vytvářet, jak dlouhá videa budete generovat apod. Pro toto cvičení nám bude stačit zkušební verze, kterou spustíme kliknutím na oranžové tlačítko START FREE TRIAL umístěné v horní části obrazovky, případně se rovnou zaregistrujeme.

Úvodní obrazovka aplikace D-iD (d-id.com, 2024)

Jakmile se přihlásíme a spustíme aplikaci D-iD, opět v horní části obrazovky najdeme a vybereme možnost Create a video.

Prostředí aplikace D-iD (d-id.com, 2024)

Na levé straně obrazovky se objeví nabídka, pomocí které si můžeme do aplikace nahrát vlastní obrázek či fotografii, případně můžeme využít již hotové avatary nebo si vygenerovat zcela nové. My si ale ukážeme, jak rozmluvit náš vlastní obrázek, který do aplikace teprve vložíme s pomocí tlačítka Create v levé části obrazovky.

Nabídka „Create a video“ v aplikaci D-iD (d-id.com, 2024)

Upozorňujeme, že stále více podobných aplikací, které nabízí možnost generovat mluvící avatary s pomocí umělé inteligence, začíná zakazovat používání fotografií známých osobností (celebrity, politici apod.). Nemusí vám tedy automaticky fungovat všechny fotografie, které chcete použít. Jak jsme ale zmínili v úvodu, na konci tohoto cvičení k nám bude promlouvat Jan Amos Komenský a s jeho kresbou žádný problém není. Nejprve tak do aplikace nahrajeme obrázek známého pedagoga a následně si z nabídky v horní části obrazovky vybereme formát videa (v našem případě formát Fit, ale můžete využít např. 16:9 nebo 1:1).

V dolní části obrazovky si z nabídky vybereme jazyk, kterým k nám bude Komenský promlouvat. Ve zkušební verzi je výběr hlasu značně omezen, ale i tak zde najdeme českou variantu (hlas Antonin), která nám pro ukázku postačí. Pokud máte zaplacenou vyšší verzi, najdete zde daleko více variant (ženské i mužské hlasy).

Jakmile máme vybraný hlas, přepneme se v menu na levé straně obrazovky do sekce Script, kde už najdeme textové pole, kam zadáme to, co má vybraná osoba říkat. Nástroj D-iD zde nabízí i možnost využít vlastní audio soubory (Upload audio). My využijeme možnost zadat promluvu v textové podobě, a použijeme citát, jehož autorem je právě Jan Amos Komenský. I zde v sekci Script můžeme nadále měnit hlas podle libosti, a dokonce tento hlasový projev zrychlit, nebo zpomalit.

V další sekci Background můžeme přidávat různobarevná pozadí. Pod poslední nabídkou Text najdeme samozřejmě možnost vkládat dodatečné texty přímo do videa. Na výběr máme z mnoha fontů a barevných stylů.

Prostředí editoru aplikace D-iD (d-id.com, 2024)

Vše již máme připravené a stačí vygenerovat video. Klikneme na oranžové tlačítko Generate video umístěné v horní části obrazovky a vyskočí na nás kontextové okno, kde můžeme ještě upravit název videa. Zároveň se zde dozvíme, jak dlouhé bude výsledné video a že nás bude stát jeden kredit. Nakonec klikneme na oranžové tlačítko Let’s go a umělá inteligence během pár vteřin vygeneruje výsledné video. Pokud je video delší, může to trvat i několik minut. V našem případě jsme prakticky okamžitě dostali povedený výsledek. Jan Amos Komenský lehce pohybuje hlavou, mrká a samozřejmě otevírá ústa. Synchronizace pohybů rtů (lip sync) je též poměrně zdařilá.

Výsledná ukázka videa v aplikaci D-iD (d-id.com, 2024)

Výsledné video můžeme sdílet (Share), vytvořit kopii, kterou lze dále upravovat (Edit as new) nebo stáhnout do počítače (Download) a dále s ním pracovat. Pokud se vám nelíbí hlas, který jste použili, vyberte si v nabídce jiný nebo využijte nějakou specifičtější aplikaci na syntézu řeči, například nástroj ElevenLabs (https://elevenlabs.io).

Tým E-Bezpečí

Zdroje:

Storeide, A. J. (n.d.). Johann Amos Comenius. Store norske leksikon. Retrieved November 25, 2024, from https://snl.no/Johann_Amos_Comenius

Jan Amos Komenský. (n.d.). Wikiquote. Retrieved November 25, 2024, from https://cs.wikiquote.org/wiki/Jan_Amos_Komensk%C3%BD

Vzdělávací podklady tématu ke stažení