E klonova veten me anën e Inteligjencës Artificiale. Më mashtroi bankën dhe familjen time.
Kolumnistja jonë e zëvendësoi veten me zë dhe video të AI për të parë se sa njerëzore mund të jetë teknologjia. Rezultatet ishin të frikshme.
Nga Joanna Stern
Lajmi i mirë për Joannën me AI: Ajo nuk e humb kurrë zërin e saj, ajo ka një qëndrim të jashtëzakonshëm dhe madje as një kabrio me shpejtësi 120 mph përmes një tornado nuk mund t'i prishë flokët.
Lajmi i keq: Ajo mund të mashtrojë familjen time dhe të mashtrojë bankën time.
Ndoshta keni luajtur me chatbot si ChatGPT i OpenAI dhe Bard i Google, ose gjeneratorë imazhesh si Dall-E. Nëse keni menduar se ata mjegullojnë kufirin midis AI dhe inteligjencës njerëzore, nuk keni parë – apo dëgjuar – asgjë ende.
Gjatë muajve të fundit, unë kam testuar Synthesia, një mjet që krijon avatarë artificialisht inteligjentë nga video dhe audio e regjistruar (aka deepfakes). Shkruani çdo gjë dhe avatari juaj i videos e kthen atë përsëri.
Meqenëse bëj shumë punë me zë dhe video, mendova se kjo mund të më bënte më produktiv dhe të më largonte një pjesë të mundimit. Ky është premtimi i AI, në fund të fundit. Kështu që shkova në një studio dhe regjistrova rreth 30 minuta video dhe gati dy orë audio që Synthesia do t'i përdorte për të trajnuar klonin tim. Disa javë më vonë, AI Joanna ishte gati.
Pastaj provova ditën e fundit të pushimit, në stilin Ferris Bueller. A mundet që AI - i çiftuar me tekstin e krijuar nga ChatGPT - të më zëvendësojë mua në video, takime dhe telefonata? Ishte...hapëse e syve ose, guxoj të them, hapje e inteligjencës artificiale. (Le të fajësojmë AI Joanna për shakatë e mia më të këqija.)
Përfundimisht AI Joanna mund të shkruajë kolona dhe të presë videot e mia. Tani për tani, ajo është në gjendjen e saj më të mirë duke ilustruar shpatën me dy tehe të mjeteve zanore dhe video gjeneruese të AI.
Avatari im i videos duket si një avatar.
Video është shumë punë. Flokë, grim, gardërobë, kamera, ndriçim, mikrofona. Synthesia premton ta zhdukë atë punë, dhe kjo është arsyeja pse korporatat tashmë e përdorin atë. I njihni ato video të mërzitshme të trajnimit të pajtueshmërisë? Pse të paguani aktorët për të luajtur në një version live-action kur AI mund t'i bëjë të gjitha? Synthesia tarifon 1000 dollarë në vit për të krijuar dhe mbajtur një avatar të personalizuar, plus një tarifë shtesë mujore abonimi. Ai ofron avatarë të aksioneve për një kosto mujore më të ulët.
I kërkova ChatGPT të gjeneronte një skript të TikTok në lidhje me një tip iOS, të shkruar me zërin e Joanna Stern. E ngjita në Synthesia, klikova "generate" dhe papritmas "unë" po flisja. Ishte si të shikoja reflektimin tim në një pasqyrë, megjithëse një që heq gjestet e duarve dhe shprehjet e fytyrës. Për fjali të shpejta, avatari mund të jetë mjaft bindës. Sa më i gjatë të jetë teksti, aq më shumë del natyra e saj bot.
Në TikTok, ku njerëzit kanë hapësirën e vëmendjes së peshkut të artë, ato atribute të ngjashme me kompjuterin janë më pak të dukshme. Megjithatë, disa e kapën shpejt atë. Për rekord, unë do të preferoja të haja ngjala të gjalla sesa të shqiptoja frazën "TikTok fam", por AI nuk kishte asnjë problem me të.
Bot-ness u bë shumë i dukshëm në video thirrjet e punës. Unë shkarkova klipet e saj duke thënë vërejtjet e zakonshme të takimit ("Hej të gjithëve!" "Më falni, isha i heshtur.") më pas përdora softuer për t'i futur ato në Google Meet. Me sa duket, qëndrimi perfekt i AI Joanna-s dhe mungesa e zgjuarsisë ishin dhurata të vdekura.
Gjithsesi, e gjithë kjo do të përmirësohet. Synthesia ka disa avatarë në beta që mund të tundin kokën lart e poshtë, të ngrenë vetullat dhe më shumë.
Zëri im i AI tingëllon shumë si unë.
Kur peshku i motrës sime vdiq, a mund të kisha telefonuar me ngushëllime? Po. Në një intervistë telefonike me CEO të Snap, Evan Spiegel, a mund ta kisha bërë çdo pyetje vetë? Sigurisht. Por në të dyja rastet, zëri im i AI ishte një qëndrim bindës. Ne fillim.
Unë nuk përdora klonin e zërit të Synthesia për ato thirrje. Në vend të kësaj, unë përdora një të krijuar nga ElevenLabs, një zhvillues i softuerit të të folurit të AI.
Producenti im Kenny Wassus mblodhi rreth 90 minuta nga zëri im nga videot e mëparshme dhe ne ngarkuam skedarët në vegël - nuk nevojitej vizitë në studio. Në më pak se dy minuta, më klonoi zërin. Në mjetin e bazuar në ueb të ElevenLabs, shkruani çdo tekst, klikoni Generate dhe brenda sekondave zëri "im" e thotë atë me zë të lartë. Krijimi i një kloni zanor me ElevenLabs fillon me 5 dollarë në muaj.
Krahasuar me Synthesia Joanna, ElevenLabs me tingëllon më njerëzor, me intonacione dhe rrjedha më të mira. Dëgjoni audion e testit këtu:
Motra ime, të cilën e telefonoj disa herë në javë, tha se roboti tingëllonte njësoj si unë, por vuri re se roboti nuk pushoi për të marrë frymë. Kur telefonova babain tim dhe i kërkova numrin e tij të Sigurimeve Shoqërore, ai e dinte vetëm se diçka po ndodhte sepse dukej si një regjistrim tim.
Potenciali për keqpërdorim është real.
Zëri i ElevenLabs ishte aq i mirë sa mashtroi sistemin biometrik të zërit të kartës time të kreditit Chase.
E këshillova AI Joanna-n me disa gjëra që e dija që Chase do t'i kërkonte, më pas telefonova shërbimin ndaj klientit. Në hapin biometrik, kur sistemi i automatizuar më kërkoi emrin dhe adresën time, AI Joanna u përgjigj. Duke dëgjuar zërin e robotit tim, sistemi e njohu atë si unë dhe u lidh menjëherë me një përfaqësues. Kur praktikanti ynë video thirri dhe bëri më të mirën për përshtypjen e Joanës, sistemi i automatizuar kërkoi verifikim të mëtejshëm.
Një zëdhënëse e Chase tha se banka përdor biometrikën e zërit, së bashku me mjete të tjera, për të verifikuar që telefonuesit janë ata që thonë se janë. Ajo shtoi se kjo veçori ka për qëllim që klientët të identifikojnë shpejt dhe me siguri veten e tyre, por për të përfunduar transaksionet dhe kërkesat e tjera financiare, klientët duhet të japin informacion shtesë.
Ajo që është më shqetësuese: ElevenLabs bëri një klon shumë të mirë pa shumë fërkime. Gjithçka që duhej të bëja ishte të klikoja një buton duke thënë se kisha "të drejtat ose pëlqimet e nevojshme" për të ngarkuar skedarë audio dhe për të krijuar klonin, dhe se nuk do ta përdorja atë për qëllime mashtruese.
Kjo do të thotë se kushdo në internet mund të marrë orë të tëra nga zëri im - ose i yti, ose i Joe Biden ose Tom Brady - për ta ruajtur dhe përdorur. Komisioni Federal i Tregtisë tashmë po paralajmëron për mashtrimet e lidhura me AI.
Synthesia kërkon që audio dhe video të përfshijnë pëlqimin verbal, të cilin e bëra kur filmova dhe regjistrova me kompaninë.
ElevenLabs lejon vetëm klonimin në llogaritë me pagesë, kështu që çdo përdorim i një zëri të klonuar që thyen politikat e kompanisë mund të gjurmohet te një mbajtës llogarie, më tha bashkëthemeluesi i kompanisë Mati Staniszewski. Kompania po punon në një mjet vërtetimi në mënyrë që njerëzit të mund të ngarkojnë çdo audio për të kontrolluar nëse është krijuar duke përdorur teknologjinë ElevenLabs.
Të dy sistemet më lejuan të gjeneroja disa gjëra të tmerrshme në zërin tim, duke përfshirë kërcënimet me vdekje.
Në veglën e uebit të Sythesia, ju shkruani atë që dëshironi të thotë avatari juaj.
FOTO: JOANNA STERN/ THE WALL STREET JOURNAL, SYNTHESIA
Një zëdhënës i Synthesia tha se llogaria ime ishte caktuar për përdorim me një organizatë lajmesh, që do të thotë se mund të thotë fjalë dhe fraza që përndryshe mund të filtroheshin. Kompania tha se moderatorët e saj i kanë shënuar dhe fshirë frazat e mia problematike më vonë. Kur llogaria ime u ndryshua në llojin standard, nuk isha më në gjendje të gjeneroja të njëjtat fraza.
Z. Staniszewski tha se ElevenLabs mund të identifikojë të gjithë përmbajtjen e bërë me softuerin e tij. Nëse përmbajtja shkel kushtet e shërbimit të kompanisë, shtoi ai, ElevenLabs mund të ndalojë llogarinë e saj fillestare dhe, në rast shkeljeje të ligjit, të ndihmojë autoritetet.
Kjo gjë është e vështirë për t'u dalluar.
Kur e pyeta Hany Farid, një ekspert i mjekësisë ligjore dixhitale në Universitetin e Kalifornisë, Berkeley, se si mund të dallojmë audio dhe video sintetike, ai kishte dy fjalë: fat të mirë.
"Jo vetëm që mund t'i gjeneroj këto gjëra, por mund të bombardoj internetin me të," tha ai, duke shtuar se nuk mund t'i bëni të gjithë një detektiv të AI.
Sigurisht, kloni im video nuk jam unë, por vetëm do të përmirësohet. Dhe nëse prindërit dhe motra ime nuk mund të dëgjojnë ndryshimin në zërin tim, a mund të pres që të tjerët ta dëgjojnë?
Mora pak shpresë duke dëgjuar për Iniciativën e Authenticitetit të Përmbajtjes të udhëhequr nga Adobe. Mbi 1000 kompani mediatike dhe teknologjike, akademikë dhe të tjerë synojnë të krijojnë një "etiketë ushqyese" të integruar për mediat. Fotografitë, videot dhe audiot në internet mund të vijnë një ditë me informacion të verifikueshëm bashkangjitur. Synthesia është anëtare e nismës.
Ëndrra e punës: një AI që mund ta dërgoni në video thirrje. Mjerisht, të gjithë e dinin se ajo ishte false.
FOTO: JOANNA STERN/ THE WALL STREET JOURNAL
Ndihem mirë që jam njeri.
Ndryshe nga AI Joanna që nuk buzëqesh kurrë, Joanna e vërtetë kishte diçka për të buzëqeshur pas kësaj. ChatGPT gjeneroi tekst që i mungon personaliteti dhe ekspertiza ime. Klonit tim video i mungonin gjërat që më bëjnë mua. Dhe ndërsa producentit tim të videos i pëlqen të përdorë zërin tim të AI në modifikimet e hershme për të luajtur me kohën, zëri im i vërtetë ka më shumë energji, emocion dhe ritëm.
A do të përmirësohet AI në të gjitha këto? Absolutisht. Por unë gjithashtu planifikoj të përdor këto mjete për të më dhënë më shumë kohë për të qenë një njeri i vërtetë. Ndërkohë, të paktën jam ulur shumë më drejt në takime tani.
Shkruajini Joanna Stern tek joanna.stern@wsj.com
Burimi: WSJ
Krijoni Kontakt