Sora bygger på tekniken bakom OpenAI:s bildgenereringsverktyg DALL-E. Den tolkar användarmeddelanden, utökar dem till en mer detaljerad uppsättning instruktioner och skapar nya videor med hjälp av AI-modeller tränade på videor och bilder.
Kvaliteten på AI-genererade bilder, ljud och video har förbättrats snabbt under det senaste året, med företag som OpenAI, Google, Meta och Stable Diffusion som skapar och säljer mer kapabla verktyg. Vi tävlar för att hitta ett sätt. Samtidigt varnar demokratiförespråkare och AI-forskare för att verktyget redan används för att lura och ljuga för väljarna.
Det är inte första gången sådana videor och ljud har skapats, eftersom andra företag också har byggt sina egna text-till-video AI-generatorer. Google testar något som heter Lumiere, Meta utvecklar en modell som heter Emu och AI-startupen Runway bygger redan en produkt för att hjälpa filmskapare att skapa AI-videor. Men AI-experter och analytiker sa att längden och kvaliteten på Soras videor översteg allt som vi sett tidigare.
”Vi förväntade oss inte att se denna nivå av konsekvent videogenerering under de kommande två till tre åren”, säger Ted Underwood, professor i informationsvetenskap vid University of Illinois. Även om han varnar för att OpenAI sannolikt väljer videor som bäst visar modellen, ”tycks det vara ett litet hopp i kapacitet” jämfört med andra text-till-video-verktyg.
I Pakistan använde förre premiärministern Imran Khan AI för att skapa en digital version av sig själv som håller ett tal, trots att han för närvarande sitter i fängelse. En annons som stödde Floridas guvernör Ron DeSantis numera nedlagda kampanj för den republikanska presidentnomineringen använde en AI-röstgenerator för att imitera tidigare president Donald Trumps röst.
Teknikföretaget som bygger verktyget säger att det övervakar användningen av dess verktyg och har infört flera policyer mot dess användning för att skapa politiskt innehåll. Verkställigheten har dock varit ojämn. I januari stängde OpenAI av en utvecklare som skapade en bot för den demokratiske kandidaten Dean Phillips efter en Washington Post-rapport. Utvecklare skapade liknande bots för politiska kandidater under hösten.
Dessa snabba framsteg inom tekniken har fått människor i en mängd olika branscher, från filmproduktion till nyhetsbranschen, att förvränga för att förstå hur tekniken kommer att påverka deras arbete.
AI-videogeneratorer gör redan vågor i Hollywood. Att göra en film är dyrt, tidskrävande och kräver samarbete från dussintals eller hundratals människor. Vissa ingenjörer har en teori om att AI skulle kunna tillåta en enda person att skapa en film med samma visuella komplexitet som en Marvel-storfilm.
”Titta på hur långt vi har kommit på bara ett år av bildgenerering. Var kommer vi att vara om ett år?” Observatören Michael Gracey tror att inom en snar framtid kommer AI-verktyg som Sora att göra det möjligt för filmskapare att noggrant kontrollera produktionen och skapa alla typer av video från början. Jag förutspår.
”Du behöver inte ett team på 100 eller 200 artister under tre år för att skapa en långfilmsanimation,” sa han. ”Det är väldigt spännande för mig.”
Samtidigt sa Gracie att ett stort problem är det faktum att AI-verktyg tränas utan att kompensera verkliga artisters arbete. ”Det är inte trevligt att stjäla någon annans kreativitet, arbete, idéer och utförande och neka dem rättvist erkännande eller ekonomisk belöning.”
Mutare Nkonde, en besökande politikstipendiat vid Oxford Internet Institute, sa att idén att vem som helst enkelt kunde konvertera text till video var intressant. Men hon undersöker också hur dessa verktyg bygger in social fördom, deras inverkan på människors liv och hur de förvandlar hatisk text och beskrivningar av tragiska händelser i den verkliga världen till upprörande realistiska filmer. Jag är oroad över mina förmågor.
Nconde sa att de senaste strejkerna från Writers Guild och Actors Guild började ta itu med frågor kring användningen av AI-språkverktyg i manusskrivning och användningen av skådespelareslikheter i AI-genererade scener. Men verktyg som Sora väcker nya frågor, sa hon, till exempel om mänskliga extrafunktioner är nödvändiga. ”Ur ett politiskt perspektiv, måste vi börja fundera på hur vi ska skydda de människor som borde vara involverade när det kommer till dessa verktyg?”
Kvaliteten på Soras videor, särskilt de som är tänkta att se ut som den verkliga världen, är högre än vad de flesta andra AI-företag har kunnat producera hittills.
Arvind Narayanan, professor i datavetenskap vid Princeton University, sa att Sora ”verkar vara betydligt mer avancerat än något annat videogenereringsverktyg” baserat på videon OpenAI som publicerades på torsdagen. Resultatet kommer sannolikt att bli ”deepfake” videor som är svårare för människor att känna igen som genererade av AI, sa han.
Om man tittar noga på några videor kan man fortfarande hitta många motsägelser, sa han. Till exempel, i ett X-inlägg, påpekade han att i en video av en gatubild i Tokyo byts positionerna på en kvinnas högra och vänstra fötter, och människor i bakgrunden försvinner efter att något passerat framför henne.
Ändå kanske tillfälliga tittare inte märker sådana detaljer, tillade han. ”Förr eller senare måste vi anpassa oss till det faktum att realism inte längre är en indikator på tillförlitlighet.”