År 2022 testade jag sex stycken AI-tjänster som kunde skapa en bild från text. Texten var kort och gott “Dog runs over green grass”. Jag testade StarryAI, Hotpot, Pixray, Computer Vision, DeepAI och Dream.
Idag har jag testat tre AI-tjänster till, och deras text-to-image. Dessa är Microsoft Copilot, Google Gemini och OpenAI ChatGPT. För detta test använder jag endast gratisversioner som är tillgängliga som online-tjänst gratis. (Åtminstone gratis om man ser till pengatransaktioner.) Jag har inte följt upp Pixray, Computer Vision eller Dream.
År 2022 kunde man inte ha åsikter om bildens stil, vilket går utmärkt idag. Jag valde att lämna bildens stil helt okommenterad, för att se vad jag får på samma gamla prompt idag.
Detta fick jag av StarryAI för tre år sedan, när jag bad om “Dog runs over green grass.”:

Idag gav samma prompt denna bild från StarryAI:

Hotpot kändes ganska i framkant år 2022 och gav mig denna bild:

Med exakt samma prompt idag, fick jag detta från Hotpot:

Detta fick jag från DeepAI år 2022:

Det är oklart vad på bilden som föreställer en hund och vad på bilden som föreställer gräs. Detta fick jag från DeepAI idag:

Copilots, Geminis och ChatGPTs text-to-image-funktioner är placerade bakom en språkmodell, så man måste berätta för språkmodellen att det är text-to-image man är intresserad av. Därför har jag uppdaterat prompten till följande:
Can you give me an image? Dog runs over green grass.
Igen, ingen kommentar om stil eller kontext. Jag vill se vad de hostar fram. Detta kommer från Copilot:

Gemini:

ChatGPT:

Bilderna kan såklart inte mäta sig med fotografier (än), åtminstone inte när man tittar på gratis-upplagorna, men denna förändring säger mig en sak: En teknik som fortfarande ligger i sin vagga, har förbättrats i väldigt hög hastighet under några få år. Om detta fortsätter i några år till, kommer världen att se väldigt annorlunda ut.

Leave a Reply