Index
Mitt i bombasten Trenden av bilderna i animestil kanske du undrat: hur fungerar ChatGPT gör bilder i stil med Studio Ghibli? Kunde han inte förut? Tja ... det visar sig att den nya generativa bildbehandlingskapaciteten OpenAI Det är riktigt nytt och har allt att göra med en stor förändring i hur företagets artificiella intelligensmodell fungerar. Förstå, i den här texten, hur ChatGPT lyckats replikera konsten att Studio Ghibli och de viktigaste skillnaderna jämfört med andra modeller.
Hur skapar ChatGPT bilder i Ghibli-stil?
För att förstå hur ChatGPT började kunna generera bilder som de som skapades i Trenden do Studio Ghibli, är det nödvändigt att känna till de viktigaste förändringarna som orsakas av OpenAI i modellen GPT-4o, läs nedan.
Vad har förändrats i GPT-4o-modellen?
Genereringen av bilder i GPT-4o bygger på arkitektur Transformator, som analyserar mönster och associerar textbeskrivningar med visuella element. Till skillnad från "diffusionsmodeller", som börjar med en slumpmässig bild och successivt förfinar den GPT-4o använder en autoregressiv metod som bygger bilden i sekventiella steg, vilket förbättrar visuell koherens och trohet mot den önskade stilen.
När noggrannheten och renderingen av text i bilder förbättras, och förmågan att förstå och följa detaljerade uppmaningar förbättras, ChatGPT har ökat sin kapacitet att hantera antalet distinkta objekt i en enda scen (upp till 20, jämfört med tidigare mellan 5 och 8 objekt) och kan upprätthålla de korrekta relationerna mellan dem.
Jämfört med tidigare modeller som t.ex DALL-E3, som använde rörledningar (uppsättning steg eller processer) separat för olika typer av media, den GPT-4o antar ett enhetligt tillvägagångssätt, vilket möjliggör snabbare svar och bilder som är mer överensstämmande med textkommandon, vilket eliminerar behovet av flera mellanliggande processer. Detta innebär att modellen bättre kan tolka nyanserna av uppmaningar från användare, vilket säkerställer att den visuella produktionen är mer i linje med den ursprungliga avsikten.
All denna kraft kommer med ett kontroversiellt problem: med en större efterfrågan på grafisk bearbetning på grund av explosionen av mode på internet, OpenAI behövs för att begränsa användbarheten av verktyget under några dagar, särskilt för gratisanvändare av ChatGPT, eftersom deras GPUs höll på att "smälta", enligt företagets VD, Sam Altman. Trots besväret har genereringen av avancerade bilder redan släppts av företaget för användare av gratisplanen, som tillkännagavs av chefen.
Hur möjliggör uppdateringen bilder i Ghibli-stil?
Men vad betyder allt detta för AI:s förmåga att fånga estetiken av Studio Ghibli? Det visar sig att med den nya uppdateringen GPT-4o Det börjar bättre förstå stilmönster, från massiva exempel på bilder, och lär sig att replikera dessa egenskaper baserat på kommandon från användaren.
Även om OpenAI angav inte uttryckligen om deras utbildningsdatauppsättning inkluderade specifika konstverk Studio GhibliSom I Viagem de Chihiro ou Pojken och tranan – gränsöverskridande ett gap som skiljer reproduktionen av studiostilar från levande konstnärers – modellens skicklighet i att replikera studioestetiken tyder starkt på att han har blivit utsatt för ett stort antal exempel på filmerna och relaterade stilar.
Genom denna utställning har GPT-4o lär dig de viktigaste visuella egenskaperna som definierar stilen Studio Ghibli, inklusive: känslan av handritad animation, som ofta påminner om traditionell pappersanimation; bakgrunder som framkallar en känsla av förundran och lugn; uttrycksfulla karaktärer som vanligtvis har stora, känslomässiga ögon; en mjuk, naturlig färgpalett dominerad av pastell, mjuka toner; detaljerade miljöer som ofta blandar fantasielement med realism
Dessutom har GPT-4o Den kan också bearbeta bilder som input, vilket gör det möjligt för användare att omvandla befintliga bilder eller använda dem som grund för att generera nytt innehåll. På så sätt, förutom att behöva säga alla detaljer om den konstnärliga stilen de vill återge, behöver användarna inte heller beskriva sig själva eller bilden de vill återskapa, bara infoga ett foto i chatten och be AI:n att återskapa det med animationsstilen – som du kan se i vår artikel om Hur man gör bilder i Ghibli-stil med ChatGPT, med snabba tips.
Kan andra AI:er återge Studio Ghiblis stil?
Skapa nya bilder med hjälp av chatbots är inte en nyhet, men den kapacitet som uppnås genom att uppdatera ChatGPT när de analyserar och återskapar detaljerna som föreslås av prompten, ersätter de AI OpenAI före sina huvudkonkurrenter, som t.ex tvillingarna, gör Google, grokEftersom XAi e CopilotEftersom Microsoft, när det gäller bildgenerering.
Se skillnaden mellan samma bild omvandlad till en teckning med en linje inspirerad av Studio Ghibli efter samma uppmaning:
Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli
Förutom att bättre fånga detaljerna i originalbilden, är en av de största framstegen inom generativ bildbehandling GPT-4o Detta märks i möjligheten att återge logotypen och bokstäverna på tröjan, vilket är mycket svårt i andra modeller.
Medan grok lyckas på sätt och vis återskapa kännetecken för stilen av Studio Ghibli, även om det lider av detaljen i bilden, den tvillingarna går helt emot kornet, vilket resulterar i generisk konst. Det är värt att komma ihåg att Google satsar redan på en uppdatering av de generativa bilderna av tvillingarna, vilket möjliggör skapandet av komplexa bilder och fotoredigering – verktyg som kan testas genom AI Studio. Den CopilotEftersom Microsoft, svarade inte på uppmaningen.
Har du redan testat verktyget för att komma in i Studio Ghibli trend? Berätta för oss i kommentarerna.
Se också
Text reviderad av Alexandre Marques den 01/04/2025.
källor: The Times of India, Hindustan Times, Ekonomiska tider
Upptäck mer om Showmetech
Registrera dig för att få våra senaste nyheter via e-post.