Index
den nysläppta EMO AI, gruppens artificiella intelligens alibaba, orsakade stora återverkningar på internet. Verktyget producerar videor från fotografier, vilket får avataren att sjunga sånger på olika språk, med överraskande realism.
Det här AI-segmentet har gjort betydande framsteg under åren, och har tidigare dykt upp med fotoredigering, när det genom appar var möjligt att byta ansikten med någon, lägga till filter och använda andra funktioner. Nu har simuleringen av åtgärder i videor väckt stort intresse från internetanvändare, främst på grund av den realism som tillämpas på detta innehåll.
Vad är EMO AI?
A EMO AI: Emote Portrait Alive är ett verktyg för att skapa audiovisuellt innehåll genom spridning av ultrarealistiskt ljud och video — eller bilder.
A IA fokuserar på att noggrant och troget simulera modellens ansiktsdrag i situationer man kan tänka sig från ett fotografi. Det är möjligt att producera en musikvideo från en persons fotografi, där karaktären kan sjunga en populär låt, röra sina läppar och ansiktsmuskler, för att uttala texten korrekt med realistiska poser.
Enligt utvecklarna av Institutet för intelligent datoranvändning, från gruppen alibaba, videorna skapade av EMO AI De kan ha vilken varaktighet som helst, bara beroende på storleken på ljudfilen som infogas för att producera videon.
Hur fungerar AI?
Baserat på den metod som används av professionella, EMO Den behöver bara en bild för att fungera som grund för att producera videon som genereras av dess artificiella intelligens. Sedan måste du infoga en ljudfil så att verktyget kan skapa videon med karaktärens tolkning, synkronisera läpprörelserna med texten och animera personen, så länge ljudfilen varar.
Se nedan en video med EMO AI
Videon ovan använder en anime-ritning för att skapa en AI-simulerad scen. O EMO AI han lyckades också på ett tillfredsställande sätt producera karaktärens ansikts- och läpprörelser på ett övertygande sätt.
EMO AI-verktygsstruktur
Metodiken som används för att utveckla EMO AI användes just i syfte att söka framsteg i kvaliteten på videor skapade av AI:s. Forskarna hade som mål att hitta alternativa sätt att höja kvaliteten på resultatet.
På grund av detta, i det inledande skedet av processen, kallas Ramkodning, ett neuralt nätverk som kallas Referensnät extraherar funktioner från en enda referensbild genom att simulera rörelseramarna. Denna kodningsprocess lägger grunden till videon.
Sedan inkorporeras ljudet, med hjälp av en kodare, och ansiktsmasker appliceras, vilket möjliggör realistiska ansiktsrörelser. Att slutföra processen, mekanismen Ryggradens nätverk ansvarar för att bevara karaktärens identitet och anpassa hastigheten för ansiktsrörelser.
Trots den innovativa processen rapporterar Alibaba-utvecklare i sin vetenskapliga artikel att de hittat begränsningar i modellen. De citerade att EMO AI det tar längre tid att producera innehåll än andra AI:s i samma segment och i vissa fall kan andra delar av kroppen dyka upp i videon, som till exempel karaktärens händer.
Sökandet efter AI:er som simulerar handlingar
Med den ökande kompatibiliteten av AI med befintliga operativsystem på mobiltelefoner har sökandet efter dessa verktyg skjutit i höjden de senaste åren. För närvarande är det möjligt att hitta flera applikationsalternativ som ändrar användarens ansikte med ett känt, åldrar det, föryngrar det, korrigerar ansiktsuttryck, bland andra funktioner.
Bland dessa möjligheter är deepfake, vilket är resultatet av ansiktsmatchning eller dess ersättning med en AI. Denna resurs kan användas för olika ändamål, såsom humoristiska, politiska eller till och med pornografiska. När det gäller politik, i Brasilien TSE aktiverade varningen i denna fråga, som redan förutser användningen av deepfake i valet i oktober i år.
I det här fallet deepfake Det är en hel tallrik för falska nyheter, eftersom de i allmänhet skildrar en kandidat i lögnaktiga situationer eller simulerar kontroversiella tal, som han aldrig talade om, motiverade av politiska intressen.
EMO AI producerar uttryck på flera språk
En annan barriär som övervinns av AI, inklusive EMO AI, är produktion av videor på olika språk. Dessa tekniker förstår olika språk, ljudet av deras ord och deras uttal. Med detta är det möjligt att producera audiovisuellt innehåll på många språk.
Kolla in fler videor genererade av EMO AI nedan
källor: NowadAls, ArXiv, Humanaigc.
Veja também:
Granskats av Glaucon Vital den 28/2/24.
Upptäck mer om Showmetech
Registrera dig för att få våra senaste nyheter via e-post.