2022. 05. 30. - 09:30
Képpé alakít bármely szöveget a Google legújabb mesterséges intelligencia-eszköze
A viccestől a legelgondolkodtatóbb képekig bármilyet létrehoz szöveg alapján egy új mesterséges intelligencia-eszköz: az Imagen-nel a Google Research rukkolt elő.
Megnevettet, de el is gondolkodtathat a Google Research által bemutatott új mesterséges intelligencia-eszköz. Az Imagen egy vadonatúj szöveg-kép MI-rendszer, mely képes bemeneti szöveg alapján fotorealisztikus képeket készíteni.
A szöveg-kép diffúziós modell eddig soha nem látott mértékű fotorealizmust és mély nyelvértést tesz lehetővé – közölte létrehozója. „Az Imagen a szövegértés terén a nagy, transzformátor nyelvi modellek erejére épít és a diffúziós modellek erejére támaszkodik a hű képalkotásban” – árulta el a Google.
A cég szerint az Imagen felülmúlja versenytársait. Olvasd el:
Működéséhez a mesterséges intelligencia-eszköznek szövegeket kell kapnia, például: „Három üveggömb zuhan az óceánba. Víz fröccsen. Lenyugszik a nap.” Ezt követően pontosan ezt a képet jeleníti meg előttünk.
Az így kapott képek fotorealisztikusak, de akár művészi értelmezésűek is lehetnek.
Az Imagen egyelőre nem elérhető a nyilvánosság számára, de a Google számos példát osztott meg a mesterséges intelligencia működéséről.
A projekthez a Google DrawBench néven egy átfogó és kihívásokkal teli benchmark-ot (azaz elemzési és tervezési eszközt) alkotott meg a szöveg-kép modellhez.
A vállalat ezzel hasonlítja össze az Imagent más mesterséges intelligencia módszerekkel, mint például a VQ-GAN+CLIP-el, a látens diffúziós modellekkel és a DALL-E 2-vel. Olvasd el:
A DrawBench szerint az emberek jobban kedvelik az Imagent a versenytársakkal szemben.
Fotó: Imagen
Olvasd el ezt is:
L.A.