2023. okt 05.

AI képszerkesztés értelmező kéziszótár – avagy a felületek, amik mellett nem tudsz elmenni

írta: Rózsa Katka
AI képszerkesztés értelmező kéziszótár – avagy a felületek, amik mellett nem tudsz elmenni

_622eb4ec-fb08-4e20-9c26-33ee74cf12d023.jpgHa ezt olvasod egy biztos: a címbéli rövidítéssel már találkozhattál, ha nem is magyarul MI-ként (Mesterséges Intelligencia), akkor angolul AI (Artificial Intelligence) néven. A mesterséges intelligencia gondolata komolyabban az 1950-es évek óta foglalkoztatta a filozófusokat és a kutatókat egyaránt.

Az akkor megfogalmazott feltételezés a következő volt: a gépek is képesek az emberi, (logikus,) adatokon alapuló problémamegoldásra.

Ez pedig Alan Turing, brit matematikusnak hála az első algoritmus alapú számítógép létrejöttével be is igazolódott. Utóbbi óta egészen napjainkig nincs is megállás ezen a kutatási területen. A jelenbe ugorva, így jutunk el 2023-ban ahhoz, hogy képesek vagyunk beszélgetni és/vagy képeket készíteni az AI által. De pontosan hogyan is? 

Az AI működése: gyorstalpaló

Az AI vezérelte technológia abban emelkedik ki, hogy:

  • pontosabban meg tud figyelni adatokat, 
  • rövid időn belül feldolgozni azokat, valamint 
  • felismerni a bennük lévő összefüggéseket. 

Ez teszi ki tehát, a már oly sok helyen használt, megfigyelő algoritmusokat, hogy a felhasználók által megadott információk alapján mi érdekelheti őket, például azért, hogy több időt töltsenek el egy adott app használatával. Az internet az általunk feltöltött, betáplált adatokból adódik össze, így tudjuk például megkapni a Google-ben keresett kérdésünkre a választ (pillanatok alatt). Így járhattál Te is, amikor rákerestél az AI képszerkesztésre és megtaláltad ezt a cikket.

Akkor mégis miben hoz újítást utóbbi? Röviden szólva abban, hogy az általa ismert adatokból, egy szövegalapú kérésre egy olyan új vizuális alkotást hoz létre, amilyet csak szeretnénk, ezt pedig korábban csupán egyénileg, a saját kreativitásunkkal tudtuk megvalósítani.

Ez pedig (többek között) felveti a kérdést, hogy mire lehetnek képesek még a gépek? Amíg ennek a kérdésnek a megválaszolása és mindezek fényében az emberi kreativitás értékének meghatározása várat magára, most kanyarodjunk vissza a képszerkesztéshez és próbáljunk meg nem elveszni a különféle felületek erdejében. 

AI-ABC  

Mielőtt belevágnánk, fontos megemlíteni, hogy miért nem a világelső tech-óriás, a már említett Google orozta el az elsőséget az AI képszerkesztő programok esetében. A válasz részben meglepő lehet, hiszen a Google-nek volt már ideje korán fejlesztés alatt álló ilyen programja, az Imagen és a Parti (Pathways Autoregressive Text-to-Image) azonban pár éve a biztonságos használat még nem volt garantált, így az nem volt megosztva az általános felhasználókkal. 

Ebből adódik, hogy az AI képszerkesztés mezejét olyan olyan startupok uralják, amelyekről (2021-nél) korábban nem is hallottunk. Nézzük is:

DALL-E és DALL-E 2

Az (Elon Musk támogatásával is működő) OpenAI nonprofit cég a felület nevét találóan az ismert spanyol művész, Salvador Dalí és a Pixar futurisztikus, robotokról szóló animációs filmjének a WALL-E-nak vegyítésével hozták létre.

Az eredetileg 2021-ben megjelent felületnek már egy újabb fejlesztése érhető el az emberek számára, DALL-E 2 néven. A felület a természetes nyelv megértését és feldolgozását, valamint a képgenerálást vegyíti, így a többihez hasonlóan egy megadott prompt, vagyis utasítás alapján készíti el számunkra a kívánt képet. Ezen felül olyan képmanipulációs eszköze is van, amelynek segítségével a kép egy részletét egy újabb utasítás segítségével meg tudjuk változtatni. A program(ok)hoz azonban csak költségek ellenében lehet hozzáférni. 

A képeken a DALL-E és DALL-E 2 összehasonlítása látható az avocado armchair (avokádó fotel) promptra. 

Midjourney 

A Midjourney az azonos nevű független kutatási labor szüleménye, ami szintén a szöveg alapú képalkotást adja meg a felhasználóknak. A ma már kizárólag megtérítés ellenében elérhető felület még így is kiemelkedő és széleskörben használt, mert az általa készített képek magas minőségűek, részletesek és jól strukturáltak.

Talán ez abból is adódik, hogy többek között Jim Keller, az Apple, AMD, Tesla, Intel processzormérnöke is dolgozott a fejlesztésén. A 2022 júliusában megnyílt felület nem csoda, hogy már a rákövetkező hónapban jövedelmező volt. A felület egyik (magyarok számára kifejezetten) furcsasága lehet, hogy az itthon annyira nem használt Discord szerveren keresztül érhető el, ami egy gamerek számára kifejlesztett hanghívás-, chat- és videófelület.

4_3_3.pngA felület eléréséhez egy Discord profil szükséges, ahová belépve meg kell keresni a Midjourney szerverét és csatlakozni hozzá. A csoportba belépve több csatorna (vagyis chatszoba) közül válogathatunk, ahol megoszthatjuk tapasztalatainkat és kérhetünk segítséget a Midjourney használatával kapcsolatban.

A chaten belül úgy tudunk kérni képkreációt, ha beírjuk az /imagine formátumot, és utána fogalmazzuk meg a parancsot. Bár, ahogy az már fentebb is említésre kerül, ez ma már ingyenesen nem elérhető (még a próbaverziója sem). 

Stable Diffusion 

A Stable Diffusion bizonyítja, hogy nem csak az amerikaiak tudnak létrehozni ilyen technológiát. A nyílt forráskódú oldalt ugyanis egy európai vállalkozó, Emad Mostaque hozta létre, melynek sajátossága, hogy akár letölthető helyileg a számítógépre. Ezen felül pedig abban is különbözik, hogy egy másik féle tanulási módszeren alapszik, ami által képes a természetes nyelvet, azaz komplexebb és absztrakt szövegeket is megérteni, minőségi képeket hozva létre.

Alkothatunk vele többféle stílusban, sokféle felhasználás céljából, sőt már meglévő képek szerkesztésére, manipulálására is alkalmas. A Stable Diffusion ráadásul több felületen keresztül is elérhető, tehát a szolgáltatást el tudjuk érni könnyedén. Emellett a saját oldalukon van ingyenesen elérhető szolgáltatás, a Stable Diffusion XL Playground felületén, bár hosszabb várakozási idő van a kért kép megjelenéséig. 

image_2_2.pngA példaként hozott kép a Stable Diffusion Playground segítségével készült a következő parancsra:

"a cute puppy looking happy in the camera, wearing glasses, books beside him."

Ezek tehát csupán azok az oldalak voltak, amelyek mellett tényleg nem tudsz elmenni, ha elkezdesz a témában keresgélni.

Cikkünk célja ennek a folyamatnak a megkönnyítése volt, reméljük, hogy segítségül szolgált, hiszen a legtöbb információt angolul lehet fellelni.

Amennyiben érdekelnek további tartalmak, kövesd blogunkat és közösségi felületeinket, hiszen további cikkek is foglalkoznak majd ezzel a témával részletesebben. 

Források:

https://sitn.hms.harvard.edu/flash/2017/history-artificial-intelligence/ 

https://www.wired.com/story/picture-limitless-creativity-ai-image-generators/ 

https://imagen.research.google/ 

https://www.arimetrics.com/en/digital-glossary/dall-e 

https://www.arimetrics.com/en/digital-glossary/midjourney 

https://www.fotor.com/blog/what-is-stable-diffusion/ 

https://www.arimetrics.com/en/digital-glossary/stable-diffusion 

képernyőfotó, DALL-E 2 ismertető videó
https://openai.com/dall-e-2

Szólj hozzá