Tudomány a ChatGPT mögött – Így működik a generatív MI

Napjainkra a mesterséges intelligencia használata már egyáltalán nem újdonság. Széles tömegek számára elérhetővé az olyan generatív MI tette, mint a ChatGPT vagy a Midjourney.  Mi is van ezek mögött és hogyan működnek?

Sokak számára a „mesterséges intelligencia” csak a 2022 végén megjelent ChatGPT-vel vált kézzelfoghatóvá, az MI valójában már az 1950-es évektől állandó szereplője a számítástechnikának. Ami újdonság, az a generatív mesterséges intelligencia és az általa lehetővé tett rengeteg érdekes és egyedi szolgáltatás. Melyek gombamód szaporodnak az utóbbi időben. Ezekben az a közös, hogy egyszerű, köznyelven megfogalmazott utasításokkal hoznak létre új adatokat. Melyek lehetnek szöveges, képi, zenei vagy tetszőleges más formátumú adatok egyaránt.

ChatGPT

Jelen pillanatban a legismertebb ilyen eszköz alighanem a ChatGPT, mely a GPT-3 (Generative Pretrained Transformer) névre hallgató MI-n alapul. A ChatGPT egy mesterséges intelligencia (MI) modell, amelyet a GPT-3.5 architektúrára építettek. A GPT rövidítés a „Generative Pre-trained Transformer” (Generatív Előtanított Transzformátor) kifejezésből származik. Azt mutatja, hogy a modellt előzetesen tanítják egy hatalmas mennyiségű szöveges adaton, majd azt használják a szövegek generálására és értelmezésére.

A ChatGPT mögötti tudomány és technológia a következő kulcsfontosságú elemeket tartalmazza:

1. Neurális hálózatok: A ChatGPT egy neurális hálózat alapú modell, amely működése során több rétegben dolgozza fel a bemeneti adatokat és tanul azokból. A hálózat rejtett rétegei közötti transzformációk során a modell megtanulja a szavak és kifejezések közötti kapcsolatokat.

2. Pre-tanítás és finomhangolás: A ChatGPT először nagy mennyiségű szöveges adaton előzetesen tanul, majd finomhangolás során specializálódik a konkrét feladatokra vagy alkalmazásokra. Ezáltal a modell alkalmassá válik olyan feladatokra, mint a szöveggenerálás, válaszok készítése, fordítás, kérdések megválaszolása és sok más.

3. Transformer architektúra: A Transformer architektúra forradalmi fejlesztés a mély tanulásban, amely hatékonyan kezeli a hosszú szövegeket és kiválóan teljesít a sorozatos feladatokban. A modell képes hosszú távú kapcsolatokat kialakítani a szavak és kifejezések között.

4. Önszupervíziós tanulás: A modellt önszupervíziós módon tanítják, ami azt jelenti, hogy a modell maga generálja a tanító adatokat a bemeneti adatokból. Ez lehetővé teszi a modellnek, hogy általánosabb tudást szerezzen, és alkalmazkodjon különböző feladatokhoz.

5. Átfogó adatbázis: A ChatGPT tanítása során nagyon széles és változatos témájú szöveges adatokat használnak, amelyek számos területet lefednek, például tudomány, művészet, történelem, technológia és még sok más.

De valószínűleg sokan hallottak a Google Bard fejlesztéséről, illetve az olyan képgenerátorokról, mint a Dall-E vagy a Midourney. Bármelyik említett megoldásról is beszélünk, ami közös bennük, hogy a mögöttük álló mesterséges intelligencia az emberi kreativitást próbálja meg utánozni. Néha az eredmény egészen fenomenális, például amikor egy olyan fotót hoznak létre, amelyet semmilyen módon nem tudunk megkülönböztetni egy valódi fényképtől. Vagy egy olyan szöveget generálnak, amelyet profi író is kiadhatott volna. De sokszor előfordul az is, hogy ez nem sikerül nekik.

Telitalálat – Tudomány a ChatGPT mögött

A ChatGPT sikere

A ChatGPT és társai jelen sikere három tényezőnek köszönhető:

  • erősebb hardver
  • több, tanulásra felhasználható adat
  • jobb MI modellek.

A ChatGPT-t készítő OpenAI például nemcsak óriási adatbázist használt a betanításhoz (ezekből az adatokból tanulta meg a chatbot, hogy mely szavakat „érdemes” egymással összekapcsolni), hanem az úgynevezett „Reinforcement Learning from Human Feedback” elvet is bevetette. Ennek lényege, hogy hiába a rengeteg adat, a tanítási folyamat során szükség van a folyamatos visszacsatolásra, ezért ebben emberek is részt vesznek, akik a tanításra használt adatokhoz kapcsolódó kérdésekre válaszolnak, az MI pedig ezeket a válaszokat is megkapja bemenetként. A legegyszerűbb, ha úgy fogjuk fel ilyenkor a mesterséges intelligenciát, mint egy olyan tanulót, aki hosszú ideig képes több forrásból is tanulni anélkül, hogy elfáradna, de szüksége van arra, hogy egy tanár állandóan ott álljon mögötte, és közbeavatkozzon, amennyiben hibázna.

A Transformer architektúra célja, hogy megértse egy bemeneti mondat értelmét a szavak közötti összefüggések vizsgálatával. Ebben fontos szerep jut az úgynevezett enkódereknek, melyek a szavakat elemzik és matematikai módszerekkel súlyozzák is.

Hibák és jogi problémák

Bár a generatív mesterséges intelligencia használata egyszerű, rendkívül komplex rendszerekről van szó. Ráadásul óvatosan kell az ilyen nagy nyelvi modellekkel vagy képgenerátorokkal bánni, mert nem mindig lehet pontosan tudni, hogy milyen adatbázissal tanították be őket. A Chat- GPT, a Bing és a Bard is egyaránt képes „hallucinálni”, ” hazudni”. Nem szándékos hazugságról van szó, hanem arról, hogy valószínűségekkel dolgoznak, igy generálhatnak értelmetlen, de a tárolt tudás alapján valószínűnek tűnő eredményeket. Ezért fordul elő, hogy néha félrevezető, esetleg teljesen hamis válaszokat adnak olyan témákról, amelyekről nincsenek a teljes tudásanyag birtokában. Az újfajta szöveg- és képgenerátorok egyelőre a jogalkotókat is zavarba hozták, többek között a szerzői jogok területén, melyeket korábban kizárólag emberi alkotókkal hoztak összefüggésbe.

Vissza a blog cikkekhez

error: Védett tartalom