Mi az a RAG (Retrieval-Augmented Generation)?

Egy mondatban: a RAG (Retrieval-Augmented Generation) egy AI-architektúra, amely egy nagy nyelvi modellt (LLM-et) egy külső dokumentum-keresővel egészít ki. Amikor egy kérdést teszel fel, az AI nem azonnal generál választ a saját tanítóhalmazából — előbb keres a céges dokumentumaidban, és csak utána fogalmazza meg a választ a megtalált szövegekre támaszkodva, idézett forrással.

Miért nem elég a sima ChatGPT?

A ChatGPT (vagy bármely más LLM) három probléma miatt nem alkalmas önmagában vállalati tudásbázisnak:

Nem ismeri a céged adatait. Ha megkérdezed, hogy mi a visszatérítési határidőd, az általában tippel — egy "általános e-kereskedelmi sztandard" alapján. A te konkrét ÁSZF-ed nincs benne a tanítóhalmazban.
Hallucinál. Ha nem tudja a választ, kitalál egy plauzibilisen hangzót. Ez vállalati környezetben elfogadhatatlan kockázat.
Nincs frissítve. Az LLM tanítóhalmaza egy adott időpontban lezárva. A tegnapi sajtóhír, az e-héti termékfrissítés vagy a múlt heti szabályzatváltozás nincs benne.

Hogyan oldja meg ezt a RAG?

A RAG egy 4 lépésből álló folyamat, amelyet minden kérdésnél lefuttat a rendszer:

Indexelés (egyszer, előre). A céges dokumentumokat (PDF, Word, Confluence, Notion) szövegfeldolgozással kisebb darabokra (chunkokra) bontjuk, és minden chunkból egy vektort (embedding) számolunk. Ezek a vektorok kifejezik a szöveg jelentését egy magasdimenziós térben. Az indexet egy vektor-adatbázisba (OpenSearch, Pinecone, Weaviate) tesszük.
Keresés (kérdéskor, valós időben). Amikor felteszel egy kérdést, a rendszer abból is csinál egy embedding-vektort, és megkeresi a vektor-adatbázisban a legközelebbi chunkokat. Ezek azok a szövegrészek, amelyek a leginkább releváns lehetnek a válaszhoz.
Augmentáció. A megtalált chunkokat összeállítjuk egy "kontextus" prompt-ba, és ezt elküldjük az LLM-nek a felhasználói kérdéssel együtt. Az LLM-nek azt mondjuk: "Ezekből a forrásokból válaszolj. Ha nincs benne, mondd hogy nem tudod."
Generálás. Az LLM megfogalmaz egy választ, idézve azokat a forrásokat, amelyekre támaszkodott. A felhasználó látja a választ és a forrás-hivatkozást, így ellenőrizhető.

Mi különbözteti meg a jó RAG-ot a rossztól?

1. Magyar nyelvre hangolt chunking

A magyar nyelvben a szótő ragozott, így egy naiv szóalapú chunker rosszul vágja a mondatokat. Egy magyarra hangolt RAG (mint a Cognyra) figyel az ékezetekre, a ragokra és a szakzsargon-jellemző tagolásra.

2. Hibrid retrieval (BM25 + dense)

Csak vector search nem mindig elég — ha pontos kódszámot keresel ("E-217 hibakód"), a klasszikus, keyword-alapú BM25 jobb. A jó RAG mindkettőt használja és összevegyíti (reciprocal rank fusion).

3. Idézés-kötelezettség

A LLM-nek kötelezően forrás-hivatkozással kell válaszolnia. Ha nincs hivatkozható forrás, a válasz "nem találtam információt erről" — nem hallucináció.

4. Confidence-scoring

Ha a megtalált chunk-ok és a kérdés közötti hasonlóság alacsony, a rendszer figyelmezteti a felhasználót: "Ezt nem találtam meg pontosan. Lehet hogy nem teljes a válaszom."

RAG vs. fine-tuning — melyik kell?

Sokan összekeverik a kettőt. Röviden: RAG-ot használsz vállalati tudásra, fine-tuningot használsz stílusra és viselkedésre. A fine-tuning átalakítja magát a modellt — ez drága, lassú, és a friss adatok nem kerülnek bele. A RAG nem változtatja a modellt, csak ellátja extra kontextussal — gyors, olcsó, friss.

A gyakorlatban 95%-ban RAG-ra van szükség. A fine-tuning csak akkor indokolt, ha a modell kimeneti formátuma vagy hangneme kell egyedi legyen (pl. mindig egy bizonyos JSON-sémát adjon).

Hogyan kezdj bele?

Ha vállalati AI tudásbázisra van szükséged magyar nyelven, a Cognyra egy beépített, magyar nyelvre optimalizált RAG-stack-et ad. Próbáld ki ingyen, vagy nézd meg a részletes megoldás-oldalt arra a területre, ami téged érdekel:

Olvasd el legközelebb: AI hallucináció elkerülése vállalati környezetben — itt részletesebben kifejtjük a hallucináció-elkerülő technikákat.