Egy mondatban: a RAG (Retrieval-Augmented Generation) egy AI-architektúra, amely egy nagy nyelvi modellt (LLM-et) egy külső dokumentum-keresővel egészít ki. Amikor egy kérdést teszel fel, az AI nem azonnal generál választ a saját tanítóhalmazából — előbb keres a céges dokumentumaidban, és csak utána fogalmazza meg a választ a megtalált szövegekre támaszkodva, idézett forrással.
Miért nem elég a sima ChatGPT?
A ChatGPT (vagy bármely más LLM) három probléma miatt nem alkalmas önmagában vállalati tudásbázisnak:
- Nem ismeri a céged adatait. Ha megkérdezed, hogy mi a visszatérítési határidőd, az általában tippel — egy "általános e-kereskedelmi sztandard" alapján. A te konkrét ÁSZF-ed nincs benne a tanítóhalmazban.
- Hallucinál. Ha nem tudja a választ, kitalál egy plauzibilisen hangzót. Ez vállalati környezetben elfogadhatatlan kockázat.
- Nincs frissítve. Az LLM tanítóhalmaza egy adott időpontban lezárva. A tegnapi sajtóhír, az e-héti termékfrissítés vagy a múlt heti szabályzatváltozás nincs benne.
Hogyan oldja meg ezt a RAG?
A RAG egy 4 lépésből álló folyamat, amelyet minden kérdésnél lefuttat a rendszer:
- Indexelés (egyszer, előre). A céges dokumentumokat (PDF, Word, Confluence, Notion) szövegfeldolgozással kisebb darabokra (chunkokra) bontjuk, és minden chunkból egy vektort (embedding) számolunk. Ezek a vektorok kifejezik a szöveg jelentését egy magasdimenziós térben. Az indexet egy vektor-adatbázisba (OpenSearch, Pinecone, Weaviate) tesszük.
- Keresés (kérdéskor, valós időben). Amikor felteszel egy kérdést, a rendszer abból is csinál egy embedding-vektort, és megkeresi a vektor-adatbázisban a legközelebbi chunkokat. Ezek azok a szövegrészek, amelyek a leginkább releváns lehetnek a válaszhoz.
- Augmentáció. A megtalált chunkokat összeállítjuk egy "kontextus" prompt-ba, és ezt elküldjük az LLM-nek a felhasználói kérdéssel együtt. Az LLM-nek azt mondjuk: "Ezekből a forrásokból válaszolj. Ha nincs benne, mondd hogy nem tudod."
- Generálás. Az LLM megfogalmaz egy választ, idézve azokat a forrásokat, amelyekre támaszkodott. A felhasználó látja a választ és a forrás-hivatkozást, így ellenőrizhető.
Mi különbözteti meg a jó RAG-ot a rossztól?
1. Magyar nyelvre hangolt chunking
A magyar nyelvben a szótő ragozott, így egy naiv szóalapú chunker rosszul vágja a mondatokat. Egy magyarra hangolt RAG (mint a Cognyra) figyel az ékezetekre, a ragokra és a szakzsargon-jellemző tagolásra.
2. Hibrid retrieval (BM25 + dense)
Csak vector search nem mindig elég — ha pontos kódszámot keresel ("E-217 hibakód"), a klasszikus, keyword-alapú BM25 jobb. A jó RAG mindkettőt használja és összevegyíti (reciprocal rank fusion).
3. Idézés-kötelezettség
A LLM-nek kötelezően forrás-hivatkozással kell válaszolnia. Ha nincs hivatkozható forrás, a válasz "nem találtam információt erről" — nem hallucináció.
4. Confidence-scoring
Ha a megtalált chunk-ok és a kérdés közötti hasonlóság alacsony, a rendszer figyelmezteti a felhasználót: "Ezt nem találtam meg pontosan. Lehet hogy nem teljes a válaszom."
RAG vs. fine-tuning — melyik kell?
Sokan összekeverik a kettőt. Röviden: RAG-ot használsz vállalati tudásra, fine-tuningot használsz stílusra és viselkedésre. A fine-tuning átalakítja magát a modellt — ez drága, lassú, és a friss adatok nem kerülnek bele. A RAG nem változtatja a modellt, csak ellátja extra kontextussal — gyors, olcsó, friss.
A gyakorlatban 95%-ban RAG-ra van szükség. A fine-tuning csak akkor indokolt, ha a modell kimeneti formátuma vagy hangneme kell egyedi legyen (pl. mindig egy bizonyos JSON-sémát adjon).
Hogyan kezdj bele?
Ha vállalati AI tudásbázisra van szükséged magyar nyelven, a Cognyra egy beépített, magyar nyelvre optimalizált RAG-stack-et ad. Próbáld ki ingyen, vagy nézd meg a részletes megoldás-oldalt arra a területre, ami téged érdekel:
- Ügyfélszolgálati AI tudásbázis
- HR önkiszolgáló asszisztens
- Jogi szerződés-kereső
- Mérnöki dokumentációs kereső
Olvasd el legközelebb: AI hallucináció elkerülése vállalati környezetben — itt részletesebben kifejtjük a hallucináció-elkerülő technikákat.