Waarom een statische FAQ niet volstaat
Assistenten falen wanneer ze verouderde documentatie citeren of de meest recente prijslijst niet kunnen vinden. Retrieval-augmented generation (RAG) lost dit op door vóór het antwoorden informatie op te halen uit een gezaghebbende, actuele kennisbank. Het addertje: RAG is slechts zo goed als de content en indexering die je aanlevert.
Begin met een ‘source of truth’-mappentaxonomie
- /Products — one-pagers, specificaties, afbeeldingen
- /Pricing — huidige prijslijst + archief met datums
- /Policies — verzending, retouren, privacy
- /Playbooks — supportmacro's, handleidingen
- /Training — glossarium, toon, voorbeelden
Regels: één onderwerp per bestand; duidelijke bestandsnamen (bijv. pricing_2025-Q3.pdf); front-matter met titel, versie, ingangsdatum en eigenaar.
Voeg metadata toe waar het model iets mee kan
- category: pricing | policy | product
- effective_from / effective_to
- locale: en-US | ar-AE
- visibility: public | internal
- canonical_url (indien gepubliceerd)
Dit helpt het retrievalproces het juiste document te prioriteren wanneer er conflicten zijn.
Chunking die de betekenis respecteert
Indexeer secties, niet hele PDF's. Goede chunk-groottes: ~300–800 tokens met kleine overlappingen. Splits op koppen zodat antwoorden de context behouden.
Synchronisatie die zichzelf echt bijwerkt
Kies een synchronisatiepad (Drive, SharePoint, Notion) en voer een geplande taak uit die:
- Nieuwe/aangepaste bestanden detecteert
- Tekst + metadata extraheert
- Maakt chunks en embedt opnieuw uitsluitend wat is gewijzigd
- De index bijwerkt en verouderde items invalideert
Incrementeel indexeren houdt de kosten laag en de actualiteit hoog.
Versiebeheer & “Wat is nu van kracht”
Houd één live versie per onderwerp aan; archiveer de rest. Gebruik effective_from om te bepalen welke versie vandaag een vraag beantwoordt. Als een vraag naar het beleid van vorig jaar vraagt, kan het retrievalproces gearchiveerde chunks meenemen.
Vangrails: governance boven giswerk
- Herkomst in antwoorden: toon titel, versie en bronlink.
- Redactieregels: sluit geheimen (API-sleutels, PII) uit van indexering.
- Locales: houd Engels en Arabisch gescheiden, tenzij retrieval met gemengde talen is gevalideerd.
- Menselijke reviewloop: log onbeantwoorde/laag-zekerheidsvragen → maak of verbeter content → herindexeer.
Voorbeeld: 10-daags bouwplan
- Dagen 1–2: documenten auditen; taxonomie opzetten; metadatavelden definiëren.
- Dagen 3–4: opschonen en de top-10 FAQ's opsplitsen in one-pagers per onderwerp.
- Dag 5: de index opzetten; chunking testen op prijzen & beleid.
- Week 2: synchronisatie aansluiten; herkomst aan antwoorden toevoegen; een wekelijkse “content clinic” houden.
KPI's voor een levende kennisbank
- Dekking — % van de topvragen die met hoge zekerheid beantwoord kunnen worden
- Actualiteitsvertraging — tijd van documentupdate → indexupdate
- Deflectiepercentage — % opgelost zonder menselijke hulp
- Bewerkingssnelheid — aantal doorgevoerde contentfixes per week
- Nauwkeurigheidsaudits — steekproefsgewijs antwoorden controleren met bronlinks
Veelvoorkomende valkuilen (en snelle fixes)
- Monolithische PDF's → opknippen in bestanden per onderwerp met koppen.
- Verouderde prijzen → maak ‘pricing’ een eigen map met eigenaren & vervaldata.
- Opgeblazen index → agressief archiveren; alleen live documenten in de primaire index houden.
- Geen herkomst → bronkaarten toevoegen; die bouwen vertrouwen op en versnellen het debuggen.
Waarom dit nu belangrijk is
RAG is geen toverstokje — het is een discipline. Teams die investeren in documenthygiëne, metadata en incrementeel indexeren rapporteren veel betrouwbaardere assistenten dan teams die “gewoon alles vectoriseren”. Dat is het verschil tussen een demo en een duurzaam systeem.
