Varför en statisk FAQ inte räcker
Assistenter misslyckas när de citerar inaktuella dokument eller inte hittar den senaste prislistan. Retrieval-augmented generation (RAG) åtgärdar detta genom att hämta från en auktoritativ, uppdaterad kunskapsbas innan den svarar. Haken: RAG är bara så bra som innehållet och indexeringen du matar den med.
Börja med en ”Source of Truth”-mapptaxonomi
- /Products — one-pagers, specifikationer, bilder
- /Pricing — aktuell prislista + daterat arkiv
- /Policies — frakt, återbetalningar, integritet
- /Playbooks — supportmakron, instruktioner
- /Training — ordlista, tonalitet, exempel
Regler: ett ämne per fil; tydliga filnamn (t.ex. pricing_2025-Q3.pdf); front-matter med titel, version, ikraftträdandedatum och ägare.
Lägg till metadata som modellen kan använda
- category: pricing | policy | product
- effective_from / effective_to
- locale: en-US | ar-AE
- visibility: public | internal
- canonical_url (om publicerad)
Detta hjälper hämtningen att prioritera det rätta dokumentet när det finns konflikter.
Segmentering som respekterar betydelsen
Indexera avsnitt, inte hela PDF:er. Bra segmentstorlekar: cirka 300–800 token med små överlappningar. Dela på rubriker så att svaren behåller kontext.
Synk som faktiskt uppdaterar sig själv
Välj en synkroniseringsväg (Drive, SharePoint, Notion) och kör ett schemalagt jobb som:
- Upptäcker nya/ändrade filer
- Extraherar text + metadata
- Delar upp i segment och embeddar om endast det som har ändrats
- Uppdaterar indexet och ogiltigförklarar inaktuella poster
Inkrementell indexering håller kostnaderna nere och aktualiteten hög.
Versionshantering & ”Vad gäller nu”
Behåll en aktiv version per ämne; arkivera resten. Använd effective_from för att avgöra vilken version som besvarar en fråga i dag. Om en fråga gäller förra årets policy kan hämtningen inkludera arkiverade segment.
Skyddsräcken: styrning framför gissningar
- Proveniens i svaren: visa titel, version och länken till källan.
- Maskeringsregler: uteslut hemligheter (API-nycklar, PII) från indexering.
- Språkinställningar: håll engelska och arabiska isär om inte flerspråkig hämtning är validerad.
- Manuell granskningsloop: logga obesvarade/frågor med låg tillit → skapa eller åtgärda content → indexera om.
Exempel: 10-dagars byggplan
- Dag 1–2: granska dokument; skapa taxonomi; definiera metadata-nycklar.
- Dag 3–4: städa upp och dela upp topp-10‑FAQ:erna i one-pagers med ett ämne per dokument.
- Dag 5: sätt upp indexet; testa segmentering på prissättning & policy.
- Vecka 2: koppla in synk; lägg till proveniens i svaren; kör en veckovis ”content clinic”.
KPI:er för en levande kunskapsbas
- Täckning — % av toppfrågorna som kan besvaras med hög säkerhet
- Aktualitetsfördröjning — tid från dokumentuppdatering → indexuppdatering
- Avledningsgrad — % lösta utan mänsklig hjälp
- Ändringstakt — innehållskorrigeringar levererade per vecka
- Korrekthetsgranskningar — stickprova svar med källhänvisningar
Vanliga fallgropar (och snabba lösningar)
- Monolitiska PDF:er → splittra upp i filer med ett ämne vardera och rubriker.
- Inaktuell prissättning → gör prissättning till en egen mapp med ägare och utgångsdatum.
- Svällande index → arkivera aggressivt; behåll bara aktiva dokument i primärindexet.
- Ingen proveniens → lägg till källkort; de bygger förtroende och snabbar på felsökning.
Varför detta är viktigt nu
RAG är inte ett trollspö — det är en disciplin. Team som investerar i dokumenthygien, metadata och inkrementell indexering rapporterar betydligt mer tillförlitliga assistenter än team som ”bara vektoriserar allt”. Det är skillnaden mellan en demo och ett hållbart system.
