Por qué una FAQ estática no basta
Los asistentes fallan cuando citan documentos obsoletos o no encuentran la lista de precios más reciente. Generación aumentada por recuperación (RAG) soluciona esto extrayendo de una base de conocimiento autorizada y actualizada antes de responder. La clave: la RAG es tan buena como el contenido y la indexación que le proporciones.
Empieza con una taxonomía de carpetas “Fuente de la Verdad”
- /Products — fichas de una página, especificaciones, imágenes
- /Pricing — lista de precios actual + archivo con fecha
- /Policies — envíos, reembolsos, privacidad
- /Playbooks — macros de soporte, guías prácticas
- /Training — glosario, tono, ejemplos
Reglas: un tema por archivo; nombres de archivo claros (p. ej., pricing_2025-Q3.pdf); front matter con título, versión, fecha de vigencia y responsable.
Añade metadatos que el modelo pueda usar
- category: pricing | policy | product
- effective_from / effective_to
- locale: en-US | ar-AE
- visibility: public | internal
- canonical_url (si está publicado)
Esto ayuda a que la recuperación priorice el documento correcto cuando hay conflictos.
Fragmentación que respeta el significado
Indexa secciones, no PDFs completos. Buenos tamaños de fragmento: ~300–800 tokens con pequeños solapamientos. Divide por encabezados para que las respuestas mantengan el contexto.
Sincronización que de verdad se actualiza sola
Elige una ruta de sincronización (Drive, SharePoint, Notion) y ejecuta una tarea programada que:
- Detecta archivos nuevos/cambiados
- Extrae texto + metadatos
- Fragmenta y vuelve a incrustar solo lo que cambió
- Actualiza el índice e invalida entradas obsoletas
El indexado incremental mantiene los costos bajos y la frescura alta.
Versionado & “Qué está vigente ahora”
Mantén una sola versión activa por tema; archiva el resto. Usa effective_from para resolver qué versión responde una pregunta hoy. Si una consulta pregunta por la política del año pasado, la recuperación puede incluir fragmentos archivados.
Salvaguardas: gobernanza por encima de conjeturas
- Procedencia en las respuestas: muestra título, versión y enlace a la fuente.
- Reglas de redacción: excluye secretos (claves de API, PII) del indexado.
- Locales: mantén el inglés y el árabe separados salvo que la recuperación multilingüe esté validada.
- Bucle de revisión humana: registra las preguntas sin respuesta o de baja confianza → crea o corrige contenido → reindexa.
Ejemplo: plan de construcción en 10 días
- Días 1–2: audita los documentos; crea la taxonomía; define las claves de metadatos.
- Días 3–4: limpia y divide las 10 preguntas frecuentes principales en fichas de una página de un solo tema.
- Día 5: levanta el índice; prueba la fragmentación en precios y políticas.
- Semana 2: conecta la sincronización; añade procedencia a las respuestas; ejecuta una “clínica de contenido” semanal.
KPIs para una base de conocimientos viva
- Cobertura — % de las preguntas principales que se pueden responder con alta confianza
- Retraso de frescura — tiempo desde la actualización del documento → actualización del índice
- Tasa de desvío — % resuelto sin ayuda humana
- Velocidad de edición — correcciones de contenido entregadas por semana
- Auditorías de exactitud — verificaciones puntuales de respuestas con enlaces a la fuente
Errores comunes (y soluciones rápidas)
- PDFs monolíticos → desglósalos en archivos de un solo tema con encabezados.
- Precios obsoletos → haz que precios sea su propia carpeta con responsables y fechas de caducidad.
- Hinchazón del índice → archiva agresivamente; mantén solo documentos activos en el índice principal.
- Sin procedencia → añade tarjetas de fuente; generan confianza y aceleran la depuración.
Por qué esto importa ahora
La RAG no es una varita mágica — es una disciplina. Los equipos que invierten en higiene documental, metadatos e indexado incremental informan de asistentes mucho más fiables que los equipos que “solo vectorizan todo”. Esa es la diferencia entre una demo y un sistema duradero.
