Qu'est-ce qu'une base de connaissance RAG ?
Le RAG (Retrieval-Augmented Generation) est une architecture IA qui combine deux composants : un moteur de recherche semantique et un modele de langage (LLM). Quand un utilisateur pose une question, le systeme recherche d'abord les passages les plus pertinents dans votre base documentaire, puis les transmet au LLM pour generer une reponse precise et contextualisee.
Le resultat est un chatbot qui repond a partir de vos propres contenus, pas depuis sa memoire d'entrainement. C'est ce qui elimine les hallucinations et garantit la coherence avec vos politiques internes.
Comment fonctionne l'indexation des documents
Octobot decoupe automatiquement chaque document en chunks (fragments de 200 a 800 tokens selon le type de contenu), calcule un embedding vectoriel pour chaque chunk, et les stocke dans une base vectorielle. Lors d'une requete, la distance cosinus entre le vecteur de la question et les vecteurs des chunks determine les passages a transmettre au LLM.
L'indexation d'un document de 50 pages prend en moyenne 8 secondes. Le chatbot prend en compte les nouveaux documents sans interruption de service.
Formats compatibles
- PDF : contrats, catalogues, manuels techniques, CGV
- Word (.docx) : procedures internes, fiches produit, scripts de support
- Excel / CSV : tarifs, inventaires, donnees structurees
- Pages Notion : documentation produit, wikis internes
- URLs : pages d'aide, FAQ publiques, documentation en ligne
Reponses sourcees et tracabilite
Chaque reponse generee peut etre accompagnee d'une reference au document source et au passage exact utilise. Cela permet a l'agent humain de verifier la reponse et a l'utilisateur de consulter la source originale.
Bonnes pratiques pour structurer votre base
- Privilegiez les documents bien structures : titres H2/H3, listes, paragraphes courts. Les documents denses sans formatage donnent de moins bons resultats.
- Separér les documents par domaine : support client, technique, commercial. Vous pouvez ensuite restreindre le chatbot a un sous-ensemble selon le contexte.
- Mettez a jour regulierement : une base perimee genere des reponses inexactes. Mettez en place un processus de revision trimestrielle.
- Testez avec les questions reelles : utilisez les transcriptions de tickets existants pour identifier les lacunes documentaires.
Securite et conformite RGPD
Tous les documents uploades sont chiffres au repos (AES-256) et en transit (TLS 1.3). Les donnees sont hebergees en Europe (AWS eu-west-3). Octobot ne partage jamais vos documents avec des modeles tiers et ne les utilise pas pour l'entrainement. Un accord de traitement des donnees (DPA) est disponible sur demande.