RAG ou fine-tuning : lequel choisir pour votre entreprise ?
8 juin 20267 min de lecture
Dans 90 % des cas d'entreprise, le RAG est le bon premier choix. Le fine-tuning répond à un autre problème : il apprend au modèle un comportement (un style, un format de sortie), pas vos connaissances.
La question m'est posée à chaque projet d'assistant IA : « faut-il entraîner un modèle sur nos données ? » Derrière, il y a souvent une confusion entretenue par le marketing : on imagine qu'un modèle « entraîné sur nos documents » les connaîtra par cœur. En pratique, ce n'est pas comme ça que ça marche, et choisir la mauvaise approche coûte cher. Voici comment je tranche, critère par critère, avec les coûts réels des deux options.
En bref
- Pour répondre à partir de vos documents (questions clients, support, base interne), le RAG est le bon outil dans l'immense majorité des cas : à mon avis, 9 projets d'entreprise sur 10.
- Côté budget : un RAG opérationnel se construit pour quelques milliers d'euros ; un fine-tuning sérieux exige d'abord un jeu de données annoté, souvent plusieurs centaines à plusieurs milliers d'exemples, avant même le premier entraînement.
- Mise à jour : avec un RAG, ajouter un document prend quelques secondes ; avec un fine-tuning, toute évolution des connaissances impose un réentraînement complet.
- Traçabilité : un RAG cite la source de chaque réponse ; un modèle fine-tuné ne peut pas dire d'où vient ce qu'il affirme.
- Le vrai territoire du fine-tuning : le comportement (ton, format, classification à fort volume), pas la connaissance.
Deux techniques, deux problèmes différents
Le RAG (Retrieval-Augmented Generation) consiste à chercher les bons passages dans vos documents au moment de la question, puis à les fournir au modèle pour qu'il rédige sa réponse à partir d'eux. Le modèle, lui, ne change pas : on change ce qu'on lui donne à lire. Vos données restent dans votre base, consultées à la demande, et chaque réponse peut citer le document d'origine. C'est la technique de référence pour les assistants documentaires depuis le papier fondateur de Lewis et al. en 2020. J'ai expliqué le mécanisme en détail dans qu'est-ce que le RAG.
Le fine-tuning consiste à réentraîner un modèle existant sur des exemples de paires question-réponse, pour modifier durablement son comportement. On lui montre des centaines ou des milliers d'exemples du résultat attendu, et il ajuste ses poids internes pour reproduire ce comportement. C'est puissant pour apprendre un ton, un format de sortie ou une tâche répétitive. Mais c'est un mauvais véhicule pour des connaissances : les faits appris se mélangent au reste du modèle, sans traçabilité, et deviennent obsolètes dès que vos données changent.
La confusion classique : croire que fine-tuner un modèle sur ses documents le rendra capable de les restituer fidèlement. En réalité, un modèle fine-tuné peut paraphraser, mélanger, oublier, et surtout il ne sait pas dire « je ne sais pas » sur ce qu'il n'a pas vu. Pour la fiabilité factuelle, c'est le RAG, avec ses garde-fous, qui fait le travail (voir comment éviter que l'IA invente).
Le tableau de décision
Voici les critères que j'utilise pour trancher, dans l'ordre où ils éliminent le plus vite une option :
- Fraîcheur des données. RAG : temps réel, un document ajouté à la base est utilisable immédiatement. Fine-tuning : les connaissances sont figées à la date du réentraînement ; toute mise à jour impose une nouvelle session d'entraînement. Si vos contenus bougent (tarifs, procédures, catalogue), ce critère seul tranche.
- Traçabilité et citation. RAG : oui, chaque réponse pointe le document et le passage d'origine, donc une erreur se vérifie en un clic. Fine-tuning : non, le modèle restitue ce qu'il a absorbé, sans pouvoir dire d'où ça vient. En entreprise, c'est souvent rédhibitoire.
- Coût initial. RAG : quelques milliers d'euros pour un assistant opérationnel sur un corpus défini. Fine-tuning : il faut d'abord constituer et annoter un jeu de données propre (le poste le plus coûteux, souvent sous-estimé), puis payer l'entraînement (GPU ou API au token d'entraînement), puis évaluer, puis recommencer car le premier essai est rarement le bon.
- Coût de mise à jour. RAG : marginal, on ajoute ou remplace des documents. Fine-tuning : chaque évolution significative des connaissances ou du comportement attendu rejoue tout le cycle données, entraînement, évaluation.
- Confidentialité. RAG : vos documents restent dans votre base, seuls les passages pertinents transitent vers le modèle au moment de la question ; on peut tout héberger en Europe, voire en self-hosted. Fine-tuning : vos données partent dans le jeu d'entraînement ; selon le fournisseur, le modèle résultant est hébergé chez lui. Les deux peuvent être conformes, mais le RAG offre un contrôle plus simple à auditer.
- Ton et style. C'est le seul critère où le fine-tuning gagne nettement : pour imposer un style rédactionnel constant ou un format de sortie strict, montrer des exemples au modèle fonctionne mieux que d'empiler des instructions dans le prompt.
- Volume de données nécessaire. RAG : vos documents tels quels suffisent, même quelques dizaines de pages. Fine-tuning : il faut des exemples annotés de qualité, en quantité ; un petit corpus mal annoté produit un modèle pire que le modèle de base.
Les cas où le fine-tuning gagne
Soyons honnêtes : il existe des situations où le fine-tuning est le bon choix, et il serait malhonnête de vendre du RAG partout.
- Un style rédactionnel constant. Vous générez des milliers de textes qui doivent respecter une charte précise (fiches produits, courriers types) : quelques centaines d'exemples bien choisis apprennent au modèle le ton exact, mieux qu'un long prompt.
- La classification à très fort volume. Trier des dizaines de milliers de tickets, e-mails ou documents par jour : un petit modèle fine-tuné pour cette tâche unique est plus rapide, plus constant et beaucoup moins cher à l'inférence qu'un gros modèle généraliste sollicité à chaque fois.
- La latence et le coût en inférence massive. À partir d'un certain volume d'appels, remplacer un grand modèle par un petit modèle spécialisé fine-tuné réduit la facture et le temps de réponse. C'est un calcul d'optimisation, pertinent quand le produit tourne déjà.
- Un domaine ultra-spécialisé avec corpus annoté. Vocabulaire médical, juridique ou industriel très éloigné du langage courant, et un jeu de données annoté qui existe déjà : le fine-tuning aide le modèle à parler la langue du métier.
Le point commun de ces cas : on apprend au modèle comment faire, pas quoi savoir. Dès que la question est « répondre juste à partir de nos documents », on retombe sur le RAG.
Et souvent : les deux
Ce n'est pas un duel. Les architectures qui vieillissent bien combinent les deux : le RAG pour les faits, un modèle (parfois fine-tuné) pour la forme. Le RAG va chercher les passages pertinents et garantit la fraîcheur et la traçabilité ; un petit modèle ajusté met la réponse au bon format, dans le bon ton. On obtient des réponses justes, sourcées, et formatées exactement comme le métier l'attend. Mais on n'en arrive là qu'après avoir fait fonctionner le RAG seul : commencer par le fine-tuning, c'est optimiser la forme avant d'avoir le fond.
Combien ça coûte
Côté marché, un projet RAG d'entreprise se chiffre généralement de quelques milliers d'euros pour un assistant sur un corpus défini, à plusieurs dizaines de milliers pour les déploiements complexes (multi-sources, fort volume, contraintes de souveraineté). Un projet de fine-tuning sérieux démarre rarement sous les dizaines de milliers d'euros tout compris, parce que le poste dominant n'est pas le GPU : c'est la constitution du jeu de données annoté et les itérations d'évaluation. Les API de fine-tuning (OpenAI, Mistral) facturent l'entraînement au token, ce qui paraît modique, mais ce prix ne couvre ni la préparation des données ni les réentraînements successifs.
Chez Buildoto, je ne vends pas de fine-tuning : je livre un chatbot RAG à prix fixe, $4,210 HT, basé sur le dispositif qui tourne en production sur BeForBuild.com, mon SaaS B2B. Le RAG est adapté à vos documents (découpage, recherche hybride, citations, clause « pas de source, pas de réponse »), et le prix est connu avant de commencer. Si votre besoin relève vraiment du fine-tuning, je vous le dis en audit et je vous oriente, ce n'est pas mon créneau.
Par où commencer
- Un audit gratuit de 30 minutes. On regarde votre besoin réel : s'agit-il de connaissances (vos documents) ou de comportement (ton, format, classification) ? Cette seule question élimine la moitié des mauvaises pistes.
- Un périmètre mesurable. Un corpus, un cas d'usage, des questions tests réelles. On mesure le taux de réponses correctement sourcées avant d'étendre.
- Le RAG d'abord, l'optimisation ensuite. Si, une fois le RAG en production, un besoin de style ou de volume justifie un fine-tuning ciblé, on l'ajoute en connaissance de cause, sur des données d'usage réelles.
Sources
Questions fréquentes
Une fonctionnalité en tête ? Parlons-en.
30 minutes pour cadrer votre besoin et chiffrer le forfait. Réponse sous 24 h.
Réserver mon audit gratuit · 30 min