Disponible · TJM 380€ HT/j

Développeur freelance IA
Pipeline RAG · Agent tool-use · TypeScript

Je conçois et livre des pipelines IA en production — pas des PoC. RAG complet sur vos documents, agent conversationnel avec tool-use, streaming SSE vers React, OCR documentaire. Tout en TypeScript sur Cloudflare Workers, remote, disponible immédiatement en France.

Preuve concrète : l'agent IA de beforbuild.com — pipeline RAG Mistral sur pgvector, agentic loop avec tool-use (max 4 itérations), streaming SSE bout en bout vers React, OCR Tesseract via Cloudflare Workflows. En production, utilisé quotidiennement. Pas une démo.

Sans engagement · Réponse sous 24h · Freelance IA disponible immédiatement France

Sébastien Mignot — Développeur Freelance IA Pipeline RAG TypeScript
1 RAG
pipeline complet en production — Mistral · pgvector · SSE
tool-use
Agentic loop 4 itérations · sessions KV · streaming bout en bout
380€ HT
TJM · freelance IA TypeScript France

L'IA en production : pourquoi c'est plus complexe que prévu

Ces blocages apparaissent dès qu'on sort du notebook Jupyter pour livrer une vraie feature utilisateur.

Votre PoC RAG ne passe pas en production
Le notebook fonctionne, mais câbler le pipeline RAG dans une vraie application — gestion des sessions, streaming des réponses, isolation multi-utilisateurs, performances sous charge — c'est un autre travail. Il faut une architecture, pas juste un script Python.
L'agent hallucine ou sort du contexte
Un LLM sans RAG répond avec ses connaissances générales, pas avec vos données. Un RAG mal conçu (mauvais chunking, embeddings non filtrés, contexte trop large) produit des réponses hors-sujet ou contradictoires. La qualité du pipeline détermine la qualité des réponses.
L'UX de l'agent est mauvaise
Un agent qui attend 10 secondes avant d'afficher quoi que ce soit n'est pas utilisable. Le streaming SSE — afficher les tokens au fur et à mesure — est un impératif UX, pas une option. Le câblage bout-en-bout (Workers → Realtime → React) est complexe mais indispensable.

Architecture IA en production : ce que j'ai livré

Mon expérience IA est ancrée dans un seul projet — mais complet, en production, et vérifiable : beforbuild.com. L'agent conversationnel de la plateforme est utilisé quotidiennement par des promoteurs immobiliers pour analyser leurs documents de projet.

Le pipeline complet : les documents sont OCRisés via Tesseract.js dans un Cloudflare Workflow (tâche durable), découpés en chunks avec métadonnées enrichies (h1/h2/phase/document_name), embeddés via l'API Mistral (1024 dimensions), et stockés dans pgvector. Lors de chaque message, les 6 chunks les plus proches sont récupérés par similarité cosinus et injectés dans le prompt.

L'agent utilise le tool-use Mistral (function calling) pour appeler des outils métier — calculs budgétaires, recherche d'informations foncières, résumés de documents. La boucle agentique itère jusqu'à 4 fois avant de produire la réponse finale. Tout streame en SSE bout en bout : Worker IA → Supabase Realtime → React via TanStack Query.

Pipeline RAG complet
OCR Tesseract → chunking enrichi → embeddings Mistral 1024-dim → pgvector → récupération cosinus → injection contexte → LLM.
Agent tool-use
Agentic loop Mistral function calling, max 4 itérations. Sessions opaques en KV Cloudflare (15 min TTL). Historique 6 messages pour la cohérence conversationnelle.
Streaming SSE bout en bout
Worker IA → Supabase Realtime → React (TanStack Query). Premiers tokens affichés en moins d'une seconde. Expérience conversationnelle fluide.
OCR documentaire durable
Cloudflare Workflows pour les tâches longues (ZIP → extraction → OCR Tesseract → chunking → embedding → insertion pgvector). Rejouable, traçable, sans timeout.

Détail du pipeline IA en production

Chaque composant est en production sur beforbuild.com — pas une architecture théorique.

Le pipeline RAG démarre à l'upload d'un document. Un Cloudflare Workflow orchestre les étapes longues sans risque de timeout : extraction du ZIP, OCR Tesseract.js page par page, chunking en segments de 500 tokens avec chevauchement, enrichissement des métadonnées (titre h1/h2, phase projet, nom du document), appel API Mistral pour les embeddings 1024-dim, insertion dans pgvector.

  • Chunking avec métadonnées riches — le contexte injecté dans le LLM est précis et traçable
  • Embeddings Mistral mistral-embed — 1024 dimensions, stockés dans pgvector avec index IVFFlat
  • Recherche cosinus vector <=> query — 6 chunks les plus proches, filtrés par organisation
  • RLS sur les vecteurs — un utilisateur ne peut jamais accéder aux embeddings d'une autre organisation
Réponses ancrées dans vos documents Zéro hallucination sur les données propriétaires Pipeline durable sans timeout

L'agent va au-delà d'un simple RAG : il peut appeler des outils métier — calculer un ratio financier, chercher une adresse via l'API BAN, récupérer un résumé de document — avant de produire sa réponse. La boucle itère jusqu'à 4 fois (appel d'outil → résultat → décision de l'agent) puis stream la réponse finale.

  • Mistral function calling avec schéma JSON strict pour chaque outil
  • Session token opaque en KV Cloudflare (15 min TTL) — le client ne voit jamais l'historique brut
  • Historique 6 messages pour la cohérence conversationnelle sans exploser le contexte
  • Gestion propre des erreurs d'outil — l'agent retente ou s'adapte sans bloquer
Agent vraiment utile, pas juste un chatbot Sessions sécurisées sans état côté client Extensible — chaque outil métier est un handler TypeScript

Le streaming SSE (Server-Sent Events) permet d'afficher les tokens au fur et à mesure qu'ils sont générés — comme sur ChatGPT. L'architecture : le Worker IA streame les tokens de Mistral vers Supabase Realtime via un channel dédié, React écoute ce channel avec TanStack Query et met à jour le DOM token par token.

  • Worker IA reçoit le stream Mistral et le redirige vers Supabase Realtime (channel par session)
  • React subscribe au channel Realtime — premiers tokens affichés en moins d'une seconde
  • TanStack Query gère la mise à jour incrémentale du DOM sans re-render complet
  • Cleanup automatique du channel à la fin du stream — pas de fuite de connexion
UX conversationnelle fluide Pas de WebSocket custom à maintenir Architecture réutilisable pour tout LLM compatible

Comment je livre un pipeline IA en production

01
Cadrage technique
Je commence par comprendre votre cas d'usage IA : type de documents, volume, questions attendues, intégration dans l'application existante. Je propose une architecture concrète — quels modèles, quelle base vectorielle, comment câbler le streaming — avant d'écrire une ligne de code.
02
Pipeline d'abord, UX ensuite
Je construis d'abord le pipeline RAG (ingestion, embedding, recherche) et valide la qualité des réponses avant de passer à l'interface. Un pipeline solide avec une interface basique vaut mieux qu'une belle interface sur un RAG qui hallucine.
03
Livraison et documentation
À la fin : pipeline documenté (architecture, choix de chunking, paramètres d'embedding), code TypeScript testé, CI/CD configuré. Votre équipe peut faire évoluer le pipeline sans dépendance à ma présence.

Tarifs — Freelance IA · Pipeline RAG

Appel découverte
Gratuit · 30 minutes
30 minutes pour comprendre votre cas d'usage IA, évaluer la faisabilité et vous proposer une architecture concrète. Aucun engagement.
Mission freelance IA · Pipeline RAG
380€ HT / jour
ou forfait projet sur devis
Un pipeline RAG en production avec un dev senior IA coûte souvent 700-1000€/j en ESN. Disponible immédiatement, pas d'intermédiaire.
Pipeline RAG complet — OCR, chunking, embeddings, pgvector, récupération
Agent conversationnel tool-use — agentic loop, sessions KV, historique
Streaming SSE bout en bout — Workers → Realtime → React
OCR documentaire — Tesseract.js via Cloudflare Workflows
Intégration LLM — Mistral, OpenAI, Anthropic (API-agnostique)
TypeScript strict sur Cloudflare Workers — edge-first, sans serveur
Remote France — disponible immédiatement — facturation mensuelle

Questions fréquentes — Développeur freelance IA · RAG

Un chatbot standard répond avec les connaissances générales du modèle de langage. Un pipeline RAG enrichit chaque prompt avec des passages extraits de vos propres documents — l'agent répond avec vos données, pas avec des généralités. Résultat : les réponses sont factuelles, traçables, et propres à votre contexte métier. C'est la différence entre un assistant générique et un expert de vos données.
Oui — beforbuild.com. L'agent IA de la plateforme est utilisé en production : documents uploadés par les utilisateurs OCRisés, embeddés via Mistral, stockés dans pgvector, et récupérés par recherche cosinus lors de chaque message. L'agent dispose aussi de tool-use pour appeler des outils métier. Le tout streame en SSE vers React. C'est une référence vérifiable, pas une démo.
J'ai travaillé principalement avec Mistral (mistral-large pour le raisonnement, mistral-embed pour les embeddings) car c'est un modèle français avec une excellente API TypeScript et des performances solides sur le français technique. Je m'adapte à OpenAI (GPT-4o), Anthropic (Claude) ou tout modèle via une API compatible OpenAI. L'architecture RAG est indépendante du modèle.
Non — c'est ma stack de prédilection pour les nouvelles architectures, mais je m'adapte. Le pipeline RAG peut tourner sur Node.js (Express, Fastify), sur un serverless AWS/GCP, ou dans votre infrastructure existante. Ce qui compte, c'est la qualité du pipeline (chunking, embeddings, récupération) et le câblage du streaming — pas le runtime.

Votre pipeline IA mérite d'aller en production.

RAG sur vos documents, agent conversationnel, streaming SSE — 30 minutes pour évaluer votre cas d'usage et vous proposer une architecture concrète. Remote France, disponible immédiatement.

Ou écrire directement : [email protected]