Customer service IA : retour d'expérience sur 18 mois de déploiements

On a déployé des agents de support IA chez une douzaine de clients depuis début 2024. E-commerce, SaaS, services B2B, immobilier. Voici ce qu'on a appris — y compris ce qui ne fonctionne pas comme prévu.

Ce que "customer service IA" veut dire en 2025

Il faut distinguer trois choses que le marché mélange allègrement.

Les chatbots à règles : un arbre de décision glorifié. Vous tapez "remboursement", il répond avec sa FAQ. Utile en 2018, insuffisant aujourd'hui.

Les chatbots LLM sans contexte : un GPT-4 accroché à votre site. Il répond en langage naturel mais hallucine sur les détails de vos produits, vos délais, votre politique tarifaire. Dangereux.

Les agents RAG : un LLM connecté à votre base de connaissance (documentations, FAQ, historique clients, fiches produits). Il répond sur la base de vos données réelles. C'est ça qu'on déploie.

L'architecture qu'on utilise

Votre base de connaissance (PDFs, Notion, Zendesk, emails types) est ingérée dans une base vectorielle (Pinecone, Weaviate ou pgvector selon les contraintes). Quand un client pose une question, on cherche les passages les plus pertinents dans cette base, on les donne en contexte au LLM, et il génère une réponse ancrée dans votre réalité.

L'historique de la conversation est maintenu sur toute la durée de l'échange. Si l'agent ne peut pas répondre avec un niveau de confiance suffisant, il transfère à un agent humain avec le résumé de la conversation.

L'intégration se fait généralement via Zendesk, Intercom ou WhatsApp Business API.

Ce qui fonctionne

La gestion du volume. Un e-commerce client traite 800 à 1200 tickets/semaine en période normale, 3000+ en pic de fêtes. L'agent gère 78% des tickets de bout en bout sans intervention humaine. L'équipe support de 4 personnes gère les 22% restants — qui sont les cas vraiment complexes, ceux où un humain apporte vraiment de la valeur.

La consistance. Un humain fatigué à 17h répond différemment qu'à 9h. L'agent est identique à toute heure. Pas d'humeur, pas de copier-coller raté, pas de "je vais remonter ça en interne" sans suite.

La détection des opportunités commerciales. Un client qui demande "est-ce que vous proposez X ?" alors que X n'est pas dans votre catalogue peut être routé vers un commercial plutôt que d'avoir un simple "non". On a configuré ça chez un client SaaS, ça génère 3 à 5 leads qualifiés par semaine supplémentaires.

Ce qui ne fonctionne pas (encore)

Les situations émotionnelles. Un client en colère qui vient de perdre des données, un patient qui appelle pour une urgence médicale, une personne âgée déstabilisée par la technologie : les LLM savent qu'ils doivent escalader, mais la détection de l'état émotionnel reste approximative. On configure systématiquement une escalade humaine rapide dès que certains signaux apparaissent.

Les sujets évolutifs rapides. Si vos prix changent toutes les semaines, si vous lancez des promos flash, si votre catalogue évolue en temps réel — maintenir la base de connaissance synchronisée demande de la discipline. Un agent avec une base désynchronisée est pire qu'un agent absent.

Le premier mois. La qualité des réponses s'améliore énormément avec les retours terrain. On passe systématiquement les 4 premières semaines en mode "supervision active" avec l'équipe client pour identifier les cas mal gérés et affiner le système.

Les métriques qu'on suit

Taux de résolution autonome (objectif : >70%)
Taux de satisfaction post-conversation (objectif : >4/5)
Temps de première réponse (objectif : <30 secondes 24/7)
Taux d'escalade humaine (informatif)
Coût par ticket résolu (comparé au coût humain équivalent)

Sur nos 12 déploiements, le ROI positif arrive en moyenne au 3e mois. Le seuil de rentabilité est atteint quand l'agent résout plus de 50% des tickets — ce qu'on atteint généralement dès la fin du premier mois.