Oui, le CSAT n'est pas fait pour évaluer la performance de votre IA. Il était potentiellement acceptable sans IA, mais avec l'IA dans l'équation, c'est désormais un outil obsolète. Voici pourquoi.
Un rappel sur le CSAT
Malgré ses limites, le CSAT est largement utilisé dans le service client comme indicateur clé pour mesurer la qualité du support. Sa simplicité et son adoption généralisée en ont fait un standard universel.
Le CSAT est un score attribué par le client pour évaluer la qualité du support reçu, généralement sur une échelle de 1 à 5 dans le e-commerce.
Cependant, le CSAT présente des biais bien connus, principalement le biais de réponse et le biais temporel. Souvent, seuls les clients insatisfaits prennent le temps de noter votre service. De plus, le score est généralement recueilli juste après une interaction et ne reflète pas l'ensemble du parcours client. Ajoutons que le CSAT dépend fortement du modèle économique et des produits vendus. Il peut varier considérablement d'un marchand à l'autre, pas nécessairement en raison de la qualité de leur équipe support.
Malgré ces défauts, le CSAT reste un indicateur global raisonnable pour surveiller la santé de votre organisation support.
L'IA entre en jeu
L'introduction de l'IA représente un changement majeur, avec de nombreux bénéfices pour vos clients.
Pour énoncer l'évidence : l'IA assure un support 24h/24, des temps de réponse plus rapides, une qualité globale des tickets plus élevée grâce à une base de connaissances partagée, et des procédures centralisées plus fluides.
Si l'IA est un atout considérable pour votre organisation support, il est crucial de ne pas se fier uniquement au CSAT pour mesurer son efficacité. Même si certains outils IA mettent en avant leur « CSAT IA », voici pourquoi il ne faut pas prendre ces scores pour argent comptant.
IA vs humains
Par défaut, votre IA commencera par traiter les cas les plus simples et y répondra rapidement, ce qui entraîne souvent des scores CSAT élevés. C'est logique : n'importe quelle bonne IA peut obtenir un bon CSAT, surtout quand elle traite des cas conformes aux attentes du client (par exemple en évitant de refuser un remboursement). Que votre IA ait un bon CSAT est essentiellement un prérequis, et c'est facile à atteindre.
Mais que se passe-t-il ensuite ? Votre équipe humaine récupère les cas les plus complexes : les tickets qui vont à l'encontre des souhaits du client, ou les problèmes concrets comme un colis perdu, qui ont plus de chances d'entraîner un CSAT plus bas.
En conséquence, quand vous séparez les scores CSAT entre humains et IA, vous comparez deux jeux de données très différents. Votre comparaison est donc complètement biaisée. De plus, à mesure que votre IA monte en charge, son score CSAT reste élevé et stable, tandis que le CSAT de vos agents humains peut continuer à baisser puisqu'ils héritent des cas les plus difficiles.
C'est injuste envers votre équipe humaine et peut donner une impression faussement positive de votre IA. L'IA traite simplement les tâches les plus faciles et ne fait pas nécessairement le gros du travail.
Si vous souhaitez tout de même utiliser le CSAT, essayez au moins de comparer des tickets avec des intents similaires. Cela devrait donner une image plus fidèle de la performance réelle de votre IA (filtrez par tag ou champ de ticket, par exemple). Et bien sûr, choisissez un outil IA capable de véritablement automatiser votre support. Vous voulez des agents IA autonomes capables de récupérer des informations depuis des services externes et d'y effectuer des actions : une vraie automatisation, pas juste des réponses à des questions simples sur votre activité. Cela implique de traiter des tickets L2 et L3, pas seulement des L1.
Vers un nouveau score adapté à l'ère de l'IA ?
Puisque chaque marchand adopte l'IA pour améliorer la qualité et l'efficacité de son support, nous devons repenser notre façon de suivre la qualité de chaque interaction. Cela passe probablement par la création d'un nouveau score prêt pour l'ère de l'IA, un score qui ne serait pas biaisé par l'application des politiques, la vitesse ou les erreurs hors du contrôle des agents support.
Chez Yuma, nous développons un système de notation alternatif. Notre objectif est de créer un système juste envers les humains, capable d'évaluer à la fois la qualité globale des interactions et le respect des politiques. Si vous avez des idées sur ce que nous devrions intégrer dans ce nouveau système, partagez-les. Quel serait le mécanisme de notation idéal pour vous ? Un score unique peut-il vraiment être parfait ?
Au-delà des métriques, l'architecture de contrôle qualité compte aussi — découvrez comment l'architecture QC prévient les hallucinations IA.
Pour conclure : si le CSAT reste un indicateur global raisonnable, évitez de l'utiliser pour distinguer les performances entre humains et IA. Et si vous le faites quand même, faites-le en gardant pleinement conscience de tous les biais de cette séparation :)
