Depuis octobre 2024, cela fait environ 19 mois que je travaille, j'observe et je me forme sur les sujets d'intelligence artificielle appliquée. Le parcours a été long, parfois très technique, mais il m'a appris une chose simple : l'IA ne devient utile que lorsqu'elle comprend le contexte réel dans lequel elle est utilisée.
Ce que la diarisation m'a appris sur l'avenir de l'IA vocale
Dans la voix, ce contexte commence par une question très simple : qui parle, et quand ? C'est ce qu'on appelle la diarisation, ou speaker diarization. Elle ne consiste pas à transcrire les mots. La transcription répond à la question "qu'est-ce qui a été dit ?". La diarisation répond à une autre question : "qui l'a dit, à quel moment, et dans quel tour de parole ?".
Cette différence paraît mineure, mais elle change beaucoup de choses. Dans une réunion, un appel client, une consultation médicale, une interview, un podcast ou une conversation avec plusieurs personnes, le texte seul ne suffit pas. Une phrase n'a pas la même valeur selon qu'elle vient du client, du commercial, du médecin, du patient, du manager ou de l'agent vocal. Une IA qui confond les locuteurs peut produire un résumé faux, attribuer une objection à la mauvaise personne, mal calculer un temps de parole, ou déclencher la mauvaise action.
Techniquement, une pipeline de diarisation combine plusieurs briques. D'abord, elle détecte les zones où il y a de la voix : c'est le Voice Activity Detection, ou VAD. Ensuite, elle coupe l'audio en segments cohérents, repère les changements de locuteur, transforme chaque segment vocal en empreinte acoustique, puis regroupe les segments qui semblent venir de la même personne. Les systèmes les plus avancés doivent aussi gérer les voix qui se chevauchent, les bruits de fond, les accents, les changements de langue, les micros médiocres et les conversations où les gens se coupent la parole.
J'emploie parfois VCA pour parler des Voice Conversational Agents, c'est-à-dire des agents conversationnels vocaux. Leur avenir ne sera pas seulement un LLM branché à un micro et à une voix de synthèse. Un bon agent vocal aura besoin d'une vraie couche d'intelligence conversationnelle : savoir qui parle, détecter une interruption, comprendre qu'une deuxième personne vient d'entrer dans la conversation, garder le bon contexte par interlocuteur, décider à qui répondre, et parfois refuser d'agir si la bonne personne n'a pas parlé.
C'est pour cela que la diarisation devient une brique d'infrastructure. Dans une stack voice AI, on trouve généralement l'audio, le VAD, la diarisation ou l'identification de locuteur, l'ASR pour la transcription, le LLM pour raisonner, les outils métier pour agir, puis le TTS pour répondre. Si la couche "speaker" est mauvaise, tout le reste se dégrade : le transcript est moins clair, le LLM comprend moins bien le contexte, les analytics deviennent douteuses, et l'expérience utilisateur perd en confiance.
Est-ce que c'est toujours critique ? Non. Pour un assistant vocal utilisé par une seule personne dans un environnement calme, la diarisation est secondaire. Mais dès qu'il y a plusieurs humains, du bruit, des enjeux métiers ou de la conformité, elle devient centrale. Les cas d'usage sont nombreux : meeting assistants, centres d'appel, coaching commercial, santé, justice, assurance, médias, doublage, formation de datasets audio, agents vocaux en magasin, drive, support ou accueil téléphonique.
Le mouvement le plus intéressant aujourd'hui est le passage de l'analyse offline à la diarisation en temps réel. Historiquement, on enregistrait un audio, puis on l'analysait après coup. Le streaming change la logique : l'IA peut savoir pendant la conversation qui parle et adapter son comportement immédiatement. C'est une première étape vers quelque chose de plus large : rendre le son programmable, c'est-à-dire transformer une conversation brute, chaotique et humaine en structure exploitable par des logiciels.
Le marché est encore en construction. Les grands cloud providers comme Google Cloud, AWS et Microsoft Azure proposent de la diarisation dans leurs offres speech. Des acteurs speech-to-text comme Deepgram, AssemblyAI ou Speechmatics l'intègrent aussi dans leurs APIs. D'autres acteurs, comme Picovoice avec Falcon, poussent une approche plus modulaire et on-device. Autour de cette couche, on retrouve aussi des plateformes d'agents vocaux ou de voice AI comme LiveKit, Vapi, Retell, Synthflow, PolyAI, ElevenLabs ou Gladia, qui ont besoin d'une compréhension fiable de la conversation, même quand elles ne vendent pas toutes directement de la diarisation pure.
En France, pyannoteAI est l'acteur le plus évident sur cette couche spécialisée. En Europe, Speechmatics est un concurrent adjacent très crédible sur le speech-to-text et la voice AI, tandis que Gladia, Synthflow, PolyAI ou ElevenLabs se situent davantage autour de la transcription, des agents vocaux, de l'orchestration ou de la voix synthétique. Ce qui distingue pyannoteAI, à mes yeux, c'est le focus : ils ne cherchent pas d'abord à devenir un STT généraliste. Ils veulent devenir la couche "speaker intelligence" que l'on peut brancher dans n'importe quelle stack vocale.
Pourquoi les considérer comme l'un des meilleurs acteurs sur ce sujet ? Parce qu'ils partent d'une base de recherche et d'open source déjà reconnue avec pyannote.audio, parce qu'ils se concentrent sur un problème très dur plutôt que sur une promesse trop large, parce qu'ils travaillent sur les conditions réelles - bruit, overlap, multi-speaker, multilingue - et parce que leur positionnement peut rester agnostique : cloud, on-prem, edge, avec ou sans le STT du client. Le "meilleur" dépendra toujours du dataset, de la latence, du coût et du contexte de déploiement, mais leur crédibilité technique et leur spécialisation leur donnent un avantage clair.
Avoir un acteur européen sur cette brique est important. La voix est une donnée sensible. Elle touche à l'identité, à la biométrie, à la santé, au travail, aux conversations privées et aux environnements régulés. Dans un contexte GDPR, souveraineté cloud et AI Act, dont une grande partie des règles est prévue, à ce stade, pour le 2 août 2026, les entreprises européennes auront besoin d'alternatives crédibles aux hyperscalers américains. Pas par principe politique seulement, mais pour des raisons concrètes : localisation des données, déploiement on-prem, auditabilité, conformité, support local, langues et accents européens.
Ce que j'ai surtout compris en 19 mois, c'est que l'IA avance moins par magie que par empilement de briques fiables. Les modèles impressionnent, mais les produits gagnent quand les données sont propres, les signaux bien attribués, les workflows clairs et les erreurs maîtrisées. La diarisation est exactement ce type de brique : discrète, technique, parfois invisible pour l'utilisateur final, mais décisive pour faire passer l'IA vocale d'une démo séduisante à un produit fiable.