Document de travail

Ce que j'ai compris de nos échanges, et les hypothèses que j'aimerais valider.

Cette page n'est pas un diagnostic définitif. C'est une synthèse de ce que j'ai compris après nos discussions, avec une première projection de la manière dont je pourrais contribuer si le fit se confirme.

Ma lecture produit pyannote vend la fiabilité speaker

Savoir qui parle, quand, et avec assez de confiance pour que les produits downstream soient fiables.

Ma lecture du rôle Transformer le signal technique

Convertir l'inbound, l'open source et les signaux d'usage en opportunités qualifiées.

Approche à tester Discovery, benchmark, POC

Partir du pain speaker, mesurer contre une baseline, puis cadrer une décision.

Pourquoi cette page

Plutôt qu'une relance classique, je voulais partager une base de discussion. J'ai volontairement formulé le contenu comme des hypothèses : l'intérêt est de voir ce qui vous paraît juste, ce qui est à nuancer, et où je pourrais contribuer dès les premières semaines.

Article court : 19 mois à comprendre l'IA vocale

Une version personnelle, pédagogique et publiable de ce que j'ai appris.

Depuis octobre 2024, cela fait environ 19 mois que je travaille, j'observe et je me forme sur les sujets d'intelligence artificielle appliquée. Le parcours a été long, parfois très technique, mais il m'a appris une chose simple : l'IA ne devient utile que lorsqu'elle comprend le contexte réel dans lequel elle est utilisée.

Ce que la diarisation m'a appris sur l'avenir de l'IA vocale

Dans la voix, ce contexte commence par une question très simple : qui parle, et quand ? C'est ce qu'on appelle la diarisation, ou speaker diarization. Elle ne consiste pas à transcrire les mots. La transcription répond à la question "qu'est-ce qui a été dit ?". La diarisation répond à une autre question : "qui l'a dit, à quel moment, et dans quel tour de parole ?".

Cette différence paraît mineure, mais elle change beaucoup de choses. Dans une réunion, un appel client, une consultation médicale, une interview, un podcast ou une conversation avec plusieurs personnes, le texte seul ne suffit pas. Une phrase n'a pas la même valeur selon qu'elle vient du client, du commercial, du médecin, du patient, du manager ou de l'agent vocal. Une IA qui confond les locuteurs peut produire un résumé faux, attribuer une objection à la mauvaise personne, mal calculer un temps de parole, ou déclencher la mauvaise action.

Techniquement, une pipeline de diarisation combine plusieurs briques. D'abord, elle détecte les zones où il y a de la voix : c'est le Voice Activity Detection, ou VAD. Ensuite, elle coupe l'audio en segments cohérents, repère les changements de locuteur, transforme chaque segment vocal en empreinte acoustique, puis regroupe les segments qui semblent venir de la même personne. Les systèmes les plus avancés doivent aussi gérer les voix qui se chevauchent, les bruits de fond, les accents, les changements de langue, les micros médiocres et les conversations où les gens se coupent la parole.

J'emploie parfois VCA pour parler des Voice Conversational Agents, c'est-à-dire des agents conversationnels vocaux. Leur avenir ne sera pas seulement un LLM branché à un micro et à une voix de synthèse. Un bon agent vocal aura besoin d'une vraie couche d'intelligence conversationnelle : savoir qui parle, détecter une interruption, comprendre qu'une deuxième personne vient d'entrer dans la conversation, garder le bon contexte par interlocuteur, décider à qui répondre, et parfois refuser d'agir si la bonne personne n'a pas parlé.

C'est pour cela que la diarisation devient une brique d'infrastructure. Dans une stack voice AI, on trouve généralement l'audio, le VAD, la diarisation ou l'identification de locuteur, l'ASR pour la transcription, le LLM pour raisonner, les outils métier pour agir, puis le TTS pour répondre. Si la couche "speaker" est mauvaise, tout le reste se dégrade : le transcript est moins clair, le LLM comprend moins bien le contexte, les analytics deviennent douteuses, et l'expérience utilisateur perd en confiance.

Est-ce que c'est toujours critique ? Non. Pour un assistant vocal utilisé par une seule personne dans un environnement calme, la diarisation est secondaire. Mais dès qu'il y a plusieurs humains, du bruit, des enjeux métiers ou de la conformité, elle devient centrale. Les cas d'usage sont nombreux : meeting assistants, centres d'appel, coaching commercial, santé, justice, assurance, médias, doublage, formation de datasets audio, agents vocaux en magasin, drive, support ou accueil téléphonique.

Le mouvement le plus intéressant aujourd'hui est le passage de l'analyse offline à la diarisation en temps réel. Historiquement, on enregistrait un audio, puis on l'analysait après coup. Le streaming change la logique : l'IA peut savoir pendant la conversation qui parle et adapter son comportement immédiatement. C'est une première étape vers quelque chose de plus large : rendre le son programmable, c'est-à-dire transformer une conversation brute, chaotique et humaine en structure exploitable par des logiciels.

Le marché est encore en construction. Les grands cloud providers comme Google Cloud, AWS et Microsoft Azure proposent de la diarisation dans leurs offres speech. Des acteurs speech-to-text comme Deepgram, AssemblyAI ou Speechmatics l'intègrent aussi dans leurs APIs. D'autres acteurs, comme Picovoice avec Falcon, poussent une approche plus modulaire et on-device. Autour de cette couche, on retrouve aussi des plateformes d'agents vocaux ou de voice AI comme LiveKit, Vapi, Retell, Synthflow, PolyAI, ElevenLabs ou Gladia, qui ont besoin d'une compréhension fiable de la conversation, même quand elles ne vendent pas toutes directement de la diarisation pure.

En France, pyannoteAI est l'acteur le plus évident sur cette couche spécialisée. En Europe, Speechmatics est un concurrent adjacent très crédible sur le speech-to-text et la voice AI, tandis que Gladia, Synthflow, PolyAI ou ElevenLabs se situent davantage autour de la transcription, des agents vocaux, de l'orchestration ou de la voix synthétique. Ce qui distingue pyannoteAI, à mes yeux, c'est le focus : ils ne cherchent pas d'abord à devenir un STT généraliste. Ils veulent devenir la couche "speaker intelligence" que l'on peut brancher dans n'importe quelle stack vocale.

Pourquoi les considérer comme l'un des meilleurs acteurs sur ce sujet ? Parce qu'ils partent d'une base de recherche et d'open source déjà reconnue avec pyannote.audio, parce qu'ils se concentrent sur un problème très dur plutôt que sur une promesse trop large, parce qu'ils travaillent sur les conditions réelles - bruit, overlap, multi-speaker, multilingue - et parce que leur positionnement peut rester agnostique : cloud, on-prem, edge, avec ou sans le STT du client. Le "meilleur" dépendra toujours du dataset, de la latence, du coût et du contexte de déploiement, mais leur crédibilité technique et leur spécialisation leur donnent un avantage clair.

Avoir un acteur européen sur cette brique est important. La voix est une donnée sensible. Elle touche à l'identité, à la biométrie, à la santé, au travail, aux conversations privées et aux environnements régulés. Dans un contexte GDPR, souveraineté cloud et AI Act, dont une grande partie des règles est prévue, à ce stade, pour le 2 août 2026, les entreprises européennes auront besoin d'alternatives crédibles aux hyperscalers américains. Pas par principe politique seulement, mais pour des raisons concrètes : localisation des données, déploiement on-prem, auditabilité, conformité, support local, langues et accents européens.

Ce que j'ai surtout compris en 19 mois, c'est que l'IA avance moins par magie que par empilement de briques fiables. Les modèles impressionnent, mais les produits gagnent quand les données sont propres, les signaux bien attribués, les workflows clairs et les erreurs maîtrisées. La diarisation est exactement ce type de brique : discrète, technique, parfois invisible pour l'utilisateur final, mais décisive pour faire passer l'IA vocale d'une démo séduisante à un produit fiable.

Ce que j'ai compris de pyannoteAI

Une lecture courte, à valider avec vous.

pyannoteAI me semble être à un moment particulier : la légitimité science/tech existe déjà, l'adoption développeur existe déjà, et le sujet devient maintenant de transformer cette traction en revenus répétables sans abîmer le positionnement de couche speaker agnostique.

Origine

Recherche + open source

Une librairie issue de travaux de recherche CNRS, devenue référence pour la diarization.

Valeur

Comprendre qui parle

La valeur n'est pas seulement de transcrire les mots. Elle est de savoir qui parle, quand, dans des conversations réelles.

GTM

Convertir le signal existant

L'adoption open source et Hugging Face donne déjà un signal. Ma lecture est que le GTM consisterait surtout à le qualifier et à le convertir.

Trajectoire

Enterprise-ready

Le chemin naturel me semble être l'enterprise : volume, sécurité, on-prem, support, intégration dans des stacks audio existantes.

Vigilance

Ne pas devenir un STT généraliste

STT orchestration réduit la friction, mais le message commercial gagne à rester partner-safe avec les plateformes STT.

Ce que j'ai compris du rôle

Un rôle commercial, mais aussi un rôle de construction.

Le poste ne me semble pas être un rôle d'AE SaaS classique. J'ai compris qu'il combine exécution commerciale, structuration des playbooks, coordination avec RevOps/Product Marketing, et apprentissage rapide d'un produit technique.

1Valoriser l'inbound

Qualifier les leads, prioriser les signaux d'usage, et convertir les opportunités immédiates.

2Lancer l'outbound ciblé

Tester des cohortes fondées sur un pain speaker précis, pas sur une verticale vague.

3Construire le playbook

Documenter messages, objections, POC, critères de qualification et handoff technique.

Mon angle personnel

Sales builder avec culture technique. Mon point fort n'est pas d'être ingénieur ; c'est de comprendre assez vite un sujet technique pour le traduire en problème business.

Environnements sensibles. Avec mes projets IA, j'ai travaillé sur du cadrage, de la formation, de la roadmap et de la relation client dans des contextes santé, finance, pharma, logistique ou grands comptes.

Pédagogie. J'enseigne l'IA appliquée au management à la Sorbonne, ce qui m'oblige à rendre clairs des sujets complexes sans les appauvrir.

Processus de recrutement

Où j'en suis et ce que je prépare.

Fait27/04/2026 - Pierre-Baptiste

Fit général, rôle, inbound/outbound, ICP, Applied AI, pre-sales, culture pyannote.

Fait29/04/2026 - Vincent

Vision CEO, entreprise, open source funnel, enterprise, temps réel, orchestration.

MaintenantRoleplay sales

Montrer discovery, qualification, reformulation, objection, POC et next step.

EnsuiteHervé + Juan

Creuser moat, limites techniques, intégration, on-prem, realtime, handoff pre-sales.

AprèsOffre si convergence

Aligner attentes 90 jours, ownership, territoire, objectifs, package et ramp.

Ce que j'imagine à 30, 60, 90 jours

Hypothèse de plan, à ajuster avec vos priorités réelles.

Jours 1-30

Comprendre et instrumenter

Tester le produit, les API, l'offre enterprise et les limites à ne pas survendre.
Auditer CRM/HubSpot, inbound, free trials, signaux OSS, historique de deals et pertes.
Écouter des calls clients et parler à 10 utilisateurs ou clients si possible.
Cartographier ICP par déclencheur : quality plateau, data sovereignty, domain-specific, channel.

Livrables : ICP v1, discovery framework v1, objections v1, top 20 comptes à traiter.

Jours 31-60

Tester et structurer

Lancer 1 ou 2 cohortes outbound avec messages dédiés, pas une séquence générique.
Construire un template POC : dataset, baseline, métriques, critères de succès, décision attendue.
Travailler avec RevOps sur scoring : volume, domaine, récurrence, usage, signaux produit.
Ouvrir une première hypothèse channel : OVH/Scaleway, Orange, intégrateurs ou partenaires STT.

Livrables : outbound v1, POC template, qualification scorecard, premiers meetings qualifiés.

Jours 61-90

Rendre répétable

Pousser les meilleures opportunités vers POC ou proposal avec sponsor et date de décision.
Documenter messages, objections, réponses, disqualifications et signaux gagnants.
Partager feedback produit : friction docs/API, pricing, STT orchestration, besoins on-prem.
Proposer une priorisation ICP pour le trimestre suivant sur données + conversations.

Livrables : pipeline qualifié, Outbound Playbook v1, OSS-to-Paid Playbook v1, forecast propre.

Chantiers opérationnels imaginés

Les sujets que je m'attendrais à creuser en arrivant.

Inbound

Classifier les leads par pain, volume, stack, urgence, buyer et potentiel enterprise.

Moins de bruit, plus de meetings qualifiés.

OSS-to-paid

Identifier les utilisateurs open source avec signal de production : volume, domaine sensible, usage récurrent, besoin support.

Conversion fondée sur valeur.

Outbound

Partir d'une hypothèse speaker précise : corrections, overlap, agent/client, médecin/patient, on-prem, speaker ID.

Messages plus courts et plus qualifiants.

POC

Ne pas lancer de test sans dataset représentatif, baseline, critères de succès, owner technique et sponsor business.

POC vendable, pas expérimentation gratuite.

RevOps

Documenter source, pain, route, volume, next step, decision process et paper process dans HubSpot.

Machine commerciale transmissible.

Applied AI / pre-sales

Qualifier environnement, données, labels, droits, GPU, sécurité et budget avant d'impliquer l'équipe technique.

Meilleur handoff, moins de cycles inutiles.

Hypothèses de discours commerciaux

La même couche speaker, mais probablement pas le même pitch.

STT provider / voice AI platform

Renforcer sans remplacer

Question pivot : sur quels segments la diarization devient-elle un sujet de churn, support ou enterprise sales ?

Next step : benchmark OEM ou intégration sandbox.

Note-takers / meeting bots

Restaurer la confiance produit

Question pivot : combien de corrections speaker ou tickets support voyez-vous par mois ?

Next step : dataset de meetings multi-speakers + baseline.

Medical / clinical audio

Distinguer médecin, patient, proche

Question pivot : l'erreur critique vient-elle des mots ou de l'attribution speaker ?

Next step : POC sécurisé sur consultations anonymisées.

Call center / BPO

Fiabiliser analytics et QA

Question pivot : quels KPIs dépendent du bon speaker : talk time, interruptions, script, compliance ?

Next step : POC sur appels représentatifs.

Défense / public sensible

Garder le contrôle de la donnée

Question pivot : cloud, private cloud, on-prem ou air-gapped ? Qu'est-ce qui bloque aujourd'hui ?

Next step : cadrage non classifié + pre-sales sécurité.

Channel souverain / intégrateurs

Distribuer une brique voice AI souveraine

Question pivot : quels clients ont un besoin audio mais ne peuvent pas utiliser les hyperscalers ?

Next step : co-sell, marketplace, crédits développeur.

LLM/audio platform avec STT natif

Coopétition prudente

Question pivot : où le STT natif est-il suffisant, et où un layer speaker spécialisé reste nécessaire ?

Next step : approche benchmark, pas pitch vendeur standard.

Hypothèse de discovery

J'imagine qu'il vaut mieux ne pas commencer par vendre de la diarization. Je commencerais plutôt par faire verbaliser ce qu'une erreur speaker casse concrètement : produit, confiance utilisateur, conformité, analytics, coût de correction ou time-to-market.

Ce que j'aimerais valider

Les points sur lesquels vos retours seraient les plus utiles.

Quels ICP sont réellement prioritaires aujourd'hui : mid-market voice AI, enterprise, channel, ou une combinaison plus fine ?

Quel niveau d'ownership attendez-vous d'un AE sur mid-market vs enterprise ?

À quel moment un deal doit-il passer à pre-sales ou Applied AI ?

Quels discours commerciaux vous semblent dangereux ou trop approximatifs dans cette grille ?