Notes Session Codex 2026-05-04

Sujet central

Clarifier la trajectoire business de pyannoteAI, son positionnement face a Gladia et les marches ou la couche speaker intelligence est differenciante.

Conclusion strategique

Pyannote ne doit pas etre lu comme un concurrent frontal de Gladia sur le STT complet. Le positionnement le plus solide est celui d'une couche speaker intelligence agnostique : diarization, speaker attribution, overlap, voiceprints, speaker ID, on-prem, fine-tuning, realtime et integration dans des pipelines audio complexes.

Gladia vs pyannote

Gladia est fort sur le STT productise : live, transcription, custom vocabulary, custom spelling, resumes, traduction, redaction, integrations.
Pyannote est fort sur la structure speaker : qui parle, quand, avec quel niveau de confiance, et parfois qui est cette personne.
Si Gladia utilise pyannote pour sa diarization, pyannote n'est pas devant Gladia dans un usage Gladia standard. Pyannote devient une brique que Gladia integre.
Le risque pour pyannote est de monter trop haut dans la stack et d'inquieter des partenaires comme Gladia.
Le bon message : "we make your STT speaker-aware", pas "we replace your STT".

STT orchestration

Le lancement de STT orchestration sert a reduire la friction produit :

fournir un output directement exploitable aux developpeurs ;
rester compatible avec des STT/transcripts existants, avec le niveau exact de BYO a qualifier selon l'API et le plan ;
aligner mots et speakers ;
eviter que les petits/moyens clients partent chez un STT provider juste pour obtenir transcript + speakers ;
demontrer la valeur de pyannote sur un resultat lisible.

Ce n'est pas une ambition evidente de battre Gladia sur custom vocabulary, spelling, resume ou enrichissements audio intelligence.

Quand Gladia intervient

Gladia intervient quand le besoin principal est :

transcrire les mots ;
gerer le vocabulaire, les noms propres, les termes metier ;
fournir du live STT ;
produire resumes, traduction, redaction, webhooks et integrations ;
lancer vite un produit voice avec peu d'infra audio interne.

Quand pyannote intervient

Pyannote intervient quand le besoin principal est :

savoir qui parle quand ;
attribuer les mots aux bons speakers ;
gerer les interruptions et l'overlap ;
reconnaitre des speakers connus ;
deployer on-prem ou dans un environnement contraint ;
fine-tuner une couche speaker sur donnees client ;
integrer une brique speaker dans un pipeline existant.

Cas difficiles ou pyannote doit gagner

Plusieurs speakers avec un seul micro central.
Overlap, interruptions et cross-talk.
Audio de salle, far-field ou bruit de fond.
Call centers avec transfert ou conversations tendues.
Medical : medecin, patient, infirmier, proches.
Legal : attribution auditable des propos.
Podcasts, medias, archives et doublage.
Speaker count inconnu.
Speaker recurrent a reconnaitre sur plusieurs appels.
Environnements sensibles imposant on-prem ou air-gapped.

Alternatives possibles pour les partenaires

Si un partenaire comme Gladia se sent menace, il peut :

internaliser la diarization ;
utiliser NVIDIA NeMo / Sortformer ;
utiliser SpeechBrain, Kaldi-like ou des modeles maison ;
accepter une diarization "good enough" si les clients valorisent plus STT, latence, resume et integrations.

Marches propres a pyannote

Les marches naturels sont ceux ou une erreur de speaker attribution coute cher :

STT providers et voice AI infrastructure ;
meeting bots et note-takers ;
medical / clinical audio, en distinguant STT provider, produit vertical, hopital build interne et integrateur ;
call centers, en distinguant CCaaS, conversation intelligence, BPO, enterprise contact center et STT provider ;
legal, arbitrage, audiences ;
defense et secteur public sensible ;
aviation / enquete type BEA ;
medias, podcasts, archives ;
dubbing et localization ;
datasets et training data.

Exemple BEA

Ne pas vendre "un STT". Vendre une plateforme ou brique d'analyse audio d'enquete aeronautique :

traitement local/on-prem de CVR, ATC, radio ;
diarization cockpit, controleurs, cabine ;
transcription specialisee aviation via STT dedie ;
alignement audio, transcript, speakers, timecodes ;
interface human-in-the-loop ;
audit trail et export controle.

Pyannote serait la couche speaker. Gladia ou un autre STT serait la couche transcription.

Exemple justice

Ne pas vendre aux barreaux en premier si le sujet est l'audience officielle. Buyer principal : Ministere de la Justice, DNUM et Direction des services judiciaires.

Positionnement prudent : "Assister le greffe avec une transcription speaker-attributed, verifiable, horodatee et corrigeable, sans remplacer le role d'autorite du greffier."

Pour un go-to-market plus accessible :

arbitrage ;
mediation ;
gros cabinets ;
legaltechs ;
commissaires de justice ;
directions juridiques.

Ce que retenir comme candidat

Angle principal : "Je comprends que votre enjeu n'est pas juste de vendre une API de diarization. C'est de convertir une adoption open source massive en revenus enterprise, en aidant les clients a integrer la meilleure couche speaker dans des pipelines audio complexes."

Positionnement personnel : GTM builder technique, capable de comprendre le produit, parler a des equipes AI/speech, structurer des playbooks et transformer une traction technique brute en pipeline qualifie.