Document interne
Marche et Concurrence
02_Knowledge_Base/Marche_concurrence.md
Marche et Concurrence
Segments concurrents
- STT platforms avec diarization : Gladia, Deepgram, AssemblyAI, Speechmatics, Soniox.
- Hyperscalers : Azure Speech, Google STT, AWS Transcribe, OpenAI.
- Open source / self-hosted : NVIDIA NeMo, Sortformer, SpeechBrain, Kaldi-like stacks.
- Voice biometrics : Picovoice Eagle, Pindrop, Nuance, Veridas, ID R&D.
Gladia vs pyannote
Gladia est meilleur comme plateforme STT/audio intelligence generaliste. Pyannote est plus fort si la valeur principale est la speaker attribution, l'overlap, l'identification de locuteurs, l'on-prem ou l'integration dans un pipeline existant.
Diarization pure
Sur la diarization pure, le concurrent technique le plus credible est NVIDIA NeMo / Sortformer pour les equipes ML avancees. Les STT providers sont surtout dangereux parce qu'ils incluent une diarization "good enough" dans une experience complete.
Hyperscalers
AWS, Google, Azure et OpenAI peuvent commoditiser une partie du marche si leurs modeles deviennent suffisamment bons et faciles a acheter via procurement enterprise.
Positionnement defendable
"The speaker intelligence layer for every voice AI stack."
Critere de differentiation
Pyannote doit gagner quand une erreur de speaker attribution coute cher.
AssemblyAI
- Force : STT et GTM dev US mature.
- Faiblesse relative : diarization moins differenciante.
- Angle pyannote : precision speaker, multi-langue, EU/GDPR.
Deepgram
- Force : latence et realtime.
- Faiblesse relative : diarization pure et audio difficile.
- Angle pyannote : qualite speaker sur use cases intelligence.
Gladia
- Force : plateforme STT/audio intelligence complete, EU, dev-friendly.
- Realite : partenaire/client si Precision-2 est integre.
- Angle pyannote : couche sous-jacente speaker, pas frontalement STT.
- A ne jamais faire : critiquer Gladia frontalement, d'autant plus que son CEO est cite comme advisor.
Whisper
- Force : gratuit, accessible, bon pour POC.
- Faiblesse : pas de diarization native robuste, pas de SLA/support, operations a porter.
- Angle pyannote : Whisper peut etre une brique STT ; pyannote rend le pipeline multi-speaker exploitable.
Hyperscalers
- AWS, Google, Azure : procurement facile, integration cloud, feature diarization incluse.
- Faiblesse : generalistes, moins specialises speaker, moins de voiceprinting fin.
- Angle pyannote : infrastructure specialisee vs feature commodity.
NVIDIA NeMo
- Concurrent technique important pour equipes ML qui veulent self-host et customiser.
- Moins de motion commerciale pure-play diarization.
Risque de commoditisation
Question centrale : si OpenAI, Whisper, Deepgram ou un nouvel OSS arrive assez proche de Precision-2, pyannote doit defendre son moat par la qualite sur cas difficiles, enterprise/on-prem, voiceprints, realtime, evaluation et integration.