Document interne

Pyannote Company

02_Knowledge_Base/Pyannote_company.md

Pyannote Company

Resume executif

pyannoteAI est une societe d'infrastructure voice AI positionnee sur la speaker intelligence. Sa promesse n'est pas seulement de transcrire l'audio, mais de rendre les conversations exploitables par les systemes IA : qui parle, quand, avec quelle confiance, dans quel contexte conversationnel, et comment cette information s'integre dans une pipeline voice complexe.

La trajectoire la plus credible de l'entreprise est la suivante : transformer une adoption open source massive en contrats enterprise autour de la fiabilite speaker, du deploiement on-prem, du temps reel, de l'identification de locuteurs, du fine-tuning et de l'integration dans des stacks audio deja existantes.

Phrase a retenir :

pyannoteAI est la couche de speaker intelligence agnostique qui rend les pipelines voice AI fiables en production.

Ce que l'entreprise vend vraiment

pyannote ne vend pas un outil de prise de notes, ni un STT generaliste, ni une application end-user.

Elle vend :

  • une couche de diarization de tres haute qualite ;
  • une API de speaker intelligence ;
  • des modeles premium, notamment Precision-2 ;
  • de la speaker identification via voiceprints ;
  • de la STT orchestration pour obtenir des transcripts attribues aux bons speakers ;
  • des options enterprise : volume, support, securite, on-prem, custom limits, SLAs ;
  • a terme, une capacite Applied AI autour des POC, de l'integration, des pipelines custom et du fine-tuning.

Le client achete pyannote quand l'erreur speaker devient couteuse : mauvais locuteur, mauvais tour de parole, mauvaise attribution, mauvaise analyse downstream, mauvais routing, perte d'auditabilite ou impossibilite de deployer en environnement sensible.

Identite

  • Nom commercial : pyannoteAI.
  • Raison sociale : Pyannote SAS.
  • Siege : Paris, Ile-de-France, France.
  • Positionnement public : Speaker Intelligence Platform for developers.
  • Origine : travaux de recherche d'Herve Bredin et librairie open source pyannote.audio.
  • Creation commerciale : 2024 selon les sources publiques et l'offre.
  • Site : https://www.pyannote.ai/
  • Documentation : https://docs.pyannote.ai/

Mission

Mission publique :

  • permettre aux developpeurs de construire des outils qui rendent les interactions humain-IA plus naturelles ;
  • faire comprendre a l'IA non seulement les mots, mais aussi qui parle, quand, et pourquoi cela compte.

Lecture business :

  • les STT ont rendu les mots disponibles ;
  • les LLM rendent le texte exploitable ;
  • pyannote veut rendre la conversation exploitable en tant que structure multi-speaker.

Autrement dit : le texte seul ne suffit pas. Dans une conversation reelle, le sens depend du locuteur, du timing, des interruptions, des chevauchements, de la dynamique et du contexte sonore.

Genese

La technologie vient d'une librairie open source creee par Herve Bredin dans un contexte de recherche CNRS. Cette librairie est devenue une reference de marche sur la diarization.

Le declencheur commercial est la sortie de Whisper en 2022. Whisper a donne aux developpeurs une brique STT accessible pour obtenir les mots. Une fois les mots disponibles, le probleme suivant est devenu evident : savoir qui les a prononces. pyannote est devenu le complement naturel de Whisper et des autres briques STT.

Sequence a comprendre :

  • Recherche CNRS et pyannote.audio.
  • Adoption open source par chercheurs et developpeurs.
  • Explosion des cas d'usage avec Whisper.
  • Creation d'une societe commerciale.
  • Montee en gamme : modeles premium, API, enterprise, on-prem, STT orchestration.
  • Construction du go-to-market pour convertir l'usage technique en revenus repetables.

Equipe et organisation

Fondateurs

  • Vincent Molina : co-founder & CEO. Profil strategie, conseil, product et operateur tech. Porte la vision business et le go-to-market.
  • Herve Bredin, PhD : co-founder & CSO. Ex-CNRS, createur de la librairie pyannote.audio, coeur scientifique de l'entreprise.
  • Juan Coria, PhD : co-founder & CTO. Profil speech/tech, these supervisee par Herve, responsable de l'architecture et de l'execution technique.

Advisors cites publiquement

  • Julien Chaumond : CTO Hugging Face.
  • Alexis Conneau : Waveforms AI, ex-Meta / ex-OpenAI selon les sources presse.
  • Jean-Louis Queguiner : CEO de Gladia.
  • Laura Modiano est aussi citee dans plusieurs sources de financement.

Organisation interne d'apres les entretiens

Informations internes a manier comme contexte, pas comme donnees publiques :

  • Pierre-Baptiste Viougeat : Chief of Staff.
  • Equipe historiquement tres science / tech.
  • RevOps en place pour exploiter les signaux faibles, l'usage produit et le CRM.
  • Product Marketing Manager en place.
  • Product Manager venant de Dataiku annonce pour mai 2026 dans l'entretien.
  • Pre-sales engineer en recrutement.
  • Applied AI team a construire : POC, pipelines custom, fine-tuning, support d'integration.
  • Community team envisagee : hackathons, events, activation developpeurs.

Financement

Donnees publiques

  • Seed annonce en avril 2025.
  • Montant public : environ 8,1 M EUR / 9 M USD selon les sources.
  • Co-leads : Crane Venture Partners et Serena.
  • Participants cites : Motier, Kima, Pareto, angels et advisors du monde AI / Hugging Face / OpenAI.

Pourquoi ce financement est logique

Les investisseurs financent une these d'infrastructure :

  • adoption open source deja massive ;
  • marche voice AI en acceleration ;
  • besoin d'une couche speaker specialisee ;
  • possibilite de vendre a l'ensemble de l'ecosysteme sans devenir une application verticale ;
  • expansion enterprise par on-prem, support, volume et qualite.

Traction

Traction publique

Selon les pages publiques et l'offre :

  • 200K+ developpeurs / utilisateurs dans le monde selon les pages publiques ;
  • dizaines de millions de telechargements mensuels autour de pyannote.audio / Hugging Face ;
  • bibliotheque open source reconnue dans la communaute speech ;
  • 500+ businesses mentionnees sur la page enterprise ;
  • references / clients visibles ou cites : Gladia, MediVox, Visio / DINUM selon les sources internes et publiques.

Traction interne d'apres les entretiens

Informations entendues en entretien, a ne pas presenter comme donnees publiques :

  • environ 4M ARR mentionnes par Vincent ;
  • environ 22K nouveaux utilisateurs open source le mois precedent selon Vincent ;
  • environ 80% du chiffre d'affaires aux Etats-Unis sans presence locale structuree ;
  • plus des trois quarts des Fortune 500 utiliseraient pyannote open source en production ou dans certains cas d'usage selon Vincent ;
  • comptes ou grands noms cites dans l'echange : Amazon, Apple, Qualcomm.

Produits

1. Speaker diarization

Repond a la question : qui parle quand ?

C'est le coeur historique. La valeur augmente fortement quand il y a :

  • plusieurs speakers ;
  • interruptions ;
  • overlap ;
  • bruit ;
  • audio de salle ;
  • telephone ;
  • accents ;
  • code-switching ;
  • besoin d'attribuer les mots aux bons locuteurs.

2. Precision-2

Modele premium de diarization. Dans la documentation, Precision-2 est presente comme le modele state-of-the-art de pyannoteAI, avec des fonctionnalites avancees comme voiceprints et speaker identification.

Cas d'usage :

  • production critique ;
  • transcription de meetings ;
  • call analytics ;
  • dubbing et timestamping ;
  • creation de training data pour voice assistants ;
  • audio sensible ou complexe.

3. Community-1

Modele open source / hosted cost-efficient.

Role business :

  • attirer les developpeurs ;
  • servir le prototypage ;
  • permettre une migration vers Precision-2 quand la qualite, le volume ou les features avancees deviennent critiques.

4. Speaker identification

Repond a la question : qui est en train de parler ?

Difference cle :

  • diarization = SPEAKER_00, SPEAKER_01 ;
  • identification = relier un speaker a une identite connue via voiceprint.

Important :

  • les voiceprints servent a l'identification ;
  • ils ne sont pas censes ameliorer directement la diarization ;
  • ils deviennent tres importants pour les workflows recurrents : meetings, podcasts, call centers, agents, environnements ou les memes personnes reviennent.

5. Voiceprints

Empreintes vocales. Elles permettent de reconnaitre un speaker connu dans de nouveaux audios.

Valeur :

  • speaker ID ;
  • workflows recurrents ;
  • personnalisation ;
  • audit ;
  • routing ;
  • analyse par personne.

6. STT Orchestration

STT orchestration permet d'obtenir des transcripts attribues aux bons speakers en orchestrant diarization + transcription.

Point de clarte :

  • ce n'est pas necessairement un move pour remplacer Gladia ou les STT providers ;
  • c'est un moyen de reduire la friction d'integration ;
  • la documentation publique met en avant des modeles STT supportes dans l'endpoint d'orchestration ;
  • si le client a deja un STT ou un transcript, le sujet commercial devient la reconciliation et l'integration dans sa pipeline existante ;
  • ne pas promettre "n'importe quel STT" sans verifier le plan, l'API disponible et le besoin enterprise/custom ;
  • pyannote garde le role de couche speaker-aware.

Phrase a utiliser :

Le vocabulaire, les noms propres et la reconnaissance des mots restent le sujet du STT. Pyannote intervient quand il faut attribuer correctement ces mots aux bons locuteurs dans une pipeline fiable, auditable et deployable en enterprise.

7. Realtime / streaming

Le temps reel est un axe produit majeur. La page publique mentionne le real-time diarization comme "soon" sur la page streaming, tandis que d'autres pages marketing mettent en avant la faible latence et l'integration temps reel. A clarifier avec l'equipe en entretien : etat exact du produit, disponibilite, limites et pricing.

Business model

Self-serve / PLG

Objectif :

  • convertir une partie de la communaute open source ;
  • permettre l'essai rapide ;
  • moneter les devs et petites equipes.

Plans publics :

  • Developer : 19 EUR / mois, avec 125 heures pre-payees selon la page pricing.
  • Starter : 99 EUR / mois, avec 825 heures pre-payees selon la page pricing.
  • Trial : jusqu'a 150 heures audio selon la page pricing.

Enterprise

Objectif :

  • vendre aux organisations avec volume, contraintes de securite et besoin de controle.

Features enterprise publiques :

  • volume-based pricing ;
  • on-premise available ;
  • custom limits, support, security ;
  • higher concurrency and API rate limits ;
  • early access ;
  • dedicated Slack support ;
  • custom SLAs.

Revenus probables

  • API SaaS.
  • Usage-based pricing.
  • Enterprise contracts.
  • Self-host / on-prem.
  • Marketplace cloud ou deploiements controles.
  • Applied AI / POC / integration comme motion d'accompagnement, sans devenir l'ADN principal.

GTM

La phase actuelle

L'entreprise est dans une phase de passage de la traction technique a la machine commerciale.

Elle a :

  • un moteur open source puissant ;
  • beaucoup d'inbound ;
  • un produit technique legitime ;
  • des premiers comptes enterprise ;
  • mais pas encore une equipe sales structuree historiquement.

Elle cherche donc a construire :

  • playbooks ;
  • qualification ;
  • outbound ;
  • segmentation ;
  • sales-assist ;
  • enterprise selling ;
  • partnership / channel ;
  • usage data to revenue.

Segments commerciaux

  • Self-serve / Developer / Starter.
  • Mid-market : startups Series A/B ou scaleups techniques avec volumes significatifs.
  • Enterprise : grands comptes, environnements sensibles, volumes massifs, on-prem, support, custom.
  • Partnerships / channel : hyperscalers, cloud providers, integrateurs, plateformes voice.

ICPs cites ou coherents

  • Note-takers et meeting intelligence.
  • Medical / clinical audio : STT providers, produits verticaux, hopitaux qui buildent leur stack, integrateurs.
  • Customer service / call centers.
  • Defense et intelligence.
  • Media, podcasts, dubbing.
  • Voice agents.
  • Secteur public / souverainete.
  • Robotique comme long shot.
  • Entreprises qui ont deja une pipeline audio complexe.

Positionnement vs Gladia

Gladia vend une plateforme STT / audio intelligence complete. Elle aide les developpeurs a transformer l'audio en texte enrichi rapidement.

pyannote vend une couche plus profonde et plus specialisee : la fiabilite speaker.

Difference :

  • Gladia = solution plus complete, time-to-value rapide, transcription et audio intelligence packagees.
  • pyannote = couche speaker intelligence agnostique, integrable, enterprise, difficile a remplacer quand la speaker attribution est critique.

Relation :

  • Gladia est client / partenaire / ecosysteme, pas uniquement concurrent.
  • Jean-Louis Queguiner est advisor de pyannoteAI.
  • Ne pas attaquer Gladia frontalement en entretien.

Risques :

  • si pyannote monte trop haut dans la stack, elle peut inquieter des partenaires ;
  • si Gladia ou d'autres STT providers integrent une diarization "good enough", pyannote doit prouver sa valeur sur les cas difficiles et enterprise ;
  • si le marche percoit pyannote comme un STT provider generaliste, le positionnement devient confus.

Bonne formulation :

Pyannote ne doit pas devenir le Gladia bis. Pyannote doit devenir la couche speaker indispensable dans les pipelines voice complexes, y compris chez des acteurs comme Gladia.

Moat

Moat technique

  • Qualite sur audio reel : bruit, overlap, multi-speaker, accents, code-switching.
  • Expertise scientifique accumulee sur 10+ ans.
  • Benchmarks et evaluation specialisee diarization.
  • Precision-2 et features avancees.
  • Voiceprints et speaker identification.
  • Realtime si execute proprement.

Moat distribution

  • Open source comme distribution massive.
  • Presence Hugging Face / GitHub / PyPI.
  • Adoption par developpeurs et chercheurs.
  • Top-of-mind sur diarization.

Moat enterprise

  • On-prem / self-hosted.
  • Support dedie.
  • Compliance et securite.
  • Applied AI pour POC et integration.
  • Fine-tuning sur donnees client.
  • Capacite a s'integrer dans des pipelines existantes sans forcer le remplacement de STT.

Risques

Risques produit

  • Diarization devient une feature integree chez les STT providers.
  • Modeles audio natifs multimodaux absorbent une partie de la couche speaker.
  • Le realtime est plus difficile que le batch.
  • Fine-tuning et on-prem peuvent transformer l'entreprise en services si mal limites.

Risques GTM

  • Trop de segments en meme temps.
  • Confusion entre STT orchestration et STT platform.
  • Inbound bruyant issu de l'open source.
  • Cycle enterprise long.
  • Besoin d'AEs tres techniques.
  • Dependence forte a quelques gros deals.

Risques ecosysteme

  • Inquieter les partenaires en montant trop haut.
  • Se retrouver en concurrence frontale avec des clients.
  • Etre percu comme une feature par les hyperscalers.

Pourquoi l'entreprise peut devenir importante

Le voice AI se structure en couches, mais STT et speaker intelligence ne doivent pas etre lus comme une sequence rigide. Les deux peuvent traiter le meme audio, puis l'orchestration les reconcilie.

Lecture correcte :

  • Capture audio.
  • STT pour les mots et speaker intelligence pour les locuteurs.
  • Reconciliation / orchestration : attribuer les mots aux bons speakers.
  • LLM / business logic.
  • TTS / voice agent / app.

Si la couche speaker est mauvaise, toute la chaine downstream se degrade :

  • mauvais transcript attribue ;
  • mauvais resume ;
  • mauvaises analytics ;
  • mauvais routing ;
  • mauvaise personnalisation ;
  • mauvais audit ;
  • mauvaise experience agent.

Pyannote peut devenir une couche d'infrastructure parce qu'elle intervient avant la valeur applicative, au niveau de la fiabilite des signaux.

Ce que tu dois retenir pour l'entretien

  • Pyannote est une boite d'infrastructure voice AI, pas une app.
  • Le coeur est la speaker intelligence.
  • La diarization repond a "qui parle quand".
  • L'identification repond a "qui est cette personne".
  • Le STT gere les mots ; pyannote gere l'attribution speaker et la fiabilite conversationnelle.
  • L'open source est le moteur de distribution, pas le modele business final.
  • L'enterprise est la trajectoire naturelle : volume, securite, on-prem, support, fine-tuning.
  • Gladia est partenaire/client/ecosysteme autant que concurrent potentiel.
  • Le risque principal est de monter trop haut dans la stack sans clarifier le role de layer agnostique.
  • Ton role potentiel : aider a transformer l'adoption technique en revenus repetables.

Questions intelligentes a poser

  • Quels signaux montrent qu'un utilisateur open source est pret a passer en payant ?
  • A partir de quel volume ou quelle contrainte le self-serve devient enterprise ?
  • Quels cas audio demontrent le mieux l'ecart entre Precision-2 et les alternatives ?
  • Quelle part du pipeline vient deja de l'usage open source ?
  • Quels segments sont les plus prioritaires sur les 6 prochains mois ?
  • Quelle est la limite entre STT orchestration utile et plateforme STT qui inquiete l'ecosysteme ?
  • Comment l'equipe mesure-t-elle un POC reussi ?
  • Quand faut-il impliquer Applied AI ?
  • Quels deals doivent rester geres par Vincent aujourd'hui, et lesquels doivent etre transmis aux AEs ?
  • Qu'est-ce qui ferait dire que la motion enterprise est repetable ?

Sources publiques utiles

  • Site officiel : https://www.pyannote.ai/
  • About us : https://www.pyannote.ai/about-us
  • Speaker platform : https://www.pyannote.ai/speaker-platform
  • Enterprise : https://www.pyannote.ai/enterprise
  • Pricing : https://www.pyannote.ai/pricing
  • Benchmark : https://www.pyannote.ai/benchmark
  • Documentation : https://docs.pyannote.ai/
  • Features : https://docs.pyannote.ai/features
  • Models : https://docs.pyannote.ai/models
  • STT orchestration : https://docs.pyannote.ai/tutorials/speech-to-text-diarization
  • Voiceprints / identification : https://docs.pyannote.ai/tutorials/identification-with-voiceprints
  • Hugging Face : https://huggingface.co/pyannote
  • Seed funding EU-Startups : https://www.eu-startups.com/2025/04/pyannoteai-raises-e8-million-to-build-the-first-language-agnostic-speaker-intelligence-platform/
  • Business Insider funding article : https://www.businessinsider.com/pitch-deck-pyannoteai-seed-funding-voice-ai-2025-4

Sources internes