Document interne
Use Cases et Marches
02_Knowledge_Base/Use_cases_marches.md
Use Cases et Marches
These centrale
Les marches propres a pyannote ne sont pas "tous les marches qui transcrivent de l'audio".
Les bons marches sont ceux ou l'erreur speaker coute quelque chose :
- mauvaise personne dans un compte rendu ;
- mauvaise attribution medecin/patient, agent/client ou juge/avocat ;
- analytics fausses ;
- compliance fragilisee ;
- correction humaine couteuse ;
- impossibilite de deployer en environnement sensible ;
- pipeline STT deja en place mais couche speaker insuffisante.
Formulation simple :
Pyannote gagne quand "qui parle quand" devient une brique de production, pas une feature cosmetique.
Regle de lecture
Ne jamais confondre :
- le marche final : sante, justice, defense, media, call center ;
- le buyer reel : celui qui possede la pipeline audio, porte le budget, ou distribue la solution ;
- la motion commerciale : benchmark qualite, on-prem, OEM/partner, POC metier, channel.
Exemple medical :
- le marche final est la sante ;
- le buyer peut etre un speech/STT provider si cette brique sert plusieurs produits sante ;
- ou Doctolib/OneDoc/Nabla si le produit vertical possede l'UX ;
- ou un hopital uniquement s'il build sa propre stack ;
- ou un integrateur si le projet est livre via SI.
Priorisation executive
| Priorite | Route / marche | Pourquoi | Motion dominante |
|---|---|---|---|
| P1 | STT / Voice AI infrastructure | Pyannote peut devenir la couche speaker sous-jacente de plateformes existantes. | OEM, benchmark speaker, partner-safe. |
| P1 | Meeting bots / note-takers | L'erreur speaker est visible par l'utilisateur final et casse la confiance. | POC court sur meetings difficiles. |
| P1 si route claire | Medical / clinical audio | Donnees sensibles, multi-speaker, audit, forte consequence d'une mauvaise attribution. | Selon route : STT provider, produit vertical, hopital build interne, integrateur. |
| P1 si volume + dataset | Call centers / conversation intelligence | Volume eleve, ROI mesurable, agent/client, QA, compliance. | Audit sur appels representatifs. |
| P1 strategique / P2 terrain | Channels / cloud / integrateurs | Effet levier pour souverainete et grands comptes. | Co-sell, marketplace, integrateur. |
| P2/P1 selon route | Defense / public sensitive | ACV potentiel fort, on-prem, souverainete, audio difficile. | Route warm, programme, integrateur/prime. |
| P2 | Legal / justice / arbitrage | Trace auditable, correction humaine, enjeux probatoires. | Commencer par prive/arbitrage avant justice officielle. |
| P2 | Media / archives / dubbing | Corpus audio/video, timecodes, recurring speakers, workflow edition. | POC archive ou production. |
| P3 / long cycle | Aviation / BEA | Use case naturel mais tres specifique, sensible et long. | Note use case, pas outbound froid. |
| P3 sauf signal fort | Finance compliance | Audio reglementaire, audit, retention. | On-prem/compliance si pipeline audio existe. |
| P3 / inbound | Voice agents, robotique, recherche | Interessant mais maturite variable. | Explorer seulement avec trigger clair. |
Les 4 motions qui structurent tous les use cases
1. Quality plateau
Le client a deja une pipeline audio en production. Le STT est acceptable, mais la couche speaker casse la valeur.
Signaux :
- corrections speaker manuelles ;
- mauvais speaker dans les summaries ;
- erreur agent/client, medecin/patient, interviewer/interviewe ;
- utilisateur final qui perd confiance ;
- dashboard QA/compliance fausse ;
- besoin de benchmark contre baseline existante.
POC type :
- 10 a 30 audios representatifs ;
- baseline actuelle ;
- metriques : DER/JER si disponibles, correction rate, mauvaise attribution critique, temps humain ;
- restitution avec owner technique et sponsor business.
2. Data sovereignty / on-prem
Le client ne peut pas envoyer l'audio dans une API cloud standard ou veut garder le controle.
Signaux :
- donnees sensibles ;
- DPO/SecOps impliques ;
- contraintes HDS/HIPAA/RGPD, defense, public, finance ;
- besoin logs, retention, audit, SLA ;
- cloud public interdit ou limite.
POC type :
- cadrage security avant demo ;
- architecture cible ;
- contraintes infra/GPU ;
- vendor risk et paper process anticipes ;
- pre-sales implique tot.
3. Domain-specific / Applied AI
Le client a un workflow metier specifique ou le generique plafonne.
Signaux :
- roles speakers metier : juge/avocat/temoin, medecin/patient/proche, pilote/ATC ;
- audio atypique ;
- besoin de human-in-the-loop ;
- labels et experts metier disponibles ;
- besoin possible de fine-tuning ou d'integration custom.
POC type :
- scope borne ;
- dataset avec droits et labels ;
- criteres de succes avant test ;
- budget ou sponsor identifie avant d'engager trop d'Applied AI.
4. Partner-safe orchestration
Le client ou partenaire a deja un STT, un transcript ou une plateforme audio.
Message :
Gardez votre STT si les mots sont bons. Pyannote fiabilise la couche speaker et la reconciliation mots/speakers.
Attention :
- ne pas promettre un BYO STT illimite ;
- verifier modeles STT supportes en standard ;
- distinguer orchestration supportee, reconciliation avec transcript existant et integration enterprise/custom.
Matrice de qualification par marche
| Marche | Buyer reel / route | Pain principal | Pourquoi pyannote | Quand Gladia/autre STT suffit | POC / premiere approche | Priorite |
|---|---|---|---|---|---|---|
| STT providers / voice AI infrastructure | CTO, Head of Speech, VP Product, Head of AI | Diarization good enough mais pas differenciante, roadmap speaker couteuse | Couche OEM speaker, overlap, voiceprints, reconciliation STT/speaker, enterprise | Si leur diarization interne suffit et leurs clients ne challengent pas la qualite speaker | Benchmark speaker-only sur datasets difficiles + discussion OEM/partner | P1 |
| Meeting bots / note-takers | CTO, CPO, Head of AI/Speech | Mauvaise attribution dans meetings, corrections utilisateur, summaries faux | Speaker attribution visible, overlap, speaker count, confiance UX | Si faible overlap, petits meetings simples, transcript standard suffisant | 20 meetings anonymises, mesure corrections speaker avant/apres | P1 |
| Medical / clinical audio | STT provider medical ; produit vertical ; hopital build interne ; integrateur | Medecin/patient/proche mal attribues, audit, donnees sensibles | Speaker layer agnostique, integration STT medical, on-prem si besoin | Si dictee mono-speaker ou pur vocabulaire medical | Route selon buyer : partner-safe, POC produit clinique, ou cadrage on-prem | P1 si route claire |
| Call centers / conversation intelligence | CCaaS, conversation intelligence vendor, BPO, enterprise contact center, STT provider | Agent/client, transferts, overlap, QA, compliance, coaching | Attribution agent/customer, analytics speaker-aware, volumes eleves | Si canaux agent/client sont separes et propres | Audit sur 100 appels representatifs + impact QA/compliance | P1 si volume + dataset |
| Defense / public sensitive | Programme, DSI secure, integrateur/prime, innovation defense, metier operationnel | Audio sensible, air-gapped, souverainete, analyse multi-speaker | On-prem, controle, audit, speaker ID, support enterprise | Rarement si cloud externe interdit ; OSS interne possible si equipe ML forte | Route warm/integrateur, cas non classifie, cadrage strict | P2/P1 selon route |
| Legal / arbitrage prive | Institutions arbitrage, legal ops, cabinets contentieux, legaltechs | Qui a dit quoi, trace verifiable, correction humaine | Speaker-attributed transcript, timestamps, confidence, human-in-the-loop | Si simple transcription mono-speaker ou memo interne | Commencer par arbitrage/cabinets ; POC audience privee | P2 |
| Justice audiences officielles | Ministere de la Justice, DNUM, Direction des services judiciaires, greffes | Assistance greffe, PV, audit, confidentialite, workflow officiel | On-prem, trace auditable, correction greffe, integration SI | STT seul peut aider mais ne suffit pas au workflow officiel | Ne pas commencer par les barreaux ; cadrer institutionnellement | P2 long cycle |
| Aviation / BEA | Lab audio, enqueteurs, direction technique, aviation safety/training | CVR/ATC, timecodes, chronologie, preuve, confidentiality | Diarization, overlap, audit trail, human-in-the-loop | STT generaliste utile pour audio simple, insuffisant seul | Note use case propre ; explorer formation/safety avant enquete sensible | P3 / strategic |
| Media / archives / dubbing | Archive/data/innovation, CTO media, post-production, localization platform | Retrouver speakers, indexer corpus, aligner timecodes, montage | Speaker continuity, recurring speakers, archives multi-speaker | Si besoin limite a sous-titres ou podcast simple | POC archive speaker search ou episode multi-speaker | P2 |
| Datasets / training data | AI lab, data lead, ML ops, voice assistant team | Nettoyer/labelliser audio pour entrainer/evaluer modeles | Diarization batch, speaker labels, quality eval, cout annotation | Si stack NeMo interne deja mature | Benchmark cout/qualite vs annotation manuelle | P2 |
| Finance compliance | Compliance, CTO, COO, surveillance, contact center risk | Enregistrements reglementaires, audit, retention, preuve | On-prem, attribution, confidence, tracabilite | Si besoin limite a stockage/transcription brute | Cadrage compliance + dataset d'appels reglementaires | P3 sauf signal fort |
| Voice agents / robotique | Product AI, robotics lead, voice UX, CTO | Interaction multi-speaker, routing, personnalisation, temps reel | Speaker-aware context, TTS routing, diarization live si disponible | Si l'agent ne gere qu'un utilisateur ou audio propre | Exploratory POC, verifier maturite produit | P3 / inbound |
Quand Gladia ou un STT provider intervient
Gladia/autre STT est le bon interlocuteur ou la bonne solution quand :
- le probleme principal est la reconnaissance des mots ;
- le client veut une plateforme STT/audio intelligence complete et rapide ;
- le besoin est sous-titrage, transcription simple, custom vocabulary, formatting ou resume ;
- la diarization incluse est suffisante pour l'usage ;
- le client n'a pas de pipeline technique ni volonte d'integrer une brique.
Pyannote devient pertinent quand :
- le client veut garder son STT mais ameliorer la couche speaker ;
- la diarization "incluse" plafonne sur les cas difficiles ;
- l'erreur speaker a un cout produit, legal, compliance ou operationnel ;
- le client a besoin d'on-prem, audit, support, voiceprints, speaker ID ou integration enterprise ;
- le POC peut isoler la valeur speaker contre une baseline.
Cas difficiles ou pyannote doit etre devant
- Plusieurs speakers dans un flux unique.
- Overlap, interruptions, cross-talk.
- Audio de salle, far-field, bruit de fond.
- Speaker count inconnu.
- Agent/client melanges ou transferts call center.
- Medecin/patient/proche ou soignant tiers.
- Juge/avocat/temoin/greffier.
- Cockpit/ATC/radio avec timecodes critiques.
- Recurring speakers a reconnaitre dans plusieurs audios.
- Environnements on-prem ou air-gapped.
Regle de priorisation
Prioriser un marche quand 5 conditions sont reunies :
- volume audio significatif ;
- multi-speaker reel ;
- pipeline audio existante ou budget de construction ;
- impact business d'une erreur speaker ;
- dataset de test disponible ;
- buyer technique et economic buyer identifiables.
Deprioriser quand le besoin est seulement :
- transcription mono-speaker ;
- sous-titrage simple ;
- resume de transcript ;
- custom vocabulary pur ;
- curiosite IA sans pipeline existante ;
- logo prestigieux sans route d'achat.
Formules de positionnement
- STT provider : "Nous ameliorons votre couche speaker sans toucher a votre relation client."
- Meeting bot : "Nous reduisons les corrections speaker et augmentons la confiance dans le compte rendu."
- Medical : "Gardez votre STT medical ou votre produit clinique ; pyannote fiabilise qui dit quoi dans un environnement sensible."
- Call center : "Nous rendons vos analytics agent/client plus fiables sur les cas limites."
- Legal / justice : "Nous aidons a produire une trace speaker-attributed, corrigeable et auditable."
- Defense / public : "Nous deployons une couche speaker controlee dans votre environnement, sans dependance cloud non maitrisee."
- BEA / aviation : "Nous ne vendons pas un STT ; nous aidons a structurer l'audio d'enquete en chronologie speaker-attributed."
- Media / archives : "Nous rendons les corpus audio exploitables par speaker, timecode et sequence."
Phrase a retenir pour entretien
"Je ne raisonnerais pas en verticales pures. Je partirais de trois questions : qui controle la pipeline audio, ou l'erreur speaker coute vraiment quelque chose, et est-ce qu'on peut le prouver sur un dataset representatif. C'est ca qui distingue un vrai ICP pyannote d'un simple marche qui transcrit de l'audio."