Document interne

Use Cases et Marches

02_Knowledge_Base/Use_cases_marches.md

Use Cases et Marches

These centrale

Les marches propres a pyannote ne sont pas "tous les marches qui transcrivent de l'audio".

Les bons marches sont ceux ou l'erreur speaker coute quelque chose :

  • mauvaise personne dans un compte rendu ;
  • mauvaise attribution medecin/patient, agent/client ou juge/avocat ;
  • analytics fausses ;
  • compliance fragilisee ;
  • correction humaine couteuse ;
  • impossibilite de deployer en environnement sensible ;
  • pipeline STT deja en place mais couche speaker insuffisante.

Formulation simple :

Pyannote gagne quand "qui parle quand" devient une brique de production, pas une feature cosmetique.

Regle de lecture

Ne jamais confondre :

  • le marche final : sante, justice, defense, media, call center ;
  • le buyer reel : celui qui possede la pipeline audio, porte le budget, ou distribue la solution ;
  • la motion commerciale : benchmark qualite, on-prem, OEM/partner, POC metier, channel.

Exemple medical :

  • le marche final est la sante ;
  • le buyer peut etre un speech/STT provider si cette brique sert plusieurs produits sante ;
  • ou Doctolib/OneDoc/Nabla si le produit vertical possede l'UX ;
  • ou un hopital uniquement s'il build sa propre stack ;
  • ou un integrateur si le projet est livre via SI.

Priorisation executive

PrioriteRoute / marchePourquoiMotion dominante
P1STT / Voice AI infrastructurePyannote peut devenir la couche speaker sous-jacente de plateformes existantes.OEM, benchmark speaker, partner-safe.
P1Meeting bots / note-takersL'erreur speaker est visible par l'utilisateur final et casse la confiance.POC court sur meetings difficiles.
P1 si route claireMedical / clinical audioDonnees sensibles, multi-speaker, audit, forte consequence d'une mauvaise attribution.Selon route : STT provider, produit vertical, hopital build interne, integrateur.
P1 si volume + datasetCall centers / conversation intelligenceVolume eleve, ROI mesurable, agent/client, QA, compliance.Audit sur appels representatifs.
P1 strategique / P2 terrainChannels / cloud / integrateursEffet levier pour souverainete et grands comptes.Co-sell, marketplace, integrateur.
P2/P1 selon routeDefense / public sensitiveACV potentiel fort, on-prem, souverainete, audio difficile.Route warm, programme, integrateur/prime.
P2Legal / justice / arbitrageTrace auditable, correction humaine, enjeux probatoires.Commencer par prive/arbitrage avant justice officielle.
P2Media / archives / dubbingCorpus audio/video, timecodes, recurring speakers, workflow edition.POC archive ou production.
P3 / long cycleAviation / BEAUse case naturel mais tres specifique, sensible et long.Note use case, pas outbound froid.
P3 sauf signal fortFinance complianceAudio reglementaire, audit, retention.On-prem/compliance si pipeline audio existe.
P3 / inboundVoice agents, robotique, rechercheInteressant mais maturite variable.Explorer seulement avec trigger clair.

Les 4 motions qui structurent tous les use cases

1. Quality plateau

Le client a deja une pipeline audio en production. Le STT est acceptable, mais la couche speaker casse la valeur.

Signaux :

  • corrections speaker manuelles ;
  • mauvais speaker dans les summaries ;
  • erreur agent/client, medecin/patient, interviewer/interviewe ;
  • utilisateur final qui perd confiance ;
  • dashboard QA/compliance fausse ;
  • besoin de benchmark contre baseline existante.

POC type :

  • 10 a 30 audios representatifs ;
  • baseline actuelle ;
  • metriques : DER/JER si disponibles, correction rate, mauvaise attribution critique, temps humain ;
  • restitution avec owner technique et sponsor business.

2. Data sovereignty / on-prem

Le client ne peut pas envoyer l'audio dans une API cloud standard ou veut garder le controle.

Signaux :

  • donnees sensibles ;
  • DPO/SecOps impliques ;
  • contraintes HDS/HIPAA/RGPD, defense, public, finance ;
  • besoin logs, retention, audit, SLA ;
  • cloud public interdit ou limite.

POC type :

  • cadrage security avant demo ;
  • architecture cible ;
  • contraintes infra/GPU ;
  • vendor risk et paper process anticipes ;
  • pre-sales implique tot.

3. Domain-specific / Applied AI

Le client a un workflow metier specifique ou le generique plafonne.

Signaux :

  • roles speakers metier : juge/avocat/temoin, medecin/patient/proche, pilote/ATC ;
  • audio atypique ;
  • besoin de human-in-the-loop ;
  • labels et experts metier disponibles ;
  • besoin possible de fine-tuning ou d'integration custom.

POC type :

  • scope borne ;
  • dataset avec droits et labels ;
  • criteres de succes avant test ;
  • budget ou sponsor identifie avant d'engager trop d'Applied AI.

4. Partner-safe orchestration

Le client ou partenaire a deja un STT, un transcript ou une plateforme audio.

Message :

Gardez votre STT si les mots sont bons. Pyannote fiabilise la couche speaker et la reconciliation mots/speakers.

Attention :

  • ne pas promettre un BYO STT illimite ;
  • verifier modeles STT supportes en standard ;
  • distinguer orchestration supportee, reconciliation avec transcript existant et integration enterprise/custom.

Matrice de qualification par marche

MarcheBuyer reel / routePain principalPourquoi pyannoteQuand Gladia/autre STT suffitPOC / premiere approchePriorite
STT providers / voice AI infrastructureCTO, Head of Speech, VP Product, Head of AIDiarization good enough mais pas differenciante, roadmap speaker couteuseCouche OEM speaker, overlap, voiceprints, reconciliation STT/speaker, enterpriseSi leur diarization interne suffit et leurs clients ne challengent pas la qualite speakerBenchmark speaker-only sur datasets difficiles + discussion OEM/partnerP1
Meeting bots / note-takersCTO, CPO, Head of AI/SpeechMauvaise attribution dans meetings, corrections utilisateur, summaries fauxSpeaker attribution visible, overlap, speaker count, confiance UXSi faible overlap, petits meetings simples, transcript standard suffisant20 meetings anonymises, mesure corrections speaker avant/apresP1
Medical / clinical audioSTT provider medical ; produit vertical ; hopital build interne ; integrateurMedecin/patient/proche mal attribues, audit, donnees sensiblesSpeaker layer agnostique, integration STT medical, on-prem si besoinSi dictee mono-speaker ou pur vocabulaire medicalRoute selon buyer : partner-safe, POC produit clinique, ou cadrage on-premP1 si route claire
Call centers / conversation intelligenceCCaaS, conversation intelligence vendor, BPO, enterprise contact center, STT providerAgent/client, transferts, overlap, QA, compliance, coachingAttribution agent/customer, analytics speaker-aware, volumes elevesSi canaux agent/client sont separes et propresAudit sur 100 appels representatifs + impact QA/complianceP1 si volume + dataset
Defense / public sensitiveProgramme, DSI secure, integrateur/prime, innovation defense, metier operationnelAudio sensible, air-gapped, souverainete, analyse multi-speakerOn-prem, controle, audit, speaker ID, support enterpriseRarement si cloud externe interdit ; OSS interne possible si equipe ML forteRoute warm/integrateur, cas non classifie, cadrage strictP2/P1 selon route
Legal / arbitrage priveInstitutions arbitrage, legal ops, cabinets contentieux, legaltechsQui a dit quoi, trace verifiable, correction humaineSpeaker-attributed transcript, timestamps, confidence, human-in-the-loopSi simple transcription mono-speaker ou memo interneCommencer par arbitrage/cabinets ; POC audience priveeP2
Justice audiences officiellesMinistere de la Justice, DNUM, Direction des services judiciaires, greffesAssistance greffe, PV, audit, confidentialite, workflow officielOn-prem, trace auditable, correction greffe, integration SISTT seul peut aider mais ne suffit pas au workflow officielNe pas commencer par les barreaux ; cadrer institutionnellementP2 long cycle
Aviation / BEALab audio, enqueteurs, direction technique, aviation safety/trainingCVR/ATC, timecodes, chronologie, preuve, confidentialityDiarization, overlap, audit trail, human-in-the-loopSTT generaliste utile pour audio simple, insuffisant seulNote use case propre ; explorer formation/safety avant enquete sensibleP3 / strategic
Media / archives / dubbingArchive/data/innovation, CTO media, post-production, localization platformRetrouver speakers, indexer corpus, aligner timecodes, montageSpeaker continuity, recurring speakers, archives multi-speakerSi besoin limite a sous-titres ou podcast simplePOC archive speaker search ou episode multi-speakerP2
Datasets / training dataAI lab, data lead, ML ops, voice assistant teamNettoyer/labelliser audio pour entrainer/evaluer modelesDiarization batch, speaker labels, quality eval, cout annotationSi stack NeMo interne deja matureBenchmark cout/qualite vs annotation manuelleP2
Finance complianceCompliance, CTO, COO, surveillance, contact center riskEnregistrements reglementaires, audit, retention, preuveOn-prem, attribution, confidence, tracabiliteSi besoin limite a stockage/transcription bruteCadrage compliance + dataset d'appels reglementairesP3 sauf signal fort
Voice agents / robotiqueProduct AI, robotics lead, voice UX, CTOInteraction multi-speaker, routing, personnalisation, temps reelSpeaker-aware context, TTS routing, diarization live si disponibleSi l'agent ne gere qu'un utilisateur ou audio propreExploratory POC, verifier maturite produitP3 / inbound

Quand Gladia ou un STT provider intervient

Gladia/autre STT est le bon interlocuteur ou la bonne solution quand :

  • le probleme principal est la reconnaissance des mots ;
  • le client veut une plateforme STT/audio intelligence complete et rapide ;
  • le besoin est sous-titrage, transcription simple, custom vocabulary, formatting ou resume ;
  • la diarization incluse est suffisante pour l'usage ;
  • le client n'a pas de pipeline technique ni volonte d'integrer une brique.

Pyannote devient pertinent quand :

  • le client veut garder son STT mais ameliorer la couche speaker ;
  • la diarization "incluse" plafonne sur les cas difficiles ;
  • l'erreur speaker a un cout produit, legal, compliance ou operationnel ;
  • le client a besoin d'on-prem, audit, support, voiceprints, speaker ID ou integration enterprise ;
  • le POC peut isoler la valeur speaker contre une baseline.

Cas difficiles ou pyannote doit etre devant

  • Plusieurs speakers dans un flux unique.
  • Overlap, interruptions, cross-talk.
  • Audio de salle, far-field, bruit de fond.
  • Speaker count inconnu.
  • Agent/client melanges ou transferts call center.
  • Medecin/patient/proche ou soignant tiers.
  • Juge/avocat/temoin/greffier.
  • Cockpit/ATC/radio avec timecodes critiques.
  • Recurring speakers a reconnaitre dans plusieurs audios.
  • Environnements on-prem ou air-gapped.

Regle de priorisation

Prioriser un marche quand 5 conditions sont reunies :

  • volume audio significatif ;
  • multi-speaker reel ;
  • pipeline audio existante ou budget de construction ;
  • impact business d'une erreur speaker ;
  • dataset de test disponible ;
  • buyer technique et economic buyer identifiables.

Deprioriser quand le besoin est seulement :

  • transcription mono-speaker ;
  • sous-titrage simple ;
  • resume de transcript ;
  • custom vocabulary pur ;
  • curiosite IA sans pipeline existante ;
  • logo prestigieux sans route d'achat.

Formules de positionnement

  • STT provider : "Nous ameliorons votre couche speaker sans toucher a votre relation client."
  • Meeting bot : "Nous reduisons les corrections speaker et augmentons la confiance dans le compte rendu."
  • Medical : "Gardez votre STT medical ou votre produit clinique ; pyannote fiabilise qui dit quoi dans un environnement sensible."
  • Call center : "Nous rendons vos analytics agent/client plus fiables sur les cas limites."
  • Legal / justice : "Nous aidons a produire une trace speaker-attributed, corrigeable et auditable."
  • Defense / public : "Nous deployons une couche speaker controlee dans votre environnement, sans dependance cloud non maitrisee."
  • BEA / aviation : "Nous ne vendons pas un STT ; nous aidons a structurer l'audio d'enquete en chronologie speaker-attributed."
  • Media / archives : "Nous rendons les corpus audio exploitables par speaker, timecode et sequence."

Phrase a retenir pour entretien

"Je ne raisonnerais pas en verticales pures. Je partirais de trois questions : qui controle la pipeline audio, ou l'erreur speaker coute vraiment quelque chose, et est-ce qu'on peut le prouver sur un dataset representatif. C'est ca qui distingue un vrai ICP pyannote d'un simple marche qui transcrit de l'audio."