Produit Tech

Diarization

La diarization repond a la question : qui parle quand. C'est le coeur historique de pyannote.

Speaker intelligence

La speaker intelligence depasse la transcription :

detection de locuteurs ;
segmentation ;
overlap ;
attribution speaker ;
voiceprints ;
speaker identification ;
scores de confiance ;
integration dans un pipeline audio.

STT orchestration

STT orchestration combine diarization et transcription en un output speaker-attributed. Le point important : pyannote ne cherche pas necessairement a devenir un STT provider generaliste.

Nuance a garder en tete :

dans la documentation publique, l'endpoint d'orchestration utilise Precision-2 avec des modeles STT supportes ;
si le client a deja un transcript ou une pipeline STT, le sujet devient la reconciliation diarization + transcript/STT existant ;
"bring your own STT" est donc un bon raccourci commercial, mais il faut toujours qualifier ce qui est supporte en standard, ce qui releve de l'integration, et ce qui releve de l'enterprise/custom.

Lecture de pipeline :

L'audio brut est traite par le STT pour produire les mots.
Le meme audio est traite par la couche speaker pour produire segments, speakers et confiance.
L'orchestration reconcilie mots, timestamps et speakers.
L'application downstream peut alors produire notes, analytics, audit, routing ou resume.

Difference STT vs pyannote

STT : quels mots ont ete dits.
Pyannote : qui a parle, quand, et comment attribuer correctement les segments.

Vocabulaire et noms propres

Les problemes comme "Mayeim" reconnu comme "Marin" relevent surtout du STT : custom vocabulary, custom spelling, language model, fine-tuning ASR ou post-processing. Pyannote ne resout pas ce point en propre.

Enterprise capabilities

On-prem.
Fine-tuning.
Realtime / streaming, avec etat exact a clarifier selon disponibilite produit et plan.
Voiceprints.
Speaker ID.
Integration pipeline.
Human-in-the-loop et evaluation qualite selon les besoins client.

Gamme de modeles

pyannote.audio 3.1 legacy : OSS, gratuit, pour devs et recherche, deployable on-prem.
Community-1 : OSS nouvelle generation, meilleur que 3.1, cible prototypes/devs.
Hosted Community-1 : version hebergee du modele open source via l'API, utile pour eviter l'infra.
Precision-2 : flagship commercial, API premium et self-hosted enterprise possible, production critique.

Note : Precision-1 apparait dans certaines notes preliminaires comme modele anterieur. Pour un discours externe ou entretien, parler surtout de Community-1 et Precision-2, qui sont les modeles mis en avant dans la documentation actuelle.

Precision-2

Modele proprietaire de diarization.
Ancre de credibilite commerciale.
Utilisable en SaaS API ou en deploiement enterprise/on-prem.
Mesure de performance : DER.
Dans le discours commercial, Precision-2 est le produit payant central.

STT orchestration - detail

Probleme resolu :

Le STT produit des mots avec timestamps.
La diarization produit des segments speakers avec timestamps.
La reconciliation des deux est difficile, surtout avec overlap, hesitations et timestamps imparfaits.

Solution :

endpoint combinant diarization + transcription sur les configurations supportees ;
reconciliation possible avec une transcription ou pipeline STT existante selon le cas ;
sortie speaker-attributed ;
reduction de la complexite d'integration pour le client.

Tension strategique :

utile pour devs et clients qui veulent un output complet ;
sensible pour partenaires type Gladia s'ils voient pyannote remonter trop haut dans la stack.

Voiceprinting

Le concept de voiceprint est generique en biometrie vocale.
L'implementation pyannote est proprietaire.
Valeur commerciale : feature payante, language-agnostic, packagee avec Precision-2.
Use case : reconnaitre un meme speaker a travers plusieurs appels ou corpus.