Document interne
Glossaire
02_Knowledge_Base/Glossaire.md
Glossaire
STT / ASR
Speech-to-text / automatic speech recognition. Convertit la parole en texte.
Diarization
Segmentation de l'audio par locuteur : qui parle quand.
Speaker attribution
Association des mots ou segments transcrits au bon locuteur.
Speaker recognition
Reconnaissance d'une voix comme appartenant a une personne ou categorie connue.
Voiceprint
Empreinte vocale permettant de comparer ou reconnaitre une voix.
Overlap / Cross-talk
Moment ou plusieurs personnes parlent en meme temps.
BYO STT
Bring your own STT : raccourci commercial pour dire que pyannote peut s'integrer a une pipeline ou transcription existante sans forcer le remplacement du STT.
Nuance : en standard, verifier les modeles et modes supportes par l'API. Pour un STT maison, fine-tune ou vertical, qualifier si l'integration passe par un transcript existant, une orchestration supportee, ou un projet enterprise/custom.
On-prem
Deploiement dans l'infrastructure du client, souvent requis en environnement sensible.
Fine-tuning
Adaptation d'un modele a des donnees ou conditions specifiques client.
VAD
Voice Activity Detection : detection des moments ou il y a de la parole vs silence.
Speaker segmentation
Decoupage du flux audio aux changements de locuteur.
Speaker embedding
Representation vectorielle d'une voix ou d'un segment vocal, permettant de comparer deux voix.
Clustering
Regroupement des segments vocalement similaires pour identifier un meme locuteur.
Confidence scoring
Score de fiabilite par segment ou prediction, utile pour legal, medical, compliance.
DER
Diarization Error Rate. Metrique standard d'evaluation de diarization. Plus le score est bas, mieux c'est.
tcpWER / tcorcWER
Metriques qui combinent erreur de transcription et erreur d'attribution speaker.
Code-switching
Changement de langue par un locuteur au cours d'une conversation. Sujet plutot STT que diarization pure.
Distinctions critiques
- Diarization : qui parle quand.
- Identification : quelle personne precise parle.
- Voiceprint : empreinte vocale servant a reconnaitre/comparer.
- Cross-talk detection : detection de chevauchement de voix.
- STT : transcription des mots.
- STT orchestration : orchestration transcription + diarization + reconciliation.