Glossaire

STT / ASR

Speech-to-text / automatic speech recognition. Convertit la parole en texte.

Diarization

Segmentation de l'audio par locuteur : qui parle quand.

Speaker attribution

Association des mots ou segments transcrits au bon locuteur.

Speaker recognition

Reconnaissance d'une voix comme appartenant a une personne ou categorie connue.

Voiceprint

Empreinte vocale permettant de comparer ou reconnaitre une voix.

Overlap / Cross-talk

Moment ou plusieurs personnes parlent en meme temps.

BYO STT

Bring your own STT : raccourci commercial pour dire que pyannote peut s'integrer a une pipeline ou transcription existante sans forcer le remplacement du STT.

Nuance : en standard, verifier les modeles et modes supportes par l'API. Pour un STT maison, fine-tune ou vertical, qualifier si l'integration passe par un transcript existant, une orchestration supportee, ou un projet enterprise/custom.

On-prem

Deploiement dans l'infrastructure du client, souvent requis en environnement sensible.

Fine-tuning

Adaptation d'un modele a des donnees ou conditions specifiques client.

VAD

Voice Activity Detection : detection des moments ou il y a de la parole vs silence.

Speaker segmentation

Decoupage du flux audio aux changements de locuteur.

Speaker embedding

Representation vectorielle d'une voix ou d'un segment vocal, permettant de comparer deux voix.

Clustering

Regroupement des segments vocalement similaires pour identifier un meme locuteur.

Confidence scoring

Score de fiabilite par segment ou prediction, utile pour legal, medical, compliance.

DER

Diarization Error Rate. Metrique standard d'evaluation de diarization. Plus le score est bas, mieux c'est.

tcpWER / tcorcWER

Metriques qui combinent erreur de transcription et erreur d'attribution speaker.

Code-switching

Changement de langue par un locuteur au cours d'une conversation. Sujet plutot STT que diarization pure.

Distinctions critiques

Diarization : qui parle quand.
Identification : quelle personne precise parle.
Voiceprint : empreinte vocale servant a reconnaitre/comparer.
Cross-talk detection : detection de chevauchement de voix.
STT : transcription des mots.
STT orchestration : orchestration transcription + diarization + reconciliation.