Whisper : retranscription et traduction
Whisper est un modèle de reconnaissance de la parole très performant, car il a été formé sur un grand jeu de données audio diversifié. Il est capable de reconnaître plusieurs langues, ce qui le rend très utile pour les applications qui nécessitent une reconnaissance de la parole multilingue. De plus, Whisper est également un modèle multitâche, il peut donc être utilisé pour effectuer non seulement la reconnaissance de la parole, mais aussi la traduction de la parole et l'identification de la langue. Cela en fait un outil très polyvalent pour les applications de traitement de la parole.
En général, Whisper est un modèle avancé qui permet de transcrire et traduire plusieurs langues et identifier la langue d'une parole en entrée, cela peut être utilisé dans de nombreux domaines tels que la traduction automatique, la reconnaissance de commandes vocales, les assistants virtuels, les assistants de traduction pour les personnes sourdes et malentendantes, etc.
—
Pour l'installer sous Fedora Linux, voici les commandes :
pip install -U openai-whisper sudo dnf install ffmpeg
—
Pour utiliser la fonction de transcription auditive en texte, utilisant un modèle medium :
whisper audio.flac audio.mp3 audio.wav --model medium
Il existe cinq tailles de modèles, dont quatre avec des versions anglaises uniquement, offrant des compromis entre vitesse et précision. Ci-dessous se trouvent les noms des modèles disponibles et leurs exigences de mémoire approximatives et leur vitesse relative.
Taille | Paramètres | Modèle en anglais seulement | Modèle multi-langues | VRAM nécessaire | Vitesse relative |
---|---|---|---|---|---|
tiny | 39 M | tiny.en | tiny | ~1 GB | ~32x |
base | 74 M | base.en | base | ~1 GB | ~16x |
small | 244 M | small.en | small | ~2 GB | ~6x |
medium | 769 M | medium.en | medium | ~5 GB | ~2x |
large | 1550 M | N/A | large | ~10 GB | 1x |
Par défaut, le modèle utilisé est small, en langue anglaise. Pour transcrire un fichier audio contenant autre chose que de l'anglais, il faut spécifier la langue avec l'optioon –language
:
whisper french.wav --language French
Le programme Whisper générera 3 fichiers :
- Fichier de sous-titre SRT
- Fichier de sous-titre VTT
- Fichier texte avec l'extension TXT
Le programme affichera à l'écran les sous-titres avec un timecode début et fin, dans une convention d'écriture hybride. J'ai lancé le traitement sur un fichier de 1 minute 34 avec le modèle medium, le résultat a été généré en 59 minutes.
—
Projet GitHub disponible sur https://github.com/openai/whisper
— Cédric ABONNEL dit Cédrix, CPT & OpenIA. Sur une idée de John Gecko - Article publié le Jeudi 26 Janvier 2023