journal_geek:2023:20230126-whisper-retranscription-et-traduction

Whisper : retranscription et traduction

Whisper est un modèle de reconnaissance de la parole très performant, car il a été formé sur un grand jeu de données audio diversifié. Il est capable de reconnaître plusieurs langues, ce qui le rend très utile pour les applications qui nécessitent une reconnaissance de la parole multilingue. De plus, Whisper est également un modèle multitâche, il peut donc être utilisé pour effectuer non seulement la reconnaissance de la parole, mais aussi la traduction de la parole et l'identification de la langue. Cela en fait un outil très polyvalent pour les applications de traitement de la parole.

En général, Whisper est un modèle avancé qui permet de transcrire et traduire plusieurs langues et identifier la langue d'une parole en entrée, cela peut être utilisé dans de nombreux domaines tels que la traduction automatique, la reconnaissance de commandes vocales, les assistants virtuels, les assistants de traduction pour les personnes sourdes et malentendantes, etc.

Pour l'installer sous Fedora Linux, voici les commandes :

pip install -U openai-whisper
sudo dnf install ffmpeg

Pendant l'installation d'openai-whisper sous Fedora

Pour utiliser la fonction de transcription auditive en texte, utilisant un modèle medium :

whisper audio.flac audio.mp3 audio.wav --model medium

Il existe cinq tailles de modèles, dont quatre avec des versions anglaises uniquement, offrant des compromis entre vitesse et précision. Ci-dessous se trouvent les noms des modèles disponibles et leurs exigences de mémoire approximatives et leur vitesse relative.

Taille Paramètres Modèle en anglais seulement Modèle multi-langues VRAM nécessaire Vitesse relative
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

Par défaut, le modèle utilisé est small, en langue anglaise. Pour transcrire un fichier audio contenant autre chose que de l'anglais, il faut spécifier la langue avec l'optioon –language :

whisper french.wav --language French

Le programme Whisper générera 3 fichiers :

  • Fichier de sous-titre SRT
  • Fichier de sous-titre VTT
  • Fichier texte avec l'extension TXT

Le programme affichera à l'écran les sous-titres avec un timecode début et fin, dans une convention d'écriture hybride. J'ai lancé le traitement sur un fichier de 1 minute 34 avec le modèle medium, le résultat a été généré en 59 minutes.

Exemple d’exécution du programme Whisper sous Fedora Linux

Projet GitHub disponible sur https://github.com/openai/whisper

Cédric ABONNEL (cedricabonnel), CPT & OpenIA. Sur une idée de John Gecko - Article publié le Jeudi 26 Janvier 2023

  • journal_geek/2023/20230126-whisper-retranscription-et-traduction.txt
  • Dernière modification : 2023/01/26 12:43
  • de Cédric ABONNEL