====== Whisper : retranscription et traduction ======
{{tag>"Programme python"}}
{{ :journal_geek:2023:transcript-process.png?300x|}}

Whisper est un modèle de reconnaissance de la parole très performant, car il a été formé sur un grand jeu de données audio diversifié. Il est capable de reconnaître plusieurs langues, ce qui le rend très utile pour les applications qui nécessitent une reconnaissance de la parole multilingue. De plus, Whisper est également un modèle multitâche, il peut donc être utilisé pour effectuer non seulement la reconnaissance de la parole, mais aussi la traduction de la parole et l'identification de la langue. Cela en fait un outil très polyvalent pour les applications de traitement de la parole.

En général, Whisper est un modèle avancé qui permet de transcrire et traduire plusieurs langues et identifier la langue d'une parole en entrée, cela peut être utilisé dans de nombreux domaines tels que la traduction automatique, la reconnaissance de commandes vocales, les assistants virtuels, les assistants de traduction pour les personnes sourdes et malentendantes, etc.

---

Pour l'installer sous Fedora Linux, voici les commandes :

<code>
pip install -U openai-whisper
sudo dnf install ffmpeg
</code>

{{ :journal_geek:2023:pasted:20230122-234506.png |Pendant l'installation d'openai-whisper sous Fedora}}


---

Pour utiliser la fonction de transcription auditive en texte, utilisant un modèle //medium// :

  whisper audio.flac audio.mp3 audio.wav --model medium

Il existe cinq tailles de modèles, dont quatre avec des versions anglaises uniquement, offrant des compromis entre vitesse et précision. Ci-dessous se trouvent les noms des modèles disponibles et leurs exigences de mémoire approximatives et leur vitesse relative.

^  Taille  ^  Paramètres  ^  Modèle en anglais seulement  ^  Modèle multi-langues  ^  VRAM nécessaire  ^  Vitesse relative  ^
|  tiny    |  39 M        |  tiny.en                      |  tiny                  |  ~1 GB            |  ~32x              |
|  base    |  74 M        |  base.en                      |  base                  |  ~1 GB            |  ~16x              |
|  small   |  244 M       |  small.en                     |  small                 |  ~2 GB            |  ~6x               |
|  medium  |  769 M       |  medium.en                    |  medium                |  ~5 GB            |  ~2x               |
|  large   |  1550 M      |  N/A                          |  large                 |  ~10 GB           |  1x                |

Par défaut, le modèle utilisé est //small//, en langue anglaise. Pour transcrire un fichier audio contenant autre chose que de l'anglais, il faut spécifier la langue avec l'optioon ''--language'' :

  whisper french.wav --language French

Le programme Whisper générera 3 fichiers :
  * Fichier de sous-titre SRT
  * Fichier de sous-titre VTT
  * Fichier texte avec l'extension TXT

Le programme affichera à l'écran les sous-titres avec un timecode début et fin, dans une convention d'écriture hybride. J'ai lancé le traitement sur un fichier de 1 minute 34 avec le modèle //medium//, le résultat a été généré en 59 minutes.

{{ :journal_geek:2023:pasted:20230123-081939.png |Exemple d’exécution du programme Whisper sous Fedora Linux}}


---

Projet GitHub disponible sur https://github.com/openai/whisper

 --- //[[user:cedricabonnel]], [[user:CPT]] & OpenIA. Sur une idée de [[user:johnguecko|John Gecko]] - Article publié le  Jeudi 26 Janvier 2023 //