Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente | |||
journal_geek:2023:20230126-whisper-retranscription-et-traduction [2023/01/26 11:43] – supprimée - modification externe (Unknown date) | journal_geek:2023:20230126-whisper-retranscription-et-traduction [2023/01/26 11:43] (Version actuelle) – ↷ Page déplacée et renommée de journal_geek:billets:whisper-retranscription-et-traduction à journal_geek:2023:20230126-whisper-retranscription-et-traduction Cédric ABONNEL | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ====== Whisper : retranscription et traduction ====== | ||
+ | {{tag>" | ||
+ | {{ : | ||
+ | |||
+ | Whisper est un modèle de reconnaissance de la parole très performant, car il a été formé sur un grand jeu de données audio diversifié. Il est capable de reconnaître plusieurs langues, ce qui le rend très utile pour les applications qui nécessitent une reconnaissance de la parole multilingue. De plus, Whisper est également un modèle multitâche, | ||
+ | |||
+ | En général, Whisper est un modèle avancé qui permet de transcrire et traduire plusieurs langues et identifier la langue d'une parole en entrée, cela peut être utilisé dans de nombreux domaines tels que la traduction automatique, | ||
+ | |||
+ | --- | ||
+ | |||
+ | Pour l' | ||
+ | |||
+ | < | ||
+ | pip install -U openai-whisper | ||
+ | sudo dnf install ffmpeg | ||
+ | </ | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | |||
+ | --- | ||
+ | |||
+ | Pour utiliser la fonction de transcription auditive en texte, utilisant un modèle //medium// : | ||
+ | |||
+ | whisper audio.flac audio.mp3 audio.wav --model medium | ||
+ | |||
+ | Il existe cinq tailles de modèles, dont quatre avec des versions anglaises uniquement, offrant des compromis entre vitesse et précision. Ci-dessous se trouvent les noms des modèles disponibles et leurs exigences de mémoire approximatives et leur vitesse relative. | ||
+ | |||
+ | ^ Taille | ||
+ | | tiny | 39 M | tiny.en | ||
+ | | base | 74 M | base.en | ||
+ | | small | ||
+ | | medium | ||
+ | | large | ||
+ | |||
+ | Par défaut, le modèle utilisé est //small//, en langue anglaise. Pour transcrire un fichier audio contenant autre chose que de l' | ||
+ | |||
+ | whisper french.wav --language French | ||
+ | |||
+ | Le programme Whisper générera 3 fichiers : | ||
+ | * Fichier de sous-titre SRT | ||
+ | * Fichier de sous-titre VTT | ||
+ | * Fichier texte avec l' | ||
+ | |||
+ | Le programme affichera à l' | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | |||
+ | --- | ||
+ | |||
+ | Projet GitHub disponible sur https:// | ||
+ | |||
+ | --- // | ||