Autre billets

Programme python

Whisper est un modèle de reconnaissance de la parole très performant, car il a été formé sur un grand jeu de données audio diversifié. Il est capable de reconnaître plusieurs langues, ce qui le rend très utile pour les applications qui nécessitent une reconnaissance de la parole multilingue. De plus, Whisper est également un modèle multitâche, il peut donc être utilisé pour effectuer non seulement la reconnaissance de la parole, mais aussi la traduction de la parole et l'identification de la langue. Cela en fait un outil très polyvalent pour les applications de traitement de la parole.

En général, Whisper est un modèle avancé qui permet de transcrire et traduire plusieurs langues et identifier la langue d'une parole en entrée, cela peut être utilisé dans de nombreux domaines tels que la traduction automatique, la reconnaissance de commandes vocales, les assistants virtuels, les assistants de traduction pour les personnes sourdes et malentendantes, etc.

—

Pour l'installer sous Fedora Linux, voici les commandes :

pip install -U openai-whisper
sudo dnf install ffmpeg

—

Pour utiliser la fonction de transcription auditive en texte, utilisant un modèle medium :

whisper audio.flac audio.mp3 audio.wav --model medium

Il existe cinq tailles de modèles, dont quatre avec des versions anglaises uniquement, offrant des compromis entre vitesse et précision. Ci-dessous se trouvent les noms des modèles disponibles et leurs exigences de mémoire approximatives et leur vitesse relative.

Taille	Paramètres	Modèle en anglais seulement	Modèle multi-langues	VRAM nécessaire	Vitesse relative
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	small	~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

Par défaut, le modèle utilisé est small, en langue anglaise. Pour transcrire un fichier audio contenant autre chose que de l'anglais, il faut spécifier la langue avec l'optioon –language :

whisper french.wav --language French

Le programme Whisper générera 3 fichiers :

Fichier de sous-titre SRT
Fichier de sous-titre VTT
Fichier texte avec l'extension TXT

Le programme affichera à l'écran les sous-titres avec un timecode début et fin, dans une convention d'écriture hybride. J'ai lancé le traitement sur un fichier de 1 minute 34 avec le modèle medium, le résultat a été généré en 59 minutes.

—

Projet GitHub disponible sur https://github.com/openai/whisper

— Cédric ABONNEL dit Cédrix, CPT & OpenIA. Sur une idée de John Gecko - Article publié le Jeudi 26 Janvier 2023

Whisper : retranscription et traduction

notes informatique & technologie