La transcription audio est une tâche souvent longue et fastidieuse. Heureusement, des outils comme Whisper d’OpenAI ont révolutionné ce domaine en offrant une précision de transcription quasi humaine, le tout en open-source. Si vous êtes un utilisateur de Linux, la version en ligne de commande (CLI) de Whisper est un atout formidable pour automatiser vos transcriptions, les intégrer dans des scripts et exploiter toute la puissance de votre machine.
Ce guide complet vous montrera, étape par étape, comment installer Whisper CLI sur les distributions Linux les plus populaires (Debian/Ubuntu, Fedora, Arch Linux) et comment l’utiliser efficacement.
Table des matières
- Qu'est-ce que Whisper d'OpenAI ?
- Prérequis : Ce dont vous avez besoin avant de commencer
- Étape 1 : Installation des Dépendances Essentielles
- Étape 2 : Installation de Whisper CLI via Pip
- Étape 3 : Vérification de l'Installation
- Comment Utiliser Whisper CLI : Exemples Pratiques
- Dépannage : Problèmes Courants et Solutions
- Conclusion
- Pour les distributions basées sur Debian/Ubuntu
- Pour les distributions basées sur Fedora/RHEL/CentOS
- Pour Arch Linux
- Transcription de base
- Choisir un modèle de transcription
- Spécifier la langue
- Utiliser le GPU pour une transcription accélérée
- Erreur "command not found: whisper"
- Erreur "ffmpeg not found"
- Problèmes liés à PyTorch ou CUDA
Qu’est-ce que Whisper d’OpenAI ?
Whisper est un modèle de reconnaissance vocale automatique (ASR) entraîné par OpenAI sur 680 000 heures de données audio multilingues et supervisées. Ses points forts sont :
- Haute Précision : Il rivalise et dépasse souvent les services de transcription commerciaux.
- Multilingue : Il gère des dizaines de langues, dont un excellent support pour le français.
- Robuste : Il fonctionne bien même avec du bruit de fond, des accents variés ou un jargon technique.
- Open-Source : Le code et les modèles pré-entraînés sont disponibles gratuitement, vous permettant de l’exécuter localement sur votre propre machine.

La version CLI (Command-Line Interface) est parfaite pour les développeurs, les administrateurs système et tous ceux qui préfèrent la puissance et la flexibilité du terminal.
Prérequis : Ce dont vous avez besoin avant de commencer
Avant de plonger dans l’installation, assurez-vous d’avoir les éléments suivants :
- Un système Linux : Ce guide couvre les distributions basées sur Debian (Ubuntu, Mint), Fedora (RHEL, CentOS) et Arch Linux.
- Python 3.8+ et Pip : Whisper est un package Python. pip est le gestionnaire de paquets de Python, essentiel pour l’installation.
- FFmpeg : Un outil en ligne de commande indispensable pour le traitement audio et vidéo. Whisper l’utilise pour lire et convertir quasiment tous les formats audio.
- (Optionnel mais fortement recommandé) Un GPU NVIDIA avec CUDA : Pour des transcriptions rapides, un GPU est quasi obligatoire. Sans GPU, la transcription de longs fichiers avec les modèles les plus précis peut prendre énormément de temps.
Étape 1 : Installation des Dépendances Essentielles
Ouvrez votre terminal et installez les paquets nécessaires en fonction de votre distribution.
Pour les distributions basées sur Debian/Ubuntu
Mettez à jour votre liste de paquets et installez python3-pip et ffmpeg :
sudo apt update
sudo apt install python3-pip ffmpeg
Pour les distributions basées sur Fedora/RHEL/CentOS
Utilisez le gestionnaire de paquets dnf :
sudo dnf install python3-pip ffmpeg
Note : Sur des systèmes plus anciens comme CentOS 7, vous pourriez avoir besoin d’activer le dépôt EPEL ou RPM Fusion pour trouver ffmpeg.
Pour Arch Linux
Utilisez pacman pour installer les paquets :
sudo pacman -Syu python-pip ffmpeg
Étape 2 : Installation de Whisper CLI via Pip
Maintenant que les dépendances sont en place, l’installation de Whisper est très simple grâce à pip.
Il existe deux méthodes principales :
Méthode 1 : Installation standard (CPU)
C’est la commande la plus simple. Elle installera la dernière version stable de Whisper et ses dépendances Python, y compris la bibliothèque torch pour le CPU.
pip install -U openai-whisper
L’option -U ou –upgrade garantit que vous installez la dernière version disponible et met à jour les dépendances si nécessaire.
Méthode 2 : Installation avec support GPU (NVIDIA/CUDA)
Pour bénéficier de l’accélération matérielle, il est recommandé d’installer la version directement depuis le dépôt Git. Cette méthode garantit une meilleure compatibilité avec les bibliothèques torch et CUDA.
pip install -U git+https://github.com/openai/whisper.git
Cette commande va cloner le dépôt et l’installer. Assurez-vous que vos pilotes NVIDIA et votre toolkit CUDA sont correctement installés sur votre système au préalable.
Étape 3 : Vérification de l’Installation
Pour confirmer que Whisper CLI est bien installé et accessible depuis votre terminal, exécutez simplement la commande d’aide :Generated bash
whisper --help
Si l’installation a réussi, vous devriez voir une liste de toutes les options et commandes disponibles pour Whisper.
Comment Utiliser Whisper CLI : Exemples Pratiques
L’utilisation de base est incroyablement simple. Placez-vous dans le dossier contenant votre fichier audio et lancez la commande.
Transcription de base
Pour transcrire un fichier audio (ex: mon_interview.mp3), la commande la plus simple est :Generated bash
whisper mon_interview.mp3
Whisper détectera automatiquement la langue et utilisera le modèle small par défaut. Une fois terminé, il créera plusieurs fichiers dans le même dossier : .txt, .vtt, et .srt contenant la transcription.
Choisir un modèle de transcription
Whisper propose plusieurs modèles, chacun offrant un compromis différent entre vitesse et précision :
- tiny
- base
- small (défaut)
- medium
- large (le plus précis, mais le plus lent)
Pour utiliser un modèle spécifique, utilisez l’option –model. Pour une précision maximale, optez pour le modèle large :
whisper mon_podcast.wav --model large
Spécifier la langue
Bien que la détection automatique soit performante, forcer la langue peut améliorer la précision, surtout pour les audios courts ou avec beaucoup de jargon.
whisper mon_cours_de_francais.m4a --model medium --language French
Utiliser le GPU pour une transcription accélérée
Si vous avez un GPU NVIDIA compatible et que vous avez installé Whisper correctement, l’utilisation du GPU est automatique ! Vous n’avez aucune option à ajouter. Vous remarquerez une différence de vitesse spectaculaire, en particulier avec les modèles medium et large.
Dépannage : Problèmes Courants et Solutions
Erreur “command not found: whisper”
Si le terminal ne trouve pas la commande whisper, c’est probablement un problème de PATH. Les exécutables installés par pip pour l’utilisateur se trouvent souvent dans ~/.local/bin.
Solution : Ajoutez ce dossier à votre PATH.
- Ouvrez votre fichier de configuration de shell (~/.bashrc, ~/.zshrc, etc.).
- Ajoutez la ligne suivante à la fin du fichier :Generated bash
export PATH="$HOME/.local/bin:$PATH"
- Rechargez votre configuration avec source ~/.bashrc (ou redémarrez votre terminal).
Erreur “ffmpeg not found”
Ce message signifie que Whisper ne trouve pas ffmpeg.
Solution : Retournez à l’Étape 1 et assurez-vous d’avoir bien installé ffmpeg en utilisant le gestionnaire de paquets de votre distribution.
Problèmes liés à PyTorch ou CUDA
Si vous rencontrez des erreurs complexes mentionnant torch, CUDA ou NVIDIA, cela indique souvent une incompatibilité entre les versions de PyTorch, vos pilotes NVIDIA et votre toolkit CUDA.
Solution :
- Désinstallez PyTorch : pip uninstall torch.
- Rendez-vous sur le site officiel de PyTorch et utilisez leur configurateur pour obtenir la commande pip exacte correspondant à votre version de CUDA.
Conclusion
Vous avez maintenant toutes les clés en main pour installer et maîtriser Whisper CLI sur votre machine Linux. Cet outil puissant transforme votre ordinateur en une station de transcription de pointe, gratuite et respectueuse de votre vie privée.
N’hésitez pas à explorer les autres options offertes par la commande (whisper –help) pour affiner vos transcriptions, comme la traduction ou la segmentation des locuteurs. L’automatisation de la transcription audio n’a jamais été aussi accessible.