Audio vers texte

Sommaire

1 Installation de Whisper
2 Enregistrement
3 Matériel
4 Transcription d’un audio avec Whisper
5 Méthodologie : Écoute et correction :

Installation de Whisper

Enregistrement

Entretien - enregistrement de l’audio.

Matériel

La transcription audio est assez gourmande en puissance de calcul, il vous faut un ordinateur doté d'une carte graphique assez puissante (~6go de VRAM), si vous n'en possédez pas empruntez en un au prêt de matériel. Il est possible de transcrire en utilisant le processeurs (CPU) mais ce sera beaucoup plus long !

Avec un une carte de ~6go de RAM, 1h d'audio est transcrit en environ 20 minutes (sur le modèle Whisper moyen).

Transcription d’un audio avec Whisper

Installer Whisper si ce n’est déjà fait !
Convertir l’audio en texte : terminal (Windows : taper cmd le chemin du dossier dans lequel est l’audio) whisper exemple.mp3 --model medium --language fr
A la fin du processus, récupérer le .srt (fichier de sous-titre)
Traitement du .srt dans un bloc-note (j’utilise Xed - Linux) tout autre logiciel de traitement de texte peut faire l’affaire.

Méthodologie : Écoute et correction :

Je conseille si possible de réécouter l’audio dans son intégralité, certains passages ont pu être oubliés par la transcription automatique. Cette écoute intégrale est aussi l’occasion d’apporter les première retouches au texte. Pour ça il faut se donner une ligne de conduite. Quelle est l’intention ? A quoi est destiné ce texte ? Que veut-on garder ? L’oralité ? Retranscrire les interjections, les hésitations ? Ou directement “nettoyer” les texte pour faciliter le traitement ? Suppression des interjections, hésitations etc. Déplacement dans VLC : Avec les flèches, saut de secondes ou Ctrl+T pour un déplacement précis.
Pour les erreurs de transcription récurrentes, l’outil “Trouver et remplacer” est très pratique.
Ajouter le nom des personnes dans le corps du texte, ex : “Prénom :”
Une fois le nettoyage terminé, on transforme le .srt (avec les marqueurs de temps) en .txt (texte). Pour supprimer les “timecodes” j’utilise ce script - il faut placer le fichier au même endroit que les script puis l’exécuter en ouvrant le terminal. Pour que le script fonctionne “python” doit être installé.
- Linux python subtitle_to_text.py Your_filename.srt
- Windows Il faut spécifier où est python.exe C:\Python27\python.exe C:\Users\YourUsernameHere\Desktop\script.py Le fichier convertit apparaît dans le dossier d’exécution. Script : https://github.com/satwikkansal/subtitles_to_plaintext
Linux : Text Editor (Xed) - selection du texte (Ctrl+A) - join lines (Ctrl+J). Windows : Pas encore trouvé de solution logicielle, sauf ce site : https://www.browserling.com/tools/join-lines
Sectionnement du texte par interlocuteur·ices :

Ctrl+H Chercher : Joan : et remplacer par : \nJoan : pour ajouter automatiquement un saut de ligne. Bien cocher [x] Expression Régulière.
Supprimer les double espace : Libre Office :

Bien cocher [x] Expression Régulière (pour que les signes comme \s ne soient pas lus comme du texte)

Ctrl+H Remplacer & Rechercher > Rechercher : \s{2,} > Replacer par : “barre espace”

Xed (Linux) : Ctrl+H > Chercher : double barre d'espace > Remplacer avec vide
Correction de l’orthographe dans Libre Office.
Je conseille de travailler depuis les pages imprimées, un entretien d’une heure fait environ 12 pages. Pour l’impression je conseille d’ajouter des marges pour les annotations, ça gonfle un peu le nombre de page mais c’est pratique.
La première lecture j’annote certains passages, ce qui me permet de thématiser, sectionner les parties de l’entretien.
A l’aide des styles dans Libre Office, j’utilise les titres et les sous-titre pour créer un index parties / thématiques.

Article CNRS Whisper pour retranscrire des entretiens

https://www.css.cnrs.fr/fr/whisper-pour-retranscrire-des-entretiens/