Testé : convertir la parole en texte avec l’IA

2 octobre 2023

Transcrire des interviews, créer des sous-titres, prendre des notes pendant une réunion : ce sont des tâches qui prennent souvent beaucoup de temps. Ou plutôt, qui prenaient, car de nos jours il existe sur le marché un tas d’applications d’IA qui convertissent l’audio en texte de manière assez précise. Nous avons sélectionné cinq outils très réputés et les avons soumis à un test.

Toute personne à la recherche d’une application speech-to-text appropriée constatera illico que les options sont légion.  Ces dernières années, un tas de sociétés de logiciels ont développé un outil de transcription, assorti à chaque fois de formules de prix, de possibilités et d’atouts différents.

Pour ce test, nous avons organisé un tour de table auprès des membres Custo afin de déterminer quels sont les outils utilisés par les agences de content marketing belges.

Finalement, nous avons choisi de tester Amberscript, Descript, Good Tape, Transkriptor et Whisper AI, autant d’outils qui présentent les lettres de noblesse nécessaires.

1. Amberscript (22/30)

  • Convivialité

L’application ne requiert aucun téléchargement ; il suffit de s’enregistrer, ce qui se fait sans la moindre anicroche. Amberscript dispose par ailleurs d’une interface conviviale et intuitive. Le logiciel soutient à peu près tous les types de fichiers. Uploader une vidéo YouTube fait également partie des possibilités.

  • Possibilités en termes d’output

Après la transcription, vous pouvez réécouter l’enregistrement en question et optimiser la transcription via l’éditeur, ou directement l’exporter dans de nombreux formats, dotés ou non de codes temporels et de locuteurs désignés. L’affectation des locuteurs se fait quasi sans la moindre erreur.

  • Rapidité

Vous optez soit pour une transcription, soit pour un sous-titrage. Dans les deux cas, l’extrait audio est rapidement transcrit.

  • Compétence linguistique

Comme Amberscript est un service de transcription amstellodamois, l’outil a peu de problèmes avec le néerlandais. C’est un atout majeur.

  • Qualité de transcription et charge d’erreur

Logiquement, la qualité de transcription est le paramètre le plus important. Quand l’audio comprend peu de bruits parasites – un facteur crucial pour tous les outils –, les résultats sont plus que convenables. Au niveau de la ponctuation aussi, le texte fait plus que se défendre. Il est certainement utilisable et le gain de temps est assuré. L’entreprise elle-même fait état d’un taux de précision de 85 pour cent.

  • Prix

Vous avez le choix entre l’achat d’un crédit ponctuel (0,25 euro la minute ou 9,31 euros l’heure) ou la souscription d’un abonnement. Un abonnement, pour lequel il faut compter 20 dollars ou 18,63 euros tous les mois, permet de transcrire trois heures d’audio chaque mois. S’il s’agit de gros volumes ou si vous travaillez à plusieurs dans l’équipe, vous pouvez demander un devis spécifique.

En savoir plus sur Amberscript

2. Descript (21/30)

  • Convivialité

Pour ce qui est de l’audio et de la vidéo, le programme Descript est un véritable couteau suisse, la transcription n’étant qu’une des nombreuses applications proposées. Il n’existe pas de version pour navigateur ; le logiciel se sert d’une appli desktop. Malgré les nombreuses autres options, vous trouverez la fonction de transcription sans aucun problème.

  • Possibilités en termes d’output

La distinction entre les locuteurs et les codes temporels n’est pas toujours aussi claire, mais vous pouvez bel et bien vous mettre à l’œuvre facilement avec l’output. La possibilité de réécouter l’enregistrement pendant que vous relisez et parachevez la transcription est un énorme atout. Autre fonction pratique : celle qui permet de supprimer les mots de remplissage.

  • Rapidité

Quand vous uploadez un fichier, vous pouvez donner un coup de main au logiciel en indiquant le nombre de locuteurs et, au besoin, vous pouvez aussi immédiatement les nommer. La transcription ne s’affiche pas dans votre ‘espace de travail’ à la vitesse de l’éclair, mais elle ne se fait pas longtemps attendre.

  • Compétence linguistique

Descript se met à l’œuvre avec n’importe quelle langue, sans broncher. Autre atout : en uploadant, vous pouvez indiquer une autre langue et ainsi immédiatement obtenir une bonne traduction.

  • Qualité de transcription et charge d’erreur

La qualité des transcriptions est excellente pour les extraits audio anglais. Dans le cas des enregistrements néerlandais aussi, Descript atteint un haut niveau, mais la charge d’erreur augmente rapidement lorsque la qualité d’enregistrement n’est pas optimale. Par contre, avec un peu de bagage technique il est possible grâce aux nombreuses spécialités du logiciel de peaufiner l’audio au préalable afin d’obtenir un meilleur résultat.

  • Prix

La version gratuite de cette boîte à outils comprend une heure de transcription mensuelle. Avec l’abonnement Creator, à 11,18 euros par mois, il s’agit de 10 heures et avec la formule Pro, à 22,36 euros, de 30 heures. Pour également disposer de toutes les options dans le volet de transcription, il vous faudra toutefois l’abonnement le plus cher.

En savoir plus sur Descript

3. Good Tape (23,5/30)

  • Convivialité

En termes de convivialité et d’interface, peu d’outils peuvent rivaliser avec le Good Tape danois. On voit immédiatement comment le système fonctionne. L’output est particulièrement clair, à l’image des options qui permettent de l’exploiter.

  • Possibilités en termes d’output

Il n’est pas possible de réécouter directement l’enregistrement via l’outil, mais on vous offre la possibilité de sélectionner les intervalles de temps souhaités et d’attribuer toutes les citations aux différents locuteurs. Cette dernière fonction, fort utile, fonctionne généralement bien. Vous pouvez aussi copier ou télécharger le texte dans toutes sortes de formats, dont un fichier SRT avec sous-titres utilisable sur YouTube.

  • Rapidité

Après votre enregistrement, vous transcrivez votre premier fichier audio en un tour de main. Non seulement la transcription est plutôt rapide, mais vous pouvez en outre suivre le processus en direct et ainsi relire l’output phrase par phrase.

  • Compétence linguistique

Il n’y a pas grand-chose à redire sur la compétence linguistique de Good Tape. Aucune langue n’est trop complexe pour le système et l’output néerlandais est excellent. Les traductions, que l’on demande en sélectionnant une autre langue lors de l’upload d’un fichier, sont également de haut niveau.

  • Qualité de transcription et charge d’erreur

Comme la plupart des autre outils, Good Tape a un peu plus difficile avec les noms propres. Les dialectes posent aussi parfois problème. Néanmoins, l’outil génère habituellement des transcriptions très qualitatives, même pour les enregistrements contenant un peu plus de bruits parasites ou un mélange de plusieurs langues. Cela fait de l’outil une ressource fiable.

  • Prix

Good Tape ne jure que par un modèle freemium. Si vous n’avez besoin de l’outil qu’occasionnellement et si les longs temps d’attente ne vous effrayent pas, vous pouvez transcrire trois extraits audio par mois. Moyennant un abonnement d’une valeur de 15 euros par mois, le logiciel transcrira mensuellement jusqu’à 20 heures. Les sociétés qui aiment gérer plusieurs comptes, peuvent demander un devis personnalisé.

En savoir plus sur Good Tape

4. Transkriptor (22,5/30)

  • Convivialité

Transkriptor forme un trident avec Speaktor (conversion de texte en audio) et Eskritor (assistant d’écriture intelligent) et connaît une version pour navigateur, une appli et une extension Chrome. Vous pouvez également coupler l’outil à une réunion numérique en ainsi créer des notes en direct. Grâce à la fonction d’enregistrement, cela fonctionne aussi pour les réunions hors ligne, ce qui constitue une application supplémentaire pratique.

Visuellement, l’interface de Transkriptor est très basique, mais aussi très claire. En fait, quasi toutes les fonctionnalités sont présentes et elles sont faciles à utiliser.

  • Possibilités en termes d’output

Vous pouvez consulter les codes temporels, réécouter l’enregistrement et exporter la transcription dans un tas de formats. Il est même possible de regrouper tous les segments d’un locuteur : même si, en soi, c’est une application simple, la plupart des autres outils ne vous permettent pas de le faire.

  • Rapidité

Quelle que soit votre propre vitesse de frappe, vous n’arriverez jamais à rivaliser un tant soit peu avec le rythme que maintient Transkriptor.

  • Compétence linguistique

La liste des langues disponibles est longue. Avec la sensibilité linguistique du logiciel, tout est en ordre ; même un mélange de néerlandais et d’anglais ne constitue pas un obstacle majeur. Quant à la traduction de l’output, l’outil s’en charge en un rien de temps.

  • Qualité de transcription et charge d’erreur

Il n’est pas question de ponctuation dans l’output et la précision des textes générés est sans doute légèrement inférieure à celle de certains concurrents, mais dans l’ensemble, Transkriptor fournit des transcriptions assez claires et utilisables.

  • Prix

Il n’y a pas de doute : si l’on tient aussi compte de la table de prix avantageuse de l’outil, il s’agit indéniablement d’une alternative valable.

La formule Lite coûte 4,67 euros par mois et est assortie de cinq heures de transcription par mois ; la version Premium coûte 11,69 euros pour 40 heures par mois. Les équipes et les sociétés ont la possibilité de personnaliser leur abonnement. Et, détail non sans importance : pour le même prix on vous offre à chaque fois Speaktor et Eskritor en plus.

En savoir plus sur Transkriptor

 5. Whisper AI (16/30)

  • Convivialité

OpenAI, que l’on connaît aujourd’hui surtout pour ChatGPT, a développé un outil de transcription complètement gratuit qui s’utilise via Google Drive et l’appli Google Colaboratory. Tant le processus d’installation que la transcription même requièrent un minimum de connaissances numériques (ou un bon tutoriel), mais dès que vous maîtrisez le fonctionnement de l’outil, il vous sera assez facile de transcrire de nouveaux fichiers.

  • Possibilités en termes d’output

En tant qu’utilisateur, il faut un peu de temps pour s’habituer à l’output – l’interface ressemble plutôt au back-end d’un site Web –, mais tous les éléments nécessaires sont bel et bien présents. Vous verrez le texte transcrit avec les codes temporels et une traduction de la transcription dans toutes sortes de types de fichiers, dont un fichier SRT avec sous-titres que vous pouvez directement uploader sur YouTube.

Petit bémol : on ne fait pas de distinction entre les locuteurs, ce qui a tout de même pour effet de rendre la transcription un peu moins claire.

  • Rapidité

Un ordinateur doté d’un processeur décent est indispensable. Si vous n’en avez pas à votre disposition, le travail de transcription prendra beaucoup (voire trop) de temps. Surtout parce qu’il est essentiel de solliciter un niveau de transcription élevé, et donc plus de puissance de calcul, car sinon les résultats seront tout simplement médiocres.

  • Compétence linguistique

Même si l’outil maîtrise toutes les langues, cela n’empêche pas que les transcriptions anglaises sont généralement meilleures que les néerlandaises. Parfois, le logiciel ne reconnaît même pas la langue et le système produit un texte allemand ou suédois. Les traductions en néerlandais laissent parfois aussi à désirer.

  • Qualité de transcription et charge d’erreur

Il n’y a pas que la langue et la puissance de calcul disponible qui influent sur la qualité de la transcription et la charge d’erreur. Dans le cas d’un extrait audio de moindre qualité, à cause de bruits parasites ou autres, la qualité d’une transcription n’est pas toujours optimale.

  • Prix

Gratuit.

En savoir plus sur Whisper AI

Conclusion

NOTRE CHOIX : Good Tape. La qualité de transcription est de loin le paramètre le plus important et sur ce point, cet outil réalise le meilleur résultat. Il s’agit en outre d’une application conviviale à un prix plutôt compétitif.

Dans l’ensemble, les différents outils speech-to-text (testés) se valent largement. L’interface a l’air différente à chaque fois, mais les fonctionnalités et les options en termes d’output présentent surtout de nombreuses similitudes. Autre constante, tous progiciels confondus : en vue d’obtenir une transcription exacte, une bonne qualité d’enregistrement est cruciale.

Comme ces applications garantissent un gain de temps énorme, les prix constituent en fait un paramètre moins pertinent. Quand l’aspect financier pose malgré tout problème, on aboutit logiquement à Whisper AI. Par contre, si on ne dispose pas d’un processeur puissant ou si on est finalement prêt à dépenser une petite somme d’argent chaque mois, la formule Lite de Transkriptor est probablement le bon choix.

La qualité et la fiabilité sont sans aucun doute les critères les plus importants. À cet égard, la capacité de maîtriser des extraits audio de moindre qualité est également un élément important. C’est donc pourquoi Good Tape semble être la meilleure option, même si Ambercript et Descript enregistrent également de jolis résultats. En outre, ces outils compensent leurs performances légèrement inférieures par la fonction de réécoute et d’édition.

Une chose est sûre : aujourd’hui, ce type d’outils fonctionne déjà plus que suffisamment bien pour alléger votre travail en tant que content marketer. Faites donc le tour du marché de l’IA, fouinez à votre guise et testez une poignée d’applications. Ainsi, vous constaterez rapidement quels sont les outils qui répondent le mieux à vos besoins.

6 outils pratiques pour réaliser des vidéos

Un aperçu des outils de contenu pilotés par l’IA

Ne manquez rien sur le content marketing

Inscrivez-vous à notre newsletter