Compensation Pour Le Signe Du Zodiaque
Composition C Célébrités

Découvrez La Compatibilité Par Le Signe Du Zodiaque

Les meilleurs outils de transcription automatique pour les journalistes

Technologie Et Outils

Siri vient d'avoir six ans. Alexa vient d'avoir trois ans. Si nous pouvons demander à nos téléphones la météo à Albuquerque et obliger un cylindre en plastique dans nos salons à lire le Washington Post à haute voix, pourquoi transcrivons-nous encore les interviews à la main ?

Eh bien, il s'avère que nous n'avons pas vraiment à le faire. Les outils de transcription automatique sont sur le marché depuis un certain temps maintenant, et ils deviennent enfin bons. Il ne faut maintenant que quelques minutes et quelques dollars pour télécharger de l'audio ou de la vidéo sur un site et recevoir une transcription assez complète.

Mais, comme tous les outils, certains sont meilleurs que d'autres. Nous avons testé (ou essayé de tester - nous en reparlerons plus tard) huit des outils de transcription les plus populaires destinés aux journalistes, notamment Dictée du dragon , Scribe heureux , oTranscrire , de manière record , Tour , Sonix , Trinité et YouTube. Nous avons exécuté chaque outil à travers une variété de scénarios du monde réel, en expérimentant comment chacun se comportait par rapport à l'utilisation typique d'un journaliste.

Bien qu'aucun des outils n'ait été parfait, l'un a devancé les autres en tant que meilleur de la catégorie.

Notre choix
Une combinaison de précision, de fonctionnalités et de facilité d'utilisation font de Trint le meilleur choix pour la transcription automatique des journalistes. Bien que ce ne soit pas l'outil le plus précis, le plus riche en fonctionnalités ou le moins cher que nous ayons essayé, ses outils d'édition de transcription et sa capacité à s'intégrer de manière un peu plus transparente dans le flux de travail d'un journaliste l'aident à devancer ses concurrents. Lisez la suite pour voir pourquoi.

L'expérience
Comme vous le verrez, les taux de précision de ces outils sont faibles. C'est parce que nous avons fait de notre mieux pour les confondre.

Tout d'abord, pour refléter un large éventail de personnes, de voix et d'accents, nous avons enregistré notre échantillon audio avec quatre participants. Ils comprenaient :

  • Alexios Manzarlis , professeur de Poynter et directeur de l'International Fact-Checking Network, qui est originaire de Rome et s'est décrit comme ayant un zézaiement et 'des mots amusants qui mélangent des accents britanniques, italiens et américains étranges'
  • doux bouquets , responsable de programme pour l'International Fact-Checking Network, qui est venu à Poynter de Mexico en septembre
  • Kristen Hare , journaliste à Poynter, qui pense qu'elle a l'air 'un peu fille de la vallée' quand elle s'écoute sur des enregistrements
  • Moi, et bien que Kristen ait dit que j'avais un 'accent de buffle', je pense que ma tendance à marmonner, à parler trop vite et à sauter des parties de mots s'avère probablement plus difficile pour les transcriptions (s'enregistrer en prévision d'être transcrit conduit clairement à un peu d'auto- réflexion.)

Kristen nous a rejoint via Google Hangouts/YouTube Live ( divulgation : une subvention de Google News Lab finance en partie mon poste ), contre lesquels la plupart des outils de transcription automatique mettent ouvertement en garde. L'audio d'un téléphone ou d'un chat vidéo semble être universellement difficile à gérer pour eux.

Pour torturer encore plus les algorithmes, nous avons aussi lu des passages à un rythme beaucoup plus rapide que d'habitude, Dulce et Alexios parlaient diverses langues étrangères (italien, espagnol, français et grec), nous avons prononcé le plus de noms propres possible (Apalachicola , Michael Oreskes et diverses îles grecques, pour n'en nommer que quelques-unes), a fait preuve de créativité avec Urban Dictionary (un valise de Paul Manafort et un mot grossier décrivant l'état de sa situation juridique) et se parlaient assez fréquemment.

Nous avons enregistré notre test de 14 minutes dans le studio de webinaire de Poynter et avons été interrompus par le bruit d'au moins un avion bruyant au-dessus de nos têtes (il y a un aéroport à quelques pâtés de maisons), un véhicule d'urgence et les clameurs du téléphone de Kristen.

Nous avons enregistré l'audio de trois manières :

  • Avec un Zoom H4nPro microphone à main, placé entre nous
  • Avec mon iPhone 6S Plus, utiliser l'application Recordly pour enregistrer, placée à côté du Zoom
  • Avec un YouTube Live privé, c'est ainsi que Kristen nous a rejoint

Nous avons ensuite téléchargé l'audio sur chaque outil et suivi le temps de transcription de chacun. Nous avons normalisé les transcriptions résultantes à l'aide de Microsoft Word, en supprimant les horodatages et en nous assurant que les noms des locuteurs étaient congruents. En guise de contrôle, j'ai transcrit l'audio moi-même (à l'aide d'oTranscribe), puis j'ai écouté plusieurs fois pour vérifier l'exactitude totale. Nous avons également essayé Rev, un service payant qui utilise des transcripteurs humains plutôt que des algorithmes, pour voir comment il s'empilait.

Nous avons testé une variété d'outils de comparaison de documents pour voir lequel fonctionnait le mieux, en nous fixant sur Copyscape comme l'option la plus solide. Nous avons comparé les transcriptions générées par les outils et services à celle 100% correcte que j'ai créée avec oTranscribe.

Quelques notes supplémentaires :

  • L'audio du Zoom s'est avéré être la meilleure qualité, nous l'avons donc utilisé pour la plupart de nos tests. L'application Recordly ne semble pas accepter l'audio enregistré à partir d'autres sources, c'est donc une exception à ce processus. Nous n'avons pas non plus téléchargé l'audio Zoom sur YouTube, en nous appuyant plutôt sur l'audio de l'enregistrement YouTube Live. La comparaison des pommes et des oranges rend cette expérience moins que scientifique mais plus conforme à la façon dont les journalistes utiliseraient réellement ces outils dans le monde réel.
  • Bien qu'il s'agisse d'un outil populaire, nous n'avons pas pu tester Dragon Dictation, car il ne fonctionne pas sur iOS 11. Nous mettrons à jour cette revue quand et si son développeur corrige ce problème.
  • Nous n'avons contacté aucune de ces entreprises avant de tester, il n'y a donc pas eu de traitement spécial ni de finagling des transcriptions. Trint, Sonix et Recordly offrent des minutes gratuites limitées pour les nouveaux utilisateurs, nous en avons donc profité pour l'expérience. Nous avons utilisé la carte de crédit d'un collègue non journaliste pour Happy Scribe et n'avons pas mentionné Poynter puisque j'ai correspondu avec ses fondateurs dans le passé. Et nous avons payé le prix fort pour la transcription humaine de Rev. Le service de sous-titrage de YouTube et oTranscribe sont toujours gratuits.
  • Il existe de nombreux autres outils de transcription automatique que nous n'avons pas inclus dans cette revue. Nous avons essayé de nous concentrer sur ceux sur lesquels les journalistes nous ont interrogés. Si vous pensez que nous en avons injustement ignoré un, faites-le nous savoir et nous mettrons à jour l'examen.

Qualité de la transcription (Gagnant : Happy Scribe)

Diagramme de précision

Il semble que les personnes préoccupées par le soulèvement de l'intelligence artificielle aient encore au moins quelques années pour se préparer, car le seul service de transcription humaine que nous avons testé a largement battu les transcriptions automatiques.

Rev a obtenu une cote de précision de 82 %, le traducteur humain ne parvenant généralement pas à saisir les langues étrangères (ce qui, pour être juste, est un service distinct), quelques noms propres, quelques diaphonies, quelques mots d'argot et des morceaux de marmonnement. Bien que les autres outils aient pour la plupart manqué ces choses aussi, les transcripteurs humains de Rev ont au moins noté des choses comme '[inaudible]' et '[diaphonie]' et '[langue étrangère]', qui étaient des espaces réservés utiles pour des corrections ultérieures.

Même avec les bits manquants, la transcription Rev est entièrement lisible et cohérente. Si vous n'étiez pas là pour la conversation initiale, vous pourriez comprendre l'essentiel de ce dont nous parlions simplement en le lisant.

La prochaine transcription la plus précise était YouTube. Le site d'hébergement vidéo a créé automatiquement des sous-titres pour notre vidéo en direct YouTube qui étaient précis à 72 %. Mais même avec une baisse de qualité globale de seulement 10%, la transcription est nettement moins lisible que celle de Rev, car YouTube ne fournit aucune ponctuation ni segmentation des locuteurs. Les légendes existent sous la forme d'un bloc de texte massif. Sans le coupler avec l'audio, il serait presque impossible pour quelqu'un qui ne faisait pas partie de la conversation de comprendre notre conversation.

Les offres de YouTube présentent d'autres inconvénients, mais nous en parlerons lorsque nous aborderons les fonctionnalités.

Happy Scribe s'est avéré être l'outil de transcription non humain dédié le plus précis, avec une précision de 62 % dans notre expérience. L'outil avertit sur sa page de téléchargement d''éviter les bruits de fond importants', 'd'éviter les accents prononcés', 'd'éviter les entretiens Skype et téléphoniques' et de 'garder le microphone près de l'orateur', que nous avons consciencieusement ignorés.

La transcription est proche de la précision dans les endroits où je parlais, surtout quand il n'y avait pas de diaphonie et que je n'utilisais pas de noms propres, mais j'ai eu beaucoup de mal à transcrire Dulce, Kristen et Alexios. Il a divisé différents orateurs en nouveaux paragraphes à certains endroits, mais a échoué à d'autres. La transcription globale varie entre entièrement cohérente à certains endroits et bizarrement incohérente à d'autres, comme lorsqu'elle a transcrit Alexios en disant 'laissez-moi ouvrir le dictionnaire urbain et nous pouvons en parcourir certains' comme 'je veux dire même dans le dictionnaire urbain les filles sont proches .”

Trint a offert des résultats similaires, avec une précision de 61 %. Il a foiré dans plusieurs des mêmes endroits, tâtonnant avec les accents, l'audio de YouTube et les sections avec diaphonie ou parole silencieuse. Cependant, il n'a pas été mal transcrit exactement de la même manière que Happy Scribe. La phrase du dictionnaire urbain ci-dessus est apparue comme suit : 'Je veux dire que même dans le dictionnaire urbain, nous pouvons les parcourir.'

Dans l'ensemble, la transcription de Trint est légèrement plus facile à lire que celle de Happy Scribe, car elle permet de mieux différencier les locuteurs et de les diviser en nouveaux paragraphes. Ce n'est pas parfait, mais cela ajoute beaucoup de clarté quand cela fonctionne.

Sonix s'est avéré être le deuxième plus précis à 50%. Sonix fonctionnait légèrement mieux que Happy Scribe et Trint lorsqu'un seul haut-parleur parlait fort. Mais toute diaphonie, bruit de fond ou même rire – toutes choses qui apparaîtront probablement dans toute utilisation réelle de l'outil – semblaient le confondre plus que les autres. Il a capturé la phrase du dictionnaire urbain comme 'ouvrir dans le dictionnaire urbain et nous pouvons passer en revue certaines d'entre elles'.

Comme les autres outils, Sonix a essayé de diviser les haut-parleurs en différents paragraphes, mais cela semblait être légèrement pire.

Recordly était le moins précis des outils de transcription automatique, avec une précision de 48 %. Il a capturé la phrase du dictionnaire urbain comme «laissez-moi ouvrir ce dictionnaire urbain et nous le pourrons. Passez en revue certains », ce qui n'est pas mal, mais ce morceau de texte n'est pas représentatif du reste de la transcription. Comme YouTube, la transcription de Recordly est un bloc de texte géant. Contrairement à YouTube, il ajoute de la ponctuation, bien que moins fréquemment et avec une précision moindre que les autres outils.

La transcription Recordly est la moins utile hors contexte.

Dans l'ensemble, la meilleure transcription est venue de ma propre main avec oTranscribe. Rev s'est avéré la meilleure transcription que je n'ai pas eu à transcrire moi-même. Mais il s'agit d'un examen des outils de transcription automatique, et dans cette catégorie, Happy Scribe a à peine devancé Trint pour s'imposer.

Caractéristiques (Gagnant : Sonix)
Certaines choses semblent être les normes de l'industrie des outils de transcription automatique. La possibilité de lire l'audio téléchargé est une évidence. Tous les outils permettent aux utilisateurs d'exporter des transcriptions dans différents formats.

Les outils basés sur un navigateur (c'est-à-dire tous sauf Recordly) offrent également une suite commune. Tous permettent aux utilisateurs de cliquer sur différents points du texte et de passer directement à cette partie de l'enregistrement. Ils ont tous des options pour lire l'audio à une vitesse plus lente (avec des touches de raccourci ou en modifiant les paramètres), modifier manuellement les transcriptions, télécharger la vidéo en plus de l'audio et stocker les transcriptions pour une utilisation ultérieure.

Trint va encore plus loin et propose une forme d'onde visualisée de l'audio au bas de la transcription que les utilisateurs peuvent parcourir à volonté. Il dispose également d'outils intégrés pour rechercher et remplacer, surligner ou rayer du texte. Les utilisateurs peuvent ajouter une liste d'orateurs à l'outil et joindre leur nom à chaque paragraphe. Il dispose également d'une fonctionnalité pratique pour envoyer une transcription par e-mail en un seul clic.

Sonix propose tous ces outils (à l'exception de la forme d'onde interactive) et quelques autres. Les plus utiles sont les «couleurs de confiance», qui attribuent différentes couleurs aux mots dont Sonix est moins confiant; un évaluateur de qualité audio, qui vous indique à quel point Sonix est confiant quant à sa transcription ; et l'identification automatisée du locuteur, une fonctionnalité bêta qui tente d'identifier différents locuteurs et de leur attribuer des identifiants.

Dans notre test, Sonix n'a identifié que deux haut-parleurs différents, donc cet outil a besoin de travail, mais il est toujours extrêmement utile.

Recordly, la seule application (iOS uniquement) du groupe, offre le moins de fonctionnalités. C'est à peu près une expérience d'enregistrement et d'attente. La transcription est livrée dans un format similaire à l'application de notes intégrée d'Apple, avec des fonctionnalités d'édition limitées. Il permet également aux utilisateurs d'exporter l'audio ou le texte vers une autre application.

Bien que les fonctionnalités de recherche et de remplacement et de forme d'onde de Trint soient utiles lors de la correction des transcriptions, les fonctionnalités de Sonix ajoutent une transparence vitale au processus de transcription. Et bien que la version bêta de l'identification du locuteur ne soit pas entièrement fiable, c'est un outil ambitieux qui ne devrait que s'améliorer à partir d'ici.

Timing (Gagnant : Happy Scribe, Trinité et record)

chronogramme

C'est là que la transcription automatique brille. Tous les outils ont fourni une transcription en moins de minutes que la longueur du fichier audio que nous avons soumis. La différence entre Happy Scribe (cinq minutes), Trint (six minutes) et Recordly (six minutes) était négligeable, mais Sonix a pris un peu plus de temps (11 minutes). (Mise à jour : un représentant de Sonix a contacté pour dire que sa vitesse est conforme aux autres outils lorsque la fonction d'identification du locuteur est désactivée.) Dans un environnement réel, cela pourrait être une différence cruciale, en particulier avec des transcriptions plus longues.

YouTube est un peu un mystère ici. Pour cette transcription, il n'a fallu que quelques minutes pour que les sous-titres automatisés apparaissent. Dans les expériences passées, nous avons constaté que le temps qu'il leur faut pour apparaître peut varier considérablement. Étant donné que YouTube n'est pas vraiment destiné à être utilisé de cette manière, nous ne savons pas combien de temps cela prend généralement.

Il a fallu environ quatre heures et 15 minutes aux transcripteurs humains de Rev pour terminer leur transcription. Il m'en a fallu environ la moitié pour le faire moi-même avec oTranscribe, mais non sans plusieurs pauses, Spotify Mise au point profonde playlist et deux gallons de café.

Prix ​​(Gagnant : record)

diagramme de coût

Vous ne pouvez pas battre gratuitement (YouTube, oTranscribe), mais en ce qui concerne les outils de transcription automatique dédiés, le coût varie considérablement. Pour déterminer le meilleur prix, vous devez tenir compte de la fréquence d'utilisation de l'outil.

Sonix est le plus cher, avec un plan de base à partir de 15 $ par mois plus 8 $ pour chaque heure d'audio transcrit. Mais l'outil offre une réduction importante de 33 % pour un paiement annuel au lieu de mensuel.

Trint propose également des forfaits à partir de 15 $ de l'heure pour les transcriptions payantes, ou 40 $ par mois pour un maximum de trois heures d'audio transcrit. Les transcriptions supplémentaires coûtent juste au nord de 13 $ de l'heure.

Happy Scribe coûte un forfait de 10 cents par minute d'audio téléchargé. Pour les types moins enclins aux mathématiques, c'est 6 $ de l'heure.

À un maigre 2 $ par heure, avec la première heure gratuite, Recordly est de loin l'option de transcription automatique la moins chère.

Sans surprise, les transcripteurs humains de Rev coûtent plus cher que les autres outils. Notre clip de 13 minutes a coûté 14 $ à transcrire et nous avons payé 3,50 $ de plus pour les horodatages. Pourtant, le coût relatif bon marché des heures de travail impliquées nous amène à nous demander où se trouvent les transcripteurs de Rev dans le monde et dans quelle mesure ils sont rémunérés.

Facilité d'utilisation (Gagnant : trint)
Aucun de ces outils n'est difficile à utiliser. Vous téléchargez un fichier sur chacun (ou enregistrez de l'audio avec, dans le cas de Recordly) et, quelque temps plus tard, il vous envoie un lien vers une transcription modifiable.

Trint fait un grand pas en avant au-delà des téléchargements de fichiers et accepte l'audio ou la vidéo à partir de diverses sources, y compris Dropbox, Google Drive et FTP, et permet même aux utilisateurs d'entrer simplement un lien. Ceci est unique parmi les outils que nous avons testés. Trint pose également quelques questions utiles sur le bruit de fond, la diaphonie et plus avant le début du téléchargement. Cela ne réparera pas un enregistrement, mais c'est un clin d'œil UX utile qui enseigne aux utilisateurs comment enregistrer plus d'audio transscriptible à l'avenir.

Happy Scribe, Rev, Sonix et Trint envoient tous des e-mails lorsque la transcription est prête, il n'est donc pas nécessaire de s'asseoir et de regarder l'écran.

L'essentiel
Ce n'est pas la moins chère, ni l'option de transcription globale la plus précise disponible, mais Trint a remporté la victoire en tant que meilleur outil complet de ceux que nous avons testés.

L'entreprise, qui a un peu plus d'un an et a reçu un financement de la Fondation Knight (avertissement : Poynter également reçoit financement de Knight) et la Digital News Initiative de Google, offre la meilleure combinaison globale de fonctionnalité, de précision et de facilité d'utilisation.

Seule la fonction de sous-titrage automatique de YouTube, qui a obtenu un taux de précision de 72 %, s'est comportée nettement mieux que Trint lors de la transcription basée sur un algorithme. Mais YouTube n'est pas conçu pour le type de transcription dont les journalistes ont besoin au quotidien et n'offre aucun type de fonctionnalité d'édition.

Bien que la jeune startup Happy Scribe se soit légèrement mieux comportée lors de nos tests de précision avec un taux de 62% et coûte environ un tiers du prix de Trint, il manque de nombreuses fonctionnalités supplémentaires qui rendent Trint utile. La possibilité de télécharger à partir de nombreuses sources, de rechercher et de remplacer du texte et l'identification du locuteur sont des outils de flux de travail petits mais importants. Si vous recherchez simplement une transcription rapide et sale, Happy Scribe peut être la solution.

Et même s'il est vrai que ses 61% sont loin d'être parfaits, nos tests ont été un peu plus difficiles que la plupart des utilisations réelles.

Nous avons également testé Rev, un service de traduction humaine, et oTranscribe, qui propose des outils pratiques permettant aux journalistes de transcrire eux-mêmes l'audio. À 1 $/minute d'audio transcrit, nous avons trouvé que Rev était trop cher pour qu'un journaliste moyen puisse l'utiliser régulièrement. Et même si oTranscribe était pratique, il ne résout pas l'ennui et le temps de la transcription.

Avec des utilisations typiques à l'esprit, Trint est le meilleur outil de transcription automatique complet pour les journalistes.

Correction : Nous avons signalé précédemment que Sonix ne offrir trouver et remplacer l'outil, mais c'est le cas. Nous nous excusons de l'avoir manqué.

En savoir plus sur les outils de journalisme avec Try This! — Outils pour le journalisme. Essaye ça! est alimenté par Laboratoire d'actualités Google . Il est également soutenu par le Institut américain de la presse et le Fondation John S. et James L. Knight