intelligence artificielle et stenotypie retranscription audio en texte
28 Mar 2024

Sténotypie et intelligence artificielle : alliées ou ennemies ?

Les sténotypistes de conférences sont des experts de la saisie à haute vitesse. Lors d’événements publics ou de réunions institutionnelles, leurs compétences et leur équipement (sténotype) leur permettent de saisir en temps réel les propos échangés ainsi que le contexte de l’échange. À l’heure où la reconnaissance vocale permet de retranscrire des propos avec de plus en plus de finesse, notamment grâce à l’intelligence artificielle, il est intéressant de réaliser un état des lieux.

La sténotypie une méthode éprouvée

La sténotypie est une méthode qui existe depuis le début du XXe siècle. Si les méthodes, les équipements et les usages peuvent varier d’un pays à l’autre, ce principe de saisie à haute vitesse est employé en Europe mais également aux États-Unis ou encore en Chine. En France, et dans les pays francophones, c’est la méthode Grandjean qui fait aujourd’hui référence.

Avec une vitesse de saisie à plus de 200 mots par minute, les sténotypistes sont capables de saisir l’intégralité d’un discours en temps réel tout en ajoutant du contexte comme le nom de l’interlocuteur, les réactions de l’assemblée etc. À titre de comparaison, la vitesse moyenne de frappe sur un clavier Azerty est de 40 mots par minute.

Grâce à leur savoir-faire les sténotypistes sont essentiels à l’activité de nombreuses entreprises et d’institutions pour la captation de réunions ou d’interventions essentielles. Cette activité va au-delà et peut par exemple servir au sous-titrage en direct de vidéos comme l’ont fait les sténotypistes américains Stan Sakai and Isaiah Roberts au festival Coachella.

 

L’intelligence artificielle, la nouvelle révolution

L’intelligence artificielle est présentée depuis quelques années comme une révolution technologique majeure. Si elle impacte en effet de nombreux secteurs, attention tout de même à ne pas galvauder ce terme parfois mésemployé ni à tomber dans le « solutionnisme ».

Dans son rapport « Donner un sens à l’intelligence artificielle pour une stratégie nationale et européenne », Cédric Villani, mathématicien et député de l’Essonne, cite 5 secteurs qui devraient être bouleversés par l’IA :

  • l’éducation ;
  • la santé ;
  • l’agriculture ;
  • le transport ;
  • la sécurité.

Pour ces secteurs, l’usage imaginé consiste principalement à mesurer, analyser et adapter. Cela se traduit par proposer un accompagnement plus personnalisé dans l’éducation, à décongestionner les transports ou à mieux gérer l’utilisation de produits chimiques dans l’agriculture.

La retranscription fonctionne elle différemment. Il faut bien évidemment que l’IA capte l’audio avec une qualité suffisante et sans bruits parasites ce qui peut déjà être compliqué en fonction du lieu, du nombre de personnes, de la présence ou non de micros etc. Ensuite, une fois l’audio capté dans de bonnes conditions, une intelligence artificielle doit alors parvenir à le retranscrire sans fautes. Si des chercheurs de Microsoft ont annoncé parvenir à de très bons résultats en 2017, cela demeure un projet de recherche et non une solution commercialisée. De plus, les difficultés ne sont pas les mêmes d’une langue à l’autre et de nombreux résultats de recherche que l’on peut trouver sur le web concerne l’anglais. Le français présente lui d’autres difficultés. La conjugaison anglaise sera par exemple plus facile à retranscrire à l’écrit que la conjugaison française dans bien des cas.

Pour se rendre compte du chemin qu’il reste à parcourir, on peut par exemple regarder le taux d’erreur d’un sous-titrage automatique sur YouTube ou lors d’un SMS dicté oralement à son smartphone.

À cela s’ajoute la compréhension d’un vocabulaire spécifique ou technique propre à certains secteurs d’activités ainsi que l’utilisation d’anglicismes, de noms propres etc.

L’intelligence artificielle propose aujourd’hui des solutions impressionnantes pour passer de l’écrit à l’audio. Mais dans l’autre sens, malgré des progrès constants, elle reste trop imparfaite pour un usage professionnel exigeant en langue française.

La technologie au service des sténotypistes

SI l’intelligence artificielle ne semble pas aujourd’hui apte à remplacer les sténotypistes, la technologie n’en est pas moins une précieuse alliée dans leur quotidien. Les sténotypes actuelles, combinées aux logiciels de retranscription avec lesquels elles sont couplées sont en effet truffés d’innovations.

La sténotypie est en effet une méthode phonétique. C’est grâce à elle que les professionnels parviennent à réaliser cette saisie à haute vitesse. Les logiciels spécialisés se chargent ensuite de retranscrire cette saisie bien particulière en texte grammaticalement correct. Mais même avec cette technologie, une relecture humaine demeure nécessaire, soit par le sténotypiste soit par un transcripteur rédacteur qui se chargera d’apporter les corrections mais aussi de mettre en page le document pour une meilleure lisibilité.

Si la technologie apporte un gain de temps non-négligeable, c’est bien l’action humaine qui reste prédominante pour parvenir à un résultat professionnel et à une retranscription fidèle. Plus l’intelligence artificielle progressera plus elle sera un allié pour les sténotypistes. La technologie pourra faire gagner du temps à l’humain en réalisant à sa place une première retranscription imparfaite.

 

La sténotypie a encore de beaux jours devant elle

Au-delà de la saisie des discours et autres échanges, un(e) sténotypiste de conférences note bien d’autres éléments :

  • Qui est le locuteur ?
  • Quelles sont les réactions dans la salle ?
  • Est-ce qu’une personne arrive ou quitte la pièce ?
  • Quel est le ton employé lors de la prise de parole ?

 

Ces informations de contexte sont essentielles à une juste retranscription. Sans-elles, le lecteur de la transcription pourrait passer à côté d’éléments importants comme peut l’être la réaction d’une assemblée lors d’une prise de décision. Autant d’éléments qui ne peuvent aujourd’hui être captés fidèlement par une solution technologique telle que l’intelligence artificielle. Cela nécessiterait de réussir à capter bien plus d’informations, notamment visuelles, et de parvenir à interpréter des signaux faibles émis par l’auditoire ou d’autres intervenants (haussement d’épaules, sourcils froncés…)

Il est impossible de prédire les innovations de demain tant la technologie peut parfois prendre des virages inattendus ou connaitre des accélérations fulgurantes. Mais ce n’est pas faire preuve d’un accès d’optimisme que de dire que la sténotypie a encore du temps devant elle avant de pouvoir être remplacée par une solution purement technologique.