La prochaine fois que vous participerez à un appel Zoom, vous pourriez demander à votre interlocuteur d'appuyer son doigt sur le côté de son nez. Ou peut-être vous tourner de profil complet vers la caméra pendant une minute.

Ce ne sont là que quelques-unes des méthodes recommandées par les experts pour vous assurer que vous voyez une image réelle de votre interlocuteur et non une imitation créée à l'aide de la technologie deepfake.

Cette précaution peut sembler étrange, mais nous vivons une époque étrange.

Le mois dernier, un haut dirigeant de la bourse de crypto-monnaies Binance a déclaré que des fraudeurs avaient utilisé un "hologramme" sophistiqué de lui pour escroquer plusieurs projets de crypto-monnaies. Patrick Hillmann, responsable de la communication de Binance, a déclaré que des criminels avaient utilisé le deepfake pour se faire passer pour lui lors d'appels Zoom. (Hillmann n'a pas fourni de preuves à l'appui de son affirmation et certains experts doutent de l'utilisation d'un deepfake. Néanmoins, les chercheurs en sécurité affirment que de tels incidents sont désormais plausibles). En juillet, le FBI a averti que des personnes pouvaient utiliser des "deepfakes" lors d'entretiens d'embauche menés via un logiciel de vidéoconférence. Un mois plus tôt, plusieurs maires européens ont déclaré avoir été trompés par un appel vidéo deepfake prétendant être avec le président ukrainien Volodymyr Zelensky. Pendant ce temps, une startup appelée Metaphysic, qui développe des logiciels de deepfake, a atteint la finale de l'émission "America's Got Talent" en créant des deepfakes remarquablement bons de Simon Cowell et des autres juges célèbres, transformant d'autres chanteurs en célébrités en temps réel, sous les yeux du public.

Les deepfakes sont de fausses images et vidéos extrêmement convaincantes créées grâce à l'intelligence artificielle. Il fallait autrefois beaucoup d'images de quelqu'un, beaucoup de temps et un certain degré de compétences en codage et de savoir-faire en matière d'effets spéciaux pour créer un deepfake crédible. Et même une fois créé, le modèle d'intelligence artificielle ne pouvait pas être exécuté assez rapidement pour produire un deepfake en temps réel sur une transmission vidéo en direct.

Ce n'est plus le cas, comme le soulignent l'histoire de Binance et le numéro d'"America's Got Talent" de Metaphysics. En fait, il est de plus en plus facile pour les gens d'utiliser un logiciel de deepfake pour se faire passer pour d'autres personnes lors de transmissions vidéo en direct. Les logiciels permettant de faire cela sont aujourd'hui facilement disponibles, gratuitement, et leur utilisation requiert relativement peu de compétences techniques. Et comme le montre l'affaire Binance, cela ouvre la voie à toutes sortes de fraudes et de désinformations politiques.

"Je suis surpris par la vitesse à laquelle les live deepfakes sont apparus et par leur qualité", déclare Hany Farid, informaticien à l'université de Californie à Berkeley et expert en analyse et authentification vidéo. Selon lui, il existe au moins trois programmes open source différents qui permettent aux gens de créer des "live deepfakes".

M. Farid fait partie de ceux qui s'inquiètent du fait que les "deepfakes" en direct pourraient amplifier la fraude. "Cela va être comme des escroqueries par hameçonnage sur des stéroïdes", dit-il.

Le "test du crayon" et d'autres astuces pour attraper un imposteur d'I.A.

Heureusement, les experts affirment qu'il existe encore un certain nombre de techniques qu'une personne peut utiliser pour se donner l'assurance raisonnable qu'elle ne communique pas avec une imitation profonde. L'une des plus fiables consiste simplement à demander à une personne de se tourner de manière à ce que la caméra la filme de profil. Les Deepfakes ont du mal avec les profils pour un certain nombre de raisons. Pour la plupart des gens, il n'y a pas assez d'images de profil disponibles pour entraîner un modèle deepfake à reproduire l'angle de façon fiable. Et s'il est possible d'utiliser un logiciel pour estimer une vue de profil à partir d'une image de face, l'utilisation de ce logiciel ajoute de la complexité au processus de création du deepfake.

Le logiciel de deepfake utilise également des "points d'ancrage" sur le visage d'une personne pour positionner correctement le "masque" de deepfake sur celui-ci. Une rotation de 90 degrés élimine la moitié des points d'ancrage, ce qui a souvent pour conséquence que le logiciel déforme, brouille ou déforme l'image de profil de manière étrange et très perceptible.

Yisroel Mirsky, un chercheur qui dirige le laboratoire d'IA offensive de l'université Ben-Gurion en Israël, a expérimenté un certain nombre d'autres méthodes de détection des "live deepfakes" qu'il a comparées au système CAPTCHA utilisé par de nombreux sites Web pour détecter les robots logiciels (vous savez, celui qui vous demande de repérer toutes les images de feux de signalisation dans une photo découpée en carrés). Ses techniques consistent à demander à des personnes lors d'un appel vidéo de prendre un objet au hasard et de le déplacer sur leur visage, de faire rebondir un objet, de soulever et de plier leur chemise, de se caresser les cheveux ou de masquer une partie de leur visage avec leur main. Dans chaque cas, soit le deepfake n'arrivera pas à représenter l'objet passé devant le visage, soit la méthode provoquera une distorsion importante de l'image du visage. Pour les deepfakes audio, Mirsky suggère de demander à la personne de siffler, d'essayer de parler avec un accent inhabituel, ou de fredonner ou chanter un air choisi au hasard.

"Toutes les technologies deepfake existantes aujourd'hui suivent un protocole très similaire", explique Mirsky. "Elles sont entraînées sur des tas et des tas de données et ces données doivent présenter un modèle particulier que vous enseignez au modèle." La plupart des logiciels d'IA sont formés pour imiter de manière fiable le visage d'une personne vu de face et ne peuvent pas bien gérer les angles obliques ou les objets qui masquent le visage.

Entre-temps, Farid a montré qu'un autre moyen de détecter d'éventuels "deepfakes" consiste à utiliser un simple logiciel qui fait clignoter l'écran de l'ordinateur de l'autre personne selon un certain schéma ou qui projette un motif lumineux sur le visage de la personne qui utilise l'ordinateur. Soit le deepfake ne parviendra pas à transférer l'effet lumineux à l'imitation, soit il sera trop lent pour le faire. Une détection similaire pourrait être possible en demandant simplement à une personne d'utiliser une autre source de lumière, comme la lampe de poche d'un smartphone, pour éclairer son visage sous un angle différent, explique M. Farid.

Pour imiter de façon réaliste une personne qui fait quelque chose d'inhabituel, Mirsky affirme que le logiciel d'IA doit avoir vu des milliers d'exemples de personnes faisant cette chose. Mais il est difficile de collecter un tel ensemble de données. Et même si vous pouviez entraîner l'IA à imiter de manière fiable une personne effectuant l'une de ces tâches difficiles - comme prendre un crayon et le passer devant son visage - le deepfake risque d'échouer si vous demandez à la personne d'utiliser un type d'objet très différent, comme une tasse. De plus, il est peu probable que les attaquants utilisant des "deepfakes" aient pu entraîner un "deepfake" à relever plusieurs défis, comme le test du crayon et celui du profil. Selon M. Mirsky, chaque tâche différente augmente la complexité de l'entraînement nécessaire à l'IA. "Vous êtes limité dans les aspects que vous voulez que le logiciel de deepfake perfectionne", dit-il.

Les "deepfakes" s'améliorent sans cesse

Pour l'instant, peu d'experts en sécurité suggèrent que les gens devront utiliser ces défis de type CAPTCHA pour chaque réunion Zoom qu'ils prennent. Mais Mirsky et Farid ont tous deux déclaré qu'il serait judicieux de les utiliser dans des situations à fort enjeu, comme un appel entre des dirigeants politiques ou une réunion pouvant déboucher sur une transaction financière de grande valeur. Farid et Mirsky ont tous deux invité les gens à être attentifs à d'autres signaux d'alarme possibles, tels que les appels audio provenant de numéros inconnus ou de personnes ayant un comportement étrange ou faisant des demandes inhabituelles (le président Biden voudrait-il vraiment que vous lui achetiez une série de cartes-cadeaux Apple ?)

Selon M. Farid, pour les appels très importants, les gens pourraient utiliser une sorte d'authentification simple à deux facteurs, comme l'envoi d'un message texte à un numéro de téléphone mobile que vous savez être le bon pour cette personne, lui demandant si elle est en appel vidéo en ce moment même avec vous.

Les chercheurs ont également souligné que les "deepfakes" s'améliorent constamment et que rien ne garantit qu'il ne sera pas plus facile pour eux de contourner un défi particulier - ou même une combinaison de défis - à l'avenir.

C'est également la raison pour laquelle de nombreux chercheurs tentent d'aborder le problème des "deepfakes" en direct sous l'angle opposé : créer une sorte de signature numérique ou de filigrane qui prouverait qu'un appel vidéo est authentique, plutôt que d'essayer de découvrir un "deepfake".

Un groupe susceptible de travailler sur un protocole de vérification des appels vidéo en direct est la Coalition for Content Provenance and Authentication (C2PA), une fondation dédiée aux normes d'authentification des médias numériques, soutenue par des sociétés telles que Microsoft, Adobe, Sony et Twitter. "Je pense que la C2PA devrait s'emparer de cette question, car elle a élaboré des spécifications pour la vidéo enregistrée et il est naturel de les étendre à la vidéo en direct", explique M. Farid. Mais Farid admet qu'essayer d'authentifier des données qui sont diffusées en temps réel n'est pas un défi technologique facile à relever. "Je ne vois pas immédiatement comment le faire, mais il sera intéressant d'y réfléchir", dit-il.

En attendant, rappelez aux invités de votre prochain appel Zoom d'apporter un crayon à la réunion.