L'ex-scientifique de Google Brain, Sara Hooker, veut transformer la façon dont la recherche sur l'intelligence artificielle est menée et qui peut y participer.
L'un des problèmes perpétuels des entreprises qui espèrent utiliser l'IA est de trouver des personnes possédant les bonnes compétences en science des données et en apprentissage automatique. Ces talents sont rares et ne sont pas répartis uniformément dans le monde. En fait, de nombreux pays, et même des régions entières, sont actuellement à la traîne en matière de compétences en IA et, par conséquent, ne disposent pas d'entreprises capables de créer leurs propres logiciels d'IA.
Sara Hooker pense que l'accès limité à une expérience concrète de la construction d'IA de pointe est un problème pour tout le monde. Elle veut changer cela en permettant à davantage de personnes, en particulier celles qui ne sont pas issues des programmes traditionnels de doctorat en informatique dans une poignée de grandes universités de recherche, de travailler sur des projets qui peuvent faire avancer l'état de l'art de l'IA.
Ancienne chercheuse de Google Brain, Mme Hooker dirige aujourd'hui Cohere for AI, un laboratoire de recherche à but non lucratif affilié à la société de logiciels d'IA à but lucratif Cohere, qui possède des bureaux à San Francisco, Palo Alto, Toronto et Londres. Cette société a également été fondée par des anciens de Google Brain et se spécialise dans la vente d'accès à des modèles linguistiques ultra-larges, le type d'IA à l'origine des récentes avancées dans le traitement du langage naturel. La semaine dernière, Cohere for AI a annoncé un nouveau programme qui accueillera des personnes intéressées par la recherche en IA dans presque toutes les régions du monde et leur offrira une bourse de huit mois, à temps plein et rémunérée, au sein de Cohere for AI, pour travailler sur de grands modèles de langage.
"Une grande partie de ce que nous essayons de faire est de changer l'endroit où la recherche peut avoir lieu et qui peut y participer", me dit-elle. Mme Hooker est peut-être particulièrement sensible au manque de diversité géographique dans l'I.A., car elle a grandi en Afrique (on peut encore déceler un soupçon d'accent sud-africain lorsqu'elle parle). Alors qu'elle travaillait encore chez Google Brain, elle a contribué à la création du laboratoire de recherche de Google au Ghana, le premier du genre en Afrique, et elle affirme que l'Afrique reste l'un des nombreux endroits du monde qui sont laissés pour compte par la révolution de l'I.A. - et que cette absence est finalement mauvaise pour le développement de l'I.A. elle-même. Elle estime également que le problème du manque de diversité est qu'il limite le domaine.
"Lorsque je parle d'améliorer la représentation géographique, les gens supposent que c'est un coût que nous assumons. Ils pensent que nous sacrifions le progrès", dit Hooker. "C'est tout le contraire". Elle affirme que la constitution d'une équipe plus diversifiée est plus susceptible de conduire à l'innovation, et non moins.
Le programme "Scholar" de Cohere for AI acceptera les candidats sur la base de la force de leurs idées et des projets qu'ils souhaitent poursuivre, qu'ils aient ou non une formation traditionnelle en recherche universitaire, explique M. Hooker. En fait, l'un des critères d'attribution de la bourse est que les candidats ne peuvent pas avoir publié auparavant un article de recherche universitaire sur l'apprentissage automatique. Le problème avec les départements de recherche en IA des grandes entreprises technologiques, me dit Hooker, est qu'il y a une sorte de pensée de groupe qui s'installe - il s'agit essentiellement des mêmes personnes qui peuplaient autrefois les laboratoires universitaires d'IA et elles mènent toutes leurs recherches de la même manière. "Nous voulons trouver de nouveaux espaces qui existent en dehors de ce système", dit-elle.
Cohere for AI est un exemple de l'un des nombreux nouveaux "collectifs" de recherche, où les membres décident eux-mêmes des problèmes à poursuivre. Selon M. Hooker, bien que Cohere en tant qu'entreprise utilise l'apprentissage profond pour construire des modèles de langage ultra-larges, le collectif Cohere for AI est une vaste église, dont les membres s'intéressent à des approches complètement différentes, notamment l'IA symbolique qui n'utilise pas de réseaux neuronaux et se base sur des règles logiques pour manipuler les symboles. La seule exigence est que les membres s'engagent à mettre en libre accès les systèmes d'IA qu'ils construisent. "Nous voulons participer et contribuer à ces forums ouverts", déclare Hooker. "Nous voulons fournir un espace pour le code source ouvert et la discussion ouverte".
Elle admet que la publication ouverte de logiciels d'intelligence artificielle puissants peut susciter des inquiétudes, car ils pourraient être utilisés à des fins de désinformation ou de fraude, et qu'une "discussion nuancée sur les risques est nécessaire". Mais elle espère que Cohere for AI pourra servir de forum pour de telles discussions et jouer un rôle dans l'éducation des décideurs politiques du monde entier sur les risques et les avantages de l'IA.
Il n'est pas certain que l'expérience de Cohere for AI en matière de recherche collectiviste fonctionne. Après tout, OpenAI, la société de recherche en IA de San Francisco à l'origine du modèle de langage ultra-large GPT-3 ainsi que de l'IA de génération de texte et d'image DALL-E, a également commencé sa vie en tant que société à but non lucratif. Elle aussi avait des idées radicales sur la façon dont la recherche devrait fonctionner. En 2016, peu de temps après sa fondation, elle a organisé une "unconférence" gratuite et ouverte sur l'apprentissage automatique à San Francisco, qui était censée être auto-organisée et accepter davantage une diversité d'idées et de personnes qu'une conférence académique traditionnelle sur l'IA. Il n'était pas évident que cela fonctionne vraiment. L'expérience n'a pas été renouvelée et, aujourd'hui, OpenAI est une société à but lucratif (elle a déclaré qu'elle plafonnerait les bénéfices de ses investisseurs à 100 fois son financement initial), étroitement associée à Microsoft. Elle se concentre principalement sur la construction de très grands modèles d'apprentissage profond, avec le traitement du langage naturel comme élément central. L'époque des "unconferences" et des réflexions générales sur la meilleure façon de faire avancer les choses est révolue.
Mais que Cohere for A.I. parvienne ou non à valider ses idées sur l'organisation de la recherche, les entreprises devraient tenir compte de la remarque de Hooker sur la diversité. Ce n'est pas un coût. C'est une opportunité. La pénurie de talents en IA ne sera jamais résolue en espérant simplement qu'une poignée d'universités produiront davantage d'experts en apprentissage automatique et de scientifiques des données. Les entreprises doivent réfléchir sérieusement à la manière de former des personnes issues d'autres milieux pour les aider à construire et à maintenir des logiciels d'IA.
Jeremy Kahn
@jeremyakahnjeremy.kahn@fortune.com
***
Rejoignez-moi pour ce qui promet d'être une fantastique table ronde virtuelle sur les "valeurs et la valeur
" de l
'IA, le jeudi 6 octobre de 12 h à 13 h, heure de l'Est.
Les systèmes d'IA et d'apprentissage automatique qui sous-tendent une grande partie de la transformation numérique sont conçus pour servir des millions de clients, mais sont définis par un groupe relativement petit et homogène d'architectes. Il existe des preuves irréfutables que ces systèmes apprennent des choix moraux et des préjugés de ces mêmes créateurs. Alors que les entreprises s'attaquent aux problèmes éthiques qui découlent de la collecte, de l'analyse et de l'utilisation généralisées de masses de données, rejoignez-nous pour discuter de l'endroit où se trouvent les plus grands dangers et de la manière dont les leaders comme vous doivent y réfléchir.
Parmi les orateurs figurent :
- Naba Banerjee, Chef de produit, Airbnb
- Krishna Gade, fondateur et PDG, Fiddler AI
- Ray Eitel Porter, directeur général et responsable mondial de l'IA responsable, Accenture
- Raj Seshadri, Président, Données et services, Mastercard
Vous pouvez vous inscrire pour participer en suivant le lien de la page de l'événement virtuel de Fortune.
L'I.A. DANS L'ACTUALITÉ
Des images médicales privées ont été découvertes dans un ensemble de données publiques de génération de texte en image. Une artiste raconte à Ars Technica qu'elle a découvert que des images de son visage prises par des médecins avaient été intégrées d'une manière ou d'une autre dans un grand ensemble public d'images qui a été utilisé pour entraîner des logiciels d'intelligence artificielle, notamment le célèbre modèle de génération de texte à partir d'images Stable Diffusion. L'artiste, qui se fait appeler Lupin et souffre d'une maladie génétique rare appelée Dyskeratosis Congenita, a déclaré à la publication qu'elle avait utilisé un outil de recherche d'image inversée sur le site Web Have I Been Trained pour trouver les photos que son médecin avait prises de son visage en 2013. Le médecin est décédé en 2018 et l'artiste a dit qu'elle soupçonnait que les photos avaient en quelque sorte quitté le contrôle de son bureau après cela.
OpenAI publie un système gratuit de reconnaissance vocale multilingue. Le nouveau logiciel d'IA, appelé Whisper, peut reconnaître des discours dans différentes langues et avec différents accents et les transcrire automatiquement en anglais. Le système a été entraîné sur 680 000 heures de données audio extraites d'Internet. OpenAI a déclaré dans un billet de blog qu'elle espérait qu'en publiant le modèle sous forme de logiciel libre et gratuit, elle encouragerait les développeurs à ajouter la reconnaissance vocale à leurs produits. Mais l'entreprise de recherche en informatique a également mis en garde contre le potentiel d'utilisations malveillantes du logiciel, notamment pour permettre une plus grande surveillance.
Getty images interdit le contenu généré par l'IA pour des raisons de droits d'auteur. L'agence photographique déclare qu'elle ne permettra pas aux artistes et aux photographes de télécharger et de vendre des images générées par des logiciels d'IA. Le PDG de Getty, Craig Peters, a déclaré à la publication technologique The Verge qu'"il existe de réelles inquiétudes concernant les droits d'auteur générés par ces modèles et des problèmes de droits non résolus concernant l'imagerie, les métadonnées de l'image et les individus contenus dans l'imagerie". Getty craint que les clients qui ont acheté les images pour un usage commercial ne se mettent en danger sur le plan juridique.
UN ŒIL SUR LES TALENTS DE L'INFORMATIQUE
Le géant du conseil McKinsey & Co. a engagé Jacky Wright pour devenir son premier directeur de la technologie, rapporte Bloomberg News. Mme Wright était auparavant directrice de la technologie numérique chez Microsoft.
Sensa, la compagnie d'assurance basée à Austin, au Texas, qui utilise des logiciels d'analyse intégrant l'apprentissage automatique pour évaluer très rapidement les dommages causés aux véhicules et les blessures subies par les personnes à la suite d'un accident de la route, a engagé Steven Brown pour devenir son directeur de l'exploitation, selon la publication spécialisée Reinsurance News. M. Brown, un vétéran de longue date du secteur de l'assurance, était auparavant directeur de l'assurance de la société de logiciels Floow.
LA RECHERCHE SUR L'INTELLIGENCE ARTIFICIELLE EN LIGNE
DeepMind a déclaré avoir construit un meilleur chatbot. DeepMind a mis au point un chatbot qui, selon lui, peut fournir aux gens des informations plus précises sur le plan factuel. Le chatbot, appelé Sparrow, est conçu pour parler avec les humains et répondre à leurs questions, en utilisant le grand modèle de langage Chinchilla de DeepMind pour composer ses réponses. Mais le problème de l'utilisation de Chinchilla sans aucun filtrage est que, comme la plupart des grands modèles de langage, Chinchilla a tendance à inventer des informations. Il peut également régurgiter des informations périmées qu'il a ingérées pendant sa formation. Pour tenter de rendre le chatbot plus précis, DeepMind a créé un système dans lequel les réponses de Chinchilla sont alimentées par une recherche Google en direct.
Pour affiner ces réponses, Sparrow interroge les utilisateurs humains sur leurs préférences parmi un certain nombre de réponses différentes. L'apprentissage par renforcement est ensuite utilisé pour entraîner Sparrow à prévoir la réponse que la majorité des gens préféreront. Le chatbot suit également 23 règles codées déterminées par DeepMind, telles que l'interdiction de donner des conseils financiers, de proférer des menaces ou de prétendre être un humain.
Par rapport aux systèmes précédents, Sparrow est parvenu à fournir des réponses qui plaisent aux humains et qui sont précises. Mais il n'est pas parfait. Il lui arrivait encore de fournir des réponses hors sujet et inexactes. Il a également enfreint ces 23 règles environ 8 % du temps (soit un tiers de moins que les chatbots précédents, mais ce n'est toujours pas fantastique).
Vous pouvez lire l'article de DeepMind sur Sparrow, qui n'a pas fait l'objet d'une évaluation par des pairs, ici, et cet article du MIT Technology Review contient des commentaires sur Sparrow de la part d'experts qui ne sont pas de DeepMind.
LA FORTUNE SUR L'I.A.
Commentaire : L'IA n'est pas sensible, mais nous devons la traiter comme telle - par Triveni Gandhi
Ce qu'un haut commandant de l'OTAN a appris en faisant un stage dans une entreprise de logiciels par Jeremy Kahn
Elon Musk se prépare à lâcher une armée de robots humanoïdes. Voici à quoi ils vont servir - par Prarthana Prakash
BRAINFOOD
Prendre du matériel protégé par le droit d'auteur sur Internet pour former un système d'IA, est-ce un vol de propriété intellectuelle ? Cette question est de plus en plus soulevée par les artistes, les écrivains, les avocats spécialisés dans la propriété intellectuelle et les organismes de réglementation à mesure que les puissants systèmes d'IA de conversion de texte en image gagnent en popularité. Les films comme DALL-E et Stable Diffusion sont formés à partir de millions d'images récupérées sur Internet. Et de plus en plus d'artistes affirment que cette formation équivaut à un vol de propriété intellectuelle. Les inquiétudes suscitées par les poursuites judiciaires ont conduit Getty Images à interdire aux personnes d'utiliser l'agence de photographie pour vendre des images générées par l'IA (voir la section Nouvelles ci-dessus).
Dans les commentaires qu'elle a adressés à l'Office américain des brevets et des marques, OpenAI, qui produit deux des systèmes d'IA générative les plus connus (GPT-3 pour le langage et DALL-E pour les images), fait valoir que la formation sur du matériel protégé par le droit d'auteur devrait relever de l'exception d'"usage loyal" du droit d'auteur. Elle affirme que l'I.A. est une "transformation substantielle" des œuvres d'I.A. et qu'elle peut donc être considérée comme un usage loyal. Elle affirme également que des cas antérieurs impliquant le traitement à grande échelle d'œuvres protégées par le droit d'auteur à des fins d'analyse de données sont également considérés comme un usage loyal. Enfin, elle fait valoir que les auteurs et les artistes qui prétendent que les œuvres générées par l'IA et dont le style est similaire nuisent à leur capacité à tirer profit de leur propriété intellectuelle peuvent soit intenter une action en justice dans des cas spécifiques où une œuvre générée par l'IA est substantiellement identique à quelque chose qu'ils ont protégé par le droit d'auteur, soit chercher d'autres solutions politiques plutôt que d'essayer d'obtenir une interdiction de permettre aux systèmes d'IA d'être formés sur du matériel protégé par le droit d'auteur récupéré sur Internet.
Mais la soumission d'OpenAI au PTO a suscité une réponse acerbe de Nicole Miller, qui se décrit sur Twitter comme une défenseuse de l'éthique de l'I.A., de la propriété intellectuelle et du droit d'auteur. Elle a déclaré sur Twitter qu'OpenAI admet que la majorité du matériel qu'elle prend sur Internet pour former de grands modèles d'IA est effectivement protégé par le droit d'auteur. "Ils l'utilisent comme un actif à coût nul et le vendent quand même", a-t-elle tweeté.
Je m'attends à ce que ce domaine juridique s'enflamme au cours des 12 prochains mois, alors que les systèmes d'IA générative se généralisent et trouvent leur place dans toutes sortes d'utilisations commerciales, tandis que les régulateurs et les responsables politiques s'efforcent de suivre le mouvement.