Voix de la PI canadienne : Comprendre l’intelligence artificielle

Avis : Les citations utilisées dans cet article apparaissent dans l'enregistrement anglais de l'épisode 15 et sont une traduction de celles-ci.

Dans l'épisode 15 de Voix de la PI canadienne, nous avons reçu Paul Gagnon et Misha Benjamin, experts en matière de protection des données et de l'intelligence artificielle (IA). Dans cet épisode, Paul et Misha abordent plusieurs questions :

  • Comment les systèmes d'IA sont-ils conçus?
  • Comment les données sont-elles utilisées pour former des systèmes d'IA?
  • Quels sont les enjeux relatifs au droit d'auteur concernant la titularité de l'IA et leurs données connexes?

Comprendre les systèmes d'IA

Lorsque nous pensons à l'IA, nous pouvons imaginer un robot effectuant des tâches humaines. Dans certains cas, ce n'est pas si loin de la réalité! Cependant, l'IA est beaucoup plus répandue dans notre société que vous ne le pensez probablement. Par exemple, vous serez peut-être surpris d'apprendre que lorsque votre téléphone utilise la reconnaissance faciale, il a recours à l'IA pour le faire.

Les systèmes d'IA sont capables d'accomplir des tâches complexes grâce aux données qu'ils reçoivent. Pour reconnaître votre visage, le logiciel de votre téléphone a « appris » à reconnaître et à distinguer des indices tels que la forme de votre œil et son iris. Mais avant de vous reconnaître, il a fallu lui apprendre à déterminer ce qu'est un visage, puis à distinguer un nez, des yeux, un iris, une bouche et ainsi de suite.

Les systèmes d'IA et les données

Les systèmes d'IA sont des logiciels capables d'apprendre en analysant de grandes quantités de données. Tout d'abord, les données doivent être préparées et organisées de manière à pouvoir être utilisées pour obtenir le résultat escompté. C'est pendant cette période d'organisation des données (parfois appelée « nettoyage de données ») qu'un travail d'annotation est souvent nécessaire. Par exemple, si les données sont constituées d'images de visages, une personne sélectionnera les images appropriées, étiquettera ces données brutes avec des balises descriptives pour indiquer le nez, les yeux, l'iris, etc. Comme l'explique Misha, c'est l'une des étapes clés. C'est souvent l'étape la plus longue du processus de création de l'IA.

Ensuite, il faut choisir l'algorithme le mieux adapté. Cette tâche importante exige du créateur du logiciel qu'il choisisse la meilleure méthode d'apprentissage pour le système d'IA. Une fois le bon algorithme sélectionné, le processus « d'entraînement » commence dans l'espoir que le système d'IA puisse apprendre et devenir « intelligent ». Une fois que le système a appris à reconnaître un visage, un nez, des yeux, notamment, les données et les annotations ne sont plus nécessaires et ne font pas partie du système d'IA qui en résulte.

Du point de vue du droit d'auteur, les données des systèmes d'IA présentent quelques défis.

Collecte et utilisation des données

Comme l'a exprimé Misha, la collecte et l'utilisation de données sont essentielles au processus d'apprentissage de l'IA. Sans données, un système d'IA ne peut pas apprendre et perd de la valeur. Comme les systèmes d'IA copient d'énormes quantités de données, la législation actuelle reste floue quant aux données qui peuvent être utilisées.

Des concepts tels que la récupération de données et l'utilisation de données accessibles au public sont courants pour créer des ensembles nécessaires à l'entraînement. Bien que les données ne soient pas protégées par le droit d'auteur en soi, le processus de récupération des données implique souvent la reproduction de grandes quantités de texte, de photos et de compilations de données afin d'extraire des données et des informations pertinentes. Certaines de ces données peuvent être protégées par le droit d'auteur, et cette extraction de données peut être problématique, car la Loi sur le droit d'auteur exige habituellement l'autorisation des titulaires de droit d'auteur pour l'utilisation de leur œuvre protégée. Cependant, obtenir une telle autorisation représente un véritable défi, compte tenu de l'énorme quantité de données nécessaires au processus d'apprentissage de l'IA.

Au Canada, la Loi sur le droit d'auteur ne traite pas de l'utilisation ou de la terminologie des données par un système d'IA.

Comme le souligne Paul Gagnon, « […] si vous deviez faire une simple lecture de la Loi sur le droit d'auteur, vous verriez que tout ce processus d'entraînement de l'IA tombe dans une zone grise du point de vue législatif. L'utilisation des données par les systèmes d'IA ne correspond à aucune des définitions contenues dans la Loi. D'un point de vue juridique, il est donc difficile de savoir sur quoi se basent les concepteurs d'IA. »

Applicabilité de l'exception d'utilisation équitable

L'article 29 de la Loi sur le droit d'auteur prévoit une exception permettant l'utilisation et la reproduction de matériel protégé par le droit d'auteur sans l'autorisation du titulaire du droit d'auteur 1) à certaines fins (c'est-à-dire la recherche, l'étude privée, l'éducation, la parodie ou la satire, la critique et la communication des nouvelles); et 2) à condition que l'utilisation soit équitable. L'analyse de l'équité est fondée sur les faits et dépend de l'équilibre d'une série de facteurs élaborés par les tribunaux (y compris l'objectif, la nature, le montant et les options de rechange).

Beaucoup se demandent encore si le processus d'apprentissage de l'IA pourrait relever de cette exception, notamment en ce qui concerne les fins de recherche. Par ailleurs, il est important de préciser que même lorsqu'elle est utilisée dans un but acceptable, l'utilisation doit également passer la 2e partie du test et être considérée comme équitable.

Si les tribunaux ou le Parlement clarifient que l'exception d'utilisation équitable doit s'appliquer aux systèmes d'IA, les avis des intervenants seraient certainement divergents. D'une part, permettre aux systèmes d'IA d'utiliser librement des œuvres protégées par le droit d'auteur pourrait favoriser l'innovation et la disponibilité d'un plus grand nombre de données en matière d'entraînement de l'IA, mais d'autre part, les titulaires de droit d'auteur pourraient avoir des inquiétudes quant au contrôle de leurs créations. Après tout, leurs produits ou créations ont été réalisés grâce à leur travail acharné, et ils souhaiteraient obtenir une rémunération pour leurs utilisations.

À ce jour, l'exception d'utilisation équitable concernant l'intelligence artificielle n'a pas encore été mise à l'épreuve par les tribunaux canadiens.

L'importance du langage normalisé dans la rédaction des licences

Pour Paul et Misha, on ne saurait trop insister sur l'importance d'une terminologie plus adaptée lors de la rédaction de licences concernant les systèmes d'IA. Car c'est ainsi que les propriétaires de données destinées aux systèmes d'IA peuvent contrôler l'utilisation de ces données.

Comme l'explique Paul, les créateurs d'IA rédigent souvent une licence qui autorise « l'utilisation » de l'œuvre sans détailler réellement cette notion d'utilisation par rapport à ses données. Nombre d'entre eux emprunteront le langage de licence des logiciels à code source ouvert. Mais cela pose un problème, car ces licences peuvent impliquer que le code source et les données doivent être librement redistribués, à n'importe quelle fin. Ce n'est peut-être pas ce que les créateurs des données avaient prévu. Par conséquent, les licences étant des contrats contraignants, leur formulation doit tenir compte des nombreuses subtilités entourant l'utilisation des données.

Pour proposer une solution, Misha et Paul ont travaillé avec des experts en IA et ont coécrit un article intitulé Towards Standardization of Data Licenses : The Montreal Data License, qui propose des lignes directrices au sujet de tous les différents cas d'utilisation et les droits que l'on peut accorder ou non en matière de données.

Comme l'indique Paul, « […] la terminologie actuelle ne permet pas de contrôler correctement ce qui peut être fait, car les données protégées par le droit d'auteur suscitent des intérêts différents. Vous devriez être en mesure de moduler ces autorisations et de donner davantage de précisions sur ce qui peut et ne peut pas être fait. C'est l'esprit qui sous-tend les directives créées par Misha et moi. »

Travail généré par l'IA : incertitude concernant la protection et la titularité du droit d'auteur

La titularité des œuvres générées par l'IA constitue un autre défi. L'IA s'attaque à l'industrie des arts. Les systèmes d'IA créent des images, des chansons, des poèmes, des livres, etc. En 2017, une IA surnommée « Bot Dylan » a écrit de la musique folklorique après avoir appris et analysé 23 000 chansons irlandaises. Non seulement son nom était-il des plus originaux, sa musique était aussi plutôt entraînante. Cela a surpris beaucoup de gens qui ne pensaient pas que des machines pouvaient créer de la bonne musique.

Pour en savoir davantage sur la propriété intellectuelle au Canada et sur les questions de droit d'auteur entourant les systèmes d'IA et de l'apprentissage machine, écoutez l'épisode 15 de Voix de la PI canadienne, avec Paul Gagnon et Misha Benjamin.

Consultation du gouvernement en 2021

En 2021, le Canada a mené une consultation sur un cadre moderne du droit d'auteur pour l'intelligence artificielle et l'Internet des objets. La consultation visait notamment à recueillir l'avis des intervenants sur la possibilité d'apporter des modifications au cadre canadien du droit d'auteur afin de mieux soutenir la fouille de textes et de données, de clarifier la titularité et la propriété des œuvres produites par l'IA et la responsabilité en matière de droit d'auteur concernant l'IA. Le gouvernement du Canada examine actuellement les soumissions fournies par les intervenants et évalue les options pour les prochaines étapes.

Liens connexes