Épisode 15 : Protéger les données de formation lors de la création de systèmes d’IA

Maya Urbanowicz : Vous écoutez voix de la PI canadienne. Un balado où nous discutons de propriété intellectuelle avec des professionnels et des intervenants du Canada et d'ailleurs. Vous êtes entrepreneur, artiste, inventeur ou simplement curieux ? Vous allez découvrir des problèmes concrets et des solutions concrètes ayant trait au fonctionnement des marques de commerce, des brevets, du droit d'auteur, des dessins industriels et des secrets commerciaux, dans la vie de tous les jours. Je m'appelle Maya Urbanowicz et je suis votre animatrice d'aujourd'hui.

Les points de vue et les opinions exprimées dans les balados sur ce site web sont ceux des balados diffuseurs et ne reflètent pas nécessairement la politique ou la position officielle de l'OPIC.

Les parties les plus traditionnelles de la connaissance sont : étudier les formations existantes, tirer des conclusions, peut-être effectuer des essais, et ensuite mettre en pratique les connaissances dans des nouvelles situations. Il y a peu de questions qui sont posées au sujet de qui détient par exemple les aptitudes, ou la musique d’un guitariste, ou de l’argent qu’un investisseur a fait en mettant en pratique ces nouvelles connaissances apprises en lisant un livre ou en prenant un cours.

Quand on utilise de l’information existante pour apprendre à des ordinateurs ou des systèmes d’intelligence artificielle à, par exemple, créer de la musique ou investir, il y a en fait des questions sans réponse en ce qui a trait à qui appartient quoi. Ici, nous devons comprendre comment les systèmes d’intelligence artificielle sont conçus, et dans quelle mesure les droits de PI peuvent protéger ces différents éléments.

Pour nous aider à comprendre les enjeux d’actualité dans ce domaine, je suis heureuse d’accueillir Paul Gagnon et Misha Benjamin à notre balado. Paul et Misha ont fait leurs études en droit, travaillé dans des cabinets juridiques et occupent maintenant des postes de conseillers juridiques internes, et aident les compagnies à prendre des décisions sur comment protéger les données et l’intelligence artificielle. Ils ont fait des présentations sur l’intelligence artificielle et les marchés de données, parlé devant le Parlement pour exiger plus de clarté sur la protection du droit d’auteur, et comment les données sont utilisées par les intermédiaires en ligne. Paul et Misha, bienvenue à notre balado.

Paul Gagnon : Merci, Maya.

Misha Benjamin : Merci, c’est un plaisir d’être ici.

Maya : Misha, je vais commencer avec vous. Pouvez-vous nous parler un peu de vous et du travail que vous faites ?

Misha : Oui, absolument. Donc en ce moment, je suis chef des affaires juridiques chez Sama. Sama, c’est une entreprise qui fait de l’annotation de données pour des entreprises qui développent et déploient des technologies d’intelligence artificielle. On fait aussi ce qu’on appelle du data curation et la préparation de données pour ces entreprises-là. Je supporte tous les aspects juridiques de cette phase, de la chaîne du développement d’intelligence artificielle dans le fond. Avant ça, j’ai été chez Mackenzie et Element AI. Dans les 2 endroits, j’ai été profondément impliqué dans tous les processus de vente des solutions d’intelligence artificielle, surtout dans les contrats clients et la répartition des risques, surtout dans le développement des contrats pour la vente des systèmes d’intelligence artificielle et la répartition des risques entre le monde qui développait les systèmes d’intelligence artificielle, et ceux qui les déployaient dans leurs entreprises. Avant ça, j’ai été dans d’autres entreprises telles que Ubisoft et dans des cabinets d’avocats comme Borden Ladner Gervais.

Maya : Intéressant. Paul, je voudrais maintenant vous céder la parole. Vous avez été nommé comme un des 300 meilleurs stratèges de la PI au monde. Pouvez-vous nous parler de votre travail?

Paul : Oui, merci. Ces jours-ci, je suis chef adjoint des affaires juridiques chez Moteurs Taiga qui est un fabricant de motoneiges et motomarines électriques à Montréal. Avant ce rôle-là, j’étais dans une entreprise technologique, mais auparavant, j’étais chez Element AI avec Misha. Finalement, j’ai d’autres expériences : j’ai été comme conseiller juridique au Cirque du Soleil, comme avocat en technologie, puis en numérique, ainsi que chez Intel, le fabricant de semi-conducteurs. Puis aussi également en cabinet d’avocat. Mon parcours était d’abord surtout en propriété intellectuelle, mais aussi beaucoup en droit commercial. Puis, d’autres affaires plus générales aussi.

Maya : Aujourd’hui, nous allons parler des difficultés dans les systèmes d’intelligence artificielle et des différentes composantes dans les systèmes. Je me demandais Misha, pouvez-vous nous expliquer le processus de création d’un système d’intelligence artificielle? Comment ceux-ci sont déployés dans les entreprises d’aujourd’hui? Quelles sont les étapes pour les créer?

Misha : Oui, absolument. Le développement et le déploiement d’un système d’intelligence artificielle, il y a 2 éléments clés qui vont là-dedans et qui sont fusionnés ensemble pour arriver au système fonctionnel. Le premier élément, c’est vraiment les données comme telles. Si on prend un exemple un peu typique, admettons qu’on avait une compagnie d’assurance automobile qui voulait faire en sorte que tu pouvais faire une demande de remboursement pour un accident sur ton véhicule en utilisant l’intelligence artificielle.

En principe, si tu étais dans un accident, tu pouvais prendre ton téléphone, prendre quelques photos de ton auto, le soumettre à ta compagnie d’assurance, et tu aurais un système d’intelligence artificielle qui ferait en sorte que soit il donnerait la demande à un humain qui ferait une évaluation, soit ça compléterait ton évaluation automatiquement, ou peut-être un mix des deux, ou une suggestion venant de la machine qui serait approuvée ou non par un agent humain. La première étape de ça, c’est d’aller recueillir plein d’exemples de photos de véhicules accidentés et non accidentés.

Ça, ça pourrait venir de tes données comme compagnie d’assurance, ça pourrait être des données qui viennent des manufacturiers d’autos, ça pourrait être des données qui viennent de ce qu’on appelle les recall databases, des données publiques ou gouvernementales. Il y a un travail de sélection et d’assemblage de ces données-là pour faire une base de données, ce qu’on appelle en anglais le training data. Déjà, on peut voir que là-dedans, il y a une sélection des données qui pourrait bénéficier de droits d’auteurs dans certains cas. On peut aussi avoir la création de données synthétiques pour venir pallier à des manquements à ces données-là. Dans cet exemple-ci, on crée des images, il pourrait y avoir des droits d’auteur là-dedans aussi.

La prochaine étape, c’est de venir, dans une certaine manière, attirer l’attention de ta machine sur les éléments qui sont importants pour l’évaluation d’une demande de remboursement. Dans cet exemple-ci, on va pointer à, au, mais un trou dans l’auto ou une vitre cassée pour démontrer qu’il y a vraiment un dommage et le différencier de l’auto en état normal dans le fond. C’est cette étape-là qu’on appelle l’annotation, en anglais le data labelling, qui est un mix de procédés automatiques et d’interventions humaines la plupart du temps.

Encore une fois, il y a une certaine sélection, puis un skill set qui va là-dedans et on peut avoir une protection sur ces annotations aussi. Une fois qu’on a cette base de données, et surtout cette base de données annotée, on va venir utiliser un modèle d’intelligence artificielle. Souvent, ces modèles-là sont au moins inspirés ou tirés d’un modèle Open Source. On parle de logiciel, ici, on peut avoir une protection dans le logiciel, ce qu’on appelle en anglais pre-training, le modèle avant qu’il n’ait été exposé à la data du client, et on va entraîner ce logiciel sur la donnée qu’on a sélectionnée.

Ça, ça va résulter sur une autre version de ce modèle qui peut avoir un droit d’auteur distinct du modèle préexistant. On a vraiment deux versions différentes; et la version qui résulte de cette étape d’entraînement du système a beaucoup de valeur, et pourrait refléter d’une certaine manière la valeur de la data préexistante. Souvent, les personnes qui sont auteurs ou propriétaires du logiciel initial ne sont pas les mêmes qui sont propriétaires de la data. Il y a beaucoup de conversations et en ce moment, c’est vraiment au niveau contractuel qu’on va traiter de ça. Mais, de savoir qui est propriétaire de la version modifiée par la data, c’est un gros enjeu. Il y a beaucoup de valeur là, mais c’est aussi une zone grise dans la loi pour savoir qui serait propriétaire de cette version-là, si on se remettait à la loi et non au contrat.

Après ça, une fois qu’on a cette version entraînée, on va la mettre en production, on va la tester et au fur et à mesure qu’on la teste, on le met en production, normalement, il y a un oversight humain pour s’assurer que ça fonctionne comme ça devrait et que ça ne fait pas d’erreur. Si c’est bien fait, les corrections qui vont avoir lieu vont se retrouver dans la base de données d’entraînement et on va réentraîner le modèle sur ces nouvelles données pour s’assurer que le modèle va, un, être meilleur et va avoir un taux de accuracy plus haut, mais aussi qu’y va prendre en compte un nouveau type de données pour rentrer dans le système qu’on n’avait pas au début. Par exemple, si on a des nouveaux modèles d’autos, on va s’assurer que ces nouveaux modèles d’autos sont dans la base de données pour les entraînements en production pour s’assurer que le modèle est robuste puis à jour. En gros, ça c’est les différentes étapes. On voit qu’il y a beaucoup d’étapes et d’intervenants différents et il y a beaucoup de droits différents qui peuvent survenir, soit qu’ils sont un input dans le système ou qu’ils peuvent être créés par ce processus.

Maya : Il y a beaucoup d'utilisation de données, il faut les annoter. Il y a aussi beaucoup de données qui sont utilisées dans les modèles d'entraînement ou de formation. On entend beaucoup parler de copiage de données et une partie de ça arrive de façon involontaire. J'allais vous demander Paul, vous semblez promouvoir la clarté sur comment les données peuvent être utilisées? En 2019, vous avez parlé devant le Parlement canadien. Lorsque la discussion sur l'utilisation des données a commencé au Canada, quels sont les enjeux ici?

Paul : Pour reprendre la séquence que Misha a expliquée, beaucoup des enjeux liés aux droits d’auteur se trouvent au début de la chaîne de production. C’est certain qu’il y a d’autres enjeux en matière de droit d’auteur et de PI dans d’autres aspects, mais au début de la chaîne de production, il y a beaucoup de manipulation de données. Il y a beaucoup de copies qui pourraient être faites parce que finalement, on se rend compte que c’est des opérations-là qui sont faites avec des ordinateurs avec différents serveurs puis avec finalement ces processus d’entraînement-là de modèles que Misha a décrits.

C’est certain qu’on pourrait sauter aux conclusions puis dire : « Pour toutes ces données-là, il y a des enjeux de droits d’auteurs ». D’abord et avant tout, il faut qualifier la nature des données qui sont en cause. Elles ne sont pas toutes traitées de la même manière, puis encore plus ne sont pas toutes sujettes au droit d’auteur de la même manière non plus. Dans l’exemple de Misha qui parle de ce logiciel de traitement pour des accidents de voiture, les données qui pourraient entre guillemets nourrir ou entraîner ces systèmes d’intelligence artificielle là, ça pourrait être tout type de données. Il pourrait y avoir des données météorologiques, il pourrait y avoir des cartes, il pourrait y avoir des photos. Toutes ces informations-là, ces données-là sont traitées différemment d’un point de vue droit d’auteur. Finalement, il faut se poser la question d’abord, est-ce qu’il y a un droit de propriété intellectuelle en cause? Est-ce qu’on a du droit d’auteur qui est présent? Une autre nuance qui est importante en considérant toute l’analyse de droit d’auteur, c’est de réaliser que la loi sur le droit d’auteur, elle se concentre sur l’utilisation des œuvres, comme œuvres, pas forcément comme données. La nuance là, c’est qu’au final, il y a vraiment des nuances à aller apporter à l’utilisation qui est faite, puis aussi la nature même des données.

Je sais que Misha, il voudrait peut-être en parler, mais pas juste les données elles-mêmes, mais aussi toute la nomenclature puis l’étiquetage entre guillemets de ces données-là, ce qu’on appelle en anglais data labelling, parce qu’il y a des enjeux de droits d’auteurs là aussi.

Misha : Oui, absolument. C’est effectivement la difficulté, c’est de savoir des fois si on crée de la donnée, si elle est sujet au droit d’auteur ou non. C’est sûr qu’il y a des critères qui sont développés par la jurisprudence là-dessus, mais ça peut être des zones un peu grises dans le cas de développement de AI. On va prendre un exemple : si on voulait créer un système qui crée des œuvres d’art basées sur quelques critères de l’utilisateur, je pourrais dire : « Je veux une œuvre baroque de couleurs verte et bleu. » Pour entraîner un modèle qui serait capable de faire ça, il faudrait que quelqu’un annote des œuvres d’art préexistantes pour entraîner cette machine-là.

Donc, il faudrait passer dans la data, de dire : « Ok, ça, c’est une œuvre baroque, contemporaine ou peu importe et ça, c’est un style XYZ. » Vous voyez que je suis pas un art historian du tout, mais il y a l’exercice d’un talent, d’un jugement qui serait apporté pour venir faire ces annotations-là. Même chose maintenant si on voulait faire une machine qui pouvait faire le diagnostic radiologique sur des tests, il y a vraiment un skill, le critère en anglais c’est skill and judgement, nécessaire pour la création de ces données-là. Et des fois, c’est complètement automatisé et vraiment bête comme Paul a mentionné; la data météorologique, il n’y a pas nécessairement un droit d’auteur sur l’information contenu dedans. Ça, c’est une protection qui peut exister ou pas, mais qui est beaucoup mieux traitée d’une manière contractuelle que avec le droit d’auteur [inaudible 00:14:51] parce que dans le dataset, tu auras probablement les deux à chaque fois.

Maya : Sur la protection sera un élément clé ici parce que celles-ci sont dans une zone grise qu’un système d’intelligence artificielle vaut quelque chose. Celui-ci doit apprendre, sans données il deviendrait inutile, mais vous avez travaillé avec des solutions ensemble avec certains chefs de file dans le domaine de l’intelligence artificielle au Canada et vous avez corédigé des directives pour aider les gens qui sont en train de rendre les données disponibles, de leur permettre de décider ce qui peut et ne peut pas être fait avec les données. Pouvez-vous me parler des directives que vous avez rédigées, et ce que vous vouliez faire avec celles-ci?

Misha : Oui, absolument. Ce qu’on a réalisé en regardant les bases de données qui existaient, c’est qu’il y a beaucoup de datas qui ont été mises à disposition du public, soit par des universités, soit par des amateurs de AI qui ont fait vraiment des bases de données incroyables qui sont utilisées énormément dans l’écosystème. Ce qu’on a réalisé, c’est que les termes rattachés à ces bases de données-là n’accomplissaient pas le but qu’ils essayaient d’accomplir. Souvent, on utilisait des termes d’open source, des termes qui ont été développés pour du software mis à disposition du public. Mais quand on utilise des données pour l’entraînement d’AI, on n’a pas besoin de les inclure dans un système de la même manière qu’on la traite pour du code mis à la disposition du public. Ça faisait en sorte que, par exemple, si on mettait de la data à la disposition du public et on voulait que tout le monde qui fait des modifications utilise ces données-là, repartage les modifications qu’ils ont faites. Si on faisait ça avec du software avec la licence share-alike, ça marche très bien, mais quand on le fait avec la data, tu peux très bien utiliser la data avec un système AI et ne rien repartager, parce que ton système entraîné sur ces datas-là n’est pas une version modifiée de la data originale.

Malgré l’intention que le monde exprimait un peu en utilisant des licences open source, le langage qu’ils utilisaient n’arrivait pas à cette réalité-là. Paul, peut-être, tu vas aller un peu plus loin dans les conséquences d’essayer d’utiliser le framework open source pour les données?

Paul : Oui, merci Misha. En gros, quand on parle d’open source, c’est des logiciels libres. Je pense que ça va être le sujet d’un autre podcast dans cette série-ci, mais en gros, on parle de logiciels qui sont rendus disponibles avec une certaine liberté dans comment et quand ils peuvent être utilisés. L’enjeu avec ces licences-là, c’est qu’ils s’appliquent vraiment à des logiciels informatiques, mais pas forcément avec des données. Même si par ailleurs un logiciel informatique est protégé par droit d’auteur, utiliser une licence qui reflète les logiciels informatiques et leurs caractéristiques plutôt que les données, ça crée certains enjeux, puis certains écarts finalement entre ce que les auteurs pourraient vouloir, puis ce que les utilisateurs s’attendent.

En gros, c’est vraiment une question d’utiliser le bon type de contrat pour le bon type de sujet. Ce qu’on réalise, c’est qu’en regardant beaucoup comment les données sont rendues disponibles, les licences qui sont utilisées ne suivent pas ou du moins ne reflètent pas la nature des données, mais aussi comment elles peuvent être utilisées par des systèmes d’intelligence artificielle, surtout dans toute la chaîne de production que Misha a décrite un peu plus tôt.

Finalement, ce qu’on s’est aussi rendu compte, c’est qu’en utilisant des licences qui n’étaient pas adaptées, finalement, les gens n’ont pas vraiment le degré de granularité, le degré de contrôle qui pourrait exister pour décider comment les données peuvent être utilisées. En gros, beaucoup de ces licences-là se basent sur la notion d’utilisation. En anglais, use. Comme on l’a vu, use, utiliser des données pour bâtir des systèmes d’intelligence artificielle c’est très complexe, il y a plusieurs différentes étapes où les données peuvent être, entre guillemets, utilisées. Pour un logiciel informatique simple, la notion d’utiliser est assez évidente.

Est-ce que l’ordinateur roule, entre guillemets, le logiciel ou pas? Cette utilisation-là n’est pas ambiguë, tandis que pour les données, il y a beaucoup de types d’utilisation possibles, beaucoup de contextes dans lesquels ça peut se faire. Finalement, nos conclusions, c’était qu’essentiellement, il n’y avait pas de cadre contractuel, de cadres de licences qui permettaient de bien refléter ces réalités-là, qui dans le fond en donnant plus de clarté sur les différents droits qui peuvent être en cause, mais qui donnent de ce fait plus de contrôle aux gens dans les permissions qu’ils donnent quand ils rendent des données disponibles.

Misha : Pour prendre un exemple qu’on avait en tête un peu quand on a bâti ce framework-là, c’est, si je créais une base de données de visages synthétiques, et que j’étais à l’aise qu’ils soient utilisés par une entreprise qui ferait du frictionless checkout. On a tous vu les magasins où tu peux rentrer, prendre quelque chose et sortir sans jamais payer ou rien, c’est un système de AI qui te suivrait et te chargerait par après. Si je dis que ça peut seulement être utilisé pour ces fins-là, si je ne restreins pas l’utilisation de tout système de AI entraîné en utilisant cette base de donnée-là, je n’arrive pas à mon but ultime.

Je peux seulement l’utiliser pour la création d’un système de frictionless checkout, mais ça veut dire que n’importe qui a entraîné un autre modèle pour faire un système de frictionless checkout pourrait par après utiliser ce système-là, entraîné sur cette donnée-là, de la manière qu’il veut. Donc il pourrait par exemple créer un système de facial recognition qu’il mettrait à disposition d’une agence policière étrangère par exemple. C’est une utilisation très différente de ce que j’avais en tête, mais vu que j’avais juste encadré une utilisation initiale, les effets un peu downstream ne seront pas pris en compte avec le langage de open source.

Paul : Je pense qu’un autre bon exemple, parce que là ce dont on parle, c’est vraiment de dire que quand je rends des données disponibles, je viens limiter ou je viens décrire plutôt dans quel contexte ces données-là peuvent être utilisées dans un contexte d’intelligence artificielle. Donc, un autre bon exemple, c’est, par exemple, des données de santé. Si jamais je peux être un hôpital ou une institution de recherche, une université qui a accès à des données de santé, qui pourraient être d’intérêt pour l’intelligence artificielle. Vu le fait que ces données-là sont sensibles, sont privées, c’est des données personnelles, ça a une très grande valeur, pas juste monétaire, mais en principe. Comme organisation, je veux pouvoir contrôler quelle utilisation est faite de ces données-là. Puis finalement, je vais peut-être pouvoir restreindre quels types d’utilisation sont faites par des systèmes d’intelligence artificielle. C’est là qu’on voit qu’une licence qui dit tu peux utiliser ou pas utiliser, ce n’est pas assez pour donner ce degré de contrôle-là.

Finalement, nous ce qu’on a fait avec la licence de données de Montréal et puis l’article académique qui en est ressorti et qui décrit justement ce cadre-là, c’est de suivre la chaîne de valeur d’intelligence artificielle, de donner une taxonomie, de donner les différentes définitions d’utilisation qui sont possibles, et qui finalement de cette analyse-là, de ce cadre-là, mettre dans les mains des gens ce contrôle-là qui vient finalement être plus granulaire, plus probable de leur donner le contrôle qu’ils pourraient vouloir sur ces données-là puis l’utilisation qui en est faite.

Maya : Nous parlons beaucoup de l’utilisation de données, des personnes qui fournissent des données à utiliser et de la licence de données de Montréal que vous avez rédigé. Maintenant, si on se tourne vers les entrepreneurs qui savent ou ne savent pas ces limitations, j’imagine que vous avez rencontré certains de ces entrepreneurs et inventeurs qui cherchent à comprendre comment ils peuvent utiliser les données. Selon vous, quelles sont les erreurs courantes commises par les entrepreneurs qui s’appuient sur les données, et comment peuvent-ils éviter ces erreurs?

Paul : Je pense que le premier point qu’on voit, c’est vraiment juste une question de connaissance. C’est-à-dire que les gens ne savent pas ce qu’ils ne savent pas et puis, au final, quand on a déjà une familiarité avec ces enjeux-là, on est capable de mieux diriger nos efforts et de mieux comprendre ce qui en ressort. Je pense qu’un exemple typique qu’on pourrait comprendre plus intuitivement, c’est de dire si je veux vendre un recueil de poésies avec 20 poèmes préférés d’auteurs que j’adore, je pense que la plupart des gens comprendraient qu’ils ne peuvent pas nécessairement publier un recueil de poésies, des poèmes qu’ils n’ont pas écrits.

Ils sauraient d’aller chercher la permission des différents auteurs pour aller finalement publier ce recueil-là. Ce bain de connaissances-là, ce bain de culture-là autour des données n’existe pas vraiment encore. Il faut augmenter finalement ce niveau-là de connaissances de base pour comprendre que, à la place d’un recueil de poésie, les gens bâtissent des systèmes d’intelligence artificielle qui se fient sur des données. C’est leur intrant le plus important, mais en entraînant ces modèles-là d’intelligence artificielle sans avoir des droits sur les données ou sans nécessairement avoir une certitude juridique sur si c’est utilisable ou pas, il faut augmenter cette connaissance-là parce que ces décisions-là peuvent avoir un assez grand impact sur les entreprises technologiques.

Misha : Oui, absolument. Je pense que la première chose, c’est avant de pouvoir vérifier si les termes rattachés à une base de données ou non fonctionnent, il faut savoir aller les chercher. Je pense que souvent le monde prenne le langage qui est mal utilisé de open source rattaché à une donnée, ils le prennent pour une intention originelle rattachée au logiciel et non nécessairement à la data. Ce n’est pas nécessairement applicable de la même manière, donc ils pensaient un peu plus pour s’assurer que tu es en conformité avec ces licences-là, c’est très important. Par exemple, beaucoup de la data de compétition, on parle aussi de compétition AI, Kaggle, c’est souvent mal utilisé et souvent, on les utilise pour des fins qui ne sont pas permises par le monde qui ont mis à disposition cette data-là, souvent, ils ne sont même pas vraiment éthiques, surtout quand on prend en compte l’intention initiale de la personne qui a mis à disposition cette data-là.

Paul : Je pense qu’au-delà de ces enjeux-là, il y a d’autres aspects à l’intelligence artificielle, au-delà de juste la propriété intellectuelle, je sais que c’est le thème du podcast, on ne va pas trop en parler, mais ça reste que des entreprises qui gèrent ou qui commencent à utiliser de plus en plus des systèmes d’intelligence artificielle, il y a une certaine responsabilité qui vient avec; de comprendre que les données qui sont nourries, qui entraînent et informent ces modèles-là sont importantes, puis ils doivent finalement s’assurer qu’elles sont fiables. C’est-à-dire qu’elles reflètent bien les problèmes qui doivent être réglés par les systèmes d’intelligence artificielle qui sont utilisés.

Finalement, c’est pour beaucoup d’entrepreneurs, tout le monde qui utilisent des systèmes d’intelligence artificielle en entreprise, c’est de comprendre qu’il y a une responsabilité quant à comprendre comment ces systèmes-là fonctionnent, comprendre leurs limites, comprendre l’importance des données qui sont nourries, mais finalement, cette compréhension-là, c’est aussi un énorme avantage; parce qu’après ça, les entreprises peuvent voir qu’il y a une énorme valeur ajoutée dans leurs propres données qu’ils génèrent, qu’ils créent.

Avec ça en tête, il y a plusieurs opportunités, plusieurs portes qui peuvent s’ouvrir pour développer des partenariats intéressants puis finalement, vraiment maximiser toutes les contributions que l’intelligence artificielle peut amener à leur entreprise. Finalement, c’est plus une question de mentalité que juste strictement une question de connaissance, c’est de voir qu’il y a vraiment une opportunité là.

Misha : Oui, absolument. Je pense aussi qu’il y a beaucoup de monde qui ne réexamine pas les origines de leurs datas une fois que c’est mis en production, mais je sais qu’il y a beaucoup d’entreprises qui utilisent des datasets qui ne sont plus vraiment relevant ou complètes. Le monde a beaucoup changé dans les deux ans, il y a beaucoup de data qui a été créée ou qui a changé, ce n’est pas toutes les entreprises qui ont pensé à réentraîner leur modèle sur ces nouvelles datas ou faire en sorte qu’ils ont assez de input qui reflète notre nouvelle réalité.

Une autre affaire qu’on voit beaucoup, c’est qu’il y a beaucoup de monde qui vend de la data, il y a beaucoup de monde qui sont très au courant des termes de la mentalité qu’il faut avoir autour de la vente de data et ça, c’est plus sophistiqué, les data brokers, ils ont compris comment entourer l’utilisation des datas dans un contexte de AI, mais des plus petites entreprises ou des entrepreneurs, même des universités des fois, il y a des aspects qu’ils ne comprennent pas ou ne discutent pas, quand ils mettent à disposition leur data. Une chose importante c’est qu’une fois qu’une solution de AI a eu accès à de la data, il y a de la valeur là même si ce système n’a plus accès à cette data.

Un exemple vraiment facile, c’est un système de facial recognition, qui peut reconnaître des visages, qui a été entraîné sur les faces de certaines personnes. Si tu effaces la data sur laquelle le modèle a été entraîné ou tu ne mets plus à disposition ces data-là, si tu ne supprimes pas ce qu’on appelle les weights or hyperparameters, ou si tu ne fais pas un retraining de ce modèle-là, si tu utilises le modèle encore sans modification, le dommage a déjà été créé, donc on peut dire qu’on va supprimer les banques de données des faces des personnes, mais ce système-là peut encore reconnaître le monde très facilement, suivre les faces et savoir c’est qui.

Vraiment de penser aux effets, à la valeur qui a été créée par un training one time comme on dit en anglais, et penser à si tu supprimes la data, quels sont les effets sur le modèle d’AI et qu’est-ce qui a besoin d’être fait au modèle d’AI une fois que la data est supprimée pour garder l’intention que tu avais en supprimant la data originalement. C’est une chose à laquelle on ne pense pas normalement.

Paul : Finalement, il y a d’autres considérations. On a parlé de propriété intellectuelle, mais il y a aussi des enjeux de vie privée, des enjeux de droit de la concurrence aussi. Il y a vraiment plusieurs aspects à ces facettes-là ou données, puis comment elles sont utilisées par les systèmes d’intelligence artificielle.

Maya : Si quelqu’un travaille sur les systèmes d’intelligence artificielle et utilise beaucoup les données, est-ce qu’il y a un endroit où il ou elle peut aller pour en apprendre plus sur l’intelligence artificielle et les données?

Paul : Oui, il y a l’article auquel on a référé un peu plus tôt dans le podcast, c’est un article qui s’appelle Towards Standardization of Data Licenses, puis, sinon, si vous recherchez sur Internet seulement avec Montreal Data License, vous allez être en mesure de trouver l’article qui, je pense, brosse un bon portrait non seulement de la chaîne de valeur de l’intelligence artificielle et différentes étapes que Misha a expliquées, mais aussi finalement l’importance d’avoir de la clarté dans les licences d’utilisation de données dans le contexte de l’IA. Je pense qu’on va prêcher pour notre paroisse comme on est les coauteurs de l’article, mais je pense que c’est un bon point de départ.

Maya : Paul, Misha, ce fut très technique, mais très intéressant. Merci énormément d’avoir expliqué quels sont certains de ces enjeux et aussi d’avoir partagé certaines des solutions pour les gens qui cherchent peut-être à utiliser des données dans leurs systèmes d’intelligence artificielle. Merci beaucoup.

Misha : Merci, c’était vraiment un plaisir.

Paul : Avec grand plaisir, merci.

Maya : Vous venez d’écouter Voix de la PI canadienne, un balado où nous parlons de propriété intellectuelle. Dans cet épisode, nous avons discuté des systèmes d’intelligence artificielle afin de comprendre comment les auteurs et usagers des données de formation qui sont utilisées dans les systèmes d’intelligence artificielle peuvent et ne peuvent pas être protégées par le droit d’auteur et les types de licence que les auteurs peuvent utiliser pour mieux contrôler comment leurs données sont utilisées dans les systèmes d’intelligence artificielle, et l’apprentissage machine.

Si vous êtes intéressé à en apprendre plus, jetez un coup d’œil à la description de cet épisode où nous avons un lien à l’article sur La licence de données de Montréal qui a été publié en 2019 et corédigé par Paul Gagnon et Misha Benjamin ensemble avec leurs collègues experts et chercheurs en intelligence artificielle.

Sélection de la langue

WxT Search form

Épisode 15 : Protéger les données de formation lors de la création de systèmes d’IA