Traitement de l’intelligence artificielle : Annexes

 

Sur cette page

Annexes

Annexe A – Méthodologie

Dans ce rapport, le terme « inventions brevetées » fait référence aux familles de brevets. Une famille de brevets est un ensemble de demandes de brevets similaires déposées auprès de plusieurs instances. Même si de multiples répertoires ont été créés par diverses organisations pour les familles de brevets, ce rapport se concentre sur le DOCDB. Le brevet le plus ancien déposé dans chaque famille de brevets est appelé demande de brevet prioritaire. Les demandes prioritaires déposées entre 1998 et 2017 ont été prises en compte aux fins de cette analyse.

Comme évoqué brièvement dans l'introduction du rapport, il est difficile de définir l'IA du point de vue des brevets en raison de la nature de ce secteur en constante évolution. L'OMPI a été la première à faire un pas en avant et à tenter de définir l'IA en fonction de l'activité internationale en matière de brevets. Dans son rapport Tendances technologiques 2019 – Intelligence artificielle, l'OMPI adopte une approche généralisée pour définir l'activité de brevetage dans le domaine de l'IA. L'OMPI associe des codes de la Classification internationale des brevets, des codes de la Classification coopérative des brevets, ainsi que des classes du système File Index and File Forming Terms (FI/F-terms) et des mots-clés propres à l'IA pour définir l'IA. En conjonction avec les efforts de l'OMPI, l'Organisation de coopération et de développement économiques (OCDE) a créé un groupe de travail pour établir une définition communément admise de l'IA. Le groupe de travail comprenait des représentants de l'Office australien de la propriété intellectuelle, de l'Office canadien de la propriété intellectuelle, de l'Office européen des brevets, de l'Office israélien des brevets, de l'Office italien des brevets et des marques de commerce, de l'Institut national de la propriété industrielle du Chili, de l'Office de la propriété intellectuelle du Royaume-Uni (UKIPO) et de l'Office des brevets et des marques de commerce des États-Unis.

S'inspirant des travaux de l'OMPI et des conclusions des discussions du groupe de travail de l'OCDE, l'UKIPO a ensuite publié un rapport intitulé Artificial Intelligence - a worldwide overview of AI patents,Note de bas de page iv qui se concentre sur les tendances en matière de brevetage de l'IA au Royaume-Uni. Afin de réduire le nombre de brevets incorrectement recensés par la stratégie de recherche de brevets, l'UKIPO a adopté une définition étroite de l'IA et s'est focalisé sur une période de 20 ans (1998-2017). La stratégie de recherche complète est détaillée à l'annexe 1 de son rapport, et la liste des demandes de brevet recensées par cette stratégie de recherche se trouve sur le site web de l'UKIPO.Note de bas de page v L'ensemble de données brutes sur lequel repose le présent rapport est le même que celui utilisé par l'UKIPO pour effectuer son analyse. Toutefois, en raison des différences dans les approches adoptées pour nettoyer les données, il peut y avoir des écarts dans les chiffres avancés par les deux rapports.

Annexe B – Nettoyage des données

Afin de tenir compte des incohérences et des fautes d'orthographe qui sont couramment rencontrées dans tout ensemble de données sur la propriété intellectuelle, l'OPIC consacre beaucoup de temps à vérifier que l'ensemble de données sous-jacent sur lequel porte l'analyse présente le moins d'incohérences possible. Auparavant, ce problème était entièrement traité en regroupant manuellement les mêmes noms à l'aide d'un logiciel appelé VantagePoint. Ce processus était très inefficace et prenait environ 10 jours ouvrables.

Par conséquent, afin de réduire cette intervention manuelle, un script Python exploitant les techniques d'apprentissage machine pour nettoyer les renseignements sur les chercheurs a été développé. L'un des attributs introduits dans le modèle d'apprentissage machine comprend une mesure de comparaison de chaînes de caractères connue sous le nom de distance de Jaro-Winkler, qui compare le nom et le prénom de deux chercheurs. Un autre attribut pris en compte est la différence entre les dates de demande de deux chercheurs en comparaison. Le modèle d'apprentissage machine prend également en considération le nombre de cessionnaires communs entre deux chercheurs.

Grâce à ce script, l'enregistrement qui comporte le plus de renseignements remplacera les dossiers contenant des renseignements similaires. À titre d'illustration, les deux premiers enregistrements de l'exemple ci-dessous seront remplacés par le troisième enregistrement :

  • John Smith
  • John Smith, CA
  • John Smith, Ottawa, ON, CA

L'OPIC travaille actuellement à améliorer encore la performance du script sur les noms courts et essaie également d'exploiter les renseignements géographiques des chercheurs pour en faire un attribut supplémentaire dans le modèle d'apprentissage machine.

Annexe C – Indice de concentration de la propriété intellectuelle

L'indice de concentration de la propriété intellectuelle (ICPI) présenté dans ce rapport découle d'un long historique d'indices de concentration appliqués dans de nombreuses disciplines, comme l'indice Herfindahl-Hirschman, l'indice de Simpson, l'indice de Shannon et le nombre effectif de partis. La formule utilisée pour calculer l'ICPI est la suivante :

ICPI = s12 + s22 + s32 + ….. + sn2

sn est la part des inventions brevetées détenus par le participant n, en fraction. Il convient de noter que le nombre total d'inventions brevetées pour chaque participant a été calculé en utilisant la méthode de comptage fractionnaire.

La valeur de l'indice se situe entre 1/n et 1. Plus l'indice est proche de 0 et plus l'industrie ou le domaine technologique comporte un environnement concurrentiel, composé d'un grand nombre de participants moins actifs. Inversement, plus l'indice est proche de 1, plus l'industrie ou le domaine technologique comporte un environnement concentré, composé de seulement quelques acteurs dominants.

Annexe D – Indice de spécialisation relative

L'indice de spécialisation relative a été utilisé afin de mieux comprendre les atouts d'un pays dans le domaine de l'IA. La formule utilisée pour calculer cet indice pour un pays donné est la suivante :

Où P représente les inventions brevetées.

Numérateur
Le nombre total d'inventions brevetées dans le domaine de l'IA attribués aux demandeurs d'un pays donné est divisé par le nombre total d'inventions brevetées dans le monde entier dans le domaine de l'IA.

Dénominateur
Le nombre total d'inventions brevetées attribués aux demandeurs d'un pays donné est divisé par le nombre total d'inventions brevetées dans le monde entier dans tous les secteurs technologiques. Les données relatives au dénominateur sont tirées de la base de données PATSTAT.