Aller au contenu principal
Ministère de l'Économie, de l'Innovation et de l'Énergie logoMinistère de l'Économie, de l'Innovation et de l'Énergie logoMinistère de l'Économie, de l'Innovation et de l'Énergie
English
Nous joindre
  • Accueil
  • Ministère
  • English
  • Nous joindre
  • Visiteurs hors Québec
Engager, innover, propulser.
  • Accueil
  • Ministère
  • Visiteurs hors Québec
  • Obtenir du financement
    Achat d'équipementAgrandissement, constructionCommercialisationDémarrage d'entrepriseDesign
    Économie numériqueEnvironnementExportationMain-d'oeuvreNouveau produit, nouvelle technologie
    Promotion de la science et de l'innovationR-D et innovationRéalisation d'une étudeValorisation et transfert de la recherche
  • S'améliorer
    Accompagnement-conseil stratégiqueAdministration et managementDéveloppement durableExportationFinances
    Transformation numériqueMarketing et venteProductionR-D et innovationRessources humaines
  • Créer des liens
    Créneaux et pôles d'excellenceProjets de recherche internationauxRépertoires d'entreprisesRéseaux de recherche
  • Se conformer
    Accords commerciauxBoissons alcooliquesCoopérativesHeures et jours d'ouverture des commerces de détailLitiges commerciaux
    Intégration de contenu à faible intensité carbone dans l’essence et le carburant dieselInterdiction de recherche et de production d’hydrocarburesMatériaux de rembourrage et articles rembourrésProjet d’une puissance de 5 MW et plus
  • Exporter
    Accompagnement spécialisé à l’exportationCalendrier des activitésCoordonnées
  • S'informer
    Allègement réglementaire et administratifCapital de risqueCarrièresCoopérativesCréneaux et pôles d'excellence
    Entrepreneuriat collectifEntrepreneuriatEntreprisesContrats publicsPar pays
    Par régionPar secteur d'activitéPolitiques, stratégies, plans d'actionPrix et concoursPromotion de la science et de l'innovation
    Propriété intellectuelleRecherche et innovationSécurité civileZones d'innovation
 
11 octobre 2024 - Science et innovation

Les articles scientifiques sont convoités par les concepteurs de modèles d’intelligence artificielle générative

Un article de Naturecommente le fait que les concepteurs de modèles d’intelligence artificielle (IA) générative achètent à des éditeurs universitaires l’accès à des articles de recherche qui contiennent des données très convoitées en raison de leur qualité. Cette pratique soulèverait toutefois des questionnements très sérieux sur l’utilisation d’œuvres publiées et parfois protégées par le droit d’auteur. En fait, certains chercheurs auraient réagi avec consternation à de telles transactions conclues sans consultation des auteurs.

Par exemple, l’article mentionne que tout récemment, Taylor & Francis, un éditeur universitaire britannique, aurait signé un accord de 10 millions de dollars avec Microsoft. Cela permettrait à cette entreprise technologique américaine d’accéder aux données de l’éditeur pour améliorer ses systèmes d’IA. De plus, on a découvert que l’éditeur américain Wiley aurait gagné 23 millions de dollars en permettant à une entreprise anonyme de former des modèles d’IA générative avec son contenu.

L’engouement pour les articles de recherche universitaires s’expliquerait par leur longueur et la haute densité d’informations qu’ils offrent. Cela donnerait aux modèles de langage une bien meilleure capacité à raisonner sur des sujets scientifiques. La pratique d’acheter des ensembles de données de haute qualité serait d’ailleurs en pleine croissance. En fait, les experts anticipent qu’à terme, la plupart des articles de recherche seront utilisés pour former un grand modèle de langage. De surcroît, il serait impossible de supprimer un article qui a déjà été utilisé comme données de formation dans un modèle, une fois que le modèle a été conçu.

L’article note également que de nombreuses entreprises qui conçoivent des modèles d’IA générative ont gardé secrète une grande partie de leurs données de formation. De ce fait, selon les experts, il serait très difficile de prouver qu’un modèle d’IA générative a utilisé un certain article en particulier. Cependant, les chercheurs seraient en train d’explorer des moyens techniques permettant aux auteurs de détecter si leur contenu est utilisé.

Une façon de procéder est de demander au modèle une phrase inhabituelle d’un texte et de voir si le résultat correspond aux mots du texte original. Si c’est le cas, on disposerait d’une preuve solide que l’article en question fait partie de l’ensemble d’apprentissage. On note cependant que la non-correspondance ne serait pas preuve du contraire nécessairement. En effet, les concepteurs pourraient tout simplement coder le modèle de langage pour filtrer les réponses et contourner les correspondances trop évidentes avec les données d’apprentissage.

Une autre technique de vérification – connue sous le nom d’attaque par inférence d’appartenance – repose sur l’idée que les résultats d’un modèle seront plus fiables lorsque ce dernier verra quelque chose qu’il a déjà vu auparavant, soit, les données de formation. Il s’agirait en fait d’une sorte de piège où les scientifiques interrogent le modèle d’apprentissage automatique formé pour prédire si un exemple particulier était ou non contenu dans l’ensemble de données de formation du modèle.

Un article de Naturecommente le fait que les concepteurs de modèles d’intelligence artificielle (IA) générative achètent à des éditeurs universitaires l’accès à des articles de recherche qui contiennent des données très convoitées en raison de leur qualité. Cette pratique soulèverait toutefois des questionnements très sérieux sur l’utilisation d’œuvres publiées et parfois protégées par le droit d’auteur. En fait, certains chercheurs auraient réagi avec consternation à de telles transactions conclues sans consultation des auteurs.

Par exemple, l’article mentionne que tout récemment, Taylor & Francis, un éditeur universitaire britannique, aurait signé un accord de 10 millions de dollars avec Microsoft. Cela permettrait à cette entreprise technologique américaine d’accéder aux données de l’éditeur pour améliorer ses systèmes d’IA. De plus, on a découvert que l’éditeur américain Wiley aurait gagné 23 millions de dollars en permettant à une entreprise anonyme de former des modèles d’IA générative avec son contenu.

L’engouement pour les articles de recherche universitaires s’expliquerait par leur longueur et la haute densité d’informations qu’ils offrent. Cela donnerait aux modèles de langage une bien meilleure capacité à raisonner sur des sujets scientifiques. La pratique d’acheter des ensembles de données de haute qualité serait d’ailleurs en pleine croissance. En fait, les experts anticipent qu’à terme, la plupart des articles de recherche seront utilisés pour former un grand modèle de langage. De surcroît, il serait impossible de supprimer un article qui a déjà été utilisé comme données de formation dans un modèle, une fois que le modèle a été conçu.

L’article note également que de nombreuses entreprises qui conçoivent des modèles d’IA générative ont gardé secrète une grande partie de leurs données de formation. De ce fait, selon les experts, il serait très difficile de prouver qu’un modèle d’IA générative a utilisé un certain article en particulier. Cependant, les chercheurs seraient en train d’explorer des moyens techniques permettant aux auteurs de détecter si leur contenu est utilisé.

Une façon de procéder est de demander au modèle une phrase inhabituelle d’un texte et de voir si le résultat correspond aux mots du texte original. Si c’est le cas, on disposerait d’une preuve solide que l’article en question fait partie de l’ensemble d’apprentissage. On note cependant que la non-correspondance ne serait pas preuve du contraire nécessairement. En effet, les concepteurs pourraient tout simplement coder le modèle de langage pour filtrer les réponses et contourner les correspondances trop évidentes avec les données d’apprentissage.

Une autre technique de vérification – connue sous le nom d’attaque par inférence d’appartenance – repose sur l’idée que les résultats d’un modèle seront plus fiables lorsque ce dernier verra quelque chose qu’il a déjà vu auparavant, soit, les données de formation. Il s’agirait en fait d’une sorte de piège où les scientifiques interrogent le modèle d’apprentissage automatique formé pour prédire si un exemple particulier était ou non contenu dans l’ensemble de données de formation du modèle.

Abonnez-vous
à notre infolettre

Regroupement par thèmes

Accès à l'informationBulletins et veille stratégiqueFormationsFormulairesGuides et outilsLois et règlementsProgrammesPublicationsRépertoiresServices
Dernière mise à jour : 26 juin 2023
Suivez-nous
  • Facebook
  • Instagram
  • LinkedIn
  • YouTube
  • Twitter
  • Newsletter
  • Accès à l'information
  • Accessibilité
  • Carrières
  • Infolettres
  • Présence du Ministère sur les médias sociaux
  • Plan du site
  • Politique de confidentialité
Gouvernement du Québec

© Gouvernement du Québec, 2025