11 décembre 2025 | BnF
Isabelle Nyffenegger ; Nathalie Casemajor ; Jean-philippe Moreux ; Paul Keller ; Sébastien Broca ; Julie Groffe-Charrier ; Camille Françoise ; Brigitte Vézina ; Marta Severo ; Yannick Detrois ; Alexandre Gefen ; Clément Bénesse ; Milo Rignell ; Emmanuel Château-Dutier ; Valérie D’Amour ; Viriya Thach ; Tiphaine Vacqué ; Antoine Isaac ; Lucie Gianola ; Christian Gagné ; Marie-Pierre-Thibault ; Benaset Dazéas ; Loubann Bou-Khalil
Journée d’étude « Communs de données et intelligence artificielle : regards croisés France–Québec »
Mot d’accueil
Isabelle Nyffenegger
BnF : Gallica, 20% du traffic par des chatbots, mais pose des problèmes, car cause des problèmes de ralentissement et les chatbots ne respectent pas les réglementations en vigueur notamment sur les réutilisations des données à des fins commerciales. Toutefois refus de bloquer ces chatbots, afin de les données francophones restent présentes dans les corpus utilisés par les IA, à une époque ou beaucoup d’utilisateurs travaillent désormais avec des prompts. Il reste un flou juridique, pour le moment la réutilisation commerciale des données est autorisée mais soumise à déclaration.
Défendre une IA qui est respectueuse du droit d’auteur et des institutions et hébergent des données, et en toute transparence.
Introduction
J.-P. Moreux et Nathalie Casemajor
Importants enjeux de l’IA d’un point de vu juridique, des usagers des communs avec la question de la représentation des minorités (langages, etc.) et du marché
Session inaugurale — Le paradoxe de l’ouverture
Paul Keller
Le paradoxe c’est que les institutions ouvrent leurs données pour les rendre le plus accessible possible au plus grand nombre, mais en même temps seules les grosses entreprises ont les moyens d’exploiter réellement ce matériel et ces communs leur permettent de grossir.
Yan LeCun défend une IA ouverte et gratuite.
L’IA est construite sur tout le savoir qui est accessible, dans un sens ”All AI = public AI“.
Pour autant ce sont des boites noires, qui présentent des risques
- démocratique, car on dépendrait tous d’un nombre réduit d’organisation et de black boxes sur lesquelle nous n’avons pas de prise
- économique ces mêmes organisations revendent ces données/informations
Il y a un besoin d’une infrastructure publique pour l’IA.
La question de copyright ne règlera pas le problème tout seul, il y a besoin d’un redistribution derrière le copyright.
Il faut réfléchir à un cadre dans lequel le données publiques peuvent participer à l’élaboration d’une infrastructure IA commune.
Les humains accèdent aux données culturelles, l’IA aussi, et ces mêmes données sont utilisées pour entraîner des modèles IA : ce qui pose des problèmes (scrapping, ralentissement des plateformes, etc.). Comment préserver l’open access. La difficulté c’est de penser une ouverture différenciée. Wikipedia l’a fait récemment avec des accès spécifiques pour les AIbots.
QUESTION
emchateau : n’est on pas en train de récréer l’exception culturelle européenne (possibilité par les institutions culturelles d’utiliser leur données commercialement), qui était un échec. Keller : pour le moment on ne sait pas répondre à cette question pour le moment, quelques signent montrent que cela pourrait fonctionner, mais les choses bougent très vite et on ne sait pas quelle direction cela peut prendre. Niffenegger : parallèle avec la numérisation des images, finalement ce n’est pas l’image qu’on fait payer, mais c’est l’infrastructure nécessaire pour faire la numérisation, c’est gratuit pour les chercheurs mais payant pour les entreprises qui veulent en faire une utilisation commerciale. Les rentrées permettent aussi de développer et d’améliorer l’offre. Il n’y a pas de logique d’exclusivité. Si des enterprises veulent des services ou des données les institutions peuvent les préparer moyennant paiement et ensuite en faire profiter tout le monde.
1re table ronde — Contexte juridique : état des lieux pour les communs et le domaine public
Modérateur : Sébastien Broca, Université Paris 8 Avec Julie Groffe-Charrier, université Paris Saclay, Camille Françoise, COMMUNIA et Wikimédia France, et Brigitte Vézina, Creative Commons
Wikimédia c’est un mouvement de contribution de citoyen sur des infrastructures qui sont ouvertes, et qui visent à donner accès aux informations à tous et à toutes de manière transparente (on sait qui a rédiger les notices, etc.). Il y a aussi un aspect démocratique important dans la rédaction des notices. L’IA change beaucoup de chose, les contributeurs se retrouvent du jour au lendemain avec la question de l’extraction de leur travail et de la réutilisation par les modèles. Problème technique aussi avec les scrapper, ralentissement des service, serveurs qui n’en peuvent plus. Developpement de Wikimédia Enterprise : aller voir ces grandes entreprises pour leur dire qu’ils ont accès à ces données, mais la mise à disposition à un coût pour les wikipedia, pour les usagers, etc. et s’ils veulent y accéder Wikemedia demande une participation. Problème aussi d’invisibilisation.
Pour CC c’est un choc. Les phénomène d’extraction et des prédations se fait sentir à tous les niveaux. La réutilisation des contenus avec l’IA entre en conflit avec d’autres valeurs sous-jacentes (réciprocité, etc.). Tentation de fermer les accès, mais mais appauvrissement des communs. Les licences qui sont les échafaudages pour ces infrastructures numériques ne sont pas une solution. En réalité l’utilisation de ces contenus par les modèles IA rentrent dans le cadre d’exceptions au droit d’auteur (notamment exception de text and data mining, TDM), et donc échappent aux licences CC, qui sont justement fondées sur ce dernier.
Il faut pouvoir respecter la volonté de chacun sur les contenus. On n’a pas non plus anticipé la vitesse de développement des IA générative. Quand l’exception TDM a été adoptée à l’échelle européenne, il n’avait pas non plus imaginé ce développement rapide. On voit donc de plus en plus de cas ou l’exception TDM n’est pas accordée.
Wikimedia Enterprise n’est peut être pas la solution, ou la solution applicable à tous les acteurs des communs. Wikimedia est une grosse infrastructure qui a des moyens de négociation avec les entreprises tout le monde n’a pas cette force. Et c’est aussi une réaction à chaud, du jour au lendemain, ils se sont retrouvés scrappés par des centaines de robots, il fallait réagir vite, mais est-ce la bonne méthode pour les communs.
CC crée des outils de gouvernance des données pour que les créateurs puissent exprimer leur volonté, mais ces outils n’ont pour le moment pas de force contraignante.
Le problème avec l’IA c’est le phénomène de boite noire, ils ont utilisé la TDM dans le sens où le droit d’auteur fonctionne de tel manière qu’on n’a pas le droit jusqu’à ce qu’on autorise, la TDM dit on peut jusqu’à ce qu’on dise non. Or tout s’est fait très vite… D’autre part on oppose le fait qu’un IA ne peut déapprendre, donc une fois que c’est fait, on ne peut plus rien faire.
Il y a un manque de réciprocité, de partage des valeurs avec l’IA. L’ouverture est un moyen, mais il ne faut peut être pas chercher une ouverture à tout pris. Il y a aura peut être possiblement des leviers juridiques qui permettront de limiter l’IA, mais peut être aussi qu’il faudra bouger un peu sur le droit d’auteur : il y a peut être un chemin commun où ces deux enjeux pourront se retrouver.
Il y a aussi la question de la traçabilité des contenus. Du côté de CC ils avaient l’espoir de les licences seraient vues par les machines. On opposera souvent le secret des affaires pour le pas ouvrir le capot.
CC se positionne dans la zone grise entre le blanc et la noir, qui représente l’ouverture et la fermeture.
Le problème si on ferme les accès, c’est que les autres communs n’y ont plus accès non plus.
2e table ronde — Les usages : industrie, recherche, projets contributifs
Modératrice : Marta Severo, DICEN-idf, université. de Nanterre Avec Anastasia Stasenko, pleias, Alexandre Gefen, CNRS, Clément Bénesse, opsci.ai, Milo Rignell, LightOn
Les très grands modèles de langue, même fine tunés, restent impactés par les données qui ont été utilisées pour leur création. L’intérêt de créer des modèles de données plus petits c’est qu’on évite ces écueils, même si on est limités sur d’autres aspects, cela permet de poser d’interroger les modèles sur des aspects plus précis (cf. A. Gefen sur Flaubert).
Pleias fait des modèles ouverts, mais vraiment ouverts, s’appuie sur la législation européenne qui est plus ferme que la législation US notamment. Publication de Common Models
Opsci.ai :les modèles plus petits sont aussi performants que les gros modèles. Les acteurs de l’IA Meta, Twitter, Tick Tock, etc. sont devenus les maîtres, ils disposent des données, mais limitent l’accès aux autres acteurs, notamment de l’open pour la recherche, alors même que la législation les obligent à ouvrir l’accès pour la recherche notamment. (il y a eu des amendes depuis, les choses vont elles changer ?).
Impact écologique également.
Les grands modèles de langues ont une application pour le grand publique, mais pour la recherche, les modèles plus petits, comme ceux que font LighOn et Pleias, sont plus spécialisés, avec une meilleure maîtrise de ce que compose ces-dits modèles.
Comment mettre en place des conditions d’accès juste, si on s’appuie sur des données ouvertes, comment on donne accès à ces données dans un cadre ouvert. Mais en même temps, ces entreprises insistent sur le fait qu’ils raffinent et que cela à un coût, qui implique de maintenir une logique économique et d’investissement. C’est peut être un problème d’échelle du spectre d’usage. Lorsque l’on veut faire des modèles utilisables par un large spectre il faut un batch d’expert pour les rendre utilisables et c’est complexe, mais pour les plus petits modèles c’est a priori plus simple.
Les modèles ne font pas utilisation du web sémantique, pour autant cela a beaucoup d’intérêt pour eux car les triplets sont liés, contenu hiérarchique. C’est une des pistes de développement pour le futur des IA.
3e table ronde — Le cas des données patrimoniales : comment continuer à créer des communs
Modérateur : Emmanuel Chateau-Dutier, université de Montréal Avec Valérie D’amours et Viriya Thach, Bibliothèque et Archives nationales du Québec, Tiphaine Vacqué, Bibliothèque nationale de France, et Antoine Isaac, Europeana Foundation
Comment continuer à créer des communs numériques. Les institutions patrimoniales sont des acteurs centraux, et le partage de leurs données fait partie de leur mission.
Repenser la législation. Nécessité de maintenir des restrictions sur certaines données, parce qu’elle ne sont pas libres justement. Il y a aussi des cas d’usage différents pour lesquels il faut des réponses adaptées.
Restreindre les accès à ce que les usagers ont vraiment besoin et pas un portefolio complet. Question de l’accès équitable, Pour la BaNQ ça ne veut pas dire offrir exactement la même chose. Par contre avoir une transparence des règles : qui peut accéder à quoi, dans quelles conditions. Cela ne semble pas être la position adoptée par la BnF : ce qui est accessible à l’un doit être accessible à l’autre, peut importe qu’il soit un acteur privée ou non.
QUESTIONS
La rareté ce n’est pas nécessairement la données, mais plutôt le lecteur, induit par l’invisibilisation de Wikimédia avec l’intégration des données dans les modèles IA. Le lecteur ne va plus sur Wikipédia, et ne soutient plus le modèle économique qui permet à Wikimedia d’exister.
La préservation à long terme est très compliqué. Il y a beaucoup d’investissements qui sont mis sur la création et peut sur la préservation (exemple cité de des VR, réalité augmentée, on ne sait pas préserver ces solutions qui se développent très vite).
Est-ce qu’on bon commun numérique c’est une commun qui est accessible en permanence sur le web ? Il y a un coût à tout cela, écologique et économique.
Matthew Licoln avait proposer de partager des vecteurs afin de ne pas réentrainer constamment des modèles.
Le ministère de la Culture insiste sur la gouvernance des données, nécessité de s’appuyer sur des standards et et des formats ouverts et documentés.
4e table ronde — Expression des cultures et des langues dans les espaces de données
Modérateur : Thomas Mboa, université d’Ottawa Avec Christian Gagné, Institut intelligence et données, Marie-Pierre Thibault, Commission de la santé et des services sociaux des Premières Nations du Québec et du Labrador, Benaset Dazéas, Congrès permanent de la lenga occitana, et Thibault Grouas, DGLFLF, ministère de la Culture
Le ministère de la culture a mis en place un outil qui s’appelle compar:IA fondée sur de la préférence humaine (au regard des réponses, on indique quelle IA nous a donné la réponse la plus satisfaisante).
Conclusion
Un compte rendu de cet évènement sera proposé, avec un guide, fin 2026. Une seconde journée aura lieu en 2026 au Canada.