15 mai 2024

Jean-Philippe Moreux ; Julien Schuh ; Anne-Violaine Szabados ; Marion Charpier ; Christopher Kermorvant ; Dominique Andrieu ; Barthélémy Serres ; Jean-Christophe Carius

Pictoria

Le consortium pictoria

Présentation

  • cartographie des outils diponibles, et mettre en lumière les points forts mais également les lacunes. Orienté le développement d’outils spécifiques.
  • protocole, référentiels tutoriels (partage des éfforts, créer des bases tutoriels, aborder les questions éthiques et juridiques)
  • proposer des formations et ateliers (accompagnement, formation des jeunes chercheurs)
  • prototypage

Feuille de route

  • 15/05 : journée atelier
  • 26/06 : 1ere séance du séminaire atelier pictorIA : « IA et IIIF »
  • 11/09 : 3e séance
  • 17/10 : 4e séance
  • 6-8/11 : Journée DHNord à Lille

Le BnF Datalab et IA

En 2021 la BnF s’est donnée une feuille de route IA avec un horizon 2026 pour les premières applications. Notons notamment Gallica-Images, développemt d’outils d’annotation de corpus, modèles HTR sur des langues peu dotées, etc.

La BnF datalab est une porte d’entrée pour les chercheurs pour la fouille l’accès aux données numériques de la BnF (archives du web, métadonnées bibliographiques). Le Datalab propose aussi des formations pour les chercheurs. Avec Huma-num, le Datalab propose des appels à projet et fourni un accompagnement pour les projets retenus.

IIIF et IA

Jean-Philippe Moreux

IIIF et workflow IA

Au tournant des années 2017-18 on perçois un accelération, le protocole donne accès aux images directement depuis les entrepôts de données (on ne travaille plus à partir de fichiers mais à partir d’URL, donc des flow de données), ce qui facilite le prototypage, etc. Workflow / pipline

  • IIIF -> IIIF segmentation -> base de données XML, etc.

  • IIIF -> HTR

  • recherche d’information : NER Facilite le développement d’activié scintifique ou de prototypage. Mais quelques inconvénients

  • pression sur les serveurs IIIF, si corpus massif, ce n’est pas ce qu’il y a de plus efficace

  • traitement d’image : si enchainement d’étape il est plus facile de faire une copie locale pour ne pas le télécharger plusieurs fois.

Boîte à outils IIIF

Projet Mezanno : Workflow léger pour les HN, projet d’annotation sans avoir d’infrastructures numérique à dépoyer sur sa machine (serveur IIIF d’annotation). Pense Workflow Lourd Possibilité aussi d’intégrer IIIF dans des outils (eScriptorium, Transkribus)

IIIF pour la dessimination des jeux de données

IIIF comme une format de production ou d’échange de jeux de données, mais aussi comme format de conservation des jeux de données. D’autre part c’est du JSON, donc compris par les informatitions, qui peuvent utiliser ces données comme format pivot pour une utilisation avec l’IA.

Voir projets

  • Visual Contation
  • NewsEye
  • GallicaPix (précurseur de Gallica Images) (manifestes Gallica enrichis avec les annotation IA de GallicaPix)
  • Bibliossima+ : Manifestes IIIF comme liste de résultats
  • Vikus : Visualiseur de collections IIIF, conçu comme un outil de navigation et de recherche dans des collections iconographiques.

Ontologie et annotation : bonnes pratiques et cas d’usage

Marion Charpier, musée des arts décoratifs

L’ontologie

L’ontologie est l’ensemble des classes à annoter et des descriptions formelles explicites et précises de ces même classes. Le jeu de données en CV (computeur vision), doit répondre à l’objet de l’étude, mais dois aussi permettre de générer un modèle robuste et complet. Le modèle est toutefois toujours une réduction Il faut

  • définir précicément pour assurer l’homégénéité et l’annotation
  • définition claire pour la bonne compréhension
  • sans abiguïté pour éviter les biais.

Application de l’ontologie dans l’annotation et retour

  • Cohérence et documentation de l’ontologie
    • Importation de la cohérence sémantique dans les annotation
  • Notion cléfs

Cas d’usage : le projet Royère

Fonds de dessins consituté d’environ 18k items répartis en quatre grandes catégories

  • les grandes gouaches
  • les petites gouaches
  • les calques

rédaction d’une première ontologie afin de

  • répondre au contraintes liés aux demandes sur le fonds
  • intégrer la classification de Jean Royère
  • respecter les cotrainte liées à la détection.

Entrainement d’un premier modèle, mais certains problème apparaisse (lampes tres végétalisées, qui se confondes avec les vraies plantes). Cela induit des biais qu’il faut désambiguiser par la rédaction d’une nouvelle ontologie. C’est un travail itératif.

Les outils open-source de Teklia pour le traitement de documents numérisés

Christopher Kermorvant

Arkindex/Callico

plateforme développée par Teklia depuis 2019. Traitement de tout type de documents (pas que du HTR par exemple), scalable (possibilité de traiter 1000 ou 10K images). Cette plateforme est open-source depuis récemment. L’objectif est améliorer cette plateforme de manière collaborative.

Stockage et gestion des documents

Elle permet :

  • import web, S3, ou IIIF
  • support des images et PDF
  • structuration hiérarchique

Annotation et validation

  • zonage
  • classification
  • transcription
  • clé valeur
  • extraction d’entités-nommées
  • groupement d’objet (exemple page de presse)

Intégration de modèles/algorithmes

  • intégration de n’importe quel langage/code/modèle
  • code de base python fourni
  • intégration par API
  • déploiement par Docker
  • entrainement par inférence

Exemple d’applications

  • classification
  • structuration (d’un livre par exemple / chapitre / section, etc)
  • OCR/HTR
  • extraction d’entités
  • analyse de photo avec du tagging
Simara

Aux AN 2021-2023. Traitement de 400 000 fiches d’index, reconnaissance d’écriture manuscrite et extraction d’entité. C’est un modèle clés-valeurs qui segmente, transcrit et extrait les entités nommées.

SOCFACE

INED/PSE/SIAF/TEKLIA 2022-2025. Classificartion, structuration, reconnaissance et linking de 100 ans de recensements fr entre 1836 et 1936.

Projet HikarIA

2023-2026. Labélisation, détection d’objets, recherche par similarité pour une collection d’album de photographie japonaises du XIXe siècle.

Il y a beaucoup de modèles développés par énormément d’infrasctructures et finalement ce qui compte c’est de les évaluer, peu à peu il devient de moins en moins nécessaire des les créer from scratch.

Teklia et l’Open-source

https://gitlab.teklia.com/explore.

L’IA dans les sciences géographiques - l’exemple du cadastre napoléonien

Dominique Andrieu et Barthélémy Serres

L’IA a été investi assez tôt pour traiter les images satellitaires, mais les cartes anciennes numérisées ont été délaissées. Le projet Veccar a développé l’apprentissage machine pour extraire les limites cadastrales du cadastre napoléonien. L’IA a investi les outils métier (ArcGis)

Sans la vectorisation on ne peut rien faire, c’est en quelque sorte une phase d’annotation, qui prend beaucoup de temps. La couple donnée cadastrale et données cadastrale vectorisées constitue la vérité de terrain qui sert à l’apprentissage du modèle.

Méthode 1 détection de contours

Méthode ancienne, globalement les modèles arrivent à trouver les parcelles, mais sur certaines parties fines il y un sur-segmentation (par exemple les routes sont agrégée aux parcelles voisines)

Méthode panoptique

Utilisé pour distinguer les zones bâties et zones non bâties. Globalement bonne confiance dans les détections du modèle pour les zones bâties et non bâties. mais la précision n’est pas optimale sur les contours La généricité est relative (application d’un modèle fait sur l’ile rousse pour fréjus) ?

Perspective

Lidée était ensuite de récupérer ces informations afin de l’implémenter dans des logiciels de gestion d’informations géographiques.

“Le projet PENSE de l’INHA : annotation et enrichissement de corpus visuels en histoire de l’art et perspectives d’édition numérique scientifique multi-support à partir de données IIIF”

Jean-Christophe Carius (INHA)

Trevor Paglen, the treachery of Object Recognition

Accompagnement des chercheurs dans l’utilisation et l’appropriation des outils numériques. Le projet n’est pas né au départ avec l’idée d’utiliser l’IA, c’est un projet de web sémantique.

Très rapidement le projet devient un moyen de reconstituer la boite d’archive enrichie des données de la recherche. Les papiers Barye est le projet pilote.

Les matériaux que l’on trouve dans PENSE sont souvent multimodaux. Sur certains projets le HTR a été utilisé, pas tellement pour la transcription, mais pour la segmentation. Parce qu’il n’y avait pas forcément suffisament de matériaux pour entrainer un modèle sur une seule main. D’autre par les chercheurs ont manifesté le besoin de prendre le temps de transcrire. L’annotation a permis de connecter des données à d’autres base de données (image as database) voir projet 19 rue Spontini, Paris l’hôtel particulier de Jacques Doucet de 1907 à 1912.

Le projet PENSE peut être vu finalement sous deux angles :

  • aspect enrichissement de la source
  • édition numérique. Le travail se retrouve finalement synthétisé sour la forme d’une édition. C’est assez difficile de trouver le format d’une édition numérique (ergonomie, niveaux de lecture, etc.) Il y a véritablement tout un travail à faire du point de vue de la restitution de la source quand on travail avec l’IA.

PerVisum est un projet qui développe l’aspect d’article visuel multi support, et qui explore les différents formats éditoriaux.