21 octobre 2024 | Université de Rouen
Marcello Vitali-Rosati ; Federico Siragusa ; Hélène Hôte ; Clara Grometto ; Edgar Lejeune ; Antoine Fauchié ; Nolwenn Pamart ; Victor Chaix
Projets de la Chaire d’excellence en édition numérique
/!\ Toujours mettre le logo de la région Normandie sur tous les supports.
Présentation
MVR vient de la philo, mais il est tombé rapidement dans le monde de l’édition (il a crée plusieurs maisons d’édition assez rapidement.) La question qui l’anime c’est le ‘sens’. De quelle manière une série d’éléments matériels (format, encodage, ergonomie, algorithme, etc.) participe du processus d’émergence du sens. Avec l’éditeur Stylo, la question de fond était de savoir ce que constitue un article savant.
À Rouen, l’édition à un rôle central depuis longtemps, ils ont été pionniers notamment avec l’édition électronique Flaubert.
MVR sera surtout à Montréal, de fait idée de constituer une équipe complémentaire. À Rouen, les projets seront plus centrés sur l’édition critique.
Question théorique de la modélisation du texte (format, chaîne éditoriales, workflow). Qu’est-ce qu’un texte aujourd’hui ? La TEI et XML pense le texte comme une donnée hiérarchique, qui ne colle pas toujours avec le raisonnement des éditeurs et des chercheurs (notamment pour la question des apparats critiques chez les hellénistes, qui ont un processus de pensé plus linéaire). Autre question, la place de l’éditeur. Les édition critiques sont portées par les chercheurs. L’éditeur est devenu commerçant et le numérique n’a pas vraiment changé la donne. Les éditions universitaires devraient en fait jouer un rôle de médiation, de négociation de l’émergence du sens (du projet d’édition), alors qu’aujourd’hui c’est le chercheur qui joue ce rôle, et ce n’est pas sa mission. L’éditeur apporte la légitimation (même si la légitimation est déjà présente par le travail du chercheur), le catalogage et référencement, et la pérennité des données. On va pouvoir se poser des questions théoriques assez vastes entre la techniques et la recherche.
Est-on capable de modéliser certains comportements de recherche ?
Le nom de la collection pour chapeauter les projets sera Arion (en référence au symbole de Manucius, éditeur Vénitien qui a été pionner dans le domaine de l’édition (“format poche”, édition des auteurs grecs, etc.)) et premier nom envisagé pour la collection.
Réflexion sur la création d’un portail pour les fabriques de l’édition. L’objectif n’est pas de créer une solution clé en main, mais de proposer des solutions, des points d’entrées pour des éditions qui partagent des caractéristiques ou des objectifs communs.
Un certain nombre de projet vont passer par ἔκδοσις, un paquet LaTeX. Robert Alessis a implémenté tout la finesse des apparats critiques, et ce paquet permet de sortir un pdf prêt à imprimer, mais aussi une sortie TEI. Les philologues ont développé une capacité de lecture particulière, qui sort parfois de la lecture linéaire.
Les projets
Panorama de quelques projets :
Sylloge parisina, edition des épigrammes de l’Anthologie palatine. Fait avec Word, mais une collègue de Marcello est en train de la passer avec Ekdosis.
Les lettres de Juliette Drouet à Victor Hugo, porté par Florence Naugrette. 14000 en ligne sur un Spip. Le code HTML stocké dans la bbd n’est pas toujours valide.
La plupart des projets auront à la fin une représentation TEI. Il faudra la diffuser. Il y a donc l’enjeu de créer un framework.
EcriSoi : dictionnaire réalisé sous Drupal, mais difficulté à faire migrer les bases de données. Idée de migrer vers du lowtech, peut être un générateur de site static avec Factoton
EcriSoi
Françoise Simonet-Tenant
Début en 2019, qui a abouti à une version en ligne sur le site de l’université de Rouen. Edition réalisée avec Drupal, mais difficulté pour mettre à jour le site et le faire évoluer. Ce site est une extension d’un dictionnaire sur l’écrit de soi, qui était édité chez Champion. Recherche aussi sur la désignation des sous-genres dans les écrits de soi. Par exemple on parle de correspondance, d’autobiographie. Autre exemple les mémoires en France, au pluriel, mais qui n’a pas forcément de traduction dans d’autres langues. Le projet de site s’est mal passé : pas les bons personnels techniques et pas suffisamment de moyens finalement. Une maquette Figma a été réalisée.
L’articulation avec le dictionnaire papier n’est pas aisée.
EcriSoi est un des projets prioritaires. Idéalement il faudrait que pour juin prochain nous puissions proposer quelque chose pour la partie dictionnaire ; un peu plus tard pour la partie édition critique.
MVR pense qu’il faut se focaliser en premier sur le dictionnaire, les repères et les thèses, puis dans un second temps Ego corpus.
Pour la partie dictionnaire, peut être adopter une solution par type yaml, la seule chose c’est de bien déterminer les types d’information à retenir pour chaque entrée du dictionnaire.
3 type de références bibliographiques :
- citations (références primaires) dans le corps du texte (normalement non citées dans les réf. bibliographiques) ;
- références de la littérature secondaire (écrits critiques) ;
- les thèses.
Pour MVR il ne faudrait pas les distinguer, il faut les traiter comme des objets semblables, au moins pour la littérature secondaire et les thèses, même si on peut pour le rendu les présenter différemment.
Pour les citations des référence primaires, c’est un travail titanesque pour les référencer. Mais ça pourrait être intéressant de les utiliser pour créer, par exemple, des points d’entrées/d’accès alternatifs.
Hélène a récupérer déjà les 30 notices en Markdown. Il faut cependant retravailler la bibliographie.
Pour la littérature secondaire et thèse on fait des notices Zotero. Pour la littérature primaire, on prévoit les deux cas, en faisant une collection à part. Par exemple, pour Aragon, ses écrits sont cités dans la bibliographie, mais ce n’est pas le cas avec tout les entrées du dictionnaire. On peut aussi penser à plusieurs niveaux de bibliographie afin de maintenir, une bibliographie synthétique, et une exhaustive. Prévoir un prototype pour février.
Pour les usages de Zotero voir le travail de Pascal Martinolli sur Youtube notamment. Pour la partie édition critique, on pourra faire travailler les auteurs directement sur Stylo, voire même utiliser l’API Stylo pour publier/modifier directement les notices.
Garzoni
François Delisle et Anna Bellavitis
[Garzoni](https://garzoni.org/
Projet initial entre 2015 et 2017 (projet ANR et fond de recherche suisse), sur les registres de la justicia Veccia, où on trouvait notamment des contrats d’apprentis, les garzoni. À l’époque une base de données PostgreSQL a été constituée. Les registres sont numérisés, disponibles avec protocole IIIF, mais non OCRisé. Aujourd’hui, problème d’hébergement et de maintenance — l’EPFL souhaiterait se désengager. Le projet est aujourd’hui terminé. Souhaite savoir si, dans le cadre de la Chaire, il serait possible de rapatrier le projet à Rouen. Première demande à Huma-num, mais refus car gestion depuis l’étranger.
En réalité, surtout un problème de sysadmin. Ce qui intéresserait surtout la Chaire, c’est de savoir comment pérenniser le travail de recherche, au delà de la plateforme actuelle.
ProKorresp
Nicolas Moron
Prokofiev part de Russie durant la révolution arguant qu’il était devenu impossible de jouer. Il va d’abord aux USA, puis il vient en France dans les années 20, Puis il repart dans les années 30 en Russie. Nicolas Moron s’intéresse plus particulièrement à l’année 1924. Dans les années 20, il est accompagné par la compagnie des Ballets russes. Durant cette période, il arrive à se faire financer, mais il est toujours son propre impresario. Sur cette période, on a 14000 lettres, dont une bonne partie est en Occident, aux USA, à Colombia. Il est tombé dans le domaine public l’année dernière et peur que la famille se réveille. Pour l’année 1924, il y a ± 570 lettres, correspondant à 931 vues. Columbia met une limite à 1000 vues, et dans tous les cas n’ira pas plus loin. Dépôt d’un projet ANR l’année prochaine pour tout numériser. L’idée c’est que le travail sur 1924 serve de bac à sable pour le projet complet à venir.
Un catalogue a été fait par N. Moron, avec uniformisation des adresses. Il y a un enjeu cartographique aussi.
Pour la transcription, utilisation de Transkribus. Idéalement, proposer une édition diplomatique. Il y a des motifs musicaux, mais ils ne sont pas nombreux et ce n’est pas l’enjeu central, la MEI semble peu adaptée pour la musique du XXe, mais pour ces quelques motifs cela pourrait passer.
Il s’agit de la correspondance active et passive, écrite en 4 langues.
Il faudrait être en mesure de publier quelque chose d’ici l’automne prochain. En plus de l’enjeu cartographique, il serait intéressant d’implanter des éléments pour l’analyse statistique.
Juliette Drouet
Florence Naugrette
22 000 lettres. Elles sont passées au neveu de Juliette Drouet, puis dans les mains de Louis Icard, qui a commencé à les vendre, d’abord par petits lots, puis la BnF en a acheté 14000.
En réalité c’est un journal qu’elle écrit à Victor Hugo. Il y a une unité de la journée dans la vision de son geste. Quand elle écrit plusieurs lettres par jour, la première commence toujours par “Bonjour”. VH lui a demandé de tenir un journal de l’exil. VH a vraisemblablement compris que c’était un corpus, comme une œuvre. En revanche elle n’a jamais voulu publié. VH lui demandait un compte rendu pour savoir ce qu’elle faisait de l’argent qu’il lui envoyait, pour rendre compte de son emploi du temps, etc.
Les premières lettres, jusqu’à octobre 35, ne sont pas datées, elles sont plus pratiques, pour se donner rendez-vous, pour se disputer, etc. Au départ, elles n’étaient pas censées être gardées. Elle a brûlé les premières lettre de Hugo, un jour où elle était fâchée.
Il y a un poème que VH a écrit et qui est une mise en vers d’une lettre qu’elle lui avait écrite la veille.
Penser à implémenter des outils statistiques.
Si on a une API, peut-être mettre en place un bot twitter ou autre…
VH lui envoie, rituellement, des lettres pour la nouvelle année et pour leur anniversaire, mais c’est plus elle qui lui répond “je vous remercie pour votre lettre…“.
Certaines lettres ont des dessins, il faudra aller récupérer les images avec IIIF.
C’est encore une travail au fil de l’eau. Il doit rester rester environ 100 lettres à transcrire, mais sinon tout est fait. En revanche toutes ne sont pas encore déposées.
NB attention aux notes de correction “e” qui peuvent signifier une correction mais aussi un “e” en exposant, comme dans XIX^e.
Les PURH
La fonction éditoriale est toujours présente, il y a toujours un besoin de médiation ou de légitimation, malgré l’idée qu’on a plus besoin d’un éditeur, “on peut vendre directement sur Amazon”. En réalité la médiation est toujours là, mais ce ne sont plus les mêmes personnes qui la font.
Les presses universitaires, en Amérique du nord surtout, essaye de se légitimer en essayant de maintenir leur business plan. En gros payer moi pour que je puisse continuer d’exister et de vous faire payer.
L’édition numérique n’est jamais prise en compte par les éditeurs, elles sont portées par les chercheurs, les laboratoires de recherche, etc. et quand les éditeurs s’en emparent c’est pour faire de l’argent. Mais sans les éditeurs le problème c’est qu’il y a une manque de légitimité, de découvrabilité, de diffusion, etc.
Un autre aspect important c’est l’arrimage entre l’édition papier et l’édition numérique pour leur complémentarité, alors qu’on les met plus souvent en concurrence.
Il existe de nombreux enjeux, légitimation, qui relie quoi, qui valide, etc. techniquement également, acquisition de compétences, pérennisation des infrastructures numériques.
En France on attendant toujours un éditeur pour l’édition numérique, et les PURH pourraient le devenir. Arion devient une table d’expérimentation, mais cela pose beaucoup de questions, comment on reçoit un projet, comment on l’évalue, par qui, comment on le déploie, etc. repenser le workflow. Mise en place d’un protocole de soumission, où les porteurs expliquent les enjeux éditoriaux et techniques… puis un comité intégrant aussi une évaluation des enjeux techniques. Les PURH devront savoir ce qu’elles vont demander, quels formats, etc.
Protocole de soumission (formulaire de soumission), d’évaluation, et de révision.
D’ici trois ans, l’idée qu’est que ce processus soit internalisé.
Idée aussi que les presses universitaires sont devenues un peu la dernière roue du carrosse. Ce sont les derniers à recevoir les manuscrits, parce que tous les éditeurs avant les ont refusés. Elles pourraient redevenir, par cet intermédiaire, des acteurs de premier ordre. Problème aussi du pilonnage, on imprime une année un ouvrage, mais on le pilonne l’année d’après.
Formation :
- éditeur de texte (pas traitement de texte)
- Git
- format de balisage (léger comme Markdown ; moyen comme LaTeX ; plus lourd comme XML)
Astrée
En 2018, Eglal Henein contacte MVR pour avoir des conseils sur son site. En fait c’est une spécialiste du roman de l’Astrée. Elle a retenu les variantes entre les différentes éditions, mais elle s’est aussi intéressée à l’indexation des personnes, etc. C’est son frère qui l’a aidée à mettre en place la plateforme, qui est à 90% du html static, juste un peu de javascript pour certains points. C’est un travail de très grande qualité, mais qui n’a jamais obtenu la reconnaissance qu’il mérite : d’autres éditions ont été réalisées, mais aucune de cette qualité.
Elle est décédée il y a quelques années, et son frère qui a 85 ans souhaite que sont travail soit pérennisé.
Chrie + E-Gesta + Master HN
Mélanie Luciano
Chrie : financement pour 5 ans, jusqu’en 2029. C’est une des premiers exercices dans les écoles rhétoriques. L’intérêt c’est de faire un discours bref et frappant lié à une personne et qui peut avoir un côté mordant ou pas.
Exemple de Digène le Cynique qui répond à Alexandre le Grand : « Ôte-toi de mon soleil ». Mais difficulté pour les identifier : elles ont différentes formes, une phrase ou un acte, on a aussi des difficultés de compréhension avec des jeux de mots. Il y a des récupération et des réutilisations qu’on retrouve dans des manuels plus tardifs même avec des listes de chries, avec parfois des erreurs où elles peuvent être attribuées à d’autres personnes. C’est un point important car les chries sont toujours incarnées, à la différence des sentences. Autre question : pourquoi la chrie n’est pas passée dans notre vocabulaire, alors que c’est le cas de sentence ?
Intérêt de réaliser une base de données.
Informations retenues pour définir une chrie :
- texte
- personne qui porte la chrie
- personne impliquée, il peut y avoir des chries liées à une autre, comme une réponse par exemple
- type (acte ou parole)
- forme (prose ou vers)
- appartenance philosophique
- genre de l’œuvre (compilation, etc.)
- provenance géographique des personnes qui établissent les chries
- modalité d’insertion
Ce type de modélisation est assez proche que ce que Marcello a utilisé pour l’Anthologie Palatine.
La base de données peut être réalisée en low-tech, avec une bdd tabulaire, type csv, peut être avec Baserow. Idée de travailler par incrementation réaliser déjà un prototype avec une 20aine de chries bien faites.
Livre de Marcello et séance LaTeX
Workflow :
- écriture en markdown enrichi avec des commandes LaTeX ;
- make file qui opère une série de transformations => md to tex, puis tex to pdf
Sylloge Parisina
Mathilde Verstraete
Travail sur l’Anthologie grecque, et parmi les sources il y a des épigrammes. Une épigrammes est une inscription. Les plus anciennes sont surtout des ex-voto, puis elles se versifient, on trouve alors des épigrammes sur des tombes, des épigrammes amoureux. Une sylloge est un recueil. La Sylloge Parisina est un des recueils d’épigrammes les plus importants.
Aujourd’hui la transcription est réalisée avec Word, mais Mathilde Verstraete est en train de la passer en Ekdosis. Ekdosis permet de passer vers la TEI. Il y a 5 niveaux d’apparat critique. L’objectif est de produire une édition papier et une édition web. Un échantillon est disponible sur Gitlab (baby_parisina), et une XSLT existe, repris d’un projet sanscrit, mais tout n’est pas parfait.
Pour l’évaluation de la version papier, elle peut être effectuée à partir du pdf qui existe déjà.
Pour l’édition électronique, 3 itérations pourraient être envisagées :
- édition électronique soit statique, soit avec BaseX ;
- alignement avec les photos, mais nécessite de demander à la BnF ;
- articulation avec l’Anthologie palatine avec les technologies du web sémantique, afin de récupérer des informations et produire une édition augmentée.
Projets Anthologie et Saint-Gelais
Sandra Provini
Deux projets d’édition.
Le premier concerne les Héroïdes de Saint-Gelais, avec une perspective philologique, donc avec des problématiques liées aux supports qui nous ont transmis ces textes, mais il faut aussi prendre en compte les évolutions des supports dans le temps, qui impliquent une modification de la compréhension. Elle doit aussi prendre en compte les illustrations, dont certaines sont accessibles depuis Gallica, mais certaines sont aux USA.
Un lien est également à prévoir avec d’autres projets, notamment, l’édition de l’Éneide de Saint-Gelais par Lucien Dugaz à l’École des chartes pdf, notamment pour une réflexion autour de la réalisation d’un lexique. Il y a 16 témoins, donc c’est assez important. Il faudra pouvoir jouer avec l’affichage entre les différentes traductions, les images , etc. prévoir quelque chose proche de Van Gogh Letters ?
L’autre projet, mais qui est lié concerne l’Anthologie des Héroïdes (texte inspirés par les textes de Saint-Gelais). Il existe déjà 8 fichiers XML.
Workflow un peu inverse à celui de la Sylloge, on part de TEI pour aller vers Ekdosis puis vers une édition critique papier.
Il faudrait que ce soit fini en 2026, dans tous les cas ce travail ne pourra pas démarrer du côté de SP d’ici mars 2025, mais elle va nous fournir des premiers documents XML provisoires pour nous faire la main.
Flaubert
Le financement de la refonte du site Flaubert s’est terminé. Certaines parties ont été repensées, mais FV ne sais pas vraiment l’utiliser (ils ont retrouvé des manuscrits de Madame Bovary, 3 feuillets offerts à Victor Hugo qui étaient passés en mains privées). D’autres parties ont été développées sans concertation avec l’équipe encadrante mais qui ne fonctionnent pas bien, comme le moteur de recherche. Volonté également de faire une bibliographie, mais problème de travail en groupe notamment si deux personnes travaillent sur une même entrée.
Le plus gros problème reste le moteur de recherche. Le moteur permet de recherche si l’intégralité du site, mais comme classer les résultats ? Ajout de filtres, pour ne recherche que sur une partie du site. Mais quand bien même, si on cherche un mot et qu’on clique sur un résultat, le moteur renvoie juste sur une page mais on ne sait pas où se trouve le résultat, il n’y a pas de surlignage.
Le nouveau site est réalisé avec Django, certainement connecté à une base ProsgreSQL. C’est un travail énorme qui a été fait 150k€ pour le site, plus 30k€ pour les audits et maquettes, le tout avec un coût annuel de 5k€ ; L’espace transcription inclus une sorte de balisage d’information sémantique (ajouts, suppression, etc.) mais la pérennité n’est pas assurée, d’ici 5 ans peut être il faudra demander une nouvelle grosse enveloppe pour le maintenir.
De notre côté, on pourrait regarder le problème du moteur de recherche, mais ce n’est pas une solution à long terme. En revanche projet d’édition de l’Éducation sentimentale pour une durée de 10 ans, s’il faut demander de l’argent dans quelques années il faut une vitrine afin de montrer quelque chose. L’Éducation sentimentale pourrait être cette vitrine. Idéalement il faudrait le faire en TEI et voir comment l’intégrer dans le site actuel, ce qui permettrait de faire un état des lieux et un prototype.
Autre édition possible, Par les champs et par les grèves, un voyage en Bretagne rédigé par Flaubert et Maxime Du Camp, où chacun rédige en alternant chaque jour le voyage, l’un les jours pairs et l’autre les jours impairs. L’édition en TEI semble aussi privilégiée.
Prévoir deux sorties pour chaque texte, une sortie diplomatique et l’autre pour la partie œuvre, où l’on n’affiche pas tout.
Racine
Tony Gheeraert ; Victoire Malenfer
Propose une première édition de Racine Correcte. G. Forrestier dans la Pléiade a opéré des choix qui aujourd’hui semblent discutable. Proposer une semi-diplomatique, y compris les variantes, et en prenant en compte les ponctuations, qui est très importante dans l’œuvre de Racine, mais qui n’a jamais été véritablement respectée. Proposer un édition électronique qui permet de visualiser les variantes, etc. Mais produire aussi une édition papier. Pour le moment début du travail avec Ekdosis, mais ne faudrait-il pas plutôt travailler avec TEI. L’avantage d’Ekdosis, c’est que TG est autonome et peut commencer avec travailler maintenant, en utilisant le module conceptuel proposé par Ekdosis. L’utilisation de la TEI permettra une édition plus riche, mais nécessite au préalable l’élaboration d’un modèle.
On peut toutefois utiliser Ekdosis pour prototyper rapidement regarder ce qui est possible, ce qui manque, etc.
Fairfax
Claire Gheeraer ; Benoit Roux Éditer les mémoires de Fairfax. Ce document circule d’abord sous la forme de manuscrit et est publié à la fin du 17e par un cousin. Aujoud’hui Claire à accès à 8 versions, mais pour le moment édition du manuscrit autographe. Ce n’est peut être pas le seul mais celui-ci semble authentifié. Volonté d’éditer le texte en affichant les différences avec les autres versions.
Édition envisagée :
- TEI avec MaX
- proposer une vue synoptique avec les différentes vues du texte (modernisée, etc.)
- propose aussi une traduction
Il va y avoir deux éditions, celle du manuscrit et celle de l’édition imprimée, qu’il faudrait pouvoir comparer car certains passages sont absents ou réorganiser, peut être penser un collation par section ? Mais en même temps nécessité de traiter les variantes. Voir peut être la méthode parallel segmentation. Prévoir aussi l’alignement avec les données du web sémantique.
Début de la transcription vers le 15 janvier 2025, pour une édition 2 ans plus tard. Prévoir une réunion nécessaire fin janvier début février, pour avoir déjà un peu de matériel.
Port royal
Anne claire Volongo
projet d’édition du journal de Port Royal, 2500 pages, intérêt pour les technologies HTR, tentative d’abord avec Transkribus, puis avec eScriptorium. Mais les résultats ne semblent pas concluant pour le moment. L’entraînement avec Transkribus n’a pas donné de bons résultats. En revanche l’outil de transcription proposé par eScriptorium est agréable à utiliser.
D’ici Noël réévaluer les méthodes de transcription automatique. Selon Transkribus, il pourrait y avoir un problème avec la qualité des clichés.
Une des tâches à faire serait une conversion page to tei, afin de faire l’édition électronique.
Une fois la transcription acquise, il faudrait au moins un an pour l’annoter par A-C V. S’il fallait transcrire manuellement, il faut prévoir 5-6 mois si possible à plusieurs.
Outils
- pour les messages rapides, privilégier mattermost
- pour les visio : https://rendez-vous.renater.fr/CEEN
Gestion de projets
Des réunions hebdomadaires sont prévues tous les mercredis à 14h30 jusqu’à Noël. Ces réunions auront un gabarit fixe qui forme l’ordre du jour, qui correspondra au projet. Première réunion le 6 novembre au matin.
Priorités
- Juliette Drouet
- EcriSoi
- Sylloge Parisina : surtout lié au framework de visualisation
- Astrée (réunion à prévoir avant Noël)
État de l’art des méthodes de publication XML :
SynospX
Max (voir si on peut avoir accès au code de Amboise et e-Cicero)
teiPublisher
factoton
voir aussi framework utilisé par Susan Schreibman
voir aussi sur le site de la TEI la liste des solutions de publication
également le corpus medicorum greacorum/latinorum
etc.
Explorer la doc qui liste beaucoup d’outils : https://github.com/JuliaBoileau/EkdosistoHTML
Pour la question des variantes, évaluer les solutions disponibles :
- versioning machine
- tei publisher ?