Document structuré et métadonnées

Introduction au langage XML

Panorama des dialectes XML

Les dialectes XML

XML est aujourd’hui un langage qui connaît une grande plage d’utilisation. On le retrouve partout et beaucoup d’« applications » XML sont devenus des standards.

Voici un panorama des principaux dialectes et applications XML.

Publication Web

XHTML – eXtensible HyperText Markup Language

Pour la rédaction de pages web. XHTML repose sur la syntaxe XML.

  • HTML : application SGML
  • XHTML : application XML

https://www.w3.org/TR/xhtml1/

XHTML


<html xmlns="http://www.w3.org/1999/xhtml">
  <head>
    
  </head>
  <body>
    

Théorème de Thalès

</body> </html>

MathML – Mathematical Markup Language

Recommandation du W3C pour la description de notations mathématiques.

Pris en charge par les navigateurs web.

https://www.w3.org/Math/

MathML

AD AB = AE AC = DE BC



  
    
      AD
      AB
    
    =
    
      AE
      AC
    
    =
    
      DE
      BC
    
    



SVG – Scalable Vector Graphics

Développé par la W3C pour la description d’objets vectoriels.

Utilisé par de nombreux logiciels

Pris en charge par les navigateurs web

https://www.w3.org/TR/SVG2/

SVG

A D E B C



  
  
  A
  D
  E
  B
  C



XForms – Formulaires web

Dialecte XML pour la création de formulaires et d’applications web. C'est une spécification du W3C.

Modèle MVC, reposant sur une distinction entre le fond et la forme, en opérant une séparation entre les données et l’interface.

Typage (fort) des données.

Non pris en charge par les navigateurs, nécessite un client.

https://www.w3.org/TR/xforms11/

XForms


<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="xsltforms/xsltforms.xsl" type="text/xsl"?>
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:xf="http://www.w3.org/2002/xforms">
  <head>
    <title>Hello World app with XForms</title>
    
      
        
          
        
      
    
  </head>
  <body>
    
      Votre nom ici :
    
    <xf:output value="concat('Hello ', input)"/>
  </body>
</html>


Traitements de Texte

Office Open XML et OpenDocument

Office Open XML : .docx, .xlsx, .pptx

OpenDocument : .odt, .ods, .odp, .odg, .odc, .odf, .odb, .odi, .odm

Exemple



  
    Théorème de Thalèse
    
      
        
        
        
      
    
  



Formats de métadonnées

RDF – Resource Description Framework

Modèle de données pour la description de ressources sur le web

Recommandation du W3C

Représentation de graphes RDF sous la forme de triplets : sujet – prédicat – objet

Une syntaxe XML

Utilisation de vocabulaires pour le web sémantique (Dublin Core, FOAF, etc.)

https://www.w3.org/RDF/

RDF


<?xml version="1.0" encoding="UTF-8"?>

  
    J Morvan
    Document structuré et métadonnées
    Introduction aux langages et technologies XML.
    2021-10-28
  



MARC in XML

Syntaxe XML du format d’échange de données bibliographiques informatisées MARC (MAchine-Readable Cataloging). Chaque champ et sous-champ devient un élément ou un sous-élément identifié par des attributs représentant les étiquettes et les indicateurs.

http://www.loc.gov/standards/marcxml/

MARC in XML



  
  00001xml a2200123 a 4500
  
    Zola, Émile.
    1840-1902
  
  
    Germinal
  
  
    Paris :
    Charpentier
    1885
  



MODS – Metadata Object Description Schema

Autre format d’échange de données bibliographique

Pour la description de tous types de documents, sur tous supports

Peut être utilisé comme format intermédiaire : conversion de données MARC et non MARC

http://www.loc.gov/standards/mods/

MODS


<?xml-model href="http://www.loc.gov/standards/mods/v3/mods-3-7.xsd"?>

  
    Germinal
  
  
    Zola, Émile.
  
  text
  bibliography
  
    
      Paris
    
    Charpentier
    1885
  
  
    fra
  



EAD – Encoded Archival Description

Standard international pour la description d’instruments de recherche archivistiques

Expression de la norme archivistique ISAD G

<eadheader/> pour la description des métadonnées

https://www.loc.gov/ead/

EAD



  z1j_999_1010
  
    
      Greffiers des bâtiments (1776)
      Inventaire analytique des articles Z/1j/999 à Z/1j/1010
      établi par JHB, LL, PC sous la direction de RC, et al.
    
    
      Première édition électronique
    
    
      Archives nationales de France
      
Pierrefitte-sur-Seine
2018
Cet instrument de recherche a été rédigé avec un logiciel de traitement de texte. Il est en français. Conforme à la norme ISAD(G) et aux règles d’application de la DTD EAD (version 2002) aux Archives nationales, il a reçu le visa du Service interministériel des Archives de France le .....

Édition de documents

TEI – Text Encoding Initiative

Le standard pour l’édition électronique de documents

Poughkeepsie, 13 novembre 1987 – avant le W3C et HTML – mettre en place des recommandations pour l’encodage des textes

La TEI s’est d’abord appuyée sur SGML avant de suivre de près le développement de XML et de l’adopter

Principe des Guidelines (recommandations) pour encoder tous types de textes

Communauté d’utilisateurs importante

https://tei-c.org/

TEI



  
    
      
        
          2745. Dufort à Condorcet, après le 19 juillet 1790,
          Paris, Bibliothèque de l’Institut de France, Ms 865, f. 406.
        
        
          Encodée en XML/TEI par
          JM
        
      
      
        

no publication statement available

Paris Bibliothèque de l’Institut de France Ms 865, f. 406. IDC 2745
Dufort Condorcet

revue_NR (d’après convention de 2019)

<body>

M Dufort est venu pour avoir l’honneur de voir Monsieur de Condorcet et le remercier de l’écolière qu’il a eu la bonté de lui procurer.

Dufort
Rue Percée et André des Arts, N.°6
Inscription allographe
</body>

MEI – Music Encoding Initiative

Projet open source pour l’encodage de documents musicaux

Logique calquée en partie sur la TEI

https://music-encoding.org/

MEI



  
  
    <body>
      
        
          
            
              
            
          
          
</body>