DOM en PHP et Java

Tout d'abord, la classe DOMDocument possède des méthodes pour valider le document XML, que ce soit avec une DTD (validate()), une schéma XML-Schema (schemaValidate()) ou un schéma Relax NG (relaxNGValidate()). Ces validations ne se font qu'après le chargement du document. Pour faire une validation par DTD durant le chargement, il faut positionner l'attribut validateOnParse à "true" (il est à "false" par défaut). La validation est indispensable pour pouvoir utiliser la méthode getElementById. Cette dernière fonction peut être utilisée sur un document construit par le programme. Seulement, il faut être attentif à préciser les attributs identifiants, en utilisant la méthode setIdAttribute.

Dans cette même classe, se trouvent aussi des méthodes permettant le chargement et l'enregistrement d'un document XML :

"saveXML" peut prendre en paramètre un noeud du document. Ceci permet de ne visualiser en XML que le sous-arbre dont ce noeud est racine. De plus, il est possible de demander que le document XML généré soit formaté en positionnant un indicateur formatOutput à "true" ou "false". Dans le même ordre d'idée, avant le chargement du document, il est possible d'indiquer la suppression ou non des noeuds comportant uniquement des caractères de séparation (sur l'attribut preserveWhiteSpace, positionné à "true" par défaut). Positionner ce dernier à "false" permet d'optimiser de manière notable la parcours de l'arbre DOM.

Pour terminer avec DOMDocument, cette classe dispose aussi d'une méthode xinclude() pour traiter (ou non) les éléments/attributs du dialecte XInclude.

Dans la classe DOMNode, les constantes décrivant le type des noeuds sont de la forme "XML_xxx" où "xxx" est la constante du standard.

Afin de faciliter l'écriture de parcours de documents mémorisés en DOM, PHP propose une classe fort utile [1] : DOMXPath. Construite sur un document en DOM, elle permet d'exécuter des requêtes XPath 1.0. Cette requête est absolue (sur tout le document) ou relative (sur un noeud donné en paramètre). La méthode query($xpath) retourne une DOMNodeList, résultat de la requête.

Pour terminer, PHP propose aussi une classe permettant de faire des traitements avec XSL : XSLTProcessor. Cette classe doit être associée à une feuille de style XSL. Pour cela, il suffit de charger cette feuille de style (en XML) avec DOM, de la positionner dans le moteurs XSLT (importStylesheet($xsl_dom)) puis de l'appliquer sur un document. Selon le type de transformation voulu, la méthode diffère. Ainsi, à partir d'un document en DOM, sera généré :

1.2 Un exemple de traitement avec DOM en PHP

Sur le document "fil-rouge", l'objectif de ce premier exemple est simplement de compter le nombre d'ouvrages édités depuis 1960. Nous allons présenter plusieurs solutions équivalentes du point de vue du résultat.

1.2.1 Version 1

1.2.2 Version 2

Cette seconde version ne diffère que de très peu de la version précédente. Elle montre qu'il est possible d'exploiter la structure du document pour limiter le parcours de l'arbre. Cette version n'est qu'un premier pas. Il est évidemment possible de faire beaucoup mieux pour optimiser le parcours.

1.2.3 Version 3

Évidemment, il est possible de procéder différemment est utilisant la méthode de la classe Document : "getElementsByTagName()" qui va retrouver tous les éléments "livre" [2]. Ensuite, il suffit de parcourir les éléments trouvés pour rechercher ceux ayant une année satisfaisante.

1.2.4 Version 4

Pour terminer, plutôt que de construire un code PHP lourd, pourquoi ne pas utiliser XPath ? Dans ce dialecte, notre recherche s'écrit alors simplement : "/auteur/livre[@annee>1960]". Il suffit ensuite de compter le nombre d'éléments obtenus.

1.3 Un autre exemple de traitement avec DOM en PHP

1.3.1 Version 1

1.3.2 Version 2

Cependant, assez souvent (dans les cas simples), il n'est pas nécessaire de construire l'arbre DOM résultat. Si ce résultat n'est pas retravaillé par la suite, il suffit de construire la chaîne de caractères formant le XML résultat. Le code ci-dessous est conçu avec cette hypothèse.

2 DOM et Java

2.1 Respect de DOM et spécificités

Attention, Java n'est pas capable de gérer l'accès aux attributs d'une classe de manière aussi souple qu'IDL. C'est le cas de la propriété "en lecture seule" par exemple. Aussi, les attributs des classes DOM ne sont accessibles en Java que par l'intermédiaire de méthodes d'accès : "get/set" (accès libre) ou "get" (accès en lecture seule). Par exemple, l'attribut DOM de la classe Node en lecture seule "nodeType" n'est accessible qu'uniquement par la méthode Java getNodeType(). Au contraire, l'attribut en accès libre "nodeValue" est accessible par les méthodes getNodeValue() et setNodeValue(). Une implémentation doit donc être choisie (Xerces-J, JAXP...), mais une implémentation par défaut est disponible (issue de JAXP) : javax.xml.parsers.

Contrairement à PHP, les procédures de chargement et de sauvegarde de documents XML ne sont totalement encapsulées en Java. Nous allons regarder plus en détail ces deux phases.

Charger un document XML en Java

Le principe de chargement d'un document vers une structure DOM en Java est illustrée par la figure ci-dessous. IL convient d'abord d'accéder au DocumentBuilderFactory. Ce dernier fournit un DocumentBuilder qui sera chargé de la construction effective et de produire un "DOMImplementation" pour créer de nouveaux documents.

Ainsi, un code classique en Java devrait contenir la partie de code ci-dessous pour récupérer (charger) ou créer des document XML par DOM.

Le "DocumentBuilderFactory" est en mesure de proposer un "DocumentBuilder" ayant certaines propriétés comme la validation du document (DTD ou XML-Schema), la gestion des éléments/attributs XInclude, etc. Pour cela, il faut utiliser les méthodes suivantes :

Enregistrer un document XML en Java

Cette solution, bien que classique, est maintenant désuète ("Deprecated"). En utilisant l'API de transformation de JAXP, il est possible de détourner la classe permettant de faire des transformations XSL (Transformer). En effet, la transformation par défaut est l'identité (on laisse tel que c'est). Ensuite, il suffit d'indiquer le format de sortie (OutputKeys), et le tour est joué. Ceci donne alors l'exemple ci-dessous.

Bien évidemment, comme en PHP, la "sérialisation" peut être faite simplement en écrivant le XML dans un fichier texte lors d'un parcours de l'arbre DOM.

2.2 Un exemple de traitement avec DOM en Java

2.3 Un autre exemple de traitement avec DOM en Java

3 Conclusion

Exercices et tests

Les exercices présentés ici se baseront, pour la plupart, sur un même contexte. La DTD edt.dtd est un modèle pour des documents qui mémorisent l'emploi du temps d'un groupe d'étudiants au cours d'une année universitaire. Un exemple est présenté dans edt1213.xml. Cet exemple est proposé pour apprendre à manipuler DOM. Il n'est en rien réaliste et doit être pris tel que, comme un simple contexte d'exercice.

Exercice 1

En utilisant en PHP/DOM (sans XPath) pour le traitement, donner le nombre de cours (les créneaux sans distinction de type) pour une matière pour la semaine donnée.

Remarque : la semaine et la matière attendues sont données en GET (il n'est pas nécessaire de contrôler la présence et la validité).

Exercice 2

En utilisant en PHP/DOM (sans XPath) pour le traitement, donner l'emploi du temps pour une matière pour la semaine donnée selon la DTD semaine1.dtd. Le résultat, produit par des "echo", devra afficher tous les jours présents dans l'emploi du temps.

Remarques :

Le type d'enseignement, dans le document d'origine, est facultatif (Cf. la DTD). Son absence indique une conférence qui doit apparaître en tant que telle dans le résultat.
La semaine et la matière attendues sont données en GET (il n'est pas nécessaire de contrôler la présence et la validité).

Par exemple, si l'on veut l'emploi du temps en semaine 12 pour "Projet XML", il faut entrer l'URL "http://.../semaine_dom.php?no=s12&matiere=Projet%20XML". Cela doit produire le document ci-dessous.

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE emploi-du-temps SYSTEM "../xml/semaine1.dtd">
<emploi-du-temps semaine='s12' matière='Projet XML'>
  <jour nom='lu' date='19/03/2007'>
  </jour>
  <jour nom='me' date='21/03/2007'>
    <enseignement code-plage='c3' type='TP'/>
  </jour>
  <jour nom='je' date='22/03/2007'>
    <enseignement code-plage='c2' type='TP'/>
    <enseignement code-plage='c3' type='TP'/>
  </jour>
  <jour nom='ve' date='23/03/2007'>
  </jour>
</emploi-du-temps>

Modifier le code PHP de l'exercice précédent pour que le résultat soit construit en DOM avant d'être affiché.

Plan de la section :