Accéder au contenu.
Menu Sympa

archives-fr - RE: [archives-fr] archiver un site intranet wordpress

Objet : Forum de discussion de l'Association des archivistes français

Archives de la liste

RE: [archives-fr] archiver un site intranet wordpress


Chronologique Discussions  
  • From: VIGNAUD Louis <>
  • To: "REY, Coraline" <>
  • Cc: "" <>
  • Subject: RE: [archives-fr] archiver un site intranet wordpress
  • Date: Fri, 7 Jul 2023 10:50:24 +0000
  • Accept-language: fr-FR, en-US

Bonjour,

 

Adhérent à l’AAF, j’ai récemment eu l’occasion de répondre à une question similaire dans un cadre professionnel (SIAF). Voici quelques éléments qui pourraient vous aider.

 

D’un point de vue strictement technique, il n’y a généralement pas de différence entre un site Internet et un site Intranet. Les deux objets reposent sur des organisations et technologies similaires. La différence réside dans le périmètre d’exposition réseau (privé dans le cas d’un intranet ou public dans le cas d’un site web). Dès lors, la littérature relative au traitement d’un site web sera généralement applicable à votre cas. De même, les principes seront globalement identiques d’un produit à l’autre : Wordpress, Spip, Drupal, etc.

 

Dans la mesure où vous disposez d’un accès administrateur à Wordpress, vous pourrez utiliser les fonctionnalités d’export proposées nativement par le CMS, ce qui facilitera grandement la tâche. Eventuellement, cela vous permettra d’installer des modules complémentaires Wordpress, si certains proposaient des fonctionnalités intéressantes d’export : https://fr.wordpress.org/plugins/

 

Ci-après, vous trouverez quelques éléments génériques complémentaires. La méthode que vous choisirez dépendra également de la teneur de l’objet à archiver : le site contient-il principalement des contenus textuels/images fixes, plutôt des médias (audio, vidéo) ou un grand nombre de documents à télécharger (bureautique jointe, etc.) ?

 

Le fichier XML exporté depuis l’interface d’administration de Wordpress intégre bien une liaison entre chaque article (page) et les médias qu’il contient. Reste à vérifier si la relation est établie à partir du nom du fichier média (ex : media/bleu.jpg) ou via son identifiant unique en base-de-données (ex : adfsf49rdggda). Dans un premier temps, je vous conseille d’effectuer cet export et d’observer le fichier XML obtenu. De mémoire, il enchaîne les pages dans l’ordre de leur création. Chaque page du site y est restituée comme un ensemble de balises XML (titre, corps du texte, date de modification, média, rédacteur, etc.).

 

La 4e solution proposée ci-après et peu adaptée à votre besoin… mais s’avère utile pour l’archivage des vieux sites conçus sous Flash.

 

N'hésitez pas à me contacter si besoin.

 

 

Wordpress, comme tous les CMS (« système de gestion de contenu ») est composé des éléments suivants :

1.       Une base de données (MariaBD, MySQL, Postgresql, etc.) stockant la configuration du site et les contenus textuels publiés ou non (articles)

2.       Un dossier regroupant les média (photos, vidéos, audio, pdf, etc.) sous forme de fichiers (.avi, .jpeg, .mp3, etc.)

3.       Un ensemble de scripts (PHP, _javascript_, etc.) générant des pages HTML pour présenter ces contenus assemblés à l’utilisateur.

 

Cette architecture constitue ce que l’on nomme un site web « dynamique » : les pages sont produites à la volée lorsque un internautes les consulte dans un navigateur web. En réalité, les pages html n’existent pas tant qu’elles ne sont pas demandées.

 

Tenant compte de cette architecture, voici 4 scenario possible d’archivage, en fonction de votre contexte et de vos moyens. Notez que vous pouvez panacher ces solutions. Il serait prudent de vous appuyer sur la DSI pour réaliser les opérations les plus techniques.

 

1/ WordPress dispose d’une fonctionnalité d’export qui permet d’enregistrer l’ensemble des contenus du site. Celle-ci est conçue pour sauvegarder le site ou le déplacer vers un nouvel hébergeur. Il est possible d’exporter uniquement les articles (contenu textuel) mais aussi les médias associés (pdf, audio, vidéo, images, etc.). L’export prend la forme d’un gros fichier XML contenant l’ensemble des articles, accompagné d’un zip contenant les medias. Notez toutefois que le fichier XML est conçu pour importer automatiquement le contenu dans un autre site Wordpress et qu’il n’est pas très facile à consulter. Pour procéder à l’export, il faut se connecter à l’interface d’administration (« back-office ») du CMS Wordpress puis se rendre dans le menu « export ». Il suffit de cliquer sur un bouton et d’attendre quelques minutes pour récupérer l’export. => Ce scenario automatisé : il demande peu de travail. Il est calibré pour la conservation et la réutilisation mais rend la consultation difficile. Vous devrez prendre attache avec la DSI ou l’administrateur des sites web (pour obtenir les identifiants de connexion à l’interface d’administration Wordpress des sites).

 

2/ La seconde solution consiste à réaliser une impression PDF de chaque article, à partir d’un navigateur Web. Elle peut s’avérer fastidieuse lorsque le site comprend de nombreux articles. Par ailleurs, cette méthode ne permet pas de récupérer l’audiovisuel ou des photos haute-définition. Cette opération est entièrement manuelle. => Ce scenario est manuel : il demande du temps. Il est calibré pour la consultation. En terme de conservation, c’est un compromis. On peut éventuellement récupérer les « médias riches » à partir du 1er scenario.

 

3/ La troisième solution consiste à utiliser un logiciel « aspirateur de sites web », par exemple HTTRACK (https://www.httrack.com/page/1/fr/index.html). Attention à bien régler l’aspiration, pour la limiter aux seules pages du blog. Ce type de logiciel (« robot crawler » également appelé « araignée ») parcoure toutes les pages du site et restitue un site web dit « statique », c’est-à-dire composé de simples pages HTML (+média). L’aspiration d’un petit blog devrait durer moins de 10 minutes => Ce scenario automatisé : il requière une charge de prise en main du logiciel d’aspiration mais permet une économie d’échelle sur un nombre importants de sites. C’est un bon compromis, qui restitue une archive sous forme de site web (html + média). Ce scenario est une déclinaison artisanale de l’opération technique réalisée par la BnF lorsqu’elle décide d’archiver un site web : https://www.bnf.fr/fr/archives-de-linternet

 

4/ La quatrième solution consiste à réaliser une petite vidéo de démo à partir d’un logiciel de capture d’écran comme Active Presenter (https://atomisystems.com/download/). Il s’agit de parcourir le blog et de consulter chaque page, en faisant défiler l’écran pour exposer tout le contenu. Il en résultera un export vidéo (.avi, etc.). Je vous déconseille cette 4e solution mais elle peut s’avérer utile dans certains cas.

 

Finalement, je vous conseillerais une démarche mixte, cumulant 2 solutions : scenario (1+2) ou scenario (1+3).

 

 

Cordialement,

 

Louis Vignaud

Expert chargé de la politique nationale sur les métadonnées/référentiels archivistiques

Bureau de l'expertise numérique et de la conservation durable

Sous-direction de la collecte, de la conservation et de l'archivage électronique

Service interministériel des Archives de France

 

Adresse postale : 182, rue Saint-Honoré - 75001 Paris

Adresse des bureaux : 11, rue des Quatre-Fils - 75003 Paris

 

Bureau 305

+33 (0) 1 40 15 76 53

 

 

 

 

De : <> De la part de "REY, Coraline"
Envoyé : mercredi 28 juin 2023 11:06
À :
Objet : [archives-fr] archiver un site intranet wordpress

 

Bonjour,

 

J'ai été sollicité pour archiver un site Intranet (et pas Internet).

Et si je trouve quelques renseignements concernant l'archivage des sites Internet, je ne trouve pas grand chose sur les sites Intranet.

 

Le site a été conçu avec wordpress.

Nous y avons accès en tant qu'administrateur.

La majorité des documents sont accessibles via la "bibliothèque" du site.

 

Est-ce que quelqu'un pourrait m'éclairer sur la marche à suivre ? Me conseiller des outils pour l'archivage ? M'indiquer si le lien entre les articles et les documents sera bien conservé au moment de l'archivage ?

 

Je vous remercie pour toute information. Cordialement,

 

         

Logos cliquables 

Coraline REY

Référente archives numériques

Service du conseil, de la collecte et du classement

Direction de la Culture, des Sports et de la Jeunesse

La Loubière - bâtiment B

Boulevard Ferdinand de Lesseps 83200 TOULON

Adresse postale : 390 avenue des Lices, CS 41303, 83076 TOULON Cedex

Téléphone : 06 17 23 07 76

 

 


________________________________-
Liste électronique de l'Association des archivistes français .
Pour vous désabonner, envoyez un email à .


Merci de nous aider à préserver l'environnement en n'imprimant ce courriel et les documents joints que si nécessaire.


  • RE: [archives-fr] archiver un site intranet wordpress, VIGNAUD Louis, 07/07/2023

Archives gérées par MHonArc 2.6.19+.

Haut de le page