Module de Gestion de Documents Composants additionnels

Introduction

L'outil d'indexation intégré nécessite l'installation préalable d'utilitaires sur le serveur :

  • catdoc permet d'extraire le contenu des documents MS Word
  • catppt permet d'extraire le contenu des documents MS Powerpoint
  • xls2csv permet d'extraire le contenu des documents MS Excel
  • pdftotext permet d'extraire le contenu des documents Adobe PDF
  • html2text permet d'extraire le contenu des documents HTML
  • pdfinfo permet d'extraire les métadonnées des documents Adobe PDF
  • jhead permet d'extraire les métadonnées des documents JPG
  • hachoir permet d'extraire les métadonnées de très nombreux formats de document ( cf http://www.hachoir.org )

Installation des paquets standards

L'installation sous Debian Etch de ces outils est plutôt aisée

apt-get install catdoc xpdf-utils unrtf jhead html2text

Installation de "hachoir" avec Debian Etch

L'installation de hachoir est un peu plus délicate car hachoir n'est pas présent dans Etch.

Il est nécessaire d'ajouter les depôts de Lenny (testing) en affectant des priorités aux paquets pour éviter mettre à jour le serveur en Lenny.

Pour effectuer cette opération, éditez le fichier source d'apt :

nano /etc/apt/sources.list
Puis ajoutez les lignes suivantes :
## lenny
deb http://ftp.fr.debian.org/debian/ lenny main contrib non-free
deb-src http://ftp.fr.debian.org/debian/ lenny main contrib non-free
## security
deb http://security.debian.org/ lenny/updates main contrib non-free
deb-src http://security.debian.org/ lenny/updates main contrib non-free
Et surtout, n'oubliez d'indiquer vos préférences sur les paquets
nano /etc/apt/preferences
Copiez/collez le contenu suivant qui permettra de n'installer/mettre à jour que les paquets n'existant pas sur etch :
Package: *
Pin: release o=Debian,a=stable,l=Debian-Security
Pin-Priority: 990

Package: *
Pin: release v=4.0*,o=Debian,a=stable,l=Debian
Pin-Priority: 989

Package: *
Pin: release o=Debian,a=testing,l=Debian-Security
Pin-Priority: 99

Package: *
Pin: release o=Debian,a=testing,l=Debian
Pin-Priority: 98
Il est ensuite nécessaire d'augmenter la taille du cache d'apt et de mettre à jour le liste des paquets :
echo 'APT::Cache-Limit 20000000;' >> /etc/apt/apt.conf.d/00configperso
apt-get update
Enfin, vous pouvez installer python-profiler et hachoir
apt-get install python-profiler python-hachoir-metadata

Installation de "hachoir" avec Ubuntu Hardy ou Intrepid

Il suffit d'installer les paquets présents sur les dépôts officiels :
apt-get install python-profiler python-hachoir-metadata

Also available in: HTML TXT