Module de Gestion de Documents Composants additionnels¶
Introduction¶
L'outil d'indexation intégré nécessite l'installation préalable d'utilitaires sur le serveur :
- catdoc permet d'extraire le contenu des documents MS Word
- catppt permet d'extraire le contenu des documents MS Powerpoint
- xls2csv permet d'extraire le contenu des documents MS Excel
- pdftotext permet d'extraire le contenu des documents Adobe PDF
- html2text permet d'extraire le contenu des documents HTML
- pdfinfo permet d'extraire les métadonnées des documents Adobe PDF
- jhead permet d'extraire les métadonnées des documents JPG
- hachoir permet d'extraire les métadonnées de très nombreux formats de document ( cf http://www.hachoir.org )
Installation des paquets standards¶
L'installation sous Debian Etch de ces outils est plutôt aisée
apt-get install catdoc xpdf-utils unrtf jhead html2text
Installation de "hachoir" avec Debian Etch¶
L'installation de hachoir est un peu plus délicate car hachoir n'est pas présent dans Etch.
Il est nécessaire d'ajouter les depôts de Lenny (testing) en affectant des priorités aux paquets pour éviter mettre à jour le serveur en Lenny.
Pour effectuer cette opération, éditez le fichier source d'apt :
nano /etc/apt/sources.listPuis ajoutez les lignes suivantes :
## lenny deb http://ftp.fr.debian.org/debian/ lenny main contrib non-free deb-src http://ftp.fr.debian.org/debian/ lenny main contrib non-free ## security deb http://security.debian.org/ lenny/updates main contrib non-free deb-src http://security.debian.org/ lenny/updates main contrib non-freeEt surtout, n'oubliez d'indiquer vos préférences sur les paquets
nano /etc/apt/preferencesCopiez/collez le contenu suivant qui permettra de n'installer/mettre à jour que les paquets n'existant pas sur etch :
Package: * Pin: release o=Debian,a=stable,l=Debian-Security Pin-Priority: 990 Package: * Pin: release v=4.0*,o=Debian,a=stable,l=Debian Pin-Priority: 989 Package: * Pin: release o=Debian,a=testing,l=Debian-Security Pin-Priority: 99 Package: * Pin: release o=Debian,a=testing,l=Debian Pin-Priority: 98Il est ensuite nécessaire d'augmenter la taille du cache d'apt et de mettre à jour le liste des paquets :
echo 'APT::Cache-Limit 20000000;' >> /etc/apt/apt.conf.d/00configperso apt-get updateEnfin, vous pouvez installer python-profiler et hachoir
apt-get install python-profiler python-hachoir-metadata
Installation de "hachoir" avec Ubuntu Hardy ou Intrepid¶
Il suffit d'installer les paquets présents sur les dépôts officiels :apt-get install python-profiler python-hachoir-metadata
