Documentation
Pages visitées : Composant additionnels pour le module de gestion de documents » Administration générale
Composant additionnels pour le module de gestion de documents
Introduction
L’outil d’indexation intégré nécessite l’installation préalable d’utilitaires sur le serveur :
- catdoc permet d’extraire le contenu des documents MS Word
- catppt permet d’extraire le contenu des documents MS Powerpoint
- xls2csv permet d’extraire le contenu des documents MS Excel
- pdftotext permet d’extraire le contenu des documents Adobe PDF
- html2text permet d’extraire le contenu des documents HTML
- pdfinfo permet d’extraire les métadonnées des documents Adobe PDF
- jhead permet d’extraire les métadonnées des documents JPG
- hachoir permet d’extraire les métadonnées de très nombreux formats de document ( cf http://www.hachoir.org
)
Installation des paquets
Le paquet python-profiler n‘étant pas en accord avec les directives de Debian sur les logiciels libres, nous devons modifier le fichier /etc/apt/sources.list pour avoir accès à ce paquet.
| 1 |
nano /etc/apt/sources.list |
Puis rajoutez, “non-free” à la ligne ci-dessous :
deb <a href="http://ftp.fr.debian.org/debian/">http://ftp.fr.debian.org/debian/</a> lenny main
Ce qui donne :
| 1 |
deb http://ftp.fr.debian.org/debian/ lenny main non-free |
Ensuite, en root :
| 1 |
apt-get update |
L’installation sous Debian Lenny de ces outils est plutôt aisée
| 1 |
apt-get install catdoc xpdf-utils unrtf jhead html2text python-profiler python-hachoir-metadata |
Retour en haut de la page

