Pdftotext est un binaire bien tuile sur linux. En effet, il permet assez facilement de convertir du texte au format pdf en format texte (comme son nom l’iniduqe ;)). Son petit avantage c’est aussi qu’il est installé de base sur pas mal de version (ubuntu…) et ça on a tendance à l’oublier.
Donc celui-ci possède aussi sa page de man officielle et c’est bien pratique pour faire connaissanceavec les options de l’outil.
En guise d’exemple, je vous propose de faire une manip toute bête : chercher un pattern dans vos fichier pdf (je partirai de la racine pour le fun… non faut pas faire ça car ca va durer toute votre vie un truc pareil) :
find / -name '*.pdf' -exec sh -c 'pdftotext "{}" - \ | grep --with-filename --label="{}" --color "monpattern"' \;
Donc si on rentre dans le détail :
- on fait un find ou :
- on récupère que les pdf
- on exécute un shell pdftotext sur les fichiers trouvés dans lequel on grep (en récuprant le nom de fichier et la couleur)