[Linux] : comment rechercher un texte dans plusieurs fichier pdf ?

Print Friendly, PDF & Email

Pdftotext est un binaire bien tuile sur linux. En effet, il permet assez facilement de convertir du texte au format pdf en format texte (comme son nom l’iniduqe ;)). Son petit avantage c’est aussi qu’il est installé de base sur pas mal de version (ubuntu…) et ça on a tendance à l’oublier.

Donc celui-ci possède aussi sa page de man officielle et c’est bien pratique pour faire connaissanceavec les options de l’outil.

En guise d’exemple, je vous propose de faire une manip toute bête : chercher un pattern dans vos fichier pdf (je partirai de la racine pour le fun… non faut pas faire ça car ca va durer toute votre vie un truc pareil) :

 find / -name '*.pdf' -exec sh -c 'pdftotext "{}" - \
| grep --with-filename --label="{}" --color "monpattern"' \; 

Donc si on rentre dans le détail :

  • on fait un find ou :
    • on récupère que les pdf
    • on exécute un shell pdftotext sur les fichiers trouvés dans lequel on grep  (en récuprant le nom de fichier et la couleur)
Découvrez  #Devdocs.io : retrouver les docs des principaux outils et languages