[Linux] : comment rechercher un texte dans plusieurs fichier pdf ?

Pdftotext est un binaire bien tuile sur linux. En effet, il permet assez facilement de convertir du texte au format pdf en format texte (comme son nom l’iniduqe ;)). Son petit avantage c’est aussi qu’il est installé de base sur pas mal de version (ubuntu…) et ça on a tendance à l’oublier.

Donc celui-ci possède aussi sa page de man officielle et c’est bien pratique pour faire connaissanceavec les options de l’outil.

En guise d’exemple, je vous propose de faire une manip toute bête : chercher un pattern dans vos fichier pdf (je partirai de la racine pour le fun… non faut pas faire ça car ca va durer toute votre vie un truc pareil) :

 find / -name '*.pdf' -exec sh -c 'pdftotext "{}" - \
| grep --with-filename --label="{}" --color "monpattern"' \; 

Donc si on rentre dans le détail :

  • on fait un find ou :
    • on récupère que les pdf
    • on exécute un shell pdftotext sur les fichiers trouvés dans lequel on grep  (en récuprant le nom de fichier et la couleur)

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s