Name: Tremplin Numérique
Price range: $$$

Le logiciel de reconnaissance optimale de caractères (OCR) de qualité supérieure a peut-être coûté cher dans le passé, mais il est maintenant disponible gratuitement depuis la ligne de commande de votre terminal Linux! Cet article vous aidera à configurer et à démarrer avec l’OCR.

Sommaire

Qu’est-ce que l’OCR?

L’acronyme OCR signifie Reconnaissance optimale des caractères: un logiciel et un système par lesquels un ordinateur peut lire le texte à l’intérieur des images. Imaginez que vous preniez une photo de votre passage préféré d’un livre du Seigneur des Anneaux.

Vous aimeriez le citer ailleurs, mais vous n’avez qu’une photo. Le logiciel OCR peut vous aider en analysant cette photo / image et en trouvant tout le texte qu’elle contient.

Le logiciel OCR analysera alors, pour chaque lettre découverte, les points graphiques vus dans l’image, et traduira / transformera cela en texte réel qu’un ordinateur peut utiliser, par exemple dans un traitement de texte.

Bien qu’il existe de nombreux logiciels OCR disponibles, certains payants et d’autres gratuits, ils ne sont pas tous de la même qualité. Certains packages fourniront des résultats de moins bonne qualité, d’autres s’aligneront étroitement sur le texte visible sur la photo ou l’image.

De manière générale, les livres standard (ou les impressions de pages Web Internet) fonctionneront très bien et devraient produire des résultats de qualité raisonnable dans tous les cas, car les polices sont droites et uniformes et sous un angle unique, à condition que la photo ou la numérisation d’origine soit raisonnable. qualité.

Il est également bon de garder à l’esprit que même les logiciels avancés peuvent avoir du mal avec des images de mauvaise qualité ou floues, et la plupart des packages peuvent avoir des difficultés avec différents styles d’écriture manuscrite, etc. D’autres défis peuvent inclure du texte mélangé avec des images ou des photos, ou une direction différente (par exemple à gauche – texte à droite, de haut en bas ou incliné) dans la même page.

Cela rend le choix et potentiellement le paiement d’un package OCR un processus peut-être long, surtout si vous souhaitez tester et évaluer chaque package.

Pour ceux qui utilisent Linux, il existe une excellente alternative. Un logiciel OCR gratuit et de qualité supérieure basé sur LSTM Neural Net avec prise en charge unicode (UTF-8), et qui peut reconnaître plus de 100 langues par défaut. Il prend également en charge de nombreux formats de sortie tels que HTML, PDF et texte brut.

Sans plus tarder; Bienvenue chez Tesseract OCR!

Installation OCR Tesseract

À installer OCR Tesseract sur votre distribution Linux basée sur Debian / Apt (comme Ubuntu et Mint), faites:

sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-eng

À installer OCR Tesseract sur RHEL et Centos, faites:

sudo yum install epel-release
sudo yum install tesseract-devel leptonica-devel

À installer OCR Tesseract sur Fedora, faites:

sudo yum install tesseract-devel leptonica-devel

À installer OCR Tesseract sur OSX, faites:

brew install tesseract

Let’s OCR!

Nous utiliserons une image simple qui contient le texte suivant:

Exemple d'image prêt pour l'OCR via Tesseract

Pour convertir cette image, il vous suffit d’ouvrir l’invite de votre terminal, de changer de répertoire (en utilisant le cd your_directory_with_images commande) dans le répertoire qui contient vos images (par exemple, si vous avez créé un répertoire images dans votre répertoire personnel (~/images) vous pouvez simplement utiliser cd ~/images) et OCR les fichiers:

tesseract -l eng input_for_ocr.png output_from_ocr
cat output_from_ocr.txt

Utilisation de Tesseract OCR via la ligne de commande Linux

Très simple et direct. Et comme on peut le voir, le rendu est parfait.

Nous spécifions la langue anglaise en utilisant le -l eng option. Vous pouvez consulter le manuel tesseract (man tesseract) pour tout autre code de langue disponible.

Nous avons également spécifié l’image d’entrée (input_for_ocr.png) ainsi que le fichier de sortie output_from_ocr sans aucune extension de fichier, qui utilisera le texte brut par défaut .txt format.

Nous pouvons également changer le format de sortie en PDF en utilisant une commande légèrement plus longue qui spécifie simplement le format de sortie à la fin:

tesseract -l eng input_for_ocr.png output_from_ocr pdf

Format de sortie PDF Tesseract

En ajoutant le pdf suffixe, le format de sortie utilisé était PDF. Lorsque nous ouvrons le fichier PDF (output_from_ocr.pdf), nous pouvons voir que le texte peut être sélectionné et copié / collé comme cela a été fait avec le mot Lecteurs! ici:

Le fichier PDF généré avec Tesseract contient des données textuelles

En d’autres termes, le fichier PDF contient des données textuelles et sélectionnables, et non des informations graphiques (et donc non sélectionnables). Génial!

Que faire si je veux OCR un fichier PDF?

Parfois, vous pouvez recevoir un fichier PDF qui – bien que le format PDF prenne en charge le texte réel à l’intérieur des pages – ne contient que des images avec du texte. Cela peut être frustrant car le copier-coller ne sera pas disponible. Vous pouvez également OCR ces pages, avec une petite solution de contournement.

Vous voudrez d’abord convertir votre fichier PDF en images – une image par page – puis OCR les pages individuelles en texte. Un peu plus de travail, mais toujours un gain de temps considérable sur la retaper du texte manuellement.

Pour des étapes simples pour convertir un fichier PDF en images, ou même pour script et automatiser la conversion de plusieurs fichiers PDF, vous pouvez lire notre article Convertir un PDF en images à partir de la ligne de commande Linux!

Emballer

Dans cet article, nous avons exploré Tesseract, le moteur OCR de ligne de commande gratuit de qualité supérieure pour Linux. Nous avons vu comment nous pourrions facilement convertir des images en texte à l’aide d’une simple commande.

Nous avons également examiné la conversion d’images en fichiers PDF à base de texte et renvoyé un article dans lequel vous pouvez trouver des informations sur la façon de pré-convertir des fichiers PDF à base d’images en images afin qu’ils puissent ensuite être convertis en texte à l’aide de la méthode OCR présentée ici.

Prendre plaisir!