Tremplin Numérique - Les nouveautés tech
  • Accueil
  • Articles à la une
  • Actualités du digital
No Result
View All Result
  • Accueil
  • Articles à la une
  • Actualités du digital
No Result
View All Result
Tremplin Numérique - Les nouveautés tech
No Result
View All Result

Accueil » Comment convertir des images en texte sur la ligne de commande Linux avec OCR –

Comment convertir des images en texte sur la ligne de commande Linux avec OCR –

Tremplin Numérique par Tremplin Numérique
24 novembre 2020
dans Actualités du digital
Temps de lecture : 5 minutes
Shutterstock / Dominik Bruhn

Le logiciel de reconnaissance optimale de caractères (OCR) de qualité supérieure a peut-être coûté cher dans le passé, mais il est maintenant disponible gratuitement depuis la ligne de commande de votre terminal Linux! Cet article vous aidera à configurer et à démarrer avec l’OCR.

Qu’est-ce que l’OCR?

L’acronyme OCR signifie Reconnaissance optimale des caractères: un logiciel et un système par lesquels un ordinateur peut lire le texte à l’intérieur des images. Imaginez que vous preniez une photo de votre passage préféré d’un livre du Seigneur des Anneaux.

Vous aimeriez le citer ailleurs, mais vous n’avez qu’une photo. Le logiciel OCR peut vous aider en analysant cette photo / image et en trouvant tout le texte qu’elle contient.

Le logiciel OCR analysera alors, pour chaque lettre découverte, les points graphiques vus dans l’image, et traduira / transformera cela en texte réel qu’un ordinateur peut utiliser, par exemple dans un traitement de texte.

Bien qu’il existe de nombreux logiciels OCR disponibles, certains payants et d’autres gratuits, ils ne sont pas tous de la même qualité. Certains packages fourniront des résultats de moins bonne qualité, d’autres s’aligneront étroitement sur le texte visible sur la photo ou l’image.

De manière générale, les livres standard (ou les impressions de pages Web Internet) fonctionneront très bien et devraient produire des résultats de qualité raisonnable dans tous les cas, car les polices sont droites et uniformes et sous un angle unique, à condition que la photo ou la numérisation d’origine soit raisonnable. qualité.

Il est également bon de garder à l’esprit que même les logiciels avancés peuvent avoir du mal avec des images de mauvaise qualité ou floues, et la plupart des packages peuvent avoir des difficultés avec différents styles d’écriture manuscrite, etc. D’autres défis peuvent inclure du texte mélangé avec des images ou des photos, ou une direction différente (par exemple à gauche – texte à droite, de haut en bas ou incliné) dans la même page.

Cela rend le choix et potentiellement le paiement d’un package OCR un processus peut-être long, surtout si vous souhaitez tester et évaluer chaque package.

Pour ceux qui utilisent Linux, il existe une excellente alternative. Un logiciel OCR gratuit et de qualité supérieure basé sur LSTM Neural Net avec prise en charge unicode (UTF-8), et qui peut reconnaître plus de 100 langues par défaut. Il prend également en charge de nombreux formats de sortie tels que HTML, PDF et texte brut.

Sans plus tarder; Bienvenue chez Tesseract OCR!

Installation OCR Tesseract

À installer OCR Tesseract sur votre distribution Linux basée sur Debian / Apt (comme Ubuntu et Mint), faites:

sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-eng

À installer OCR Tesseract sur RHEL et Centos, faites:

sudo yum install epel-release
sudo yum install tesseract-devel leptonica-devel

À installer OCR Tesseract sur Fedora, faites:

sudo yum install tesseract-devel leptonica-devel

À installer OCR Tesseract sur OSX, faites:

brew install tesseract

Let’s OCR!

Nous utiliserons une image simple qui contient le texte suivant:

Exemple d'image prêt pour l'OCR via Tesseract

Pour convertir cette image, il vous suffit d’ouvrir l’invite de votre terminal, de changer de répertoire (en utilisant le cd your_directory_with_images commande) dans le répertoire qui contient vos images (par exemple, si vous avez créé un répertoire images dans votre répertoire personnel (~/images) vous pouvez simplement utiliser cd ~/images) et OCR les fichiers:

tesseract -l eng input_for_ocr.png output_from_ocr
cat output_from_ocr.txt 

Utilisation de Tesseract OCR via la ligne de commande Linux

Très simple et direct. Et comme on peut le voir, le rendu est parfait.

Nous spécifions la langue anglaise en utilisant le -l eng option. Vous pouvez consulter le manuel tesseract (man tesseract) pour tout autre code de langue disponible.

Nous avons également spécifié l’image d’entrée (input_for_ocr.png) ainsi que le fichier de sortie output_from_ocr sans aucune extension de fichier, qui utilisera le texte brut par défaut .txt format.

Nous pouvons également changer le format de sortie en PDF en utilisant une commande légèrement plus longue qui spécifie simplement le format de sortie à la fin:

tesseract -l eng input_for_ocr.png output_from_ocr pdf

Format de sortie PDF Tesseract

En ajoutant le pdf suffixe, le format de sortie utilisé était PDF. Lorsque nous ouvrons le fichier PDF (output_from_ocr.pdf), nous pouvons voir que le texte peut être sélectionné et copié / collé comme cela a été fait avec le mot Lecteurs! ici:

Le fichier PDF généré avec Tesseract contient des données textuelles

En d’autres termes, le fichier PDF contient des données textuelles et sélectionnables, et non des informations graphiques (et donc non sélectionnables). Génial!

Que faire si je veux OCR un fichier PDF?

Parfois, vous pouvez recevoir un fichier PDF qui – bien que le format PDF prenne en charge le texte réel à l’intérieur des pages – ne contient que des images avec du texte. Cela peut être frustrant car le copier-coller ne sera pas disponible. Vous pouvez également OCR ces pages, avec une petite solution de contournement.

Vous voudrez d’abord convertir votre fichier PDF en images – une image par page – puis OCR les pages individuelles en texte. Un peu plus de travail, mais toujours un gain de temps considérable sur la retaper du texte manuellement.

Pour des étapes simples pour convertir un fichier PDF en images, ou même pour script et automatiser la conversion de plusieurs fichiers PDF, vous pouvez lire notre article Convertir un PDF en images à partir de la ligne de commande Linux!

Emballer

Dans cet article, nous avons exploré Tesseract, le moteur OCR de ligne de commande gratuit de qualité supérieure pour Linux. Nous avons vu comment nous pourrions facilement convertir des images en texte à l’aide d’une simple commande.

Nous avons également examiné la conversion d’images en fichiers PDF à base de texte et renvoyé un article dans lequel vous pouvez trouver des informations sur la façon de pré-convertir des fichiers PDF à base d’images en images afin qu’ils puissent ensuite être convertis en texte à l’aide de la méthode OCR présentée ici.

Prendre plaisir!

PartagerTweetEpingler
Article précédent

L’Echo Dot de 3e génération est désormais à seulement 18,99 £ pour une durée limitée

Article suivant

FIFA 21 sur PS5 a un gros avantage sur la Xbox Series X / S

Tremplin Numérique

Tremplin Numérique

La rédaction de Tremplin Numérique.

Articles en lien

Actualités du digital

Comment lier vos abonnements dans Facebook News

26 janvier 2021
Actualités du digital

Microsoft publie Windows 10 Build 21296.1010, le canal Dev pour tester le pipeline de maintenance

26 janvier 2021
Actualités du digital

Promenez-vous avec Dolly Parton dans cette nouvelle série audio pour Apple Watch

25 janvier 2021

Articles populaires

Quelle est la meilleure box internet en 2021 ?

Quelle est la meilleure box internet en 2021 ?

23 janvier 2021
Emploi dans l'informatique

Quelles sont les opportunités d’emploi dans l’informatique ?

22 décembre 2020
Certaines fonctionnalités ne sont pas disponibles sur Facebook Messenger et Instagram

Certaines fonctionnalités ne sont pas disponibles sur Facebook Messenger et Instagram

16 décembre 2020

Articles recommandés

Avis EEMI : plainte contre l’école du web qui menace ses élèves

14 décembre 2020

Prévision des ventes : de quoi parle-t-on ?

20 novembre 2020

Quels sont les enjeux d’un ERP pour une entreprise ?

17 novembre 2020
Les métiers du digital en 2020

Les 6 métiers en vogue dans le digital en 2020

25 octobre 2020

Que devez-vous savoir du fonctionnement d’un tunnel de conversion ?

16 octobre 2020

Quels anciens composants pouvez-vous réutiliser lors du montage d’un nouveau PC ?

15 septembre 2020
Swiss turn

Comment assurer la gestion du swiss turn avec un outil de CFAO ?

31 août 2020
La meilleure montre connectée

La meilleure montre connectée pour se baigner cet été

19 août 2020

Comment désactiver le suivi de l’exposition COVID-19 et les notifications sur Android

10 juin 2020

Comment créer des sondages dans les réunions Zoom

8 juin 2020

Qu’est-ce que Discord Nitro et vaut-il la peine de payer ?

7 mai 2020

Comment utiliser un appareil photo numérique comme webcam

29 avril 2020

Comment supprimer une résidence de joueur inactif dans «Animal Crossing: New Horizons»

14 avril 2020

Comment masquer le jeu auquel vous jouez sur Discord

4 avril 2020

Comment configurer votre microphone et votre casque dans Discord

31 mars 2020

Qui sommes-nous ?

Tremplin Numérique, c’est une équipe de passionnés du secteur des nouvelles technologies et du digital, un site internet, des internautes fidèles, et des articles de qualité pour pouvoir partager avec vous notre passion de la technologie.

Partenaires

Articles récents

  • Comment lier vos abonnements dans Facebook News
  • Microsoft publie Windows 10 Build 21296.1010, le canal Dev pour tester le pipeline de maintenance
  • Promenez-vous avec Dolly Parton dans cette nouvelle série audio pour Apple Watch
  • Alerte d’affaire: SanDisk Extreme 512 Go A2 microSD est maintenant disponible à un prix record
  • La mise à jour Cyberpunk 2077 a en quelque sorte aggravé une mauvaise situation
  • Microsoft Design présente l’application Your Phone dans une vidéo élégante
  • Que signifie la nouvelle maison de choc de WWE Network pour les Britanniques?
  • Deal Alert: Apple AirPods Pro 20% de réduction

Catégories

  • A la une
  • Actualités du digital
  • Contact

© 2021 Copyright - Tremplin Numérique - Les nouveautés tech.

No Result
View All Result
  • Accueil
  • Articles à la une
  • Actualités du digital

© 2021 Copyright - Tremplin Numérique - Les nouveautés tech.