Comment utiliser AWS Textract OCR pour extraire du texte et des données de documents –
De nombreuses entreprises utilisent des travailleurs humains pour saisir manuellement des données sur des formulaires, des applications et d’autres documents physiques. Bien que ce soit très précis, c’est lent et coûteux. AWS Textract utilise l’apprentissage automatique pour automatiser ce processus.
Pourquoi utiliser AWS Textract?
Textract n’est certainement pas le seul outil de reconnaissance optique de caractères – il existe de nombreuses solutions open source disponibles gratuitement, telles que Tesseract OCR. Vous pouvez lire notre guide d’utilisation pour en savoir plus.
Textract, cependant, est bien plus qu’un simple OCR car il est conçu pour analyser et extraire des données de formulaires, de tableaux et d’autres documents. Il est capable d’extraire des paires clé-valeur importantes, des tables et d’autres chaînes de clé, ce qui le rend réellement utilisable comme interface entre les documents numérisés et une base de données (bien que vous deviez configurer cette automatisation vous-même).
L’autre attrait est que Textract rend l’OCR disponible en tant que service cloud entièrement géré. Vous n’avez pas besoin de configurer vos propres serveurs d’applications pour exécuter l’OCR et comprendre la sortie; il suffit de configurer Textract et de lui envoyer des documents, il affichera les résultats.
Pour les entreprises effectuant encore une saisie manuelle des données, Textract peut vous faire économiser lot d’argent, à la fois dans les heures de travail réduites passées à taper sur un clavier et dans le fait qu’il peut traiter par lots de nombreux éléments à la fois, augmentant considérablement la vitesse de saisie des données.
En termes de prix, Textract est le moins cher pour le texte direct, comme la numérisation de pages de livres. Pour cela, il ne coûte que 1,50 $ pour 1000 pages. Pour l’analyse des tableaux, il en coûte 15,00 $ par 1000 pages. Pour les paires clé-valeur, il en coûte 50,00 USD pour 1 000 pages. Bien que ce ne soit pas tout à fait gratuit, cela vaut certainement mieux payer un humain pour le faire manuellement.
Textract est assez précis, mais si vous craignez que la machine ne se trompe, AWS a également une solution pour cela. Vous pouvez configurer Textract pour utiliser le flux de travail d’IA augmentée d’Amazon, qui renverra automatiquement les résultats à faible confiance aux humains pour examen.
Utilisation de Textract
Rendez-vous sur la console de gestion Textract et cliquez sur «commencer». En utilisant la console manuellement, vous pouvez télécharger des documents en utilisant le bouton ici:
Textract le traitera immédiatement. Vous verrez rapidement ce qui rend Textract si utile; il savait quels morceaux de texte de ce formulaire W2 étaient importants, lesquels faisaient partie de paires clé-valeur, lesquels faisaient partie de tables et lesquels il pouvait rejeter.
Sur la droite, vous trouverez la sortie, qui affiche toutes les chaînes brutes trouvées, les paires clé-valeur et toutes les tables de données. Notez que ceux-ci ne sont pas mutuellement exclusifs, car dans ce cas, il a trouvé des paires clé-valeur qui faisaient également partie des tables.
Vous pouvez télécharger les résultats et vous trouverez un fichier CSV de toutes les tables et paires clé-valeur, ainsi qu’un fichier texte de la sortie de texte brut.
Si vous souhaitez automatiser Textract, vous devrez utiliser l’AWS CLI ou l’API. Textract a son propre ensemble de commandes pour travailler avec lui à partir de la ligne de commande.
Vous pouvez soit sérialiser le document en octets de document encodés en base64, soit le télécharger sur S3 et donner à Textract une clé pour savoir où le trouver. Ensuite, vous pouvez utiliser analyze-document
pour démarrer un travail:
aws textract analyze-document --document '{"S3Object":{"Bucket":"bucket","Name":"document"}}' --feature-types '["TABLES","FORMS"]'
Il s’agit d’une opération synchrone, mais vous pouvez analyser de manière asynchrone en démarrant une tâche, puis en récupérant les résultats manuellement.
aws textract get-document-analysis --job-id df7cf32ebbd2a5de113535fcf4d921926a701b09b4e7d089f3aebadb41e0712b --max-results 1000