¿Qué necesitamos?
ImageMagic y Tesserant
sudo apt install imagemagick tesseract-ocr
Desactivamos las restricciones de ImageMagick
Hacemos una copia de seguridad del archivo del políticas de ImageMagick por si tenemos que volver atrás:
sudo cp /etc/ImageMagick-6/policy.xml /etc/ImageMagick-6/policy.xml_backupHay que cambiar la línea de /etc/ImageMagick-6/policy.xml que contiene:
<policy domain="coder" rights="none" pattern="{GIF,JPEG,PNG,WEBP}" />
Por
Es cuestión de prueba y error y si es necesario ampliar la información con tu buscador favorito en internet.
<policy domain="coder" rights="read|write" pattern="{GIF,JPEG,PNG,WEBP,PDF}" />
Comandos para la conversión
Convertimos a tiff, pasamos el ocr y borramos el tiff:convert -density 300 mi_doc.pdf -depth 8 mi_doc.tiffEn la línea del commando tesseract el tercer parámetro es el idioma, en nuestro caso español, si no se pone nada usa inglés y podemos saber que idiomas hay disponibles con el comando:
tesseract mi_doc.tiff mi_doc.txt.pdf spa
rm mi_doc.tiff
tesseract --list-langs
Posibles problemas
Si la imagen no está lo suficiente limpia o no es adecuada nos podemos encontrar errores como:- Image too small to scale!! (2x36 vs min width of 3)
- LSTM: Training - Image not trainable
- Tesseract not detecting text
Es cuestión de prueba y error y si es necesario ampliar la información con tu buscador favorito en internet.
No hay comentarios:
Publicar un comentario