Pasar a texto un documento digitalizado es en GNU/Linux muy fácil y rápido:
- Digitalizamos el documento con Simple Scan y lo guardamos en formato TIF.
- Si es un documento previamente digitalizado lo podemos a pasar a TIF con gimp por ejemplo.
- Abrimos una consola y tecleamos el siguiente comando:
tesseract documentoescaneado.tif textoresultante - Y ya tenemos el archivo de texto puro 'textoresultante.txt'
Por supuesto debemos tener instalados los programas tesseract, simplescan y gimp si es que todavía no los tenemos instalados.
Ya ha mejorado mucho la cosa... https://www.linuxadictos.com/instalar-programa-ocr-debian.html
ResponderEliminar