sábado, 21 de julio de 2012

Reconocimiento óptico de caracteres en GNU/Linux (OCR)

Pasar a texto un documento digitalizado es en GNU/Linux muy fácil y rápido:
  1. Digitalizamos el documento con Simple Scan y lo guardamos en formato TIF.
  2. Si es un documento previamente digitalizado lo podemos a pasar a TIF con gimp por ejemplo.
  3. Abrimos una consola y tecleamos el siguiente comando:
    tesseract documentoescaneado.tif textoresultante
  4. Y ya tenemos el archivo de texto puro 'textoresultante.txt'
Por supuesto debemos tener instalados los programas tesseract, simplescan y gimp si es que todavía no los tenemos instalados.

No hay comentarios:

Publicar un comentario