martes, 7 de febrero de 2023

Pasar un archivo PDF a markdown (.md)

La idea es pasar el texto, no nos interesa el formato ni las imágenes incrustadas.


Para hacer esto debemos tener en cuenta algunas cosas:

  • El archivo PDF debe tener texto real, no una simple digitalización que no es más que una imagen.
  • El formato PDF permite hacer muchas más cosas que el formato markdown. 

Vamos a pasarlo primero a HTML, ya sabemos y asumimos que no te va a quedar igual y va a requerir ajustes manuales.

Para pasarlo a HTML:

pdftohtml -i archivo.pdf archivo.html

Para pasarlo a md:

pandoc archivo.html -o archivo.md

Lógicamente debemos tener instalados tanto pdftohtml como pandoc para que funcione este truco.

No hay comentarios:

Publicar un comentario