La idea es pasar el texto, no nos interesa el formato ni las imágenes incrustadas.
Para hacer esto debemos tener en cuenta algunas cosas:
- El archivo PDF debe tener texto real, no una simple digitalización que no es más que una imagen.
- El formato PDF permite hacer muchas más cosas que el formato markdown.
Vamos a pasarlo primero a HTML, ya sabemos y asumimos que no te va a quedar igual y va a requerir ajustes manuales.
Para pasarlo a HTML:
pdftohtml -i archivo.pdf archivo.htmlPara pasarlo a md:
pandoc archivo.html -o archivo.md
Lógicamente debemos tener instalados tanto pdftohtml como pandoc para que funcione este truco.
No hay comentarios:
Publicar un comentario