Mostrando entradas con la etiqueta PDF. Mostrar todas las entradas
Mostrando entradas con la etiqueta PDF. Mostrar todas las entradas

domingo, 21 de abril de 2024

¿Cómo escaneo documentos a PDF multipágina en Ubuntu?

Al aire en LRA Radio Nacional, Juan Perón expone sobre las bondades de NAPS2 para escanear documentos multipágina y guardarlos en un archivo PDF en Ubuntu.

¡Trabajadores!

El Justicialismo se ha distinguido por su acción de salvaguarda social, comprendiendo que los humildes todo lo merecen por Justo Derecho. Pero esto sólo ha hecho a una recomposición material; lo espiritual es lo que el Pueblo ha reclamado, y nuestro Movimiento la ha suplido con una verdadera e impagable Libertad. La de hacer lo que se puede en una Comunidad Organizada.

Indudablemente que si nosotros hubiésemos querido, habríamos podido suplir a unos pocos con todo y dejar al resto sin casi nada, como lo ha hecho la Oligarquía. Pero comprendimos que en nuestro tiempo todo debe hacerse en su medida, y armoniosamente.

Este principio ha sabido entregar a todos lo propenso a sus anhelos, sabiendo que nadie puede exacerbarse en desmedro del otro, y que todos tendrán la sana reparación de las posibilidades que nos brinda el Estado de una nueva Argentina Potencia.

Indudablemente, nunca viene mal ejercer la misma salvaguarda con todo tipo de documentos escritos que la sustentan, e incluso aquellos que nos pudiesen servir para nuestro menester. Esto debe hacerse a través del aprendizaje, pero también a través de su conservación, y en nuestros tiempos, esta puede ser electrónica.

El uso de un escáner para registrar material escrito - así como ponerlo a disposición de las masas a través de medios telemáticos - es sin duda un potenciador de la Justicia Social 2.0.

Una de las maneras más simples es utilizar nuestro sistema GNU con Linux. En el caso de Ubuntu (o cualquier distribución derivada de Debian), podremos instalar  instalar el excelente NAPS2

Se trata de un programa destinado a controlar un escáner, pero también capaz de crear documentos digitalizados, sobre todo en formato PDF. Si bien no contiene las funciones de avanzada para corrección que tienen otros como Scan Taylor, ciertamente posee más potencia que el típico escaneador Simple Scan.

Para instalar NAPS2 en Ubuntu, abrimos una terminal con Alt+Ctrl+t e ingresamos el siguiente bloque de comandos de organización:

cd ~/Descargas/ ;
wget https://github.com/cyanfish/naps2/releases/download/v7.4.2/naps2-7.4.2-linux-x64.deb ;
sudo dpkg -i naps2-7.4.2-linux-x64.deb

Tras ingresar nuestra contraseña de Conductor, se instalará el paquete. Para ejecutarlo, podremos encontrarlo en Aplicaciones / Gráficos / NAPS2.

La ventana de NAPS2 aparecerá sin contenido alguno, salvo su cómoda barra superior que cuenta con sus botones de operación.

Para hacer nuestro primer escaneo, debemos encender nuestro escáner, colocar el documento en el mismo, y debemos presionar el botón Escanear.

En mi caso utilizaré un escáner provisto en una impresora Brother DCP-1617NW, que cuenta con drivers para Linux.


 

Al ser esta la primera vez que utilizamos NAPS2 y nuestro primer escaneo, se nos solicitará crear un perfil de escaneo. Estos perfiles incluyen una configuraciones del dispositivo de exploración (escáner o cámara, según el caso), el tamaño de la página, la resolución, etcétera. Para crear nuevos perfiles mas adelante, se puede hacer clic en el botón "Perfiles" en la barra de herramientas. 

Hacemos clic en el botón "Seleccionar un dispositivo", lo que iniciará la búsqueda de los escáneres conectados a la computadora, que oficiarán como orígen de las imágenes a escanear.

La búsqueda de escáneres puede tardar unos momentos para que aparezca el escáner (unos diez segundos por cada escáner conectado).

Podremos utilizar cualquier escáner compatible con SANE. Entre ellos, los de Canon, HP, Brother, Kodak, o Epson.

Si no aparece, asegúrese de usar lo siguiente:

  • "SANE Driver" con un escáner soportado.
  • "SANE Driver" con un controlador de terceros instalado.
  • "ESCL Driver" con un escáner de red moderno.


Una vez detectados los dispositivos aptos para escanear, debemos elegir uno de la lista y presionar el botón Seleccionar.

Ahora podremos configurar el perfil según las posibilidades del escáner y las necesidades del documento.

En el campo "Nombre mostrado" podremos poner algo así como "Documento A4 en blanco y negro". Podremos definir asimismo el tamaño del documento entre los aceptados por el escáner (A4, Carta, etc).

La resolución y profundidad de color afectan el detalle y el tamaño del documento escaneado. Por defecto, NAPS2 utiliza un perfil con una resolución de 100 puntos por pulgada y unos 24 bits para copias a color, lo que da un escaneado normal para leerlo en pantalla. Podría optimizarse con 300 puntos por pulgada y 8 bits de escala de grises para escanear documentos o facturas escritos en blanco y negro, o bien hasta 600 dpi para fotografías.

Una vez que ha elegido su dispositivo, y escogido las opciones que desea, haga clic en "OK" y comenzará a escanear.


Una vez que termine el escaneado, la página escaneada debería aparecer. 

Haciendo doble clic sobre una de las páginas, podremos abrirla.

Incluso haciendo clic con botón derecho en una de las páginas y escogemos la opción editar, opcionalmente podremos lograr una ediciión básica modificando el tono o saturación, y el brillo y contraste, para mejorar la imagen escaneada de la página.

Opcionalmente, podremos presionar nuevamente el botón "Escanear" para continuar sumando más páginas individuales al documento. Esto empleará el mismo perfil ya seleccionado anteriormente. De esta manera puede crear un PDF multipágina

Llegado el caso, podremos alterar el perfil y definir el campo "Origen del Documento" en "Cristal" (usando la bandeja del escáner), o bien un "Alimentador automático" (si nuestro escáner cuenta con este cómodo accesorio motorizado). 

Naturalmente, al concluir de escanear las múltiples páginas manualmente (o con el cómodo alimentador), podremos guardar el documento multipágina en formato PDF. 

Conviene hacer uso del triángulo que aparece a la derecha del botón Guardar PDF, para ajustar las propiedades opcionales del archivo PDF en sí. Estas son útiles para documentación e indizado.

Finalmente, haciendo clic en el botón Guardar PDF, podremos escoger un nombre y directorio donde guardarlo (por ejemplo, el Escritorio).

NAPS2 cuenta (dentro de los perfiles) con una función de autoguardado, ideal para automatizar las tareas de guardar los documentos multipágina.

La funcionalidad de OCR permite analizar las páginas del documento en busca de letras discernibles, lo que permitirá realizar el reconocimiento óptico de tales caracteres, funcionalidad que se acoplará al PDF. Esto permite seleccionar el texto y pegarlo en algún editor de texto para su tratamiento posterior o bien su almacenaje en formatos de texto puro.

También contaremos con las opciones generales del programa, escondidas al final de la barra de tareas de NAPS2.

En efecto, descamisados. Con un escáner medio pelo, podremos difundir toda la doctrina del Justicialismo en forma de PDFs.

sábado, 27 de abril de 2019

¿Cómo realizo OCR e incrusto texto a un libro en PDF en Ubuntu?

¡Desamisados!

Los imperialismos en pugna saben que nuestro Movimiento jamás hizo buena letra. Para aquellos señores eso significaba que los argentinos nos sometiéramos a sus designios, y entregáramos rifados nuestra libertad y nuestra nacionalidad.

Nuestro objetivo no era aplacar sus deseos inconfesables, sino darle a nuestro Pueblo la Felicidad que merece por Justo Derecho. Ello es la base doctrinal a la que hemos sometido nuestras conciencias, y de la cual hemos dado los mejores resultados para la Grandeza de la Nación.

Sin embargo, esto a veces podría jugarnos en contra. Vean señores, al leer, nuestro cerebro interpreta la visual de las letras trazadas en un papel y conforma su significado de una manera tan prodigiosa que incluso hoy poco sabemos. Esta es la manera en la cual podemos contar con la humana capacidad lectocomprensiva.
Sin embargo, si queremos que un sistema informático traduzca a un texto digital a datos plausibles de ser editados o transmitidos, debemos proceder de una forma libre, y con un software que la sustente.

Desde las etapas primigenias del uso de las computadoras, fue un objetivo deseado que las mismas pudiesen comprendernos, incluso reaccionando ópticamente a un texto escrito. Este tipo de desarrollo peronista fue llamado OCR, por Reconocimiento Óptico de Caracteres. La técnica de OCR funciona bajo la premisa de utilizar un software de análisis sobre una imagen digitalizada de un texto, y encontrar en ella los patrones gráficos definidos de las letras impresas de nuestro alfabeto. Esto conformará las materias primas para identificar palabras o frases.

Ahora bien, para digitalizar el documento en sí, lo más procedente es utilizar un escáner. Estos disponen de un captor de imagen lineal a través de un CCD, y su tecnología es incluso anterior a la de las cámaras digitales. Nos permiten enormes ventajas en los casos donde debamos almacenar o transmitir telemáticamente copias de documentos en base papel.

Ubuntu es compatible con muchos de estos escáners, sobre todos aquellos que emplean la vieja tecnología de software TWAIN. Gracias a esto, podremos escanear página a página. Si nuestras exigencias son mayores, bien podríamos hacernos con un escáner con alimentador automático de documentos (ADF). Estos modelos constan de rodillos motorizados similares a las de una impresora, y van tomando las hojas una tras otras para sumarlas a un documento multipágina informatizado (normalmente de formato PDF). Varios modelos pueden incluso escanear en doble fax (duplex).

Una de las opción es utilizar el programa escaneador Simple Scan, cuya última versión tiene capacidad de conformar documentos PDF multipágina y también puede hacer funcionar escáneres provistos de alimentador de documentos. Esto facilita mucho el escaneado de pilas de hojas A4 ya impresas. Simplemente se colocan en el orden necesario en el alimentador de documentos y se usa la función Escanear.

Pero una cosa es escanear un documento y registrarlo digitalmente como una imagen de un texto, y otra cosa es que dicha imagen pueda ser editado como un texto digital.

Sin embargo no podemos dormirnos en los laureles: en política y en software todo ha de mejorarse y simplficarse, si es posible hacerlo. Es sabido que las letras no siempre son iguales, existen distintas tipografías, los documentos a escanear podrían tener imperfecciones, estar desalineados o torcidos, y esto puede fácilmente engañar a un software OCR como el ABBYY FineReader, OmniPage Ultimate, ReadIris, etc.

GNU con Linux no podía mantenerse ante tal oprobio. Es por ello que se ha desarrollado el programa gImageReader, el cual está pensado para suplir estos inconvenientes desde la Terminal. Gracias a ello se puede reconstruir un texto formando su equivalente digital.

Para instalar su versión en castellano abrimos una terminal con Ctrl+Alt+T e ingresamos el siguiente comando de organización:

sudo apt-get install gimagereader tesseract-ocr-spa

Tras unos breves instantes se habrá descargado la paquetería necesaria para operar. Una vez instalado, podremos abrir el programa desde Aplicaciones /  Gráficos / gImageReader.

gImageReader nos presenta una potente interfaz gráfica que sirve tanto para escanear documentos como para realizar el reconocimiento óptico de caracteres (OCR) en varias modalidades. Con él podemos pasar un documento de imagen o PDF a texto, y editarlo nuevamente ahorrando el tiempo de retipeo.

El programa detectará nuestro escáner y se abirá, presentándonos su interfaz a tres paneles y una barra de tareas en la parte superior.
El OCR depende de muchas variables maquinales, por lo cual su ingeniería nos presenta realmente con varias maneras de trabajar a fin de lograr un resultado lo más confiable posible. Desde la barra superior podremos definir instantáneamente el tipo de salida que queremos obtener por medio del programa. Tendremos dos opciones en un campo desplegable: Texto simple (que se encarga de conformar un archivo de texto independiente) o bien hOCR, PDF, que se encarga de incrustar el texto digitalizado por encima de las imágenes escaneadas de la página de un documento PDF.

Preparación del documento
El panel izquierdo es el Panel de Entrada y define el origen del texto a trabajar. cuenta con dos pestañas: Fichero y Adquirir, que bien podrían llamarse Importar y Escanear, pues cumplen dichas funciones.

Si ya contamos archivos gráficos elaborados para el trabajo podremos importarlos directamente al proyecto de reconocimiento en gImageReader usando esta función.
  • Podemos agregar los ficheros individualmente a la lista (lo que sería ideal), o...
  • ...podemos importar directamente un archivo PDF que ya contenga todas las páginas ya escaneadas en él..
En cambio, si quisiéramos armar el documento desde cero y manejar nuestro escáner, podremos utilizar la función de escaneo de documentos desde la pestaña Adquirir. Como es usual, en esta pestaña podremos ajustar la resolución del escáner (se recomienda unos 300 dpi para lograr los mejores resultados).

También podremos definir usar escaneo a color, escala de grises o blanco y negro (más rápido). En el caso de hojas impresas individuales, elegir 300 dpi en blanco y negro suele dar excelentes resultados. En el libros gruesos suele ser bueno usar 600dpi en escala de grises, pero también pueden lograrse muy buenos resultados en texto si usamos blanco y negro.


Para contar con la mayor fiabilidad posible, dependiendo del resultado del escaneo y tipo de papel del documento, podría ser necesario corregir las imágenes. gImageRead nos permite hacer estos ajustes de forma global a todas las páginas a la vez, por lo cual nos ahorra muchísimo tiempo. El botón de la flor * nos permite elegir los Controles de Imagen. Es importante lograr que el texto esté idealmente en negro oscuro sobre fondo blanco puro, a fin de lograr los mejores resultados. Ello lo hacemos incrementando el contraste y tal vez disminuyendo un poco el brillo de la imagen (dependiendo de cómo haya sido escaneada).


Reconocimento del Texto
En el panel superior tendremos distintas herramientas según el modo de trabajo que hayamos elegido. Este debe pensarse en base al proyecto que tengamos que afrontar. Podemos elegir dos modos de trabajo: Sólo Texto o hOCR, PDF. Solo texto nos proveerá el resultado del OCR directamente en el panel derecho de salida. En cambio hOCR, PDF incrusta el texto reconocido encima de una copia del propio documento PDF.

Una vez que hemos definido esto, podremos comenzar la tarea de reconocimiento OCR. Esto podremos hacerlo de dos maneras:
  • Automatizada Multiple Página 
  • Reconocer Selección página a página.
La función de reconocimiento automatizado de las imágenes será muy efectivo si tenemos documentos multipáginas que han sido escaneados a través de sus páginas individuales. Ahorra mucho tiempo, pero sólo en este caso ideal.
Sin embargo, en los casos más complejos y monumentales, puede ser que debamos reconocer el texto de un libro encuadernadoo  fotocopiado en un PDF. En tal caso se recomienda la tarea página a página.

Si ya tenemos el documento multipágina importado, podremos utilizar los botones + y - para avanzar y retroceder entre las páginas que lo conforman. Una vez que estamos en la página que deseamos reconocer, lo más sencillo es presionar el botón Autodetectar Disposición (el botón de la "varita mágica"). Este ajustará digitalmente el enderezamiento de la página escaneada a fin de que el texto quede derecho, y nos presentará tentativamente con varios "marcos azules" que contendrán las zonas de texto reconocido.

Si elegimos el modo de trabajo Solo Texto, podremos hacer clic con el botón derecho del ratón sobre el marco, y elegir la opción Reconocer. El texto se explorará y se agregará al Panel de Salida.
Este panel recibirá el texto de resultado, y suele estar a localizado en la parte derecha de gImageRead, pero también podemos configuralo desde el botón Propiedades para que se localice por debajo del texto. Generalmente el programa agrega por delante del texto reconocido la referencia "[Archivo: xxxx]" a fin de indicar de donde salió.


Luego pasamos a la siguiente página con el botón + y volvemos a hacer lo mismo. Es importante saber que podemos redimensionar el marco azul de reconocimiento simplemente tomándolo de sus esquinas ajustando su tamaño como si de una ventana de Ubuntu se tratara. Asimismo, podremos quitar marcos innecesarios haciendo clic con botón derecho sobre ellos y eligiendo la opción Borrar (por ejemplo, para evitar que se agreguen al texto los encabezados o pie de páginas).

Si tuviésemos que sumar más marcos en la página (por ejemplo, para escanear una segunda columna de texto o reconocer dos páginas escaneadas al unísono), podremos hacerlo al mantener presionada la tecla Ctrl mientras hacemos clic con botón derecho del ratón y arrastramos en diagonal, para crear y dimensionar el nuevo marco. Cada marco tiene un orden de reconocimiento, indicado en su esquina superior izquierda, el cual se utilizará para ordenar el escaneo. Normalmente gImageRead los dispone en el orden lógico (de arriba a abajo y de izquierda a derecha).

gImageReader cuenta de un editor de texto sencillo que reside en el mismo Panel de Salida. Este nos servirá para evaluar y en caso necesario, reorganizar el texto reconocido resultante. Todos los marcos de texto que vayamos reconociendo se agregarán a continuación (pero también podremos cambiar esto y elegir - por ejemplo - que se agregue donde está colocado el cursor).

Podremos guardar el contenido del Panel de Salida de este archivo presionando Guardar Salida.

Indudablemente que en el caso de escaneo con libros, lo óptimo es evitar trabajar con su contenido entero, sino que es más práctico realizar la tarea de OCR por capítulos. Luego podremos unificar el resultado en cualquier procesador de texto si lo necesitamos. De esta manera tendremos mayor control en el trabajo.

Sin duda es mucho menor trabajo que reescribir todo un texto monumental. Nada impide que además de guardarlo, copiemos el resultado para pegarlo en otro editor de texto.


El documento digitalizado puede fomatearse de manera mucho mas sencilla.

Realizar reconocimiento OCR e incrustarlo en un PDF desde la Terminal
Como os he indicado, gImageReader cuenta con la funcionalidad de incrustar el texto resultante del reconocimiento OCR en un archivo PDF de salida. Esto suele ser óptimo en muchos casos. Pero también podremos hacer este laborioso trabajo desde la terminal, lo cual puede ser interesante para operar a través de redes en un servidor que se encarga de este tipo de trabajos documentales.

Por ello, en las ocasiones donde el trabajo no es tan laborioso como en el ejemplo anterior porque contamos ya con un PDF multipágina cuyas páginas están bien escaneadas de manera individual, bien podremos recurrir al reconocimiento automático desde la Terminal. Para ello utilizaremos el programa ocrmypdf. Este, como su nombre lo indica, se encarga de explorar las páginas y agregarle el reconocimiento de texto al mismo libro. Es útil si las páginas tienen un diseño simple, y si las páginas del documento se escanearon individualmente.

Para instalarlo ingresamos:

sudo apt install parallel ocrmypdf

Y luego utilizamos la siguiente sintaxis:

ocrmypdf archivooriginal.pdf archivodestino.pdf

El proceso es bastante intensivo con la CPU. El programa irá reconociendo página por página, y las incrustara en archivodestino.pdf.

También tenemos pdfsandwich de Tobias Eize, que se encarga de lo mismo y suele tener mejor resultado. Lo instalamos con:

wget https://sourceforge.net/projects/pdfsandwich/files/pdfsandwich%200.1.7/pdfsandwich_0.1.7_amd64.deb ;

sudo dpkg -i pdfsandwich_0.1.7_amd64.deb

sudo apt install -f


Y podremos realizar la tarea desde una terminal. Podremos encontrar su documentación en la web oficial. Por ejemplo, para un PDF a dos páginas como el mostrado anteriormente podríamos ingresar:

pdfsandwich -lang spa -layout double cfk_sinceramente.pdf

lunes, 18 de junio de 2018

Como convierto archivos para mi Kindle en Ubuntu?

Al propalar un discurso a través de LRA, Juan Perón explica cómo podemos usar un Kindle u otro e-Reader con Ubuntu para transferirle nuestros documentos favoritos.

¡Mis desacamisados!

La sabiduría es un valor intangible, pero acotado si no puede transmitirse. Es por ello que a lo largo de la historia, esto fue tarea primero de los didactas en la antigüedad griega, y luego de los escribas del medioevo, para finalmente recaer en los renacentistas de la imprenta en dicho período. Sin embargo, en la Era de la Información - que es por la que transitamos - esto ya es una tarea de todos.

Nuestra Cultura es permeable a los cambios, y desde el Martín Fierro hasta el libro más risueño, hemos de leerlo y compartirlo si queremos instruirnos en pos del Bien de la Nación y la Grandeza de la Patria.

Pues bien, todos sabemos que de un tiempo a esta parte, ha popularizado los e-Book - libros electrónicos -, que no operan ya de forma física sino que son documentos telemáticos informatizados. Estos cuentan con la ventaja de su fácil tranmisión telemática, y su bajo costo.

Sin embargo, sabemos que no es muy cómodo leer siempre en un monitor de computadora de escritorio, ni que tampoco lo es en una minúscula pantalla brillante LED de algunos adminículos portátiles. Por tal motivo, se han desarrollado los llamados e-Readers, dispositivos dedicados al agradable acto de la lectura, en una pantalla antirreflejo antibrillo.
De entre todos ellos sin duda Amazon tiene los más extendidos: los Kindle. Se trata de una serie de lectores que en común tiene una pantalla de muy bajo consumo eléctrico (sólo consume cuando se refresca la misma). En la versión Kindle Paperwhite que favorezco, cuenta con una pantalla táctil mate retroiluminada, con 300dpi de resolución, conexión Wifi y una memoria interna de 4GB de los cuales se reservan unos 2,5 para contenidos del usuario.



Estos aparatos no emplean software libre sino un entorno privativo, aunque parecería bastante obvio que se basa en GNU con Linux. El usuario debería poder contar con la libertad de modificar y cargar nuevo software en estos adminículos.

Sin embargo, al margen de esta válida crítica, bien podremos comprar libros electrónicamente, o - mucho más práctico y peronista - cargarle nuestros propios libros y documentos que ya tengamos descargados.

Para ello podremos normalmente basarnos en el formato PDF, que se adapta bien para guardar documentos en nuestra PC y poderlos transferir a terceros sin demasiados problemas. El Kindle suporta PDF en la mayoría de sus versiones, no obstante su formato favorito del aparato suele ser el propio de Amazon, el compacto AZW o más antiguamente, el .MOBI. También puede usar con ciertas limitaciones de formateado de texto a los archivos Microsoft Word (.DOC y .DOCX), los archivos de texto enriquecido (.RTF), y los formatos web (.HTML. .HTM). Las imágenes las puede cargar en formato .JPG, .GIF, .PNG y .BMP.

Normalmente el e-Reader funcionará mejor con archivos de formato .azw3, ya que ocupan menos espacio y respetan los formatos propios del aparato. Es por tal motivo que Amazon ha previsto para sus clientes una función de conversión de formato entre PDF y AZW3 a través de correo electrónico y usando los servicios "en la nube". Si tenemos una buena conexión a Internet y el archivo del ebook no supera los 25MB (o sea, no es demasiado grande para enviarlo como archivo adjunto por correo electrónico), y si además no tenemos resguardos de privacidad con él, podremos emplear este método de conversión en la nube. Debemos considerar que el archivo convertido se mantendrá en nuestro servicio de Cloud de Amazon.

Para ello debemos enviar el archivo PDF como adjunto hacia nuestra dirección que hemos activado con el Amazon Kindle (usuario@kindle.com). Como "asunto" de este correo electrónico debemos ponerle "convert" (sin las comillas). Al enviarlo, nuestro PDF será recibido por Amazon, convertido por Amazon al formato de Kindle (.azw), y en pocos minutos debería ser transferido de vuelta a nuestro Kindle (que lo recibirá por Wifi y lo dejará en la carpeta "Documentos").

Sin embargo, existen situaciones donde esta solución no es práctica. Por ejemplo, si tenemos archivos PDF más grandes que los 25 MB, o en casos donde tengamos resguardos de privacidad. También en casos donde no tengamos acceso a Internet con el dispositivo.

Para ello podremos instalar el conversor, organizador, y biblioteca virtual por antonomasia: el calibre. Se trata de un programa pensado originalmente para organizar y catalogar todos nuestros libros, y también capacitado ahora para convertir y administrar el contenido documental de todos nuestros dispositivos portátiles.

Para instalarlo fácilmente, podremos abrir una terminal con Ctrl+Alt+T e ingresamos el siguiente Comando de Organización:

sudo apt install calibre

Tras ingresar "a ciegas" nuestra contraseña de conductor, se instalará el programa. Para ejecutarlo vamos a Aplicaciones / Oficina / calibre.

Al iniciar por primera vez Calibre nos solicitará dónde queremos crear la base de datos de la biblioteca. Normalmente la hará en nuestra carpeta de usuario. En particular la he localizado en la carpeta /Documentos/biblioteca de calibre.

Calibre nos permite agregarle documentos PDF a esta carpeta simplemente mediante el botón Agregar Libro.
Para convertir el libro, hago clic con el botón derecho en el título y elijo la opción Convertir Libros / Convertir por separado. Con esto podremos convertir un único título aislado.

Si quisiéramos convertir varios en lotes, los seleccionamos con Ctrl+clic con botón izquierdo para ir eligiendo uno a uno, y haciendo clic con botón derecho y eligiendo Convertir libros / Convertir en Masa, podremos hacer lo mismo en grandes números.

Se desplegará la ventana de diálogo de conversión, en la cual debemos indicar en el campo "formato de salida", el formato de Amazon, que es AZW3. Naturalmente, otras modelos o marcas podrían preferir formatos distintos. Finalmente debemos tocar el botón Aceptar.
El procedimiento lleva unos segundos o minutos, dependiendo de la cantidad de texto, fotografías, etc. Al finalizar contaremos con un archivo documental de formato AZW3, que se agregará a nuestra biblioteca en Calibre. Para buscarlo hacemos clic en Formatos, se desplegarán todos los formatos que tengamos en uso, y entre ellos elegimos el AZW3.
Una vez que lo hemos encontrado en la lista, bien podremos transferirlo a nuestro dispositivo. Si tenemos el Kindle conectado al sistema a través del cable USB suministrado, Calibre lo reconocerá.

Para ello, hacemos clic con el botón derecho en el titulo .azw3 que deseemos transferir al Kindle, y elegimos la opción Enviar al Dispositivo / Enviar a la memoria principal. Esto transferirá a través del cable USB el archvo a la memoria del Kindle.


Si no deseamos usar Calibre para este cometido, bien podremos hacerlo "a pelo", sin usar el Calibre. Para ello conectamos el Kindle a nuestro sistema con Ubuntu usando el cable USB suministrado, y el nuestro sistema operativo debería detectar y montar la memoria del Kindle como si fuese un dispositivo de almacenamiento USB cualquiera (presentando el ícono "kindle" en el Escritorio).

Simplemente arrastramos el archivo .azw3 a la carpeta "Documents" de la memoria del Kindle (también podremos transferir cualquiera de los formatos compatibles que os he nombrado).

Una vez que lo hayamos transferido el o los ficheros deseados, podremos desconectar el e-reader haciendo clic con botón derecho sobre su ícono y eligiendo "desmontar de manera segura".

sábado, 22 de septiembre de 2012

¿Como convierto PDF a texto plano en Ubuntu, para usar mi Lector de eBook?

Desde la mítica Quinta 17 de Octubre, en Navalmanzano 50 de Puerta de Hierro, Perón escribe a la Juventud planteando los designios que la historia le depara. Entre ellos, aconseja cómo instalar gPDFText, un simple conversor útil para trabajar con lectores de eBooks.

(...)
La juventud tiene, por designio, importantes tareas que cumplir. Es su rol en la historia. Nosotros, los viejos, mal o bien, hemos cumplido con el deber de nuestra hora, les queda a los jóvenes el deber de enfrentar el suyo. 

Tenemos fe en nuestros muchachos, porque la juventud tiene que ser justicialista, ya que las demás tendencias sólo le ofrecen la caducidad y la decadencia, de las que las juventudes son la antítesis y porque ellos, con una doctrina en marcha y una mística popular en pie, tienen en sus manos los factores indispensables para superarnos.

Nuestra generación sólo ha podido cumplir la etapa doctrinaria de la Revolución Justicialista. A la que nos siga le queda por cumplir las demás con la toma del poder y la etapa dogmática. Finalmente, quizá a la que a ellos suceda, le tocara realizar la institucional. 
Esto es así porque la tarea de una verdadera revolución no se cumple en una sola generación, sino la de una cadena de voluntades extendidas en el tiempo. Hemos dicho que una Revolución como la Justicialista, depende de una doctrina que la encamina y sienta su base teórica. Hoy, gracias a la tecnología, podemos utilizar en lugar de libros de tinta y papel, un eBook, incluso uno munido de software libre.
Pero, ¿qué sucede cuando queremos cargarle un PDF con el texto de nuestra doctrina? Puede suceder que si el PDF está formateado en tamaño A4, resulte en una tipografía excesivamente pequeña para leerla con comodidad. Si bien algunos eBooks permiten configurar el tamaño de la tipografía, esto a veces representa más un inconveniente que una real solución, ya que a veces el texto se corta de manera inteligible, o si estaba encolumnado, quedará completamente fraccionado e ilegible.

En el justicialismo nos hemos impuesto un dogma, y es aquél que reza "donde existe una necesidad nace un derecho, y un software libre que lo remedia". Por tanto podremos contar con gPDFText, un software liberado bajo licencia GNU GPL. El mismo se encarga de convertir nuestros eBooks  formateados en PDF a simple texto plano, de manera de poder guardarlos como texto sin formato.

Cargar un texto de estas características en nuestro eBook nos permitirá configurarlo en nuestro dispositivo de lectura móvil como nos plazca, sin preocuparnos por cortes de párrafos o por longitud de líneas. Nuestro Lector de Libros Electrónicos nos dejará configurar la tipografía, un tamaño de letra cómodo, etc.

Para instalarlo vamos a Aplicaciones / Accesorios / Centro de Software y elegimos el programa que querramos descargar. En este caso, buscamos "gPDFText" y lo instalamos (nos solicitará la contraseña).

Conforme lo hayamos descargado, podremos ejecutarlo desde Aplicaciones / Accesorios / Editor de textos gPDFText.
El uso del programa es muy evidente. Podemos abrir un PDF que contenga texto, y el gPDFText lo convertirá automáticamente a texto plano.

Luego nos lo presentará en un editor simple donde, en caso de necesidad, podremos reeditar el texto. Una vez que lo tengamos como deseamos, podremos guardarlo. Normalmente para ello suele ser útil, por razones de compatibilidad, guardarlo con una extensión .txt.