Proyecto 3. OCR procesado internamente.

Buenas. 

Cambiamos de tercio para retomar una cuestión que siempre me ha intrigado como se crea y gestiona el reconocimiento de caratere de fuentes impresas y su digitalización. 

Intenté crear un modelo de procesado el cual hiciera el circuito de forma automática y desde un equipo multifunción básico se realizara este proceso. El flujo es el siguiente:

1. MFC -- digitalización en un archivo con formato pdf

2. MFC -- envio por Samba del documento a un repositorio en red

3. MV o Container -- un código realiza el proceso de reconocimiento de caracteres:

    1. lee el archivo digitalizado y los divide en páginas que escribe en disco en archivos temporales en un formato similar al raw de imágenes. 

    2.  a través de un bucle procesa estos archivos con el binario de Tesseract (GPL) y la salida de tal procesamiento son otros archivos temporalesr 

    3. procesa esos archivo y crea un nuevo archivo pdf final que implementa dos capas: a. la capa de imagen (que es parte del producto generado por Tesseract) y b. una capa de texto. 

    4. renombrado del archivo para su indexación en un sistema documental como Google Docs. 

Mejoras en este sistema:

1. Este sistema se puede avanzar para crear contenedores que realicen el mismo de forma automática y de forma masiva desde portales de internet. A esos portales les llegará vía correo electrónico remitidos desde las máquinas MFC, se contabilizaran, se procesarán, y :

a. se devolverán a los clientes, via email o

b.  directamente con unos tokens adecuados se usará la API de Google Drive para depositarlos en directorios especiales desde los cuales serán convenientemente compartidos con los clientes estos podrán recuperar los documentos que ya habrán sido indexados por esta herramientas. 

c. también se podrán indexar en sistemas de ES que serán consultados posteriormente por una aplicación de gestión Documental a la que tenga acceso el cliente. Esta opción no implica el uso de servicios de internet ya que estaría todo en un cloud: privado o público; o un sistema on-premise contratado por el cliente. 


Comentarios

Entradas populares de este blog

Instalar Proxmox sobre un raid1 por software

Una cosa diferente. Alta disponibilidad y virtualizacion.