Proyecto2. Ocr Web.

Retomamos todo el trabajo realizado durante 2018, que tiempos, sobre el mundo del OCR. Siempre me ha gustado el mundo de la informática aplicada a los problemas reales, y no filosofar en proyectos de dudoso impacto cómo aplicaciones de uso general que han proliferado en  las llamadas startups de la última década, donde la recolección de datos es el objetivo final y de donde las empresas que han fallado al hacerlo han caído.

En aquel 2018 estaba investigando como crear una solución de OCR con software libre con la suficiente utiilidad para poder ser mínimamente útil a los usuarios y los clientes que tienen que afrontar  la digitalización con los escasos medios de los que disponen.

Hay 2 patas para hacer esto, uno es buscar localizar un mecanismo de OCR viable con el mínimo coste  como mínimo producto viable (proy.Tesseract) y por otro lado otro mecanismo de indexación de la información. En este último caso tenemos dos soluciones:

a. software libre: Elasticsearch

b. servicio como software (SAAS) ya implementado, asequible y sobre todo cumple con las necesidades de gran parte de los usuarios que se resume en las 3B: bueno, bonito, barato; que traducido literal al inglés seria: GNC (good, nice, cheap). 

Con el primero hay q buscar mucha info de como indexar, construir un interfaz para interactuar con el servicio de Elasticsearch del cual se recupera la info, gestionar la seguridad, gestionar el almacenamiento, copias de seguridad,etc...

Otro es usar alguna solución de OpenSource que tenga alguna herramientas de indexación del documento y que permita al usuario acceder a la información.

El mecanismo, que he comprobado hasta ahora es construir un digitalizar un documento, pasarlo por un OCR, y construir un documento pdf con dos capas, una imagen y una imagen. Ese documento pdf después es enviado al drive donde se indexa el documento  y se pude buscar a posteriori en esa plataforma. 

 El modelo es:

1. dispositivo de digitalización, una fotocopiadora o impresora multifunción,

2. un sistema de recopilación de los documentos, dependiendo de la configuración de la impresora se valida contra la carpeta de un cliente u otro.....

3. el script de reconocimiento se activa por cada llenado de las carpetas correspondientes y tomando los datos correspondientes al cliente sube el producto de la digitalización usando el token almacenado  al drive del cliente.

Hasta este momento solo tengo comprobado el primer punto, y el segundo lo tengo desarrollado en una versión beta. Queda pendiente hacer la prueba de subida de documentos a dos drive diferentes a partir de la carpeta en donde se ha localizado el documento. 

El objetivo es contenerizarlo para tener:

  • deployment que soporte el servicio ftp, 
  • deployment que procesa el pdf y lo convierte un pdf con una capa de texto
  • deployement que sube al espacio de "drive" del cliente correspondiente.

De todos los pasos el código está desarrollado pero no así los contenedores y código del tercero para completar el circuito.

 

Comentarios

Entradas populares de este blog

Instalar Proxmox sobre un raid1 por software

Una cosa diferente. Alta disponibilidad y virtualizacion.

Virtualización, PROXMOX: solventado el rendimiento.