Software OCR de código abierto de Google

En abril de 2007, en el Grupo de Investigaciones IUPR, Google patrocinó el desarrollo de un software OCR de código abierto llamado OCRopus. Era un sistema de análisis de documentos y reconocimiento óptico de caracteres de alta tecnología. Algunas de sus funciones incluían:

  • Análisis de diseño enchufable
  • Reconocimiento de caracteres enchufable
  • Lenguaje natural estadístico
  • Capacidades multi-lenguaje

La meta final del proyecto era la de mejorar las condiciones del OCR, así como otras tecnologías relacionadas, proveyendo el mejor sistema OCR para conversión de documentos, bibliotecas electrónicas, usuarios con discapacidades visuales, análisis de documentos históricos y uso general de escritorio.

Parte del software se basa en Tesseract; uno de los mejores motores de software OCR de código abierto disponibles en el mercado actual. Se espera la publicación del proyecto para el final de este año, y será utilizado para el proyecto de escaneo de libros de Google. Hay algunas aplicaciones fascinantes que el equipo tiene en mente para este software:

  • Interfaz de servicio web.
  • Integración con herramientas de búsqueda de escritorio (como beagle, spotlight, y otras).
  • OCR de PDF, cámara y pantalla.

Más información aquí: http://code.google.com/p/tesseract-ocr/