NYPL map-vectorizer, ¿un OCR para planos?



Nuevamente, las comparaciones son odiosas, más que nada porque no es un OCR, pero la analogía puede servirnos para entender de qué va este experimento. Los OCR son sistemas informáticos que sirven para analizar imágenes escaneadas, o fotografías de documentos o similares, para extraer y convertir los caracteres que aparecen en ellos en textos que se puedan procesar con un ordenador. Bien, ¿y por qué no aplicar algo así a los mapas?

Veamos, la gente del Laboratorio de la Biblioteca Pública de Nueva York se encontraron con el problema de tener que digitalizar miles de planos y mapas. El capturar la imagen, como tal, no era un gran lío pues ya cuentan con máquinas que realizan el trabajo y operadores expertos en llevar a cabo ese tipo de procesos. Pero los resultados son simples imágenes de alta resolución. Se pueden georreferenciar en un GIS, pero siguen siendo imágenes «analógicas». Por eso, se les ocurrió la genial idea de crear un sistema que permita extraer polígonos, líneas y puntos, además de otros datos, de las imágenes cartográficas. Esta tarea se realiza generalmente de tres maneras. O bien se importa la imagen a un ordenador y, luego, se trazan las figuras a mano con una tableta digitalizadora o, de otra forma, se trazan con algún sistema óptico sobre el propio plano en papel. La otra forma es confiar en los sistemas de vectorización automáticos pero, claro está, éstos generan muchos problemas (digamos que crean mucho «ruido») si lo que se desea es tener una serie de características precisas convertidas a formato digital. El nuevo sistema, NYPL map-vectorizer, se ha liberado como software libre y se puede descargar desde GitHub. No lo he probado todavía, pero tiene una pinta estupenda, aunque todavía está dando sus primeros pasos.

ejemplo_vectorizado

Vía: GIS Lounge – Automating Extracting GIS Data from Scanned Maps.
En Maptorian: Open-source map vectorizer.