Visión artificial - Tomás Domínguez Mínguez - E-Book

Visión artificial E-Book

Tomás Domínguez Mínguez

0,0

Beschreibung

La visión artificial es una disciplina científica formada por un conjunto de técnicas que permiten la captura, el procesamiento y el análisis de imágenes, con el fin de extraer información de utilidad. Su objetivo es automatizar tareas reservadas hasta hace poco tiempo al ámbito humano en áreas como la seguridad, la industria, el comercio, la medicina, etc. Muchas de las técnicas empleadas en visión artificial proceden de otras disciplinas como la inteligencia artificial o el deep learning, que exigen amplios conocimientos matemáticos. Por ese motivo, su expansión no se ha producido hasta la llegada de librerías como OpenCV, que ocultan esta complejidad y las ponen al alcance de cualquiera que disponga de unos conocimientos básicos de programación, en este caso, de Python. En este libro aprenderá a usar la librería OpenCV de Python, con la que podrá desarrollar aplicaciones de visión artificial, tanto para imágenes estáticas como para vídeo. Todas las técnicas empleadas se exponen de forma clara y sencilla, sin entrar en conceptos matemáticos complejos. Además, se trata de un libro práctico, por lo que está repleto de ejercicios, cuyo código se explica línea a línea. OpenCV es software libre, lo que significa que podrá usarlo sin restricciones. También es multiplataforma, así que es posible ejecutarlo tanto en Windows como en MacOS o Linux. Pero lo que realmente ha dado lugar a su enorme popularidad es la gran cantidad de algoritmos que implementa, con los que podrá: · Poner en práctica técnicas de reconocimiento facial, identificación de objetos o personas, seguimiento de sus movimientos, etc. · Crear aplicaciones de realidad aumentada, de inspección y vigilancia, orientadas a la robótica o juegos. En cuanto a Python, este es uno de los lenguajes de programación más extendidos debido a que su código es abierto y multiplataforma, pero, sobre todo, por su sencillez y facilidad de uso. Eso ha hecho que se utilice en infinidad de ámbitos, entre los que destaca el de la visión artificial. Si no conoce este lenguaje, se proporciona un amplio anexo en el que se enseñan sus principios básicos de funcionamiento y con el que podrá seguir las prácticas propuestas de un modo fácil. Sin lugar a dudas, este es el libro indicado para aprender a desarrollar con agilidad sus propias aplicaciones de visión artificial. No espere más, hágase con su ejemplar y exprima todo su potencial. Tomás Domínguez es ingeniero de telecomunicación y doctorado en inteligencia artificial. Su labor profesional se ha desarrollado en una multinacional de telecomunicaciones, donde ha ocupado diversos cargos relacionados con la tecnología. Asimismo, ha ejercido como profesor universitario de ingeniería informática en la Universidad Alfonso X el Sabio de Madrid.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern

Seitenzahl: 327

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



 

 

Visión Artificial. Aplicaciones prácticas con OpenCV - Python

Primera edición, 2021

© 2021 Tomás Domínguez Mínguez

© 2021 MARCOMBO, S. L.

     www.marcombo.com

Diseño de cubierta: ENEDENÚ DISEÑO GRÁFICO

Maquetación: cuantofalta.es

Asesor técnico: Ferran Fàbregas

Correctores: Beatriz Garcia y Manel Fernández

Directora de producción: M.a Rosa Castillo

«Cualquier forma de reproducción, distribución, comunicación publica o transformación de esta obra solo puede ser realizada con la autorización de sus titulares, salvo excepción prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra».

ISBN: 978-84-267-3347-4

Producción del ePub: booqlab

Todo lo que sucedefue una vez un sueño

TABLA DE CONTENIDO

  1. INTRODUCCIÓN

1.1 Visión artificial

1.2 OpenCV

1.3 Python

  2. INSTALACIÓN DE OPENCV

  3. PRIMEROS PASOS

3.1 Carga y visualización de la imagen almacenada en un archivo

3.2 Obtención de las características de una imagen

3.3 Creación de una imagen a partir de una matriz de píxeles

3.4 Modificación del valor de los píxeles de una imagen

3.5 Almacenamiento de una imagen en un archivo

  4. FUNCIONES DE INTERFAZ GRÁFICA DE USUARIO

4.1 Ventanas

4.2 Líneas

4.3 Rectángulos

4.4 Círculos y elipses

4.5 Textos

4.6 Barras de desplazamiento

  5. INTERACCIÓN CON EL RATÓN Y EL TECLADO

5.1 Gestión de eventos del ratón

5.2 Gestión de eventos del teclado

  6. OPERACIONES BÁSICAS DE MANEJO DE IMÁGENES

6.1 Obtención del color de un píxel

6.2 Recorte de regiones

6.3 Escalado

6.4 Adición

6.5 Sustracción

6.6 Operaciones bit a bit

6.7 Cambio del espacio de color

  7. HISTOGRAMAS

  8. FILTROS DE PROCESAMIENTO DE IMÁGENES

8.1 Filtros basados en umbral

8.1.1 Filtro de umbral simple

8.1.2 Filtro de umbral Otsu

8.1.3 Filtro de umbral adaptativo

8.1.4 Comparación entre filtros

8.2 Filtros lineales

8.2.1 Filtro paso bajo (suavizado)

8.2.2 Filtro paso alto (de gradiente)

8.3 Filtros morfológicos

8.3.1 Filtro de dilatación

8.3.2 Filtro de erosión

8.3.3 Otros filtros morfológicos

8.4 Filtro Canny

  9. CONTORNOS

9.1 Identificación

9.2 Dibujo

9.3 Cálculo del perímetro y el área

9.4 Bounding box

9.4.1 Pasatiempos. Las siete diferencias

9.5 Contornos de aproximación

9.6 Otras funciones

10. BÚSQUEDA DE IMÁGENES

11. RECONOCIMIENTO DE OBJETOS

11.1 Reconocimiento facial

11.2 Reconocimiento de ojos

11.3 Identificación de personas

12. OPERACIONES BÁSICAS DE MANEJO DE VÍDEO

12.1 Visualización de las imágenes capturadas por una cámara

12.2 Almacenamiento de vídeos

12.3 Reproducción de vídeos

13. PROCESAMIENTO Y ANÁLISIS DE VÍDEO

13.1 Contador de monedas

13.2 Clasificación de objetos por tamaño

13.3 Identificación de figuras geométricas

13.4 Reconocimiento facial

14. REALIDAD AUMENTADA

15. SEGUIMIENTO DE OBJETOS EN PANTALLA

15.1 Color tracking

15.1.1 Rastreo de objetos

15.1.2 Control gestual

15.2 Meanshift

16. SUSTRACCIÓN DE UNA IMAGEN DE FONDO

17. ANEXO. FUNDAMENTOS DE PYTHON

17.1 Entorno de desarrollo

17.1.1 Instalación

17.1.2 Descripción general

17.2 Sintaxis básica de Python

17.3 Variables

17.4 Tipos de datos básicos

17.4.1 Números

17.4.2 Cadenas de caracteres

17.4.3 Booleanos

17.4.4 Conversión de tipos

17.5 Operadores

17.6 Estructuras de control

17.6.1 if…else

17.6.2 while

17.6.3 for

17.7 Estructuras de datos

17.7.1 Listas

17.7.2 Tuplas

17.7.3 Conjuntos

17.7.4 Diccionarios

17.8 Entrada de datos de usuario

17.9 Depurador de código de Python

17.10 Funciones

17.11 Alcance de las variables

17.12 Clases y objetos

17.12.1 Herencia

17.13 Módulos

Unidad 1

INTRODUCCIÓN

La visión artificial es una disciplina científica formada por un conjunto de técnicas que permiten la captura, el procesamiento y el análisis de imágenes. El objetivo es que un ordenador sea capaz de extraer información útil para responder a preguntas sobre su contenido, como ¿qué aparece en la imagen?, ¿hay algún objeto en el que esté interesado?, ¿es una persona conocida?, ¿qué está haciendo?

Las técnicas necesarias para conseguir dicho objetivo proceden de diversas áreas como la ingeniería o la informática, cuya naturaleza matemática ha provocado que solo estuvieran al alcance de especialistas en la materia. Sin embargo, la aparición de librerías como OpenCV ha permitido ocultar los complejos algoritmos en los que se basan y ha democratizado su uso. Al igual que para ponerse al volante de un coche no es necesario ser mecánico, sino únicamente saber manejar los mandos que permiten conducirlo, para desarrollar aplicaciones de visión artificial no se tiene por qué haber estudiado una ingeniería, basta con conocer las funciones de aquellas librerías que permitan hacer lo que se pretenda, por ejemplo, identificar un determinado objeto, su color o su tamaño.

En este primer capítulo se darán unas pinceladas de lo que es la visión artificial, así como de la librería OpenCV, que pondrá a su alcance las técnicas necesarias para beneficiarse de todo lo que ofrece esta disciplina.

1.1 VISIÓN ARTIFICIAL

Hasta hace poco tiempo, las tareas que un ordenador era capaz de hacer con las imágenes consistían en almacenarlas, reproducirlas o, incluso, procesarlas para modificar su aspecto. Pero en ningún caso llegaba a obtener información que mostrara una compresión real de su contenido. Estas mismas imágenes que tanta información pueden ofrecer a una persona para un ordenador solo representaban píxeles que almacenan un nivel de luz o color.

El análisis que cualquiera de nosotros realizamos de forma natural cuando vemos algo ha estado vedado a los ordenadores. Afortunadamente, estas capacidades, antes relegadas exclusivamente al ámbito humano, comienzan a ser automatizadas gracias a la aplicación de las técnicas de visión artificial.

El objetivo de la visión artificial es interpretar las imágenes con el fin de extraer información de utilidad, por ejemplo, saber si delante de una cámara hay alguien conocido o un lugar de interés. Dicha información servirá para conseguir un fin, que en los ejemplos anteriores podría ser dar acceso a una aplicación (en vez de usar una clave) o proporcionar información turística relevante del sitio donde se encuentre. Ambos ejemplos son tan solo una muestra de los muchos campos en los que su empleo está ganando terreno. Y es más, con alguno de ellos experimentará a lo largo de las páginas de este libro:

• Seguridad. Como se acaba de comentar, la visión artificial puede utilizarse para desbloquear una aplicación, pero pronto comprobará que también permite el desarrollo de alarmas inteligentes que no se disparen cuando el movimiento detectado sea el de su mascota paseándose por la casa.

• Industria. Al comparar las imágenes de objetos manufacturados con las de otros utilizados como modelo, podrían automatizarse procesos de control de calidad. Aplicando estas mismas técnicas, realizará un programa de carácter más lúdico que podría ayudarle a solucionar pasatiempos, como el de las siete diferencias, que a veces tanto cuesta resolver.

• Comercio. Saber cómo quedaría un mueble en su sala de estar o el aspecto que tendría esta con las paredes pintadas de un determinado color son facilidades que pueden hacer que un cliente se decida a comprar un producto concreto. Dentro de esta área, se aborda la implementación de una aplicación orientada al negocio textil, en concreto, de venta de sombreros.

• Educación. Cada vez son más las aplicaciones de este tipo utilizadas como apoyo a la formación. A modo de ejemplo, se desarrolla un programa que podría emplearse para enseñar las principales figuras geométricas a los más pequeños, ya que es capaz de identificar las situadas delante de una cámara.

Por supuesto, la visión artificial puede aplicarse a muchos más campos, como la clasificación y búsqueda de imágenes, la conducción autónoma, la medicina, la agricultura, el turismo, los videojuegos, etc. Tratar de enumerarlos todos daría como resultado una extensa lista que quedaría rápidamente obsoleta, ya que va creciendo de día en día.

Para alcanzar el propósito perseguido en cada una de dichas áreas, esta disciplina se apoya, tal como se indicó al principio del capítulo, en tres pilares que permiten adquirir, procesar y analizar imágenes procedentes del mundo real. Veamos en qué consiste cada uno de ellos.

Mediante la adquisición de imágenes, el mundo analógico de luces y sombras que nos rodea se traduce a datos binarios compuestos por ceros y unos. Es lo que habitualmente se hace con una cámara (ya integrada en el ordenador o conectada por USB).

El procesamiento usa diferentes algoritmos matemáticos que, ocultos por librerías, resaltan determinadas características de las imágenes, preparándolas de esta forma al tipo de algoritmos de análisis que se lleve a cabo posteriormente. Operaciones como el recorte o el escalado de imágenes, el cambio de espacio de color o la aplicación de filtros permiten centrar la atención en los objetos relevantes, al facilitar la detección de sus bordes, esquinas, contornos o cualquier otro rasgo que los defina.

El análisis de las imágenes va un paso más allá del procesamiento. Basado también en algoritmos matemáticos (utilizados, de nuevo, a través de librerías que oculten su complejidad), partirá de los resultados del paso anterior para realizar un reconocimiento de objetos, su clasificación, identificación y seguimiento en la escena, por poner algún ejemplo.

En este libro aprenderá a usar la librería OpenCV para realizar estos procesos, y se ocultará la complejidad matemática de los algoritmos en los que se basa cada uno de ellos. Eso le permitirá desarrollar, de forma sencilla y práctica, aplicaciones de visión artificial en tiempo real.

Adéntrese en este fascinante mundo con Pyhton de la mano de OpenCV.

1.2 OPENCV

OpenCV (Open Source Computer Vision Library) es una librería orientada al procesamiento y análisis de imágenes. Desarrollada inicialmente por Intel en 1999, ha ido ganando popularidad rápidamente, siendo hoy en día una de las más empleadas en el desarrollo de aplicaciones de visión artificial.

OpenCV (https://docs.opencv.org/) es muy utilizada en grupos de investigación, organismos gubernamentales y empresas como Google, Yahoo, Microsoft, Intel, IBM, Sony, Honda y Toyota. Sus ámbitos de aplicación son muchos, y entre ellos destacan:

• Reconocimiento facial

• Identificación de objetos o personas

• Inspección y vigilancia

• Juegos y controles

• Recuento de objetos

• Análisis de imágenes médicas

• Robótica

• Realidad aumentada

En 2008, Willow Garage se hizo cargo del soporte de OpenCV 2.3.1, por lo que a partir de dicha versión viene con una interfaz de programación C++, Java y Python. Además, está disponible en diferentes plataformas, incluidas Windows, Linux, Mac OS X y Android. Este libro se centrará en OpenCV-Python, que combina las mejores cualidades del API (application programming interface, interfaz de programación de aplicaciones) de OpenCV y el lenguaje Python.

Además de ser multiplataforma y multilenguaje, es destacable el hecho de que OpenCV sea un producto con licencia BSD (Berkeley Software Distribution), con menos restricciones que otras como GPL (General Public License, Licencia Pública General de GNU), ya que permite incluso el uso de su código fuente en software comercial.

1.3 PYTHON

Como se acaba de comentar, OpenCV está disponible en los principales lenguajes de programación. De todos ellos, utilizará Python, quizás el empleado por un mayor número de programadores en el mundo. Los motivos de la enorme aceptación de este lenguaje seguramente estén en su sencillez de aprendizaje y facilidad de uso.

No solo permite el clásico modo de programación imperativo, sino que también admite una programación orientada a objetos, con lo que se abre al uso de infinidad de librerías que, como OpenCV, están basadas en este paradigma.

Su entorno multiplataforma hace que se pueda trabajar con él, independientemente de si dispone de un ordenador con Windows, Mac o Linux (incluso Raspberry). Como requisito adicional, necesitará disponer de una webcam, que podrá ser la integrada en el propio ordenador o cualquier otra conectada vía USB.

La versión de Python utilizada será la 3.x (a fecha de publicación del libro es la 3.7). No tiene sentido utilizar Python2 cuando fue oficialmente descontinuado el 1 de enero de 2020.

¿Todavía no conoce Python? Al final del libro dispone de un amplio anexo que representa en sí mismo un curso de iniciación a este lenguaje. En primer lugar, aprenderá cómo se instala y utiliza su entorno de desarrollo. Haciendo uso de él, practicará con los tipos de datos básicos, los operadores y las estructuras de datos o de control imprescindibles del lenguaje. La orientación a objetos tendrá un tratamiento especial, así como el desarrollo de funciones o el uso de módulos (librerías). Se explica todo lo necesario (incluso más) para que pueda entender el código de las múltiples prácticas con las que se demuestran los conceptos de visión artificial introducidos en cada capítulo de la mano de OpenCV. El objetivo final es que, inspirándose en estos programas de prueba, usted pueda desarrollar sus propios proyectos. Los límites que pueda llegar a alcanzar estarán en su imaginación.

Unidad 2

INSTALACIÓN DE OPENCV

Puesto que va a trabajar con la librería OpenCV para Python, deberá tener instalado el entorno de desarrollo de este lenguaje en su ordenador. Si no fuera así, en el anexo final se indica cómo hacerlo. Aunque esta librería funciona tanto con la versión 2.7 como con la 3.4 y superiores, tal como se ha comentado en el apartado anterior, se utilizará únicamente Python 3.7.

Evidentemente, para usar la librería OpenCV, primero hay que instalarla. Para ello, abra una ventana de símbolo del sistema y ejecute el comando:

pip install opencv-python

Recuerde que en algunas distribuciones de Linux el comando que debe utilizar es pip3.

La forma más sencilla de abrir una ventana de símbolo del sistema en Windows es escribiendo su nombre en el campo de búsqueda situado en la parte inferior izquierda del escritorio. Enseguida le aparecerá un icono sobre el que podrá pulsar para abrir dicha ventana.

En la instalación de este paquete, puede observar que también se carga la librería NumPy, utilizada para trabajar con matrices.

Aunque no entraremos en conceptos matemáticos, para entender por qué la visión artificial y las matrices están tan unidas, piense que una imagen puede definirse como una función f(x, y) cuyos argumentos son las coordenadas x, y de cada píxel, y el resultado es el nivel de luz (o color) del píxel situado en dichas coordenadas.

En otras palabras, una imagen no es más que un array de dos dimensiones (de tres en el caso de imágenes en color) cuyos elementos contienen el valor de cada uno de sus píxeles. A los arrays de dos dimensiones se les llama matrices. Si tuvieran tres serían tensores. Sin embargo, por simplicidad, generalmente se empleará el término matriz.

Para saber si OpenCV está correctamente instalado, entre en el intérprete de Python (comando python) y ejecute las siguientes sentencias:

El resultado debe devolver la versión de la librería instalada (en este caso la 4.4.0).

Toda la documentación de esta librería se encuentra en:

https://docs.opencv.org/4.4.0/

Aunque no es imprescindible, aproveche también para instalar la librería matplotlib ejecutando el siguiente comando:

pip install matplotlib

Dicha librería le permitirá generar gráficos a partir de datos contenidos en listas.

Por similitud con la terminología utilizada en otros lenguajes de programación, el término librería se utilizará como sinónimo de módulo o paquete (aunque no sean conceptos exactamente iguales).

Unidad 3

PRIMEROS PASOS

En los siguientes apartados estudiará las operaciones básicas de creación o carga de imágenes desde un archivo y su visualización en pantalla, así como la modificación de su contenido y posterior almacenamiento en disco.

Pero antes deberá conocer el sistema de coordenadas utilizado, en el que cada píxel se localiza en la imagen por su posición horizontal y vertical (x, y). Como puede ver en la siguiente figura, el origen (0, 0) no está localizado en el centro de la imagen, sino en la parte superior izquierda. El píxel marcado en color rojo estaría situado en la coordenada (3, 1).

Otro de los conceptos básicos previos al uso de las funciones de OpenCV es el color, formado por los componentes B, G, R (Blue, Green, Red; Azul, Verde, Rojo), o lo que es lo mismo, los valores de la intensidad de sus componentes azul, verde y rojo. Estos tres colores se consideran primarios porque cualquier otro color se puede obtener a partir de una mezcla de ellos. El valor mínimo de intensidad que pueden tener es 0, y el máximo, 255.

Seguramente le resulte más familiar el espacio de color RGB; por eso, preste especial atención al hecho de que OpenCV utiliza por defecto BGR. Más adelante sabrá cómo pasar de uno a otro o incluso a HSV, ampliamente utilizado en las técnicas de reconocimiento y seguimiento de objetos por su mayor eficiencia.

Ejemplos de especificación de colores utilizando la nomenclatura BGR serían:

• Blanco: (255, 255, 255)

• Negro: (0, 0, 0)

• Rojo: (0, 0, 255)

• Verde: (0, 255, 0)

• Azul: (255, 0, 0)

• Amarillo: (0, 255, 255)

• Púrpura: (255, 0, 255)

• Cian: (255, 255, 0)

Opcionalmente, un píxel puede tener asociado un cuarto parámetro que define su transparencia: el canal alfa. Sus valores van desde 0 (completamente trasparente) a 100 (totalmente opaco).

3.1 CARGA Y VISUALIZACIÓN DE LA IMAGEN ALMACENADA EN UN ARCHIVO

Para mostrar una imagen en pantalla, previamente hay que cargarla con la función de OpenCV:

imread(archivo)

Su único argumento contiene el nombre del archivo donde se encuentra la imagen (o la ruta, en el caso de que no esté en la misma carpeta que el programa). Esta función también admite un segundo argumento opcional para especificar la información que se carga de la imagen. Su valor podrá ser el de cualquiera de estas constantes:

•IMREAD_GRAYSCALE. Carga la imagen en blanco y negro. Su valor es 0.

•IMREAD_COLOR. Carga la imagen en color (se ignora el canal alfa). Su valor es 1.

•IMREAD_UNCHANGED. Carga la imagen incluyendo el canal alfa. Su valor es -1.

Si no se indica este argumento, la función toma por defecto el valor IMREAD_COLOR.

El canal alfa define la opacidad de un píxel, es decir, su grado de transparencia. No todos los formatos de imagen admiten este canal (que se añade a los tres correspondientes a los colores primarios). Así, por ejemplo, mientras JPG no lo permite, PNG sí contiene este tipo de información.

Entre los formatos de imágenes que se soportan destacan BMP, JPEG, PNG y TIFF, entre otros. OpenCV no tiene códec para GIF, por lo que el manejo de imágenes en este formato requiere la librería imageio, que tendrá que haber cargado previamente en su entorno Python. Si quiere saber cómo utilizarla, visite https://pypi.org/project/imageio/.

Esta función devolverá un objeto de la clase ndarray, perteneciente a la librería NumPy. Dicho objeto mantiene una matriz cuyos elementos establecen el nivel de luz o color de los píxeles de la imagen.

Una vez obtenida la imagen, la forma de mostrarla en pantalla es llamando a la función de OpenCV:

imshow(ventana,imagen)

El primer argumento determina el título de la ventana, mientras que el segundo contiene la imagen.

El tamaño de la ventana será el de la imagen. Si la resolución de esta fuera muy alta, solo se vería parte de ella.

En el siguiente programa se utilizan ambas funciones:

Con la primera sentencia se importa la librería OpenCV. A continuación, se carga la imagen “cuadro.jpg” (que está dentro de la carpeta “imagenes”) con la función imread(). Su segundo argumento es 0, lo que significa que la imagen se obtiene en blanco y negro. La última sentencia la muestra en una ventana llamada “Cuadro”.

En la ruta de acceso al fichero de una imagen, el carácter ‘.’ simboliza el directorio en el que se encuentra el programa que se está ejecutando. Para acceder al directorio padre, se utilizaría ‘..’, como en este caso.

En los programas desarrollados para cada una de las prácticas, se supone que las imágenes se encuentran en archivos dentro de la carpeta “imagenes” (sin acento), situada al mismo nivel que las que contengan los programas que vaya desarrollando, siguiendo la estructura:

Ejecute el programa. El resultado obtenido lo puede ver a continuación.

Si observara que la ventana se cierra inmediatamente, añada al final del programa las sentencias:

Aunque se estudiarán en detalle más adelante, le avanzo que su función es la de esperar que se pulse una tecla antes de cerrar la ventana.

Pese a que OpenCV es multiplataforma y todos los programas se han probado en Windows, puede que se produzca este efecto en otros sistemas operativos. En ese caso, acuérdese de incluir dichas sentencias en el resto de programas que no las tengan, especialmente en los utilizados en los primeros capítulos.

Cambiando el segundo argumento de la función imread() por 1, la imagen se recuperaría con la información del color.

Si la imagen ya estuviera cargada en color, una forma de convertirla posteriormente a blanco y negro sería utilizando la función:

cvtColor(imagen,espacio de color)

El primer argumento es la imagen que va a cambiar de espacio de color, que será el determinado por el segundo argumento. En el caso de tener una imagen BGR (como en este caso) y querer pasarla a blanco y negro, su valor sería COLOR_BGR2GRAY.

Existen multitud de códigos de conversión de espacios de color. A lo largo de este libro tendrá ocasión de utilizar frecuentemente el que cambia de BGR al HSV (tendrá ocasión de conocerlo más adelante) y viceversa, cuyos valores son COLOR_BGR2HSV y COLOR_HSV2BGR, respectivamente. Si quiere conocer todas las posibilidades de transformación de que dispone esta función, consulte https://docs.opencv.org/3.4/d8/d01/group__imgproc__color__conversions.html.

El siguiente código muestra un ejemplo de uso de esta función.

Aunque la imagen se carga en color (img), posteriormente se pasa a blanco y negro (img_byn) con la función cvtColor(), que es como finalmente se muestra.

Este proceso de conversión de una imagen en color a otra en blanco y negro es de gran importancia en visión artificial porque:

• Reduce el tamaño de la imagen, al no tener que mantener la información del color.

• Aumenta la eficiencia de los algoritmos de procesamiento de imágenes, al trabajar con un valor por píxel (en color serían 3). Esto es especialmente crítico cuando se utilizan algoritmos que consumen muchos recursos computacionales (especialmente si se usan ordenadores de bajas prestaciones) o es necesario dar respuesta en tiempo real (como sucede cuando se trabaja con aplicaciones de realidad aumentada).

• Hay filtros de procesamiento de imágenes que solo funcionan en escala de grises.

Para extraer los diferentes colores de la imagen, deberá utilizar la función:

split(imagen)

Esta función devuelve tres imágenes, una por cada uno de los colores primarios que la componen. Dichas imágenes se muestran en blanco y negro. Cuanto más claro sea un píxel, mayor será la intensidad del color primario correspondiente. Para comprobarlo, observe las siguientes figuras geométricas, cada una de las cuales se ha pintado en uno de los colores primarios.

Ahora escriba y ejecute el siguiente programa:

En este código, primero se importa la librería OpenCV y luego se carga la imagen anterior en color. A continuación, se ejecuta la función split(), que devuelve como resultado tres imágenes, una por cada color primario (img_azul, img_verde y img_roja). Finamente, dichas imágenes se muestran en ventanas independientes llamando tres veces a la función imshow().

Por lo tanto, el resultado de la ejecución del programa anterior serán tres ventanas, en cada una de la cuales se mostrará un solo color (que se verá blanco en su máxima intensidad y negro en su ausencia). Puesto que cada figura geométrica es de un color primario, en cada ventana se mostrará en blanco solo una de ellas (la que tiene el color por el que se filtra), y desaparecen el resto, que se funden con el negro del fondo. En visión artificial, este tipo de filtros de color son de gran utilidad, ya que sirven para seleccionar objetos en la imagen sobre los que interesa poner atención y descartar el resto.

Para volver a juntar los componentes de cada color en la misma imagen, utilice la función:

merge(imagen azul, imagen verde, imagen roja)

Dicha función devolvería la imagen en color original.

3.2 OBTENCIÓN DE LAS CARACTERÍSTICAS DE UNA IMAGEN

Las imágenes se almacenan como matrices de píxeles en objetos de la clase ndarray, de los que se pueden extraer características clave como sus dimensiones, el número de canales que las componen, el tipo de dato con el que se almacena la información o el tamaño que ocupa en disco.

Para conocer las dimensiones y el número de canales de una imagen, acceda a su atributo:

shape

El valor de dicho atributo es una tupla con tres valores:

(alto, ancho, n.° canales)

El tamaño que ocupa en disco una imagen vendrá dado por su ancho y alto, así como por el número de canales que contiene. Una imagen en blanco y negro tiene un canal, mientras que las de color se componen de tres (uno por cada color primario). Si cada color se almacenara en un byte, el tamaño en bytes de una imagen sería:

Como se ha indicado, este cálculo es válido cuando los elementos de la matriz de la imagen ocupen un byte, por ejemplo, del tipo uint8. No todos los tipos de datos ocupan lo mismo en disco. Si quiere conocer cuál es el utilizado en una imagen, consulte el atributo:

dtype

Sin embargo, la forma más sencilla de conocer el tamaño en disco de una imagen es accediendo a su atributo:

size

Añada las siguientes sentencias al final del programa visto anteriormente (aquel con el que se cargaba y visualizaba la imagen en color de la niña):

Ahora, además de mostrarse la imagen en pantalla, en la shell obtendrá como resultado que tiene un tamaño de 921 600 píxeles, sus dimensiones son de 640 × 480 píxeles y se compone de tres canales, cuyos valores son del tipo uint8.

3.3 CREACIÓN DE UNA IMAGEN A PARTIR DE UNA MATRIZ DE PÍXELES

Como ya sabe, una imagen es un objeto ndarray que contiene una matriz cuyos elementos establecen el nivel de luz (o color) de cada píxel. Si la imagen fuera en blanco y negro, el valor de dichos elementos sería un entero comprendido entre el 0 (oscuridad absoluta) y el 255 (máximo nivel de luz). Para entenderlo mejor, en la siguiente figura se muestra una imagen negra de 5 × 5 píxeles y su representación como una matriz.

En Python, esta matriz de píxeles sería la siguiente:

Para convertir dicha matriz en un objeto de la clase ndarray, que es como realmente se representan las imágenes en OpenCV, tendría que utilizar la función array() de la propia librería NumPy. El código sería el siguiente:

Más abajo puede ver el resultado de la ejecución de este programa, que muestra en la shell la matriz que representa una imagen negra de 5 × 5.

Observe que una matriz NumPy no muestra sus elementos separados por comas.

Sin embargo, esta forma de trabajar no sería práctica cuando se manejan imágenes con una resolución de miles de píxeles. Por eso, la librería NumPy permite crear esta matriz de forma más sencilla, mediante la función:

zeros(dimensiones,tipo)

El primer argumento es una tupla con las dimensiones de la matriz. El segundo es el tipo de los elementos que contiene. Así, el programa anterior podría sustituirse por:

Antes de ejecutar la función que crea la imagen, es necesario importar la librería NumPy, ya que la clase ndarray pertenece a dicha librería, no a OpenCV. La imagen devuelta por la función zeros() es de 5 × 5 píxeles, mientras que la información almacenada en cada píxel son valores enteros sin signo entre 0 y 255 (uint8). El resultado de la ejecución de este programa sería el mismo que el anterior.

Una vez que ya tiene creada la imagen, solo resta visualizarla con la función imshow():

En este caso, la imagen creada es de 300 × 300 píxeles. El resultado de la ejecución de este programa puede verlo a continuación.

Para crear una imagen blanca, tal como se muestra gráficamente en la siguiente imagen, los valores de cada uno de los píxeles deben ser 255.

Con el fin de facilitar la creación de dicha matriz de píxeles, NumPy dispone de una función similar a zeros(), solo que ahora el valor de todos sus elementos es 1.

ones(dimensiones,tipo)

Así, para crear una imagen completamente blanca, solo habría que multiplicar por 255 cada uno de los elementos de la matriz generada por dicha función. Por lo tanto, el código del programa que mostraría una imagen blanca de 300 × 300 píxeles es:

El resultado de la ejecución del programa anterior es la siguiente ventana.

Si lo que se busca es una imagen en color, los píxeles deberán contener información del nivel de intensidad de cada uno de los colores primarios, los cuales pueden tomar un valor entre 0 y 255. Por lo tanto, para crear una imagen de color azul, el código que tendría que escribir sería:

Como puede observar, ahora la matriz tiene una nueva dimensión, ya que sus elementos se componen de tres valores, correspondientes a los niveles de intensidad de los tres colores primarios en cada píxel.

También podría haberse utilizado la función zeros(), ya que, posteriormente, se cambia el valor de todos los elementos de la matriz para colorear la imagen.

La siguiente sentencia asigna el mismo color a todos los píxeles (en este caso, el azul).

Aunque se ha usado una tupla para asignar el color, también se podría haber empleado una lista. Por ese motivo, la siguiente sentencia sería igualmente válida:

De las imágenes que hay más abajo, la de la izquierda corresponde al resultado de la ejecución de este programa. Las otras dos se obtendrían modificando la sentencia que asigna el color a los píxeles. En el caso del verde:

O si prefiere el rojo:

3.4 MODIFICACIÓN DEL VALOR DE LOS PÍXELES DE UNA IMAGEN

Como sabe, una imagen se representa por una matriz de elementos, cada uno de los cuales es una tupla cuyos valores determinan la intensidad del color azul, verde y rojo de cada píxel (o únicamente el nivel de luz, en caso de tratarse de una imagen en blanco y negro). Para entender la forma de acceder a un píxel, tanto para obtener su valor como para asignarle otro diferente, observe la siguiente imagen, en la que hay un píxel negro situado en la posición (3, 1).

Puesto que la imagen está formada por una matriz, en la que sus elementos se distribuyen por filas y columnas, si estuviera almacenada en la variable img, la forma de obtener el valor de dicho píxel (nivel de luz) sería:

La fila viene dada por la coordenada y, mientras que la columna es la coordenada x. Por eso, para obtener el color del punto (3, 1), se deberá usar la expresión:

Esto suele ser motivo de confusión. Por eso, preste especial atención cada vez que tenga que acceder a un píxel de la imagen.

Una vez que se accede a un píxel, no solo es posible obtener su valor, sino también modificarlo. Eso es precisamente lo que hará en el siguiente programa, con el que, partiendo de la imagen blanca generada en el apartado anterior, dibujará una rejilla. La forma de hacerlo será recorriendo todos sus píxeles para asignarles el valor 0 (negro) a intervalos regulares. Puesto que dichos intervalos se tomarán tanto en el eje horizontal como en el vertical, las líneas que se dibujen conformarán una rejilla.

El código del programa es el siguiente.

La primera parte del programa crea una imagen en blanco de 300 × 300 píxeles de tamaño. Su código ya lo conoce, por lo que no se va a dar ninguna explicación al respecto.

Una vez creada dicha imagen, se asigna el valor 0 a cada píxel en las coordenadas x e y, a intervalos regulares de 50 píxeles. Es decir, se dibujan de color negro los píxeles situados en las filas o columnas 0, 50, 100, 150, 200 y 250. El resultado será una imagen formada por 6 cuadrados de lado.

La forma de recorrer todos los píxeles de una imagen es mediante un doble bucle, cada uno de los cuales se desplaza por un eje.

Por simplicidad del código, no se dibujan las últimas líneas horizontal y vertical de la rejilla.

Para identificar los píxeles que deben pintarse en negro, es decir, aquellos cuyas coordenadas x o y sean múltiplos de 50, se utiliza el operador ‘%’, que devolverá el valor 0 en esos casos.

La sentencia clave del programa es la que se ejecuta cuando se cumple la condición del if anterior, es decir, la que pinta de negro los píxeles de las líneas. Para ello, solo hay que acceder a ellos, tal como se ha explicado, y asignarles el valor 0.

Por último, se muestra la rejilla en pantalla con la función imshow().

cv2.imshow(‘Rejilla ‘, img)

Ejecute el programa. Cuando lo haga, obtendrá el resultado mostrado a continuación.

¿Y si hubiera querido pintar la rejilla en color? En ese caso, la imagen blanca de fondo se debería haber creado con tres canales. Suponiendo que se quiere dibujar las líneas de color rojo, el programa sería:

El código utilizado para crear una imagen blanca de tres canales (en vez de uno, como en el programa anterior) es el mismo desarrollado para crear ventanas con el fondo de color, solo que ahora ese color es el blanco.

Para la asignación del color rojo a los píxeles que forman parte de las líneas de la rejilla, ahora se utiliza una terna (en este caso la que identifica el color rojo), en vez de un nivel de luz.

El resultado de la ejecución de este programa será el mostrado a continuación.

3.5 ALMACENAMIENTO DE UNA IMAGEN EN UN ARCHIVO

Ya sabe cómo mostrar en pantalla las imágenes cargadas previamente de un archivo o creadas dentro del propio programa como un objeto de la clase ndarray. Ahora va a aprender a guardarlas en un fichero. Para ello, OpenCV proporciona la función:

imwrite(archivo,imagen)

El primer argumento de esta función es el nombre del archivo (o un path) en el que se va a guardar la imagen contenida en el segundo.

Para practicar con esta nueva función, completará el programa del apartado anterior, en el que dibujaba una rejilla, para que, en vez de mostrarla, se almacene en un archivo. El código del programa es el siguiente.

La principal diferencia de este código con el descrito en el apartado anterior es que se sustituye la función imshow(), que muestra la rejilla en pantalla, por imwrite(), que la almacena en el archivo “rejilla.jpg”, dentro de la carpeta “imagenes”.

cv2.imwrite(‘../imagenes/rejilla.jpg’, img)

Los nombres de los archivos siempre deben tener una extensión, correspondiente a cualquiera de los formatos admitidos. De lo contrario, obtendrá el error: “could not find a writer for the specified extension in function ‘cv::imwrite”.

Si, por equivocación, indicara mal la ruta en la que debe situarse el archivo y esta no existiera, el programa no avisaría del error. Simplemente, no haría nada.

Ejecute el programa y, cuando en la shell de Python aparezca el mensaje “Imagen almacenada”, compruebe que en el directorio “imagenes” exista el archivo creado. Al abrirlo, verá la rejilla que acaba de dibujar.

Si quiere ver las imágenes de la carpeta donde se almacenan sin necesidad de abrirlas, en el explorador de Windows seleccione la opción “Iconos grandes” del menú “Vista”.

Unidad 4

FUNCIONES DE INTERFAZ GRÁFICA DE USUARIO

En este capítulo conocerá las funciones gráficas básicas de creación de interfaces de usuario proporcionadas por OpenCV. Las utilizará para dibujar líneas, delimitar áreas o superponer textos informativos que muestren visualmente los resultados del procesamiento y el análisis de imágenes realizados.

La primera de estas funciones tiene que ver con el manejo de ventanas. Veamos qué es lo que ofrece.

4.1 VENTANAS

Hasta ahora, las ventanas en las que ha mostrado las imágenes se han creado automáticamente con la función imshow(). Sin embargo, OpenCV permite más posibilidades de creación y configuración. Veamos cuáles son las principales.

Para crear una ventana, OpenCV proporciona la función:

namedWindow(ventana)

El argumento de esta función es el nombre de la ventana, que es el que aparece en su barra de título. Además, dicho nombre será el utilizado en la lógica del programa para identificarla y, de esta forma, poder asociarla a imágenes, eventos de teclado o ratón, barras de desplazamiento, etc.

Opcionalmente, tiene un segundo argumento que puede tomar los siguientes valores:

•WINDOW_NORMAL. Permite cambiar el tamaño de la ventana sin restricciones.

•WINDOW_AUTOSIZE. El tamaño de la ventana se ajusta automáticamente al de la imagen mostrada, no puede ser modificada de forma manual.

•WINDOW_OPENGL. La ventana se creará con soporte OpenGL.

OpenGL (Open Graphics Library) es un estándar que define una API multilenguaje y multiplataforma para el desarrollo de gráficos 2D y 3D.

Si lo que desea es mover una ventana a una posición concreta del escritorio, use la función:

moveWindow(nombre ventana,x,y)

El primer argumento es el nombre de la ventana que se va a desplazar a las coordenadas x, y fijadas en los otros dos argumentos.

Para redimensionar una ventana, utilice la función:

resizeWindow(ventana,ancho,alto)

En este caso, la ventana indicada en el primer argumento adquiere las dimensiones establecidas en los otros dos argumentos.

Para cerrar una ventana, llame a la función:

destroyWindow(ventana)

Si lo que quiere es cerrar todas las ventanas que se hayan podido abrir en el programa, use esta otra función:

destroyAllWindows()

El siguiente programa muestra la imagen del cuadro de la niña, pero con una serie de particularidades.

Lo primero que se hace en el programa después de importar la librería OpenCV es cargar la imagen con el cuadro de la niña.

Luego se crea una ventana (llamada “Cuadro”) utilizando la función namedWindow() con el flagWINDOW_NORMAL, por lo que, a diferencia de cuando se creaba con la función imshow(), ahora podrá redimensionarla sin restricciones. Además, al cerrar la ventana, si ejecutara de nuevo el programa, aparecería con las mismas dimensiones que tenía cuando la cerró.

cv2.namedWindow(‘Cuadro’, cv2.WINDOW_NORMAL)

Una vez creada la ventana, se mostrará en la parte superior izquierda del escritorio.

cv2.moveWindow(‘Cuadro’, 0, 0)

Por último, se muestra la imagen en dicha ventana.

cv2.imshow(‘Cuadro’, img)

Ejecute el programa y compruebe que su funcionamiento es el descrito.

4.2 LÍNEAS

La función proporcionada por OpenCV para el dibujo de líneas (en realidad, se trataría de segmentos, ya que tienen un principio y un fin) es:

line(imagen, punto inicial, punto final, color, grosor)