Los conjuntos de datos de visión por computadora son esenciales para entrenar modelos de aprendizaje automático para detectar objetos, caras y otras características visuales. Sin embargo, puede ser difícil saber qué anotar y cómo hacerlo correctamente.
Nos gustaría compartir nuestra experiencia para promover algunas de las mejores prácticas para anotar imágenes en conjuntos de datos de visión por ordenador:
Hay una variedad de herramientas de anotación disponibles tanto gratuitas como comerciales, por lo que es importante elegir una que sea adecuada para su proyecto. Algunos factores a considerar incluyen el tipo de datos de imagen que está anotando, el número de imágenes que necesita anotar y su presupuesto. Conozca algunas de las herramientas más populares:
LabelImg: Esta es una herramienta de anotación de imagen gratuita de código abierto disponible en tres plataformas: Windows, macOS y Linux. Está escrito en Python y utiliza Qt para su interfaz gráfica, las anotaciones se guardan como archivos XML en formato PASCAL VOC, el formato utilizado por ImageNet (una base de datos de imágenes organizada de acuerdo con la jerarquía de sustantivos de WordNet, con cientos y miles de imágenes para cada nodo. Ha desempeñado un papel importante en el progreso de la visión por computadora y la investigación de aprendizaje profundo. Los investigadores pueden acceder a los datos de forma gratuita con fines no comerciales). LabelImg también admite formatos YOLO y CreateML.
VIA (Anotador de imagen VGG): Software de código abierto, fácil de usar y autónomo que permite la anotación manual de imágenes, audio y video. Se puede acceder a él a través de un navegador web sin necesidad de instalación o configuración. Todo el programa está contenido en una sola página HTML de menos de 400 Kilobytes de tamaño, y se puede utilizar sin conexión en la mayoría de los navegadores web modernos. VIA depende únicamente de HTML, JavaScript y CSS, y no requiere ninguna biblioteca externa. Lanzado bajo la licencia de la cláusula BSD-2, es una opción preferida por muchos servicios de anotación, ya que es adecuado tanto para investigación académica como para aplicaciones comerciales. Disponible en Windows, macOS y Linux.
LabelMe: herramienta de anotación en línea entregada por el equipo MIT CSAIL para construir bases de datos de imágenes para la investigación de la visión por computadora. También disponible gratuitamente en Windows, macOS y Linux.
Nota: se puede encontrar una versión en GitHub para anotación poligonal.
Cabezal: Esta es una herramienta de anotación de imagen comercial.
V7: Una herramienta de anotación de imagen comercial.
Es importante entrenar a sus anotadores sobre cómo anotar las imágenes correctamente. Esto ayudará a garantizar que los datos sean consistentes y precisos.
Leer más sobre: Principales directrices de anotación para los etiquetadores de datos
Ahora que sabemos que hay muchas herramientas gratuitas y comerciales (propietarias) disponibles, es importante recordar que añadir especias a la mezcla solo ayudará al modelo ML a reconocer más variedad y así ser más preciso. Hay una variedad de herramientas de anotación disponibles como puede ver arriba, por lo que es importante elegir no solo una que sea adecuada para su proyecto, sino también proveedores que puedan ofrecer resultados de varias herramientas.
Al anotar imágenes, es importante anotar toda la imagen, no solo los objetos de interés. Esto ayudará al modelo a aprender sobre el contexto de la imagen.
Es importante usar etiquetas consistentes al anotar imágenes. Esto ayudará al modelo a aprender a identificar diferentes objetos. Las anotaciones deben ser fáciles de entender tanto para humanos como para máquinas.
Una vez que las imágenes han sido anotadas, es importante revisarlas para asegurarse de que sean precisas y consistentes. Esto ayudará a garantizar que los datos sean precisos y estén actualizados.
Esto ayudará al modelo a aprender a identificar diferentes objetos.
Esto ayudará al modelo a aprender las relaciones entre diferentes objetos.
Esto ayudará al modelo a aprender a identificar objetos a diferentes escalas.
Siguiendo estos consejos, puede mejorar la calidad y precisión de los conjuntos de datos de visión de su computadora y hacerlos más útiles para los modelos de aprendizaje automático de capacitación.