banner
Casa / Blog / La squadra dell'Illinois vince il primo premio nel concorso AI OpenCV
Blog

La squadra dell'Illinois vince il primo premio nel concorso AI OpenCV

Aug 15, 2023Aug 15, 2023

9/8/2023

Debra Levey Larson

La creazione manuale di un set di dati di immagini etichettate è costosa e richiede molto impegno. Motivato a ridurre entrambi questi fattori, un team di quattro studenti dell’Università Urbana-Champaign dell’Illinois ha sviluppato una soluzione che automatizza il processo di generazione e annotazione dei dati per l’addestramento di modelli di visione artificiale basati sul deep learning.

Quest'anno il team ha vinto il primo premio nel Core Track della competizione AI OpenCV 2022. Il loro software chiamato COCOpen segue l'approccio di etichettatura delle immagini introdotto nel set di dati Microsoft "Common Objects in Context".

Il software creato produce dati di immagine utilizzati per addestrare modelli per identificare e delineare oggetti specifici in una scena che potrebbe contenere più oggetti della stessa categoria.

Nel caso d'uso di esempio nel loro repository di codice, generano immagini che contengono più oggetti delle categorie di dispositivi cablati ed Ethernet. Queste immagini sintetiche possono essere utilizzate per addestrare un modello di deep learning a rilevare queste categorie di oggetti su nuove immagini che il modello non ha mai visto prima.

La creazione e l'etichettatura automatizzate di queste immagini di formazione riducono significativamente i tempi e i costi associati a questo processo. Il codice può essere utilizzato in una varietà di applicazioni come produzione, logistica, guida autonoma e servizi domestici.

Holly Dinkel , un dottorato di ricerca. studente del Dipartimento di Ingegneria Aerospaziale dell'UIUC, ha spiegato che COCOpen funziona scattando immagini semplici e senza etichetta di singoli oggetti su uno sfondo nero.

Il software utilizza OpenCV per creare maschere per questi singoli oggetti in base al loro colore. Quindi combina più immagini di oggetti in un'unica immagine utilizzando il metodo copia-incolla di aumento dei dati. Inoltre, OpenCV viene utilizzato per applicare miglioramenti tra cui la randomizzazione dell'orientamento di un oggetto o l'alterazione del suo colore.

I dati generati dalla libreria COCOpen vengono convalidati addestrando un modello Detectron2 Mask R-CNN per rilevare cavi Ethernet e dispositivi di rete per un'applicazione di manipolazione robotica.

Yash Rathod, studente del Dipartimento di Informatica, ha affermato che la sua visione per COCOpen era quella di prendere la ricerca da un laboratorio e creare un'esperienza di generazione di dati di facile utilizzo per i professionisti dell'apprendimento automatico.

"L'idea era quella di costruire una pipeline in cui estraiamo migliaia di immagini dal cloud, le preelaboriamo e applichiamo le tecniche di generazione dei dati studiate in laboratorio, per produrre dati in formato COCO pronti per l'addestramento di modelli di visione artificiale", ha affermato.

Rathod ha sfruttato la sua esperienza semestrale con il programma di promozione della ricerca universitaria in ingegneria presso l'UIUC per sviluppare e testare software per l'interfacciamento con le risorse di archiviazione dei dati nel cloud, originariamente Microsoft Azure, poi Box.

“La generazione automatizzata dei dati significa che gli utenti possono semplicemente clonare un repository di codice e seguire istruzioni minime di installazione ed esecuzione. Vogliamo far risparmiare tempo agli utenti e preziose risorse di elaborazione sfruttando il cloud", ha affermato Rathod.

Harry Zhao , che si è laureato lo scorso maggio con una laurea in ingegneria aerospaziale, ha evidenziato la capacità di COCOpen di risolvere problemi di visione artificiale del mondo reale utilizzando OpenCV con applicazioni in molte discipline. Tra le altre 45 voci nella loro categoria c'erano soluzioni per sfide mediche, ambientali e di costruzione.

"La creazione del set di dati Microsoft COCO originale ha richiesto un totale di 55.000 ore di lavoro, non tutte da parte di una sola persona, ovviamente", ha affermato Zhao. “Ma possono esserci molte incongruenze. Alcune etichette potrebbero essere imprecise e dover essere rifiutate o perfezionate, il che fa perdere ancora più tempo. COCOpen inserisce i dati in un formato che le persone possono utilizzare per generare automaticamente etichette nelle immagini.

Zhao ha affermato che COCOpen si ispira al codice e ai dati che lui e Dinkel hanno creato due anni fa durante il suo tirocinio presso il programma di opportunità di ricerca universitaria dell'Illinois Space Grant Consortium.

Riguardo alla complessità dell’etichettatura, Zhao ha detto: “Se ci preoccupassimo solo di rilevare o classificare i cavi, diremmo semplicemente: questo è un filo e questo non è un filo. È zero o uno. Binario. La segmentazione semantica avviene quando sai cosa rappresentano i pixel.