Riconoscimento dei gesti

Il riconoscimento dei gesti (in inglese gesture recognition) è un argomento dell'informatica e delle tecnologie del linguaggio che ha l'obiettivo di interpretare i gesti umani attraverso algoritmi matematici.

I gesti si creano con qualsiasi movimento del corpo ma per lo più sono movimento adempiuti con viso o mani. Oggi, si è focalizzati nel riconoscimento delle emozioni attraverso il riconoscimento dei gesti di mani e faccia. Molti approcci sono stati adottati usando algoritmi di macchine fotografiche e visione artificiale per interpretare il linguaggio dei segni.

Tuttavia, l'identificazione e il riconoscimento della postura, dell'andatura, della prossemica, e i comportamenti umani sono anche l'oggetto delle tecniche di riconoscimento gestuale.

Il riconoscimento dei gesti può essere visto come una maniera per i calcolatori di iniziare a comprendere il linguaggio del corpo umano, iniziano a costruire così una più ricca interazione tra uomo e macchina che piuttosto che usare interfacce testuali o grafiche limitate per lo più da una tastiera e un mouse come dispositivi d'ingresso dati, permettendo così all'uomo anche una interazione più naturale.

Sarebbe possibile puntare un dito verso lo schermo del computer in modo che il cursore si sposterà di conseguenza. Il riconoscimento dei gesti può essere condotto con tecniche di visione artificiale e di elaborazione digitale delle immagini.

Applicazioni

[modifica | modifica wikitesto]

Il riconoscimento dei gesti è utile per l'elaborazione di informazione che gli esseri umani non possono comunicare attraverso il discorso o la scrittura.

Riconoscimento della lingua dei segni^[1] Proprio come il riconoscimento vocale può trascrivere parole in testo, alcuni tipi di software di riconoscimento dei gesti possono trascrivere i simboli rappresentati attraverso il linguaggio dei segni in testo.
Robotica assistita per il sociale. Utilizzando sensori appropriati (accelerometri e giroscopi) applicati al corpo di un paziente e leggendo i valori generati da tali sensori è possibile aiutare la riabilitazione del paziente. Un buon esempio può essere la riabilitazione da ictus.
Indicazioni direzionali attraverso il puntamento^[2] Il puntamento ha uno scopo molto specifico nella nostra società: fare riferimento a un oggetto o una locazione rispetto alla propria posizione. L'uso del riconoscimento dei gesti per determinare in che direzione una persona sta puntando è utile per identificare il contesto delle dichiarazioni o delle istruzioni. Questa applicazione è di particolare interesse nel campo della robotica.
Controllo attraverso la mimica facciale. Controllare un dispositivo elettronico attraverso la mimica facile è utile per quegli utenti che non possono fisicamente adoperare una tastiera o un mouse. L'oculometria (Tracciatura dell'occhio) può essere utile per il controllo di un cursore.
interfacce per computer alternative.^[3]^[4]^[5]^[6]^[7] La configurazione tradizionale mouse-tastiera per interagire con un computer potrebbe essere sostituita dal riconoscimento dei gesti, che consentirebbe agli utenti di eseguire le comuni operazioni con la mano o coi gesti del viso, con il solo uso di una telecamera.
Tecnologia immersiva per i videogiochi. I gesti possono essere usati per controllare le interazioni all'interno dei videogiochi per cercare di rendere l'esperienza di gioco più realistica e coinvolgente.
Controller virtuale. Per quei sistemi dove l'atto di trovare o acquisire un controller fisico possa richiedere troppo tempo, i gesti possono essere usati come un meccanismo di controllo alternativo. Per controllare dispositivi secondari in un'auto, o per controllare le impostazioni della televisione sono un esempio del loro uso^[8]
Calcolo emozionale. Il riconoscimento dei gesti è utilizzato nel processo di identificazione delle espressioni emozionali utilizzando sistemi informatici.
Controllo remoto^[9]^[10]^[11] Attraverso l'uso del riconoscimento dei gesti è possibile il controllo remoto, attraverso il movimento della mano, di vari dispositivi. Il segnale non deve solo indicare la risposta desiderata, ma anche quale dispositivo controllare.

Dispositivi di input

[modifica | modifica wikitesto]

La capacità di tracciare i movimenti di una persona e determinare quali gesti possano essere stati eseguiti può essere ottenuta attraverso vari strumenti. Sebbene siano state effettuate numerose ricerche nel riconoscimento dei gesti attraverso elaborazioni di immagini / video, vi sono diverse differenze tra gli strumenti e gli ambienti utilizzati nelle varie implementazioni.

Telecamere a riconoscimento di profondità. Utilizzando telecamere specializzate è possibile generare una mappa di profondità a breve distanza di ciò che viene visto attraverso la telecamera, e utilizzare questi dati per approssimare una rappresentazione 3D di ciò che si vede. Queste telecamere risultano essere abbastanza efficaci nel rilevamento dei gesti delle mani a causa della loro capacità a corto raggio.
Telecamere per la stereovisione. Utilizzando due telecamere i cui rapporti reciproci sono noti, è possibile approssimare una rappresentazione 3D di quello che viene visto dalle due telecamere. Per ottenere i rapporti delle telecamere è possibile utilizzare un riferimento di posizione, ad esempio degli emettitori infrarossi.
Controller basati su gesti. Questi controller possono essere visti come un'estensione del corpo; quando vengono eseguiti determinati gesti, i loro movimenti possono essere facilmente catturati da un software. I gesti del mouse ne sono un esempio, dove il movimento del mouse è correlato a un simbolo disegnato a mano da una persona, o come il Wii Remote, che può catturare i propri cambiamenti di accelerazione nel corso del tempo, generando così una rappresentazione dei gesti eseguiti. Uno dei dispositivi presentati al CES è Verso One, un anello che, attraverso bluetooth abilita qualsiasi dispositivo ad un controllo da parte dei gesti. Esistono diversi altri progetti, come MYO, finanziato con alcuni milioni di dollari ma attualmente bloccato.
Telecamera singola. In situazioni in cui, per mancanza di risorse o per necessità ambientali, non fosse possibile utilizzare altri dispositivi, è possibile utilizzare una normale telecamera (o webcam) per il riconoscimento dei gesti basato su immagini. Anche se non sempre efficace come il riconoscimento tramite stereovisione o telecamere a profondità, l'utilizzo di una singola telecamera consente una maggiore portabilità e accessibilità ad un pubblico più ampio.

Sviluppi futuri

[modifica | modifica wikitesto]

Ci sono molte sfide aperte connesse con la precisione e l'usabilità dei software di riconoscimento dei gesti. Per il riconoscimento dei gesti basato su immagini vi sono limitazioni sia sull'equipaggiamento utilizzato che sul rumore dell'immagine. Immagini o video possono non essere in condizioni di illuminazione buone; oggetti sullo sfondo o caratteristiche distintive degli utilizzatori possono rendere più difficile il riconoscimento.

La varietà di implementazioni può anche causare problemi per la variabilità della tecnologia utilizzata. Ad esempio, un algoritmo tarato per una fotocamera potrebbe non funzionare per una fotocamera differente. La quantità di rumore di fondo causa anche difficoltà di tracciamento e di riconoscimento, soprattutto quando si verificano delle occlusioni (parziali o totali). Inoltre, la distanza dalla fotocamera, la risoluzione e la qualità della stessa, possono causare variazioni nella precisione del riconoscimento. Al fine di catturare i gesti umani da parte di sensori visuali è necessario l'utilizzo di metodi di visione artificiale robusti, per esempio per il tracciamento e il riconoscimento della postura della mano o per catturare i movimenti del capo, espressioni del viso o di direzione dello sguardo.

Braccio del gorilla

[modifica | modifica wikitesto]

Il "braccio del gorilla" è un effetto collaterale dell'uso dei touch-screen disposti verticalmente, che ha portato ad un tracollo di tale tecnologia come sistema portante di input, nonostante un inizio promettente nei primi anni '80. I progettisti delle interfacce tattili, non tennero in dovuta considerazione che gli esseri umani non sono fatti per tenere le braccia stese di fronte a se stessi per lungo tempo effettuando piccoli movimenti. Dopo pochi tocchi, l'operatore inizia a sentire il braccio dolorante e indolenzito, impossibilitato nel proseguimento del suo compito.

Il braccio del gorilla è un problema che non si presenta negli usi specialistici a breve termine (uso di ATM, biglietteria elettronica nelle stazioni ferroviarie...), dal momento che implicano solo interazioni brevi che non durano abbastanza a lungo da causare questo inconveniente.

Note

[modifica | modifica wikitesto]

^ Thad Starner, Alex Pentland, Visual Recognition of American Sign Language Using Hidden Markov Models^{[collegamento interrotto]}, Massachusetts Institute of Technology
^ Kai Nickel, Rainer Stiefelhagen, Visual recognition of pointing gestures for human-robot interaction^{[collegamento interrotto]}, Image and Vision Computing, vol 25, Issue 12, December 2007, pp 1875-1884
^ Lars Bretzner and Tony Lindeberg "Use Your Hand as a 3-D Mouse ...", Proc. 5th European Conference on Computer Vision (H. Burkhardt and B. Neumann, eds.), vol. 1406 of Lecture Notes in Computer Science, (Freiburg, Germany), pp. 141--157, Springer Verlag, Berlin, June 1998.
^ Matthew Turk and Mathias Kölsch, "Perceptual Interfaces" Archiviato il 22 luglio 2013 in Internet Archive., University of California, Santa Barbara UCSB Technical Report 2003-33
^ M Porta "Vision-based user interfaces: methods and applications", International Journal of Human-Computer Studies, 57:11, 27-73, 2002.
^ Afshin Sepehri, Yaser Yacoob, Larry S. Davis "Employing the Hand as an Interface Device" Archiviato il 24 maggio 2010 in Internet Archive., Journal of Multimedia, vol 1, number 2, pages 18-29
^ Henriksen, K. Sporring, J. Hornbaek, K. " Virtual trackballs revisited", IEEE Transactions on Visualization and Computer Graphics, Volume 10, Issue 2, paged 206-216, 2004
^ William Freeman, Craig Weissman, Television control by hand gestures Archiviato il 14 novembre 2012 in Internet Archive., Mitsubishi Electric Research Laboratories, 1995
^ Do Jun-Hyeong, Jung Jin-Woo, Sung hoon Jung, Jang Hyoyoung, Bien Zeungnam, Advanced soft remote control system using hand gesture Archiviato il 6 giugno 2014 in Internet Archive., Mexican International Conference on Artificial Intelligence, 2006
^ K. Ouchi, N. Esaka, Y. Tamura, M. Hirahara, M. Doi, Magic Wand: an intuitive gesture remote control for home appliances, International Conference on Active Media Technology, 2005 (AMT 2005), 2005
^ Lars Bretzner, Ivan Laptev, Tony Lindeberg, Sören Lenman, Yngve Sundblad "A Prototype System for Computer Vision Based Human Computer Interaction", Technical report CVAP251, ISRN KTH NA/P--01/09--SE. Department of Numerical Analysis and Computer Science, KTH (Royal Institute of Technology), SE-100 44 Stockholm, Sweden, April 23–25, 2001.