Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
n figura de mai jos se prezint o clasificare general a roboilor. Dup cum se poate observa i a
fost amintit n subcapitolul precedent, ei se mpart n dou categorii principale: industriali i de
servicii [Stareu, 2007].
Clasificarea roboilor
Pn de curnd roboii s-au limitat la medii industriale, unde manipulatoare precise au
fost dezvoltate pentru a automatiza activitile plictisitoare, murdare sau periculoase ale
oamenilor. Comunicarea cu roboii s-a limitat doar la pornirea sau oprirea robotului. Recent
acest lucru s-a schimbat. Ultimele dou decenii au cunoscut o cretere rapid n cercetare i
utilizarea efectiv a roboi n multe domenii, cum ar fi: asisten la domiciliu i ngrijirea
persoanelor n vrst i a altor categorii de oameni; reabilitare n terapii fizice, cum ar fi accident
vascular cerebral, paralizie cerebral, scleroza multipl, leziunile mduvei spinrii i boala
Parkinson; educaie pentru dobndirea de cunotine generale i dezvoltarea competenelor
sociale pentru copiii cu autism; activiti de cutare i salvare i cercetare i inovare.
Colaborarea i co-existena ntre un om i un asistent robotic i problemele inerente n
ceea ce privete comunicarea, interaciunea i colaborarea se pot mpri n dou categorii:
asisteni n mediile de producie i roboi pentru mediul domestic.
A doua categorie de roboi este reprezentat de roboii pentru menaj i ngrijire a casei,
care opereaz parial ntr-un mod autonom i parial n strns colaborare i interaciune cu omul,
n scopul de a ndeplini ndatoririle sale de menaj. Acestea includ sarcini de baz fetch and
carry, aranjarea mesei, ncrcare i descrcare sau sarcini de baz de curare. O interaciune
natural, prietenoas i comunicarea ntre om i robotul-asistent este de importan central n
acest context. Capacitatea de a interaciona cu un utilizator uman ofer, n plus, sistemului
robotic posibilitatea de a face uz de ghidarea uman i sprijinul su pentru extinderea
competenelor sale iniiale.
2.3.2. CONCLUZII
s se adapteze la ei ntr-un mod special. Aceti roboi pot colabora uor cu oameni,
interacioneaz cu ei i pot fi nvai ntr-un mod natural, aproape ca n cazul n care ei nii ar
fi ali oameni.
Un robot asistent trebuie s fie capabil s interpreteze instruciunile verbale i non-
verbale date de ctre om. n acest context, cercettorii depun eforturi s gseasc noi mijloace de
interaciune mai simple, mai intuitive i asemntoare cu cele interumane, care s necesite n
acelai timp mai puin putere de calcul i dispozitive mai puin sofisticate. Alturi de alte
abordri mai recente, folosirea gesturilor umane rmne nc o alternativ natural i atractiv
fa de dispozitivele i interfeele mpovrtoare ale interaciunii om-calculator.
Printre alte aciuni, gestul de indicare (pointing gesture) este natural i, probabil, cea mai
intuitiv paradigm de interaciune, eficient chiar i n mediile complexe i util pentru
comanda sau pentru simpla transmitere a unui mesaj robotului [Park, 2011].
Exist mai multe tehnici utilizate pentru recunoaterea gesturilor [Mitra, 2007]. De obicei aceste
tehnici se mpart n dou categorii principale: bazate pe senzori i bazate pe imagine (vision).
n acelai timp gesturile pot fi statice sau dinamice. Pentru recunoatere gesturilor
dinamice n timp real, exist probleme n stabilirea punctelor de nceput i de sfrit ale unui
model gestual semnificativ dintr-un un flux continuu [Kang, 2013]. n timp ce recunoaterea
gestului static (postur) poate fi realizat n mod obinuit prin tehnici precum potrivire de ablon
(template matching) i recunoatere a modelelor (pattern recognition), problema recunoaterii
gesturilor dinamice implic utilizarea unor tehnici mai avansate [Carmona, 2012]. Unele gesturi
au att elemente statice, ct i dinamice [Mitra, 2007].
Avnd n vedere aceste observaii, cercettorii au propus diverse soluii pentru a optimiza
recunoaterea gesturilor [Li, 2013], [Cheng, 2012]. n aceast lucrare ne vom referi doar la
recunoaterea vizual i, n special, la gesturi ale braelor. Cele mai utilizate tehnici de
recunoatere a micrilor corpului sunt Modele Markov ascunse (HMM), aliniere dinamic
temporal (DTW), maini de stare finite (FSM) i reele neuronale (NN).
Alinierea temporal dinamic (DTW) a fost folosit pentru prima dat pentru
recunoaterea vorbirii [Sakoe, 1971], dar a fost extins i n alte domenii, inclusiv recunoaterea
gesturilor.
Dup cum s-a vzut mai sus, exist mai multe tehnici utilizate pentru detectarea i
recunoaterea gesturilor umane, dar cele mai populare sunt HMM i DTW. Unele lucrri au
demonstrat c rezultate mai bune pot fi obinute cu DTW n loc de HMM, att n recunoatere a
vocii (de exemplu, sunete emise de animale - [Kogan, 1998]), ct i n recunoaterea gesturilor
[Carmona, 2012].
Odat cu apariia senzorului comercial pentru jocuri video (Kinect), recunoaterea
gesturilor a fost simplificat i muli cercettori au folosit acest senzor n lucrrile lor [Kajastila,
2013], [Miguel ngel Bautista, 2013].
n ultimele decenii au fost dezvotai muli roboi de asisten pentru persoanele n vrst
i pentru persoanele cu handicap. Ei asist oamenii n activitile lor zilnice, cum ar fi igiena
personal, educaie sau activiti de micare independente. Cu toate acestea, aplicaiile roboilor
de asisten sunt mult mai diverse dect furnizarea de ajutor sau ingrijire pentru populaia
vulnerabil. Acest tip de roboi mpart o zon de lucru i interacioneaz direct cu oamenii.
Trstura lor distinctiv este capacitatea lor de a percepe mediul i persoanele din jur cu ajutorul
unor senzori i algoritmi inteligeni, de a comunica cu oamenii n mod multimodal, de a se
deplasa autonom i de a lua decizii n mod independent.
n continuare, vor fi prezentate cteva dintre implementrile mai importante legate de
interaciunea multimodal om-robot utilizate n robotica asistiv.
Exist, de asemenea, mai multe studii care abordeaz problema interaciunii prin gesturi
[Jaimes, 2007], [Willems, 2007]. Gesturile sunt micri expresive ale corpului care implic
micri fizice ale degetelor, minilor, braelor, capului, feei, corpului sau cu intenia de a
transmite informaii semnificative atunci cnd se interacioneaz cu mediul nconjurtor [Mitra,
2007]. n special gesturile cu minile reprezint o modalitate de interaciune pentru oameni, mai
ales atunci cnd acetia ncearc s i exprime i s reprezinte ideile lor n spaiul 3D. Micrile
minilor i braelor sunt, probabil, cele mai studiate gesturi implicate n convorbire. Pe baza
acestei observaii i presupunnd c interaciunea om-calculator i mai ales interaciunea om-
robot ar trebui s fie asemntoare oamenilor (human-like), se poate afirma c gestul asociat cu
vocea este unul dintre cele mai potrivite modaliti de intrare pentru controlul unui robot.
Exist mai multe studii cu privire la recunoaterea vorbirii cu atenie de a comanda roboi.
Scopul principal al aproape oricrei lucrri n acest domeniu este de a realiza o comunicare n
limbaj natural cu asistentul robotic.
n cele mai multe studii vocea uman este folosit ca intrare n sistem, mpreun cu alte
semnale, ntr-o interfa de utilizator multimodal. De exemplu, n [Martnez, 2013] comenzile
vocale sunt cuplate cu semnale EOG pentru a comanda un robot.
Diveri algoritmi sunt utilizai pentru a realiza recunoaterea vocii. Unul dintre ei este
alinierea temporal dinamic, care se bazeaz pe comparaia modelelor, destul de asemntor cu
cel folosit n procesarea video [Hong, 2010]. Alte studii folosesc Hidden Markov Models
[Caballero Morales, 2013] sau reele neuronale artificiale (RNA) folosite ca atare sau combinate,
de exemplu cu HMM pentru a obine recunoaterea vorbirii [Varchavskaia, 2001].
O alt clasificare a sistemelor de recunoatere a vocii artificiale (ASR) este prin relaia
lor cu utilizatorul. Astfel, ele pot fi dependente / independente de vorbitor [Rabiner, 1993].
Sisteme dependente de vorbitor necesit instruirea utilizatorilor, dar au de obicei o acuratee mai
bun, n timp ce sisteme independente de vorbitor sunt mai flexibile, dar cu performane de
recunoatere mai mici.
n acest studiu s-a folosit o abordare cu vocabular, uzual n aplicaii de verificare a
conceptului [Kollar, 2014], bazat pe biblioteca Microsoft Kinect de recunoatere a vocii.
Algoritmul din spatele bibliotecii este urmtorul: un flux audio preluat de la senzorul Kinect este
analizat i apoi enunurile vocale sunt interpretate. Dac motorul recunoate anumite elemente,
acestea sunt trimise la unitatea de procesare. n cazul n care comanda nu este recunoscut, se
elimin acea parte din fluxul audio.
CONCLUZII
n acest capitol au fost prezentate sintetic aspecte privind stadiul actual al interaciunii om
robot i al mijloacelor de comunicare verbale sau non-verbale folosite, precum i aspecte despre
roboii mobili folosii n robotica de asisten. n toate aplicaiile de mai sus, dei exist unele
variaii n ceea ce privete cerinele, un aspect cel puin este comun: dorina ca roboii s fie
capabili de o interaciune natural uoar cu oamenii, suportnd limbajul natural i comunicarea
non-verbal, eventual ajutate i de alte mijloace.
n urma analizei bibliografice privind interaciunea dintre oameni i roboi n medii
domestice, s-a constatat faptul c s-au dezvoltat din ce n ce mai multe sisteme care permit o
interaciune natural, ceea ce implic folosirea mai multor tipuri de intrri din partea
utilizatorilor, care sunt folosite n general n conversaiile inter-personale.
Comunicarea dintre utilizator i asistentul su robotic prin intermediul limbajului vorbit
ofer multe posibiliti utile. De asemenea, comunicarea non-verbal, prin intermediul gesturilor,
Dumitrescu Cristian anul II Master Echitera
DISPOZITIVUL KINECT
Dispozitivul Kinect
Interaciunea natural om-robot pentru aplicaii de robotic asistiv
Kinect este un dispozitiv de captur a micrii dezvoltat iniial pentru consola de jocuri
video Xbox i conine o camera video RGB-D pentru achiziia imaginii i o matrice de patru
microfoane pentru captarea sunetului i localizarea sursei acestuia. Dispozitivul include i doi
senzori de adncime folosii pentru a crea o hart de profunzime a cmpului su vizual.
Dou camere video n infrarou (1 emitor i un senzor de profunzime) sunt folosite
pentru capturarea datelor ntr-un mediu 3D. Datorit beneficiilor sale, Kinect a fost folosit n
scopuri de cercetare, permind interaciunea fr atingere prin voce i gesturi.
Mai departe, va fi descris tehnologia Kinect i aplicaiile sale, precum i instrumentul de
dezvoltare software folosit, care a fost ales datorit disponibilitii documentaiei, a uurinei de
instalare i datorit faptului c ofer capacitatea de a urmri micrile utilizatorului.
Roboii au devenit o prezen obinuit n medii industriale, cercetare, medicin i alte domenii,
cum ar fi: divertisment, mediul domestic. Ne dorim ca ei s fie capabili s desfoare activiti
complexe n medii dinamice. Datorit numrului mare de grade de libertate (DOF), roboii
umanoizi sunt utilizai n aceste medii. Cu toate acestea, acest lucru face dificil programare
roboilor pentru o interaciune om-robot intuitiv. Unii cercettori au propus conceptul PbD
pentru a trata aceste neajunsuri. Ei au folosit conceptul PbD pentru transferul competenelor
(abilitilor) umane la roboi.
Caracteristica intrinsec a unui robot mobil este capacitatea sa de a se mica n mediul
nconjurtor. Exist mai multe tipuri de roboi din punct de vedere al micrii,
pornind de la cei cu roi i terminnd cu cei pitori. Roboii umanoizi NAO, ca reprezentani ai
celor cu picioare, au dificulti n a se deplasa cu precizie deoarece odometria micrii este
calculat din micarea relativ a picioarelor, care adesea alunec i astfel eroarea de odometrie
este destul de mare i crete rapid.
n continuare vor fi prezentate caracteristicile principale i senzorii folosii de ctre
robotul utilizat (NAO) pentru interaciunea cu mediul.
COMPONENTELE I SENZORII
Robotul NAO este un robot umanoid conceput pentru scopuri educaionale de ctre compania
francez Aldebaran Robotics. NAO are 58 cm nlime, o greutate de aproximativ 5 kg (Fig.
3.4a) i este echipat cu o varietate de senzori. Exist senzori ultrasonici, microfoane, senzori cu
infrarou (IR), un senzor inerial, senzori tactili i de presiune i dou camere video. Capul
robotului conine un procesor dual-core Atom 1.6GHz CPU, pe care ruleaz Linux i un software
care controleaz robotul. Exist o mulime de funcionaliti expediate mpreun cu software-ul
integrat, cum ar fi detectarea feei, detectarea markerilor (Naomark), mersul i alte
comportamente simple.
Robotul are un sintetizator de voce i un modul simplu de recunoatere a vocii. Cele dou
camere ale robotului sunt plasate n zona frunii i, respectiv, a brbiei. Deoarece cmpurile lor
vizuale nu se suprapun, acestea nu pot fi utilizate ca o pereche stereo i, astfel, va fi utilizat
numai una dintre ele. Camera superioar are 1.22 megapixeli i ofer o rezoluie VGA la rate de
peste 15 fps (pe o conexiune Gigabit Ethernet). Rezoluia mare este disponibil cu rat de cadre
redus.
n figura 3.4 sunt prezentate principalele caracteristici ale robotului umanoid. NAO are n
total 25 de grade de libertate, 11 pentru partea inferioar care include picioarele i bazinul i 14
DOF pentru partea superioar a corpului, care include trunchiul, braele i capul. Fiecare picior
are 2 grade de libertate pentru glezn, 1 la genunchi i 2 la old. Un mecanism special compus
din dou articulaii cuplate la fiecare old echipeaz bazinul. Axele de rotaie ale celor dou
articulaii sunt nclinate la 45 fa de corp. Aceast structur ajut la distribuirea mai bun a
Interaciunea natural om-robot pentru aplicaii de robotic asistiv
puterii ntre articulaia oldului i cea a bazinului i confer un stil specific de micare a
robotului [Gouaillier, 2009].
Fiecare bra are 2 grade de libertate la umr, 2 la cot, unul la ncheietura minii i unul
suplimentar pentru prehensor. Capul se poate roti n jurul axelor y i z. Figura 3.4b ofer detaliile
despre cuplele robotului.
O interfa grafic a fost dezvoltat n C# pentru a realiza o mapare ntre micrile utilizatorului
i cele ale robotului. Interfaa ajut n faza de calibrare i de supraveghere a executrii
modulului de calcul a coordonatelor articulaiilor. Aceast interfa grafic (prezentat n Fig.
3.14) permite alegerea imaginii care s fie utilizat (RGB sau imaginea de adncime) i o
afieaz. Interfaa afieaz articulaiile utilizatorului folosite pentru a comanda robotul real NAO,
ct i a celui virtual din software-ul Coregraph, prin intermediul modulului de calcul al micrii.
Programul asociat cu interfaa grafic stabilete conexiunea direct ntre simulatorul Choregraph
Interaciunea natural om-robot pentru aplicaii de robotic asistiv
i robotul NAO. n cazul n care platforma NAO nu este disponibil, micrile utilizatorului sunt
reproduse n simulatorul Choregraph prin intermediul NAOqi, care are o adres local a
calculatorului atunci cnd se execut programul. Este, de asemenea, posibil comanda robotului
fr a rula simulatorul Choregraph.
3.6. CONCLUZII
n acest capitol au fost prezentate elementele care formeaz baza pentru cercetarea de fa,
platforma robotic NAO, senzorul Kinect, precum i componentele software care au fost folosite.
A fost descris i interfaa folosit pentru comand i interaciunea cu robotul mobil i s-
au oferit detalii despre deplasarea acestuia n mediu i detecia obiectelor. Pentru navigare i
localizare s-a optat pentru utilizarea de markeri Naomark. Pentru detecia obiectelor s-a folosit
un algoritm de detectare a marginilor i a culorii implementat ntr-o versiune proprie.
25
Interaciunea natural om-robot pentru aplicaii de robotic asistiv
4
SISTEM DE INTERACIUNE NATURAL OM-ROBOT
4.1. INTERACIUNEA PRIN GESTURI
Un gest este o micare corporal fcut n mod intenionat de ctre un om ntr-o conversaie, cu
scopul de a ajuta la o mai bun nelegere a ceea ce spune. n lucrarea [McNeill, 1982], gesturile
sunt clasificate n urmtoarele categorii: emblematice, iconice, metaforice, deictice i brute.
Dei o clasificare funcional simpl a gesturilor este, de obicei, neltoare, mprirea n clase
este util pentru a uura recunoaterea gesturilor. n lucrarea de fa, gesturile nu pot fi strict
clasificate n una dintre aceste clase, ele avnd dimensiuni ale claselor emblematice, deictice,
iconice, precum i din clasa celor metaforice.
n comunicarea uman gesturile minilor, ale capului i ale braelor joac un rol important.
Gesturi cum sunt cele de indicare sunt adesea folosite de oameni atunci cnd doresc s ndrepte
atenia cuiva spre un anumit lucru sau spre o anumit direcie. Gestul de indicare este un
instrument cognitiv util nc din copilrie. Alte gesturi ilustreaz unele aspecte care sunt dificil
de exprimat verbal.
n cercetarea de fa s-a plecat de la limbajul semnelor (sau limbajul mimico-gestual),
care reprezint un bun punct de pornire pentru recunoaterea gesturilor. ntruct gesturile
naturale sunt efectuate liber, fr constrngeri, pot aprea n orice moment i n orice ordine, este
nevoie de o structurare a posibilitilor de exprimare gestual i de definirea unei gramatici de
gesturi, astfel nct s poat fi recunoscute de ctre robot.
n continuare va fi prezentat algoritmul de recunoatere a gesturilor folosit, evideniind
principalele etape ce necesit a fi parcurse.
25
Interaciunea natural om-robot pentru aplicaii de robotic asistiv