Sunteți pe pagina 1din 7

UTILIZAREA STATISTICII MULTIVARIABILE LA STUDIUL DINAMICII AUTOVEHICULELOR

Prof. dr. ing. Ion COPAE Academia Tehnic Militar, Bucureti, email: ioncopae@hotmail.com

Rezumat n lucrare sunt prezentate aspectele principale ce definesc geostatistica (statistic spaial, sau statistic multivariabil) i care vizeaz seturi mari de date, cu dispunere att n timp, ca statistica clasic, dar i n spaiu. Statistica multivariabil a nceput s fie aplicat la autovehicule o dat cu apariia controlului electronic, unde calculatorul de bord opereaz cu seturi mari de date primite de la traductoarele ncorporate din fabricaie. Geostatistica apeleaz la concepte i algoritmi specifici, precum i la statistica descriptiv. Astfel, sunt evideniate aspecte privind corelaia spaial, folosind i distana, care este elementul definitoriu al geostatisticii. De asemenea, sunt redate aspecte referitoare la analiza pe clusteri, acetia definind ceea ce au comun datele, precum i la analiza discriminatorie, care vizeaz ceea ce distinge datele considerate. n plus, se redau aspecte privind analiza principalelor componente, analiza pe factori i procedee de clasificare a datelor. Lucrarea prezint i unele exemple aferente conceptelor menionate, folosind datele furnizate de calculatorul de bord.

Geostatistica, denumit i statistic spaial, sau statistic multivariabil, reprezint acea parte a statisticii care vizeaz seturi mari de date, cu dispunere att n timp, ca statistica clasic, dar i n spaiu, de unde i primele dou denumiri; a treia denumire provine de la faptul c se analizeaz date diferite ca tip, deci mai multe variabile [1]. Geostatistica a nceput s fie aplicat la autovehicule o dat cu apariia controlului electronic al funcionrii, unde datorit unui set de mrimi senzorizate, calculatorul de bord opereaz cu seturi mari de date primite de la traductoarele ncorporate din fabricaie [2]. Geostatistica apeleaz la concepte i algoritmi specifici, conform celor prezentate n fig.1, de unde se constat c apeleaz i la statistica descriptiv, care asigur vizualizarea sub form grafic sau tabelar a rezultatelor obinute. Astfel, corelaia din plan proprie statisticii clasice devine corelaie spaial, adugndu-i o a treia dimensiune, distana, care este elementul definitoriu al geostatisticii. De asemenea, geostatistica apeleaz la analiza pe clusteri [3], acetia definind ceea ce au comun datele, precum i la analiza discriminatorie [4], care vizeaz ceea ce distinge datele considerate. Utiliznd seturi de date formate din mai multe variabile, geostatistica utilizeaz regresii i recurene multiple, nu univariabile sau bivariabile aa cum folosete inferena statistic. Deoarece omul nu poate sesiza variaii n spaiul cu mai mult de trei dimensiuni, geostatistica folosete transformri care asigur substituirea tablourilor multivariabile iniiale cu altele echivalente, astfel c reprezentrile grafice devin cel mult trispaiale; acesta este apanajul analizei principalelor componente [5]. Pentru a deduce concluzii n urma analizei datelor, geostatistica apeleaz i la analiza pe factori [6], precum i la procedee de clasificare ce au tangen cu teoria deciziei.

Fig.1. Domeniile geostatisticii n fig.2 se prezint o form grafic specific, ce asigur, n acest caz, sesizarea dependenelor dintre diferite mrimi funcionale ale unui motor, aici fiind redate, de sus n jos i de la stnga la dreapta, poziia clapetei obturatoare, turaia motorului, timpul de injecie i momentul motor, pe diagonala principal fiind histogramele acestora. Chiar denumirea frecvent folosit a graficului, aceea de gplotmatrix, arat c geostatistica apeleaz la algebra matriceal, datele avnd pe linii valorile unei aceleeai mrimi, iar pe coloane valorile a diferite tipuri de variabile.

Fig.2. Grafic specific geostatisticii

Aa cum s-a menionat, distana constituie elementul specific principal al geostatisticii, fiind nevoie astfel de a aduga aceast dimensiune tuturor procedeelor de analiz multivariabil. Un al doilea element esenial al geostatisticii l constituie analiza pe clusteri, ce constituie grupuri de date cu aceleai caracteristici. n cazul unor date experimentale, aceleai caracteristici nseamn aceeai distan fa de valoarea medie. Trebuie menionat c prin aceeai distan se nelege o valoare acceptat cu un anumit nivel de ncredere; se opereaz deci cu o plaj de valori situate n intervale de ncredere, ca la inferena statistic. n acest scop n geostatistic cel mai mult se utilizeaz testul T2. Analiza pe clusteri este primul pas inclusiv pentru efectuarea analizei principalelor componente. Pentru exemplificare, n fig.3a se prezint dou serii de date, care pe anumite intervale de timp au elemente comune, iar pe altele valorile lor difer; fig.3b arat gruparea pe clusteri i coordonatele centrelor acestora. n fig.3c este prezentat un grafic de tip boxplot, ce stabilete cuartilele, deci similar ca la inferena statistic. n schimb, fig.3d red un grafic specific analizei multivariabile, numit dendrograma, ce se obine pe baza analizei pe clusteri. Dendrograma, care are pe axa ordonatelor distana dintre centrele a doi clusteri n cazul algoritmului k-means, i unete pe acetia n ordinea creterii distanei. Spre exemplu, din dendrogram rezult c distana cea mai mic este ntre centrele clusterilor 1 i 4, dup care urmeaz distana ntre centrele clusterilor 2 i 3; n continuare, distana cea mai mic este ntre centrul comun 2 cu 3 i centrul clusterului 5 etc.

Fig.3. Analiza principalelor componente - clusteri Folosind distana euclidian se obin cei cinci clusteri din fig.3b. n analizele efectuate geostatistica folosete fie aceste centre, fie punctele cele mai apropiate de la fiecare cluster, fie punctele cele mai deprtate. 3

Cel mai adesea se utilizeaz centrele, situaie n care se obine algoritmul numit k-means, unde k reprezint numrul de clusteri, iar a doua simbolizare arat c se folosete o medie, n acest caz cea aritmetic. Aa cum s-a menionat anterior, analiza pe clusteri asigur i stabilirea componentelor principale, care a aprut datorit imposibilitii omului de a sesiza variaii ale mrimilor n spaiul cu mai mult de trei dimensiuni. n consecin, se adopt maximum trei variabile, de multe ori numai dou, echivalente celor iniiale care sunt ntr-un numr mai mare; cu aceste componente se studiaz n continuare funcionarea sistemului vizat. Fiecare component principal reprezint o combinaie liniar a variabilelor iniiale, rezultnd din condiia maximizrii dispersiilor acestora pe direcia fiecrei axe principale; toate componentele principale sunt ortogonale ntre ele, deci nu introduc informaii redundante. n fig.4a este prezentat un exemplu de analiz, folosindu-se datele experimentale ale poziiei clapetei obturatoare, turaiei i momentului motor. Graficul relev c cele dou componente principale substituie ntr-un procentaj de 99,2% cele trei mrimi iniiale menionate; prima component principal, notat CP1, are o contribuie de 76,5%, iar a doua, simbolizat CP2, de 22,7%.

Fig.4. Analiza principalelor componente - valori n fig.4b a mai fost adugat nc o mrime iniial, avansul la aprindere. n acest caz contribuia celor dou componente principale a sczut la 90,1%, prima la 59,9%, iar a doua la 30,2%. Aceasta se datorete faptului c a fost introdus o mrime care afecteaz negativ corelaia spaial prin scderea coeficientului de corelaie. O problematic opus de abordare o are analiza discriminatorie, care stabilete ceea ce nu este comun la datele analizate, deci ceea ce le distinge pe unele de altele. i aceast analiz se bazeaz tot pe clusteri, pe care de regul le denumete clase, iar componentele principale devin vectori. n plus, ambele tipuri de analiz utilizeaz algoritmi de clasificare pentru 4

ncadrarea pe grupe, deci folosete concepte ale teoriei deciziei. Deosebirea dintre analiza principalelor componente i analiza discriminatorie const n faptul c prima nu cunoate aprioric clusterii, pe cnd a doua i stabilete anterior tot pe baza distanei, dup care ncadreaz datele n clasele prestabilite. n fig.5 este redat un exemplu de analiz discriminatorie pentru un eantion format din mai multe probe experimentale cu valorile momentului motor.

Fig.5. Analiza discriminatorie clusteri (clase)

Fig.6. Analiza discriminatorie - clasificare Aplicnd analiza discriminatorie se obin zece clase, numerotate n grafic i evideniate unele din acestea, respectiv clusterii 4, 6 i 10. Rezultatul analizei anterioare este prezentat n fig.6, prin numrul procentual de date disponibile care nu au fost ncadrate n nici-un cluster. Din grafic se remarc o bun clasificare pe clase, valorile erorii fiind n plaja 0,16 -1,2%. n sfrit, mai trebuie menionat c geostatistica utilizeaz regresii multiple [7], ceea ce permite s se stabileasc modele matematice aferente dinamicii autovehiculului i motorului, aa cum se prezint n exemplul din fig.7. n grafic sunt redate seria dinamic experimental i cea obinut pe baza modelului matematic, precum i rezidualul (diferena dintre cele dou); de asemenea, sunt prezentate valorile coeficienilor regresiei multiple conform modelului matematic liniar generalizat frecvent utilizat n literatura de specialitate.

Fig.7. Regresie multipl Se poate concluziona c aplicarea statisticii multivariabile la studiul dinamicii autovehiculelor permite evidenierea unor legturi funcionale ntre diferite mrimi i stabilirea modelelor matematice care descriu aceste interdependene prin utilizarea regresiei multiple. Bibliografie 1. H. Wackernagel, Multivariate Geostatistics, Springer-Verlag, Berlin, 1995 2. I. Copae, Dinamica automobilelor. Teorie i experimentri, Academia Tehnic Militar, Bucureti, 2003 3. P. Arabie, L. J. Hubert and G. De Soete, Clustering and Classification, Word Scientific Publishing, Singapore, 1996 6

4. G. J. McLachlan, Discriminant Analysis and Statistical Pattern Recognition, John Wiley & Sons, New York, 1992 5. I. T. Jollife, Principal Component Analysis, Springer-Verlag, New York, 1986 6. A. Basilevsky, Statistical Factor Analysis and Related Methods, Wiley, New York, 1994 7. L. Fahrmeir and G. Tutz, Multivariate Statistical Modelling Based on Generalized Linear Models, Springer-Verlag, New York, 1994

S-ar putea să vă placă și