Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
Bucureti 2009
multidimensional| a datelor. Dintre toate elementele de specificitate a domeniului economico-social, dou | consider |m a fi mai importante i mai relevante din punct de vedere al utiliz |rii analizei datelor: complexitatea ridicat| a fenomenelor economico-sociale i natura cantitativ | a acestor fenomene. mpreun | cu multe alte caracteristici specifice, aceste dou | caracteristici fundamentale impun modalit|i specifice de abordare pentru cunoa terea tiin ific | din domeniul economico-social. Necesitatea de a sintetiza i de a simplifica n procesul de cunoa tere a realit|ii, este impus | att de faptul c | datele utilizabile ntr-o analiz | mascheaz |, ascund, anumite aspecte, ci i de faptul c | realitatea analizat| este caracterizat| de o complexitate foarte ridicat|, care nu poate fi cuprins | i n eleas| numai pe baza intuiiei. n activitatea de analiz | cantitativ |, pe care se bazeaz | n mod direct cunoa terea tiin ific | din cele mai multe domenii de activitate, sunt implicate trei categorii esen iale de elemente: teorii i principii teoretice generale i specifice domeniului investigat, informa ii cantitative i calitative referitoare la fenomenele supuse studiului, metode i tehnici de cuantificare, evaluare, estimare i testare a m |rimilor specifice i a rela iilor existente la nivelul realit|ii investigate. Teoriile i principiile teoretice care stau la baza oric |rei analize cantitative sunt reprezentate de mulimea cuno tiin elor tiin ifice acumulate n decursul timpului, de realiz |rile ob inute pe plan tiin ific, att la nivelul general al cunoa terii umane, ct i la nivelul cunoa terii n domeniul abordat. Inform a iile cantitative i calitative referitoare la fenomenele i procesele studiate exprim | o mulime de st |ri i evolu ii concrete din realitatea investigat| i sunt rezultatul unui laborios proces de observare, m |surare i evaluare, proces n care intervin o serie de norme, principii, metodologii i instrumente specifice procesului de m |surare. Informa iile ob inute din realitatea investigat|, n urma unor procese de observare i de m |surare, sunt cunoscute sub numele de date. Datele reprezint| materialul brut, empiric, care st | la baza tuturor deciziilor din orice domeniu de activitate, iar de calitatea acestora depinde, n mod direct, calitatea respectivelor decizii. Metodele i tehnicile reprezint| un set de reguli, principii i proceduri de analiz|, prelucrare i interpretare a datelor.n analiza datelor, metodele i tehnicile se refer | la cuantificare, evaluare, estimare i testare, i sunt reprezentate de o mulime extins | i variat| de proceduri i instrumente statistico-matematice. Aceste proceduri sunt aplicate, sub o form | sau alta, informa iilor cantitative i calitative, datelor de intrare, n scopul deducerii anumitor rezultate i concluzii. De calitatea metodelor i tehnicilor utilizate ntr-o activitate de analiz | i de eficien a utiliz |rii lor depind, n mod direct i ntr-o propor ie foarte mare, att semnifica ia i validitatea concluziilor ob inute, ct i calitatea rezultatelor ob inute. Combinarea, la nivelul analizei cantitative, a celor trei categorii de elemente men ionate anterior, conduce la ob inerea unor rezultate i concluzii, care contribuie la adncirea procesului de cunoa tere a realit|ii studiate i care se pot concretiza sub mai multe forme: ob inerea de informa ii relevante suplimentare privind starea, evolu ia i conexiunile componentelor realit|ii investigate; relevarea unor noi principii i legit|i care guverneaz | micarea fenomenelor i proceselor din aceast | realitate; formularea unor concluzii cu privire la existen a unor leg |turi i specificit|i ce caracterizeaz | realitatea studiat|; validarea unor ipoteze formulate cu privire la popula iile reprezentate de fenomenele i procesele studiate; identificarea unor tipologii i structuri specifice pe mulimea de fenomene i procese analizate; estimarea unor efecte i influen e caracteristice interdependen elor dintre fenomene i procese; deducerea unor modele statistico-matematice, care s | descrie comportamentul fenomenelor i proceselor; efectuarea de predic ii cu privire la evolu ia fenomenelor i proceselor; efectuarea de simul|ri privind evolu ia fenomenelor i a interdepende elor manifestate ntre acestea. Fenomenele economico-sociale i micarea acestora n timp i spa iu, adic | procesele, au o caracteristic | ce le face s | se deosebeasc | n mod esen ial, fundamental, de fenomene i procese specifice altor domenii de activitate. Aceast | caracteristic | este dat| de faptul c | manifestarea la nivel observabil a acestor fenomene i a mic |rii lor, este extrem de complex | i mbrac | o deosebit de mare varietate de forme, fiecare fenomen sau proces economico-social existnd sub form | multiplicat| pe o scar| foarte m are. Proprietatea de multiplicitate la o scar | foarte mare, pe care o au existen a i manifestarea fenomenelor economice i sociale, este cunoscut| n literatura domeniului sub numele de caracter de mas | al fenom enelor econom ico-sociale. Formele sub care se manifest | fenomenele economice i sociale apar, de regul|, ca o amalgamare de aspecte esen iale i neesen iale, legate direct sau indirect de con inutul fenomenului, de ceea ce este esen ial i stabil n comportamentul acestuia, fiind caracterizate n timp, cel pu in la suprafa |, de un grad relativ ridicat de instabilitate. Partea consistent |, semnificativ | i stabil| a unui fenomen economico-social este, de obicei, ascuns | de aceast | multitudine de manifest |ri, astfel nct cunoa terea acesteia nu se poate face dect rareori prin observare direct|, fiind necesar, de cele mai multe ori, un demers logic extrem de complex, n cadrul c |ruia se urm |re te eliminarea a ceea ce este accidental, conjunctural, neesen ial i nesemnificativ n manifestarea fenomenului, re inndu-se ceea ce este trainic, cu caracter de regularitate, esen ial i semnificativ. O alt| caracteristic | a fenomenelor economico-sociale este cea legat| de multitudinea i eterogenitatea acestor fenomene, de dimensiunile la care are loc desf |urarea acestora, de numeroasele leg |turi func ionale existente ntre acestea i de multiplele interdependen e i condiion |ri dintre fenomenele economico-sociale i fenomenele specifice altor domenii. Gradul ridicat de interconectare a elementelor i multitudinea factorilor de influen |, implica i n manifestarea rela iilor de cauzalitate, reprezint| caracteristici definitorii pentru majoritatea fenomenelor i proceselor de natur | socio-economic |. Amploarea complexit|ii din domeniul economico-social rezult| i din faptul c | natura i intensitatea rela iilor de interdependen | cunosc o m are variabilitate n tim p i spa iu, c | sensul rela iilor de cauzalitate este reversibil, chiar contradictoriu, i c |, din cauza gradului ridicat de interconectare, manifestarea cauzalit|ii are loc, n multe situa ii, sub forma unor "reac ii n lan ". Specificitatea domeniului economico-social i caracteristicile care l fac s | se diferen ieze fundamental de celelalte domenii de activitate, impun ca procesul de cunoa tere n acest domeniu, investigarea tiin ific | a fenomenelor i proceselor de natur | economico-social| s | poarte o amprent| specific |, particular |. Caracterul complex al manifest |rii fenomenelor economice i sociale face ca activitatea de cunoa tere n acest domeniu s | fie puternic condiionat| att de m odalitatea concret| de abordare a obiectului studiat, ct i de natura i puterea metodelor, tehnicilor i instrumentelor de investigare utilizate. Faptul c | fenomenele economice i sociale se caracterizeaz | printr-un grad de complexitate foarte ridicat face ca activitatea
de investigare a comportamentului acestora s | fie deosebit de dificil| i rezultatele acesteia s | aib | un grad ridicat de relativitate din punct de vedere al semnifica iei i exactit|ii. n aceste condiii, succesul investiga iilor socio-economice, valabilitatea i stabilitatea concluziilor rezultate din analizele efectuate, depind n mod direct de compatibilitatea dintre natura instrumentelor de investigare folosite i specificul fenomenelor investigate. Alegerea modalit|ilor de abordare i a celor mai potrivite metode i tehnici de analiz | sau predic ie reprezint| condiia de baz | pentru ob inerea unor rezultate satisf|c |toare n activitatea de cunoa tere a fenomenelor din domeniul economico-social. n ceea ce prive te modalit|ile de abordare, cele mai des utilizate n analiza datelor sunt: abordarea sistemic |, abordarea statistic | i abordarea bazat| pe modelarea matematic | i informatic |.
n acest domeniu s | presupun |, cu necesitate, utilizarea unor metode i tehnici de lucru corespunz |toare. Din rndul instrumentelor de investigare tiin ific |, a c |ror utilitate n contracararea dificult|ilor ridicate de gradul sporit de complexitate al domeniului studiat este de nenlocuit i a c |ror utilizare nso e te ast|zi demersul tiin ific din aproape oricare domeniu al cunoa terii umane, se deta eaz | m odelarea matem atic | i tehnica de calcul. Ca unul dintre cele mai utile i eficiente instrumente de cunoa tere a realit|ii, m odelarea matem atic | reprezint| procesul de descriere a comportamentului unor fenomene din natur | i societate sub o form | sintetic |, logic | i formalizat| matematic. Descrierea sub o form | matematic | a comportamentului fenomenelor i proceselor din cele mai diverse domenii de activitate a devenit ast |zi dorin a i, de cele mai multe ori, scopul oric |rui cercet|tor, indiferent de domeniul n care acesta activeaz |. Surprinderea interdependen elor, a legit|ilor i func ionalit|ilor ce caracterizeaz | fenomenele sau procesele din lumea ce ne nconjoar |, sub forma sintetic | a unui model matematic, este, probabil, cea mai relevant | m |sur | a nivelului la care a ajuns gradul de cunoa tere uman |. Din punct de vedere informa ional, modelul matematic, n forma sa final|, poate fi privit ca un "concentrat informa ional", avnd att calitatea de acumulator al informa iei receptate din segmentul de realitate economic | sau social| pe care l descrie, ct i de generator de informa ie nou |, inexistent | n momentul construirii lui.
Impactul numeroaselor imperfec iuni legate de m |surarea i cuantificarea din domeniul economico-social este concretizat, din punct de vedere al proceselor de analiz | a datelor, n manifestarea unor distorsiuni i inexactit|i informa ionale. n mai toate cazurile, informa iile disponibile pentru efectuarea unor analize sau prognoze sunt afectate de erori. Faptul c | informa iile disponibile sunt puternic afectate de erori, ale c |ror surse sunt numeroase, variate i dificil de controlat, impune utilizarea unor modalit|i specifice de abordare i a unor instrumente de lucru corespunz |toare. Erorile ce nso esc observa iile rezultate din m |surarea i cuantificarea fenomenelor i proceselor economice sau sociale pot fi grupate n dou | mari categorii: erori cu caracter sistematic i erori cu caracter accidental, aleator.
1.3.3 Erorile
n principal, sursele erorilor cu caracter accidental, ntmpl|tor, in de o serie de factori cum ar fi: imperfec iunile instrumentelor de m |surare, deficien e n nregistrarea valorilor caracteristicilor urm |rite, efectuarea inexact| a unor calcule etc. O nsemn |tate cu adev |rat excep ional| pentru procesele de m |surare i cuantificare n care intervin erori cu caracter ntmpl|tor, o are faptul c | erorile de acest tip sunt distribuite dup | legea normal|, de medie nul|. Aceast | proprietate este deosebit de util| att pentru m |surarea impactului pe care erorile l au asupra informa iilor ob inute n urma proceselor de m |surare, de cuantificare i de analiz | a datelor, ct i pentru dezvoltarea unor proceduri specifice care au ca scop minimizarea influen ei erorilor asupra rezultatelor ob inute n analiza datelor. Formarea valorii unei m |sur |tori individuale, sub influena erorilor sistematice i accidentale, poate fi descris | cu ajutorul rela iei urm |toare:
Efectuarea analizelor de date n condiiile existen ei i manifest |rii erorilor de tip accidental, determin | necesitatea utiliz |rii unor metode i tehnici adecvate, de natur | statistico-matematic |.
Privit ntr-un mod foarte general, procesul de analiz | a datelor poate fi prezentat ca o succesiune de opera ii sintetizate sub forma urm |toarelor activit|i: form ularea ipotezelor cu privire la comportamentul fenomenului ce constituie obiectul studiului; organizarea experim entelor necesare m |sur|rii caracteristicilor fenomenului studiat; culegerea datelor privind comportamentul fenomenului ; analiza i interpretarea datelor disponibile; form ularea concluziilor, efectuarea predic iilor i luarea deciziilor. Scopul urm |rit n cele mai multe probleme de analiz | a datelor este legat de crearea condiiilor informa ionale necesare pentru efectuarea de predic ii cu privire la comportamentul fenomenelor investigate. De i ntre activitatea de analiz | a datelor i activitatea de predic ie exist| numeroase deosebiri, legate n primul rnd de natura celor dou | activit|i, totu i, ntre cele dou | genuri de activit|i exist| o important | suprapunere. Aceast | suprapunere este determinat| de existen a unor modalit|i comune de abordare, de utilizarea unor concepte teoretice identice i de folosirea aceleia i game de instrumente de lucru. Cu toate c | obiectivele intermediare urm |rite n activitatea de predic ie sunt similare celor urm |rite n analiza datelor, totu i, scopul final al oric |rei activit|i de predic ie este legat n mod direct de prefigurarea evolu iei viitoare a fenomenelor i proceselor economice sau sociale, a modific |rilor structurale ce pot fi nregistrate n viitor de aceste fenomene i procese. Atingerea acestui scop este ns | condiionat| de desf |urarea unei laborioase activit|i de analiz | a datelor cu privire la realitatea fenomenului care face obiectul predic iei, activitate care, de regul|, precede procesul de predic ie propriu-zis. Con inutul activit|ii de analiz | a datelor din domeniul economico-social este strns legat de natura claselor de probleme supuse rezolv |rii. n func ie de aceast | natur |, analiza datelor poate presupune o anumit| succedare de activit|i specifice, utilizarea unei anumite game de metode i tehnici de lucru, urm |rirea anumitor obiective. n rndul categoriilor de probleme a c |ror rezolvare conduce la efectuarea unui proces de analiz | a datelor men ion |m: identificarea legit|ilor ce guverneaz | micarea fenomenelor i proceselor economice sau sociale, a principalelor tendin e i regularit |i specifice evolu iei acestora; identificarea principalilor factori sub a c |ror influen | se formeaz | comportamentul unor fenomene i procese; stabilirea sensului i intensit|ii leg |turilor cauzale manifestate ntre diferite fenomene i procese; determinarea gradului n care o mulime de factori de influen | contribuie la formarea unui anumit efect; verificarea unor ipoteze cu privire la existen a unor leg |turi de tip cauzal, la posibilitatea ca anumite caracteristici ale unor fenomene s | nregistreze anumite valori specifice etc; ierarhizarea factorilor ce determin | un anumit efect n func ie de importan a i semnifica ia influen ei acestora; stabilirea modului n care comportamentul fenomenelor este afectat de anumite decizii sau m |suri de politic | economic | i social|; identificarea principalelor posibilit|i prin intermediul c |rora comportamentul fenomenelor s| poat | fi influen at ntrun sens dorit; determinarea sensurilor n care comportamentul unui anumit fenomen poate evolua, a st |rilor posibile n care acesta se poate afla n spa iu i timp sau efectuarea de predic ii privind st|rile i evolu ia acestui fenomen. n func ie de specificul fiec |reia din aceste clase de probleme, activitatea de analiz | a datelor se poate concretiza printr-un anumit gen de opera ii de modelare statistico-matematic | i prelucrare informa ional| viznd: simplificarea i sintetizarea rela iilor de cauzalitate; m |surarea interdependen elor, cuantificarea influen elor i verificarea semnifica iei acestora; descrierea statistico-matematic | a comportamentului fenomenelor; efectuarea de predic ii; m |surarea gradului de omogenitate sau eterogenitate pentru anumite categorii de fenomene; clasificarea i ierarhizarea fenomenelor. Fiecare din aceste tipuri de opera ii presupune utilizarea unor instrumente de lucru corespunz |toare, eficiente n raport cu specificul problemei considerate. Dintre principalele metode i tehnici proprii analizei multidimensionale a datelor i utilizate pentru rezolvarea problemelor enumerate anterior men ion |m: analiza componentelor principale, analiza factorial|, analiza coresponden elor, tehnicile de scalare multidimensional|, metodele i tehnicile de estimare, analiza corela iilor canonice, analiza varian ei, analiza regresiei liniare i neliniare, metodele i tehnicile de recunoa tere a formelor.
leg |turilor (directe sau inverse) sau chiar m |sura intensitatea acestor leg |turi. Ceea ce nu se poate stabili cu ajutorul metodelor i tehnicilor statistice este natura, sensul rela iilor de cauzalitate, respectiv, care sunt variabilele dependente i care sunt variabilele independente ce determin | evolu ia, micarea celor dependente. Pentru a stabili cu exactitate rela ia cauz|-efect este nevoie de informa ii suplimentare, apriorice, exogene n raport cu metodele i tehnicile statistice utilizate. Exist| un anumit context al analizei datelor, n cadrul c |ruia delimitarea variabilelor dependente de variabilele independente este foarte clar |, neechivoc |. Acest context este ntlnit n cadrul experimentelor controlate, cnd, n urma stabilirii unor combina ii de nivele ale variabilelor independente, sunt m |surate nivelele nregistrate pentru variabilele dependente, ca urmare a influen ei exercitate de fiecare combina ie de nivele ale variabilelor dependente. n multe situa ii, analiza datelor este efectuat| pe mulimi de variabile pentru care nu exist| nici interesul i nici posibilitatea conceptual| de a separa din mulimea variabilelor analizate o submulime care s | reprezinte variabilele dependente i o alt| submulime care s | reprezinte variabile independente. n aceste situa ii, sunt utilizate metode de analiz | specifice, cunoscute sub numele de metode de analiz| a interdependen ei. Metodele de analiz| a interdependen ei sunt metodele statistice utilizate n cazul n care nu exist| posibilitatea de a identifica n mulimea variabilelor analizate variabile dependente i variabile independente i care au scopul de a stabili din ce cauz| i n ce m |sur | variabilele analizate sunt legate ntre ele. Utilizarea acestor metode are o mare varietate de scopuri, dintre care, printre cele mai importante, amintim: m |surarea gradului de interdependen |, identificarea variabilelor cu semnifica ie relevant|, identificarea unor categorii sau clase de variabile.
O variabil|
Analiza Regresie discriminantului simpl| Regresie logistic| Analiza discrimi- Analiza nantului (discret|) ANOVA Analiza simultan| (MONANOVA) Analiza Regresie discriminantului multipl| Regresie logistic|
Scal| metric |
analiz | a interdependen ei se mpart n dou | categorii: metode de analiz| a interdependen ei dintre dou | variabile; metode de analiz| a interdependen ei dintre mai multe variabile. n cadrul metodelor de analiz | a interdependen ei dintre dou | variabile putem men iona: analiza corela iei simple, analiza bazat| pe tabele de contingen | etc. Dintre metodele de analiz| a interdependen ei dintre mai multe variabile putem men iona: analiza componentelor principale, analiza factorial|, analiza coresponden elor, analiza cluster etc. n tabelul urm |tor este prezentat| sintetic clasificarea metodelor i tehnicilor de analiz | a interdependen ei. Clasificarea metodelor de analiz | a interdependen elor Num |r variabile Dou | variabile Tabele de contingen| (bidimensionale) Modele log-liniare Analiza corespondenelor Modele log-liniare Tabele de contingen| (multidimensionale) Tipul scalei Scal| non-metric | Scal| metric | Analiza corelaiei simple
2.1.1 Data
Conceptul cel mai important i cel mai frecvent ntlnit n analiza datelor, care, de fapt, intr | i n alc |tuirea numelui acestui tip de activitate tiin ific |, este reprezentat de dat|. Importan a acestui concept pentru domeniul analizei datelor este, cu adev |rat, covr itoare, deoarece el este cel care define te att intr |rile oric |rui proces de analiz | a datelor, materia prim | supus | prelucr|rii, ct i, ntr-un sens general, ie irile sale, rezultatele i concluziile ob inute. Datele pot fi privite ca reprezentnd semnale i mesaje provenite din realitatea nconjur |toare, pe baza c |rora receptorul i poate forma o anumit| imagine despre respectiva realitate, poate ob ine un anumit grad de cunoa tere a acelei realit|i. Imaginea format| este cu att mai fidel| n raport cu realitatea, cu ct cantitatea semnalelor i mesajelor este mai mare, respectiv, cu ct acestea sunt mai pu in afectate de perturba ii i de distorsiuni. De regul |, datele nu sunt recep ionate n mod pasiv de beneficiarul lor, f|r | nici un efort din partea acestuia. Aproape f|r | excep ie, ob inerea datelor necesare pentru orice activitate de analiz | constituie un proces costisitor i laborios. n analiza datelor, datele reprezint| expresia cantitativ | sau calitativ | a unor fapte reale, care sunt manifest |ri ale fenomenelor i proceselor investigate. Eterogenitatea fenomenelor i a manifest |rii concrete a acestora face ca datele referitoare la ele s | fie extrem de variate. Definiie: Datele reprezint| expresii cantitative i calitative ale unor fenomene i procese din realitatea nconjur |toare. Datele pot s| difere n func ie de mai muli factori: de sursa care le-a generat, de tipul i de natura lor. Indiferent de varietatea lor, datele pot fi grupate n trei categorii fundamentale: date cantitative, date calitative i date mixte. Toate cele trei tipuri de date pot fi, ns |, exprimate sub form | cantitativ |.
de fapt rezultatele m |sur |torilor efectuate la nivel de e antion. O modalitate de vizualizare a rela iei, a raportului n care se g |se te e antionul fa | de popula ia statistic | este prezentat| n figura urm |toare.
Figura 2.1: Ilustrarea rela iei dintre e antion i popula ie O foarte mare importan | principial| pentru analizele cantitative bazate pe studiul e antioanelor, o are postulatul statistic n conformitate cu care un e antion exprim | informa ional ntr-o oarecare m |sur | popula ia din care a fost extras, propriet|ile i structura popula iei fiind cu att mai fidel exprimate de e antion cu ct volumul acestuia este mai mare.
11
calitative sunt variabile de tip discret. Variabile de tip discret pot fi ns | i unele variabile cantitative. Definiie: Variabilele de tip continuu sunt variabile care pot lua valori apar innd unui interval continuu. Practic, mulimea valorilor posibile ale variabilelor de tip continuu este o mulime infinit |. De regul|, variabilele calitative nu sunt variabile de tip continuu.
2.1.4 Observaii
Strns legat de conceptul de variabil|, este un alt concept, la fel de important i frecvent utilizat n analiza datelor, i anume, conceptul de observa ie. Definiie: Observa ia este reprezentat| de valoarea sau setul de valori nregistrate pentru o anumit| unitate elementar | a popula iei, la una sau mai multe caracteristici ale acesteia. De fapt, observa iile sunt valori pe care le iau variabilele supuse analizei, valori care sunt rezultate din m |sur |torile efectuate asupra caracteristicilor unit|ilor apar innd popula iei investigate. Observa ia reprezint| n procesul de analiz | a datelor unitatea elementar | de informa ie utilizat| n procesele de prelucrare, mulimea observa iilor constituind baza informa ional| a analizei datelor. Practic, mulimea de observa ii supuse procesului de analiz | este echivalent | cu e antionul, care, la rndul s|u, nu este altceva dect tot o mulime de observa ii. De cele mai multe ori, prin observa ie se n elege chiar entitatea elementar | care intr | n alc |tuirea popula iei analizate i de la care se ob in informa ii. n acest sens, observa ia este sinonim | cu cazul, obiectul, individul, subiectul, articolul.
12
Definiie: Datele non-experim entale reprezint| informa ii ob inute prin observarea liber | a mic |rii fenomenelor i proceselor studiate, f|r | interven ia direct| a investigatorului asupra condiiilor n care se desf |oar | acest | micare. Ob inerea datelor de tip non-experimental reprezint| rezultatul observ |rii pasive, constat|rii. Interven ia observatorului, a celui care face m |sur |torile, este de tip ex-post, are loc dup | ce desf |urarea fenomenelor i proceselor reale a avut loc. Datele de tip non-experimental sunt datele specifice domeniului economico-social, domeniu n care organizarea de experimente este fie dificil|, fie imposibil|. Mai mult dect att, complexitatea influen elor din domeniul economico-social, multitudinea interac iunilor din acest domeniu, determin | o relevan | foarte sc |zut | pentru eventualele date de natur | experimental|.
cu axa timpului. n cazul datelor de tip panel, observarea se face ntr-o not| de simultaneitate: att asupra mai multor unit|i ale popula iei, ct i asupra evolu iei n timp a acestor unit|i. Exemplul cel mai sugestiv pentru datele de tip panel este cel al bugetelor de familie, n contextul c |rora se fac nregistr |ri pe perioade de mai muli ani a veniturilor i cheltuielilor tuturor familiilor care alc |tuiesc e antionul respectiv.
14
Tot pe aceast | scal|, caracteristicilor li se pot atribui i numere, numai c | aceste numere nu au sensul propriu-zis de num |r, avnd practic aceea i semnifica ie ca i simbolurile. Att simbolurile propriu-zise, ct i numerele cu rol de simbol, atribuite caracteristicilor pe aceast | scal| de m |surare, au numai rol de clasificare n anumite grupe a subiec ilor sau de contorizare a num |rului de subiec i din fiecare categorie, neputnd fi folosite n nici un tip de calcul numeric. Prin intermediul valorilor m |surate pe scala nominal| subiec ii se diferen iaz | ntre ei doar din punct de vedere al apartenen ei la o anumit| clas | sau al apartenen ei la o anumit| categorie. Aceasta nseamn | c | utilizarea scalei nominale pentru m |surarea caracteristicilor m |surabile pe aceast | scal| genereaz | clase sau categorii de subiec i. Pentru caracteristicile m |surate pe scala nominal|, poate fi calculat un num |r limitat de indicatori statistici, care reprezint|, de fapt, contoriz |ri ale simbolurilor ap |rute pe scala nominal|. Ace ti indicatori sunt modulul i frecven a. n cazul caracteristicilor m |surate pe scala nominal| poate fi eviden iat| i distribu ia de frecven |. ntr-o analiz | de date, variabilele nominale pot fi reprezentate de o serie de variabile cum ar fi: sexul, categoria social|, tipul familiei, profesia, marca unui produs etc. Unica transformare de tip invariant a scalei nominale este reprezentat| de opera ia de recodificare, aceast| opera ie neafectnd apartenen a la o anumit| clas | a valorilor m |surate pe acest| scal|.
Definiie: Scala interval este o scal| quasi-metric |, prin intermediul c |reia valorilor posibile ale caracteristicilor m |surate li se atribuie valori numerice, f|r | ca pentru aceste valori numerice s | existe o origine prestabilit|. Variabilele m |surate pe scala interval se numesc variabile tip interval i sunt variabile cantitative. Ele pot fi utilizate n compara ii al c |ror rezultat permite o exprimare numeric |. n cazul m |sur |rii pe scala interval, diferen a dintre dou | valori succesive ale scalei are o semnifica ie numeric | sigur |, permind m |surarea modului n care subiec ii se distan eaz| din acest punct de vedere. O astfel de scal| este, de exemplu, cea n contextul c |reia m |surarea caracteristicilor const | n acordarea unui num |r de puncte sau n acordarea unei note, n func ie de importan a pe care o are caracteristica respectiv | la nivelul unui subiect, n func ie de magnitudinea sa. O caracteristic | a scalei de tip interval este aceea c | evaluarea caracteristicii m |surate nu este afectat| dac | scala este translatat| sau dac | scala este multiplicat| cu o anumit| constant|. Translatarea este echivalent | cu o schimbare a originii, care, oricum, este o origine arbitrar |. Multiplicarea este echivalent | cu o m |rire propor ional| a distan elor dintre valorile scalei, adic | o m |rire care conserv | propor iile ntre aceste distan e. n consecin |, se poate spune c | transformarea pn | la care scala interval r |mne invariant |, este transformarea de tip liniar urm |toare: unde a i b reprezint| dou | constante reale, iar x i y reprezint| valorile scalei originale, respectiv cele ale scalei transformate. Opera iile care pot fi efectuate cu valorile m |surate pe scala de tip interval sunt mai numeroase dect cele care sunt posibile pe scala nominal| i ordinal |. n plus fa | de opera iile permise pe primele dou | scale, scala interval mai permite: calculul mediei, calculul abaterii standard, calculul momentelor, calculul coeficien ilor de corela ie Pearson. Ca exemplu de variabil| tip interval, putem men iona variabila reprezentat| de durata programului de lucru, timpul, ca variabil| specific | seriilor cronologice etc.
unde un element x ij reprezint| valoarea nregistrat| pentru cea de-a j-a caracteristic | a obiectului i. O linie i a matricii de observa ii X define te un obiect O i i reprezint| valorile nregistrate de acest obiect la cele n caracteristici pe care le posed |. O coloan | j a matricii de observa ii X reprezint| valorile nregistrate de caracteristica j pe mulimea tuturor celor T obiecte supuse analizei. De regul|, n analiza de date, fiecare linie a matricii de observa ii X este numit| observa ie i fiecare coloan | a acestei matrici este numit| variabil|.
16
n multe situa ii, nu pot fi ob inute informa ii despre toate caracteristicile tuturor obiectelor supuse analizei. n cazul n care datele ce definesc obiectele nu sunt complete, matricea de observa ii definit| mai sus poart| numele de m atrice de observa ii cu valori om ise.
Sunt matrici p |tratice de dimensiune nn, utilizate pentru reprezentarea datelor cu privire la similaritatea sau nesimilaritatea unor obiecte. Ordinul matricilor de proximitate este determinat de num |rul obiectelor supuse studiului.Elementele unei matrici de proximitate reprezint| coeficien i de similaritate, coeficien i de nesimilaritate sau distan e. Un element din aceast | matrice m |soar | gradul de proximitate dintre obiectul i i obiectul j. Matricile de proximitate se mai numesc i matrici de tip "obiecteobiecte" i sunt utilizate n problemele de clasificare cu ajutorul tehnicilor de tip cluster i n problemele de scalare multidimensional|.
17
Sunt situa ii n care, din diferite motive, este imposibil| utilizarea datelor sub forma lor brut|, primar |. Pentru a putea fi utilizate, datele primare trebuie s | fie supuse mai nti unui proces de purificare, de rafinare, care s | le asigure consisten |, relevan | i comparabilitate. Necesitatea rafin |rii datelor este determinat| de numero i factori, ns | cei mai importan i dintre ace tia sunt cei lega i de existen a datelor omise i a datelor necomparabile. Un exemplu care poate s | sugereze necesitatea i utilitatea opera iilor de rafinare este cel reprezentat de necesitatea de a asigura comparabilitatea unor date privind indicatorii macroeconomici. Deoarece majoritatea indicatorilor macroeconomici sunt exprima i sub form | valoric |, m |rimea acestora este artificial i puternic influen at| de evolu ia pre urilor. Aceast | influen | face ca valorile din diferite perioade ale acestor indicatori s | nu fie comparabile ntre ele, deoarece influen a perturbatorie a evolu iei pre urilor nu este uniform | de la o perioad | la alta. De aceea, seriile de timp referitoare la evolu ia indicatorilor macroeconomici trebuie supuse unor opera ii de cur|ire, de rafinare. Rafinarea datelor include o serie de opera ii specifice, dintre care mai frecvent utilizate sunt cele de interpolare, de extrapolare i de ajustare.
18
Rezult| c |, n cazul variabilelor centrate, coeficientul de corela ie dintre dou | variabile este raportul dintre produsul scalar al vectorilor ce reprezint| observa iile asupra variabilelor i produsul lungimilor acestor vectori: . Deoarece raportul dintre produsul scalar a doi vectori i produsul lungimilor acestor doi vectori este egal cu cosinusul unghiului dintre cei doi vectori, rezult| c |: , unde reprezint| unghiul format de cei doi vectori v i w.
19
varian ei, calculat| cu ajutorul rela iilor: pentru cazul deplasat: ; pentru cazul nedeplasat: . n mod similar cu cazul variabilelor centrate, variabilele standardizate sunt variabile care au media aritmetic | nul|: . n plus fa | de aceasta, variabilele standardizate au proprietatea c | varian a lor este egal| cu unitatea: . De asemenea, variabilele standardizate au proprietatea c | au covarian ele scalate n intervalul . n cazul n care covarian a are valoarea egal| cu 1, se consider | c | exist| o perfect| asociere liniar | direct| ntre cele dou | variabile, iar n cazul n care covarian a are valoarea egal| cu -1 se consider | c | ntre cele dou | variabile exist| o perfect| asociere liniar | indirect|. De asemenea, dac | valoarea covarian ei este nul|, se consider | c | nu exist| asociere de tip liniar ntre cele dou | variabile. O consecin | important| a acestei ultime propriet|i este reprezentat| de faptul c |, n cazul variabilelor standardizate, covarian ele sunt chiar coeficien i de corela ie Pearson. Dac | este o variabil| standardizat|, atunci cele T observa ii ale acesteia, , definesc un punct sau un vector z n spa iul T-dimensional al observa iilor. Varian a variabilei standardizate z este, n acest caz: . n aceste condiii, varian a variabilei standardizate z poate fi scris | n func ie de lungimea vectorului z astfel: , unde reprezint| lungimea vectorului z: . n mod similar, abaterea standard a variabilei standardizate z poate fi scris | n func ie de lungimea vectorului z astfel: . Proprietatea variabilelor standardizate de a avea varian a i, implicit, abaterea standard egale cu unitatea, eviden iaz | proprietatea conform c |reia, lungimea vectorului ce reprezint| observa iile unei variabile standardizate este egal| cu adic |: , :
. Cele de mai sus arat| c | pentru a normaliza vectorii observa iilor standardizate este suficient a mp |r i fiecare component | a acestora cu m |rimea , adic |: . Tot n condiiile stabilite anterior, covarian a dintre dou | variabile standardizate z i w poate fi exprimat | n func ie de vectorii z i w care reprezint| observa iile celor dou | variabile. Covarian a dintre variabilele standardizate z i w este dat| de rela ia:
20
. Rezult| c |, n cazul variabilelor standardizate z i w, covarian a este propor ional| cu produsul scalar al vectorilor z i w, care reprezint| observa iile celor dou | variabile: , reprezint| produsul scalar al vectorilor z i w. i n cazul variabilelor standardizate, coeficien ii de corela ie de tip Pearson pot fi exprima i prin intermediul produsului scalar i lungimilor vectorilor corespunz |tori. Astfel, coeficientul de corela ie dintre variabilele standardizate z i w este dat de rela ia: unde . Rezult| c |, n cazul variabilelor standardizate, coeficientul de corela ie dintre dou | variabile este identic cu covarian a i este propor ional cu produsul scalar al vectorilor ce reprezint| observa iile asupra variabilelor: .
Figura 3.1: Pozi ionarea indicatorului ce m |soar | tendin a central| Din punct de vedere geometric, determinarea unei m |suri pentru exprimarea tendin ei centrale este echivalent | cu a g |si un vector care s | aib | acela i sens i aceea i direc ie cu vectorul ale c |rui componente sunt egale cu unitatea i care s | fie ct mai apropiat de vectorul observa iilor. n acest sens, se poate spune c |, n cazul metricii euclidiene, m |rimea care exprim | n mod optimal tendin a central| este media aritmetic |. Tendin a central| poate fi eviden iat| prin intermediul unor indicatori statistici, ntre care cei mai importan i sunt: media, mediana i modulul. Fiecare dintre ace ti indicatori exprim |, ntr-un fel sau altul, mai mult sau mai pu in sugestiv, nivelul caracteristicii analizate de-a lungul obiectelor.
21
22
. Spre deosebire de varian |, exprimat | n unit|i de m |sur | nefire ti, nenaturale, abaterea standard este exprimat | n acelea i unit|i de m |sur | ca i observa iile efectuate asupra caracteristicii.
Spre deosebire de covarian |, coeficientul de corela ie este o m |rime scalat| n intervalul nchis .
O valoare nul| a coeficientului de corela ie eviden iaz | absen a leg |turii de tip liniar ntre cele dou | variabile, dup | cum o valoare absolut| egal| cu unitatea eviden iaz | o leg |tur | liniar | perfect|, leg |tur | care este direct| dac | valoarea este egal| cu 1 i invers | dac | valoarea este egal| cu -1.
i mai sintetic variabilitatea con inut| n observa iile variabilelor analizate const| n definirea altor doi indicatori ai varian ei: varian a total| i varian a generalizat|.
Cu toate c | varian a total| ofer | o imagine cuprinz |toare asupra variabilit|ii globale ce caracterizeaz | observa iile variabilelor analizate, ea m |soar | aceast| variabilitate doar n sens individual, nelund n considerare variabilitatea comun |, simultan | a observa iilor, adic | variabilitatea interac iunilor. O m |sur | interesant| a variabilit|ii totale, care ine seama att de variabilitatea individual|, ct i de variabilitatea rezultat| din interac iuni, este reprezentat| de varian a generalizat|.
Figura 3.2: Situa ii posibile de corelare a dou | variabile reprezentate prin intermediul vectorilor Vom presupune c | unghiul format de cei doi vectori este n i c | cei doi vectori sunt scala i prin nmulirea cu m |rimea , adic | cei doi vectori scala i au componentele de forma: . Lungimea unui astfel de vector va fi: , unde reprezint| cea de-a t-a observa ie efectuat| asupra variabilei x. Dac | variabilele
sunt variabile centrate, adic | de medie nul|, atunci p |tratul lungimii vectorilor
24
. n cazul lipsei de corela ie, eviden iat| prin ortogonalitatea celor doi vectori, aria paralelogramului este maxim |. Aceasta corespunde unei situa ii n care redundan a informa ional| aferent| observa iilor efectuate asupra celor dou | variabile este nul|. n cazul n care corela ia este perfect|, adic | cei doi vectori sunt coliniari, aria paralelogramului este minim |. n aceast | situa ie redundan a informa ional| corespunz |toare observa iilor efectuate asupra celor dou | variabile, este maxim |. n figura 3.3, este reprezentat| aria paralelogramului avnd ca laturi vectorii ce definesc cele dou | variabile analizate.
Figura 3.3: Interpretarea redundan ei informa ionale prin intermediul ariei paralelogramului Din punct de vedere al analizei datelor, situa ia de redundan | minim | este ideal|, aceasta eviden iind faptul c | ntre cele dou | variabile men ionate nu exist| nici o suprapunere informa ional|. n aceast | situa ie, variabilitatea indus | de cele dou | variabile este maxim |, ceea ce din punct de vedere geometric este echivalent cu faptul c | vectorii sunt ortogonali, respectiv c | aria paralelogramului este maxim |. Pe de alt| parte, situa ia de redundan | maxim | este cea mai pu in dorit |, aceasta nsemnnd c | cele dou | variabile reprezint| unul i acela i lucru din punct de vedere informa ional. n acest caz, variabilitatea corespunz |toare celor dou | variabile este minim | i este eviden iat| de coliniaritatea vectorilor ce reprezint| cele dou | variabile, adic | de faptul c | aria paralelogramului este nul|. n afar | de pozi ia pe care o au cei doi vectori unul fa | de altul, aria paralelogramului depinde i de lungimea fiec |ruia dintre vectori, fiind cu att mai mare, cu ct lungimea celor doi vectori este mai mare. Deoarece p |tratul lungimii fiec |ruia din cei doi vectori este chiar varian a corespunz |toare variabilei pe care acesta o reprezint|, este evident c | aria paralelogramului este i m |sur | a varian ei variabilelor standardizate. Cele men ionate anterior eviden iaz | un fapt de o nsemn |tate excep ional| pentru problematica m |sur |rii variabilit|ii individuale i comune ce caracterizeaz | observa iile unei mulimi de variabile: aria paralelogramului poate fi folosit| ca m |sur | comun | att pentru variabilitatea individual|, exprimat| prin intermediul varian elor variabilelor, ct i pentru variabilitatea comun |, exprimat| prin intermediul covarian elor dintre aceste variabile. Cele dou | situa ii men ionate eviden iaz | faptul c | aria paralelogramului determinat de cei doi vectori poate fi utilizat| pentru determinarea unei m |suri a redundan ei inform a ionale i a variabilit|ii generale ce caracterizeaz | observa iile variabilelor. O astfel de m |sur | este reprezentat| de p |tratul ariei paralelogramului ce corespunde celor doi vectori i este cunoscut| sub numele de varian | generalizat|. Deoarece baza paralelogramului este reprezentat| de lungimea vectorului n |limea paralelogramului este dat| de rela ia: , aria paralelogramului va fi: . n cazul n care exist| un num |r de n variabile, varian a generalizat| corespunz |toare acestora este chiar p |tratrul volumului hiperparalelipipedului format de cei n vectori n spa iul observa iilor. Din cele ar |tate mai sus rezult| c |, n sens geometric, varian a generalizat| poate fi definit| sub forma urm |toare: Definiie: Varian a generalizat| corespunz |toare spa iului observa iilor celor dou | variabile considerate este dat| de rela ia: , adic | de m |rimea , iar
Se poate ar |ta c | varian a generalizat| este reprezentat| de determinantul matricii de covarian | ce corespunde variabilelor supuse studiului, respectiv: . Varian a generalizat| este o m |sur | extrem de important| a variabilit|ii totale, format| att ca urmare a variabilit|ii
25
individuale ce caracterizeaz | variabilele, ct i ca urmare a variabilit|ii comune ce caracterizeaz | interac iunea variabilelor.
rezult| urm |toarele trei tipuri de matrici foarte importante n analiza datelor: matricea observa iilor centrate; matricea observa iilor standardizate; matricea produselor ncruci ate, pe care le vom defini n continuare.
Utiliznd scrierea bazat| pe lungimile vectorilor de observa ii i pe produsele scalare ale acestora, matricea produselor ncruciate pentru situa ia n care variabilele sunt sub forma original| poate fi scris | sub forma:
unde
n cazul n care variabilele sunt centrate, matricea produselor ncruciate poate fi determinat| astfel:
26
Folosind lungimile vectorilor de observa ii centrate i produsele scalare ale acestora, matricea produselor ncruciate pentru situa ia n care variabilele sunt centrate poate fi scris | sub forma:
, unde
n condiiile nota iilor anterioare, matricea de covarian | pentru variabilele originale poate fi scris | cu ajutorul matricii produselor ncruciate pentru cazul variabilelor centrate, sub forma:
, unde
Matricea de corela ie a variabilelor originale poate fi scris | cu ajutorul matricii produselor ncruciate pentru cazul variabilelor standardizate, astfel:
27
n spa iul variabilelor, un obiect, de exemplu cel de-al i-lea, este reprezentat prin intermediul vectorului n-dimensional:
ntr-un astfel de spa iu, pot fi determinate distan ele dintre obiecte, poate fi eviden iat| i m |surat| variabilitatea obiectelor de-a lungul axelor, pot fi determinate i m |surate eventuale leg |turi ntre obiecte etc. Reprezentarea obiectelor n spa iul variabilelor este foarte util| i sugestiv | pentru n elegerea tehnicilor de analiz | a discriminantului i de analiz | cluster, metodelor i tehnicilor de analiz | a leg |turilor etc. Figura urm |toare con ine reprezentarea grafic | a celor dou | obiecte n spa iul variabilelor, ale c |rui axe sunt reprezentate de caracteristicile obiectelor.
n spa iul variabilelor, obiectele analizate sunt reprezentate sub forma unui nor de puncte, centrul de greutate al norului de puncte fiind chiar punctul care reprezint| mediile caracteristicilor obiectelor, punct care se nume te centroid al obiectelor. Definiie: Se nume te centroid n spa iul variabilelor punctul ale c |rui coordonate sunt reprezentate de mediile celor n variabile analizate, adic | punctul .
Cele n coordonate ale centrului de greutate sau ale centroidului obiectelor n spa iul variabilelor sunt date de rela iile urm |toare:
28
, unde reprezint| coordonata celui de-al t-lea obiect n raport cu cea de-a j-a ax | a spa iului variabilelor.
Dac | obiectele din spa iul variabilelor sunt privite ca vectori din acest spa iu, atunci cosinusul unghiului dintre doi vectori ce definesc dou | obiecte reprezint| m |sura leg |turii liniare ce exist| ntre cele dou | obiecte. Ceea ce are importan | pentru caracterizarea obiectelor este poziia pe care fiecare obiect o are n spa iul variabilelor, poziie att n raport cu axele spa iului, ct i n raport cu alte obiecte. Cea mai important | opera ie n spa iul variabilelor este aceea a determin |rii gradului de apropiere sau de dep |rtare dintre obiecte, astfel nct, m |rimea cea mai relevant | pentru caracterizarea obiectelor reprezentate n spa iul variabilelor este distan a. Definirea i evaluarea distan ei n spa iul variabilelor sunt posibile numai n condiiile n care pe spa iul respectiv este definit| o anumit| metric |. Conceptul care st| la baza definirii unei metrici ntr-un anumit spa iu este produsul scalar. n cazul spa iului real ndimensional , produsul scalar dintre doi vectori x i y este num |rul real definit astfel: . Cu ajutorul produsului scalar poate fi definit| lungimea unui vector din spa iul n-dimensional , :
, respectiv: .
Metrica n spa iul variabilelor este introdus | prin intermediul distan ei euclidiene, n conformitate cu care, distan a dintre dou | obiecte este dat| de r |d |cina p |trat| a sumei p |tratelor diferen elor coordonatelor celor dou | obiecte: . Analiza varian ei obiectelor de-a lungul axelor este extrem de important | deoarece, n cazul n care de-a lungul unei axe, varian a este nesemnificativ | n raport cu varian ele obiectelor n raport cu celelalte axe, se poate renun a la acest | ax |, considerndu-se c | variabila ce reprezint| respectiva ax | nu are o semnifica ie relevant | n definirea obiectelor. Aceasta este de fapt ideea central| care st | la baza tehnicilor de simplificare i de reducere a dependen elor cauzale.
n spa iul observa iilor, pot fi determinate i m |surate leg |turile de tip liniar dintre variabile, poate fi stabilit modul n care variabilele sau caracteristicile obiectelor se asociaz |, pot fi stabilite distan e ntre variabile etc. Ca i n cazul reprezent |rii obiectelor n spa iul variabilelor, reprezentarea variabilelor n spa iul observa iilor este util| n numeroase analize de tip multidimensional, ntre cele dou | tipuri de reprezentare fiind o leg |tur | de tip dual. Variabilele analizate reprezint| n spa iul observa iilor un nor de puncte, al c |rui centru de greutate este numit centroid al variabilelor.
29
Definiie: Se nume te centroid n spa iul observa iilor punctul ale c |rui coordonate sunt reprezentate de mediile celor T observa ii analizate, adic | punctul .
Cele T coordonate ale centroidului variabilelor n spa iul observa iilor sunt date de rela iile: , unde reprezint| valoarea medie nregistrat| de cele n variabile la cel de-al t-lea obiect. Reprezentarea variabilelor n spa iul
observa iilor i a centroidului acestora sunt eviden iate n figura urm |toare.
Ca i n cazul spa iului variabilelor, definirea produsului scalar n spa iul observa iilor permite definirea conceptului de distan | euclidian | ntre dou | variabile. De i aceast| distan | nu are relevan a pe care o are n cazul obiectelor, exist| situa ii n care m |surarea distan ei dintre variabile are o importan | practic |. Distan a euclidian | dintre variabilele n spa iul observa iilor este: .
30
Definiie: Se nume te distan | euclidian | ntre dou | puncte x i y din spa iul n-dimensional astfel: , unde reprezint| cea de-a i-a coordonat| a punctelor x, respectiv y.
Pentru a ilustra geometric distan a euclidian |, vom considera cazul unui spa iu bidimensional puncte x i y sunt reprezentate de vectorii x i y din figura urm |toare.
Figura 4.3: Distan a euclidian | dintre dou | puncte x i y Dup | cum se poate observa, n conformitate cu teorema lui Pitagora, lungimea segmentului ce une te punctele x i y, adic | distan a dintre cele dou | puncte este: . Rezult| c | distan a euclidian | dintre dou | puncte este num |rul nenegativ reprezentat de r |d |cina p |trat| a sumei p |tratelor diferen elor coordonatelor omoloage ale respectivelor puncte. Altfel spus, p |tratul distan ei euclidiene dintre dou | puncte este egal cu suma p |tratelor diferen elor dintre coordonatele omoloage ale celor dou | puncte.
Calculul distan ei euclidiene ponderate este echivalent cu calculul distan ei euclidiene, dar pentru cazul n care observa iile fiec |rei a i-a caracteristici au fost multiplicate cu m |rimea .
31
Este important s| observ |m c | distana standardizat| i distan a euclidian | sunt cazuri particulare ale distan ei Mahalanobis. ntr-adev |r, dac | cele dou | variabile ce caracterizeaz | obiectele sunt necorelate, adic | , distan a Mahalanobis coincide cu distan a standardizat|. Pe de alt| parte, dac | varian ele variabilelor sunt egale cu unitatea i variabilele sunt necorelate, distan a Mahalanobis coincide cu distan a euclidian |. Definiie: n cazul obiectelor multidimensionale, adic | al obiectelor caracterizate prin intermediul a n variabile, distan a Mahalanobis este definit| de m |rimea: sunt vectori n-dimensionali ale c |ror componente sunt reprezentate de valorile caracteristicilor , iar S este matricea de covarian |.
unde obiectelor
Dac | cele n variabile ce caracterizeaz | obiectele sunt necorelate, matricea de covarian | S este o matrice diagonal|, elemenele diagonale ale acesteia reprezentnd varian ele variabilelor. n cazul n care variabilele sunt standardizate i necorelate, matricea de covarian | S este matricea unitate, ceea ce nseamn | c | distan a Mahalanobis se reduce la distan a euclidian |.
32
unde
Matricea comun | de covarian | exprim | cantitatea de varia ie prezent | n observa iile fiec |reia din cele G grupe de observa ii. M atricea comun | de covarian | este foarte important| n analiza datelor grupate, deoarece ea furnizeaz | informa ia cu privire la omogenitatea sau similaritatea din interiorul grupelor, adic | omogenitatea intragrupal|. De exemplu, dac | obiectele reprezentate de observa iile fiec |rei grupe sunt identice din punct de vedere al tuturor variabilelor, adic | toate observa iile unei variabile coincid cu media, atunci elementele matricii comune de covarian | vor fi nule, ceea ce eviden iaz | omogenitate perfect| n interiorul grupelor. Valori mai mari dect zero ale elementelor matricii comune de covarian | eviden iaz | un anumit grad de eterogenitate a observa iilor n cadrul grupelor, eterogenitate care este cu att mai mare cu ct valorile elementelor matricii comune de covarian | sunt mai mari.
define te i se calculeaz | pentru fiecare din variabilele analizate. Pentru cea de-a i-a variabil|, suma p |tratelor abaterilor dintre grupe este dat| de rela ia: , unde G reprezint| num |rul grupelor, reprezint| num |rul de observa ii din cea de-a j-a grup |, reprezint| media nregistrat|
de cea de-a i-a variabil| la nivelul celei de-a j-a grupe, iar
observa iilor din cele G grupe. O matrice important | utilizat| n analiza intergrupal| este m atricea produselor ncruciate intergrupale, care se define te astfel:
Matricea produselor ncruci ate intergrupal| este extrem de important | n analiza grupelor sau a caracteristicilor de grupare, deoarece ea furnizeaz | informa ia cu privire la eterogenitatea grupelor de observa ii. Ea reprezint| o m |sur | a diferen elor care exist| ntre grupele de observa ii, ar |tnd care este rolul variabilelor n diferen ierea grupelor de observa ii. Cu ajutorul matricii produselor ncruciate intergrupale poate fi calculat| m atricea de covarian | intergrupal|:
Matricea de covarian | intergrupal| exprim | informa ia referitoare la eterogenitatea intergrupal|, ar |tnd ct de mult se diferen iaz | grupele dup | fiecare din variabilele analizate. Considernd c | num |rul total de observa ii este T i notnd cu matricea produselor ncruci ate pentru totalitatea observa iilor centrate, indiferent de mp |r irea lor pe grupe, adic | matricea:
este verificat| rela ia fundamental|: . Aceast | rela ie, foarte important | n analiza datelor, eviden iaz | faptul c | matricea general| sau total| a produselor ncruci ate ( ) poate fi descompus | sub forma a dou | matrici: matricea comun | sau cum ulat| a produselor ncruci ate ( )
).
n termeni informa ionali, rela ia precedent | eviden iaz | faptul c | informa ia total|, exprimat | de variabilitatea ce caracterizeaz | toate observa iile, poate fi mp |r it| pe dou | componente: informa ia reprezentat| de variabilitatea existent| n interiorul grupelor i care este m |surat| prin matricea comun | a produselor ncruci ate ;
34
informa ia reprezentat| de variabilitatea existent| ntre grupe i care este m |surat| prin intermediul matricii produselor ncruci ate intergrupale ; A a cum am mai men ionat, cu ajutorul matricii comune de covarian | se exprim | similaritatea, omogenitatea intragrupal|, iar cu ajutorul matricii de covarian | intergrupal| se exprim | eterogenitatea intergrupal|. Din punct de vedere al unei singure variabile, se poate spune c |, exist| diferen e cu att mai mari ntre grupe cu ct suma p |tratelor abaterilor intergrupale este mai mare n compara ie cu suma p |tratelor abaterilor intragrupale. Aceast | afirma ie furnizeaz | implicit criteriul teoretic ideal pentru construirea celui mai bun algoritm de clasificare: maximizarea sumei p |tratelor abaterilor intergrupale i minimizarea sumei p |tratelor abaterilor intragrupale. n mod similar cu descompunerea matricii totale a produselor ncruci ate pe cele dou | componente, se poate defini i o rela ie de descompunere a gradelor de libertate ce corespund totalit|ii observa iilor, notate cu df, astfel: , unde reprezint| gradele de libertate corespunz |toare variabilit|ii intragrupale, adic |: , iar reprezint| gradele de libertate corespunz |toare variabilit|ii intergrupale, adic |: . Dup | cum se poate observa, ntr-adev |r suma observa ii: . Analiza caracteristicilor de grupare i matricile definite n leg |tur | cu aceasta sunt utilizate frecvent n probleme de clasificare i discriminare. n capitolul destinat prezent|rii tehnicilor de recunoa tere a formelor, vom discuta, detaliat, modul n care pot fi folosite procedurile de analiz | a grupelor. reprezint| num |rul de grade de libertate ce caracterizeaz | cele T
35
s | fie minim |. Realizarea acestei cerin e impuse transform |rii caracteristicilor presupune definirea unei performan e, unei func ii obiectiv specifice, astfel nct transformarea s | asigure, dup | caz, fie minimizarea, fie maximizarea acestei func ii obiectiv. n cazul concret al analizei componentelor principale, performan a este reprezentat| de maximizarea varian ei caracteristicilor obiectelor, iar transformarea este o transformare de tip liniar. Sintetiznd cele men ionate anterior, putem spune c | analiza componentelor principale este utilizabil| pentru rezolvarea a dou | categorii generale de probleme: simplificarea structurii dependen ei cauzale i reducerea dimensionalit|ii spa iului cauzal.
noile caracteristici nu preiau, ntr-un fel sau altul, con inutul informa ional al caracteristicilor iniiale. Mai mult dect att, noua reprezentare se construie te n a a fel nct conservarea informa ional| s | fie maxim |, acceptndu-se, totu i, o pierdere informa ional| minimal|. Din punct de vedere geometric, analiza componentelor principale este echivalent | cu o rescriere a unit|ilor unei popula ii ntr-un nou sistem de axe, cu o reprezentare mai adecvat| din punct de vedere informa ional a acestor unit|i. Noul sistem de coordonate rezultat din analiza componentelor principale este caracterizat prin trei tr |s |turi fundamentale: are o dimensiune redus|; axele sale sunt ortogonale; coordonatele n acest sistem sunt maximizatoare de varian |. Problema reprezent |rii ntr-un spa iu mai redus este cunoscut | sub numele de problem | a reducerii dimensionalit|ii. Din acest motiv, analiza componentelor principale este cunoscut| i ca tehnic | de reducere a dimensionalit|ii. Dac | vom considera c | exist| n variabile originale, reprezentate de elementele mulimii , esen a analizei componentelor principale poate fi reprezentat| n mod simplificat prin intermediul transform |rii urm |toare: ,
unde
intermediul componentelor principale, conservarea variabilit|ii din spa iul cauzal iniial ntr-o propor ie maxim posibil|. Pentru a ilustra restric iile sub care poate fi f|cut | reducerea dimensionalit|ii, vom considera reprezent |rile grafice din figura urm |toare, referitoare la un num |r de 10 obiecte care posed | cte dou | caracteristici. Obiectele au fost alese astfel s | sugereze att con inutul procesului de reducere a dimensionalit|ii, ct i necesitatea acestui proces. n aceast | figur | sunt eviden iate dou | modalit|i de reprezentare a celor 10 obiecte: prima este cea original|, adic | aceea n care obiectele sunt reprezentate n coordonatele iniiale, netransformate, iar cea de-a doua este cea rezultat| n urma reducerii dimensionalit|ii.
Figura 6.1: Exemplificarea reducerii dimensionalit|ii de la dou | axe i , la o singur | ax | - W n cadrul primei reprezent |ri, obiectele sunt considerate a fi puncte din planul dintre aceste puncte, m |surate pe axele reprezentate de , cele dou | coordonate ale fiec |ruia este
deranjant n contextul acestei reprezent |ri iniiale a obiectelor este faptul c | rezolu ia acestor obiecte de-a lungul axei
foarte mic |. Obiectele pot fi distinse cu dificultate unele de altele, unele fiind chiar confundabile. n termeni statistici, rezolu ia sc |zut | a obiectelor n sistemul de coordonate ini ial este echivalent | cu o variabilitate sc |zut | a primei caracteristici, de-a lungul obiectelor. Mai departe, aceast| variabilitate sc |zut | poate fi interpretat| ca nsemnnd o semnifica ie redus | a primei caracteristici, din punct de vedere ale puterii ei de a diferen ia obiectele analizate. Reducerea dimensionalit|ii const |, n acest caz, n trecerea de la dou | dimensiuni la o singur | dimensiune. Ca urmare a reducerii dimensionalit|ii, se trece de la reprezentarea obiectelor prin intermediul a dou | coordonate la reprezentarea obiectelor prin intermediul unei sinngure coordonate. Aceasta nseamn | trecerea de la reprezentarea n plan la reprezentarea pe o dreapt|. Noua ax | rezultat| n urma reducerii dimensionalit|ii, notat| n grafic cu W, poate fi interpretat| ca fiind expresia unei caracteristici noi, rezultat| din combinarea ntr-o anumit| form |, a celor dou | caracteristici originale. Se poate observa c | reprezentarea rezultat| n urma reducerii dimensionalit|ii cre te rezolu ia obiectelor. Aceasta nseamn| c | noua caracteristic |, simbolizat| prin intermediul variabilei W , este caracterizat| de o mai mare variabilitate de-a lungul obiectelor, comparativ cu caracteristica simbolizat| prin intermediul variabilei . Noua variabil| W poate fi interpretat| ca
38
fiind o component| principal|. n urma reducerii dimensionalit|ii s-a ob inut o nou | entitate informa ional|, care poate fi interpretat| ca reprezentnd o nou | caracteristic | a obiectelor. Informa ia con inut| n aceast| nou | entitate este mai relevant | dect informa ia con inut| n observa iile f|cute asupra primei caracteristici a obiectelor.
39
a calculului chiar n raport cu ridicatele performan e ale configura iilor hardware actuale, presupunnd implicit costuri foarte ridicate de prelucrare. Avnd n vedere cele men ionate, rezult| c | procesul de construire a modelului presupune necesitatea efectu |rii unor simplific |ri i unor transform |ri corespunz |toare asupra mul imii de variabile independente. n toate situa iile de acest fel, analiza componentelor principale poate servi ca un puternic instrument complementar, att n faza de construire a modelelor, ct i n faza de estimare a parametrilor acestor modele.
zentate de ace ti indicatori i pentru cre trea relevan ei acestora este necesar | utilizarea analizei componentelor principale; o investiga ie tiin ific | n domeniul social are ca scop identificarea unor tipologii socio-culturale, specifice unor zone geografice; informa iile de natur | social| i cultural| disponibile pot fi utilizate pentru construirea acestor tipologii numai n condiiile existen ei unor metode i tehnici adecvate, n rndul c |rora analiza componentelor principale ocup | cel mai important loc; n activitatea de control al calit|ii produc iei se dore te ca, pe baza a numeroase informa ii privitoare la desf |urarea procesului de fabrica ie, s | se defineasc | un num |r mic de indicatori relevan i pentru a aprecia dac | procesul se desf |oar | n parametrii calitativi corespunz |tori; ace ti indicatori pot fi ob inu i prin utilizarea tehnicilor specifice analizei componentelor principale; ntr-o cercetare din domeniul economico-financiar a fost identificat un model n care variabilele independente sunt afectate de fenomenul de colinearitate; n aceste condi ii este posibil ca erorile standard ale estima iilor parametrilor s| fie foarte mari, astfel nct calitatea modelului s| fie negativ afectat|; pentru a putea ob ine estima ii corespunz |toare este necesar ca variabilele originale s | fie substituite cu alte variabile noi, necorelate, cum ar fi componentele principale. Analiza datelor, indiferent dac | respectivele date sunt de natur | economic |, social|, medical|, biologic | sau tehnic |, reprezint| domeniul predilect al utiliz |rii analizei componentelor principale. Utilizarea analizei componentelor principale n analiza datelor are loc att n sens individual, ca tehnic | independent| de analiz | a datelor, ct i mpreun |, n complementaritate, cu alte metode i tehnici de analiz |. Analiza componentelor principale este folosit| n probleme de analiz | a datelor att n faza iniial| a acestora, ca tehnic | de analiz| preliminar |, ct i n fazele ulterioare ale acestor analize, n special n faza de interpretare a rezultatelor. n cele ce urmeaz |, vom preciza cteva dintre cele mai importante domenii i activit|i ale analizei datelor, n care utilizarea analizei componentelor principale este nu numai posibil|, ci i strict necesar |. analiza preliminar| a datelor; construirea modelelor matematice; solu ionarea problemelor de analiz | factorial|; scalarea multidimensional|; recunoa terea formelor; analiza grafic |; prezentarea i interpretarea rezultatelor. Anterior, am eviden iat necesitatea simplific |rii spa iului cauzal i am men ionat unele din situa iile n care aceast | simplificare se impune. Tehnica specific | folosit| pentru reducerea dimensiunii spa iului cauzal iniial, n sensul prezentat anterior, poart| numele de analiza com ponentelor principale, iar noile variabile care definesc spa iul redus de cauzalitate se numesc com ponente principale. n cadrul paragrafelor urm |toare, vom face o definire a analizei componentelor principale, precum i a noilor variabile construite n contextul acestei analize, respectiv a componentele principale.
Sintetiznd cele men ionate pn | acum n leg |tur | cu componentele principale, putem da urm |toarea definiie a acestora: Definiie: Com ponentele principale sunt variabile vectoriale abstracte, definite sub forma unor combina ii liniare de variabilele originale i care au urm |toarele dou | propriet|i fundamentale: sunt necorelate dou | cte dou | i suma p |tratelor coeficien ilor care definesc combina ia liniar | ce corespunde unei componente principale este egal| cu unitatea; prima component | principal | este o combina ie liniar | normalizat| a c |rei varian | este maxim |, cea de-a doua component | principal | este o combina ie liniar | necorelat| cu prima component | principal | i care are o varian | ct mai mare posibil|, ns | mai mic | dect cea a primei componente etc. Verificarea primei propriet|i de c |tre coeficien ii combina iilor liniare ce definesc componentele principale face ca ace ti coeficien i, privii sub form | vectorial|, s | alc |tuiasc | un sistem ortonormal. Componentele principale sunt vectori ortogonali care preiau ct mai mult din varian a variabilelor vector originale astfel: prima component | principal | preia maximul posibil din varian a variabilelor originale, a doua component | principal | preia maximul din varian a r |mas | dup | ce este eliminat| varian a preluat| de prima component | .a.m.d. Verificarea primei propriet|i de c |tre coeficien ii combina iilor liniare ce definesc componentele principale face ca ace ti coeficien i, privii sub form | vectorial|, s | alc |tuiasc | un sistem ortonormal. Componentele principale sunt vectori ortogonali care preiau ct mai mult din varian a variabilelor vector originale astfel: prima component | principal | preia maximul posibil din varian a variabilelor originale, a doua component | principal | preia maximul din varian a r |mas | dup | ce este eliminat| varian a preluat| de prima component | .a.m.d.
observaiile iniiale disponibile pentru cele dou| variabile, precum i valorile centrate ce corespund acestor observaii.
42
Valorile observaiilor iniiale i centrate Valori iniiale Observaia O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 Media Variana 7,0 5,0 10,0 2,0 5,0 6,0 7,0 9,0 7,0 6,0 6,4 4,933 10,0 11,0 15,0 5,0 10,0 13,0 12,0 11,0 8,0 10,0 10,5 7,389 0,6 -1,4 3,6 -4,4 -1,4 -0,4 0,6 2,6 0,6 -0,4 0 4,933 -0,5 0,5 4,5 -5,5 -0,5 2,5 1,5 0,5 -2,5 -0,5 0 7,389 Tabelul 6.1 Valori centrate
Variana individual| pentru fiecare din cele dou| variabile este 4,933, respectiv 7,389, iar variana total|, corespunz|toare celor dou| variabile, , este 12,322: . n aceste condiii, se poate spune c| rolul informaional al celor dou| variabile este aproximativ acelai, c| cele dou| variabile au aproximativ aceeai contribuie la formarea variabilit|ii totale ce caracterizeaz| spaiul cauzal iniial. Prima variabil| are o contribuie la formarea varianei totale de 46,45%, iar cea de-a doua variabil| contribuie cu 53,55% la formarea varianei totale: . Pentru observaiile din tabelul anterior, matricea produselor ncruciate, matricea de covarian| i matricea de corelaie, corespunz|toare celor dou| variabile , sunt urm|toarele: . n cazul observaiilor centrate, matricea produselor ncruciate, matricea de covarian| i matricea de corelaie sunt urm|toarele: . Dup| cum se poate observa, n urma operaiei de centrare se modific| doar matricea produselor ncruciate, matricea de covarian| i matricea de corelaie r|mnnd neschimbate. Matricea de corelaie evideniaz| faptul c| cele dou| variabile sunt corelate, la nivelul unui coeficient de corelaie de 0,736, adic|: . Avnd n vedere intensitatea relativ ridicat| a leg |turii dintre cele dou | variabile originale, este de a teptat ca aceste variabile s | poat | fi sintetizate prin intermediul unei singure componente principale, n condiiile unei pierderi informa ionale minime.
atunci rota ia axelor cu un anumit unghi va determina o modificare a coordonatelor acestui punct, respectiv a valorilor celor dou | observa ii. n cazul n care unghiul de rota ie este , noile coordonate ale punctului , notate i , sunt date de rela iile urm |toare: . Prin intermediul exemplului urm |tor se eviden iaz | modul n care se schimb | varian a fiec |rei variabile odat | cu efectuarea unei rota ii a axelor originale. Exem plul 6.2 Considernd datele din Exemplul 6.1, pentru o rotaie a axelor cu un unghi de 10 grade, coordonatele primei observaii centrate, respectiv coordonatele punctului (0,6; -0,5), devin 0,504 i -0,597: . n tabelul urm|tor sunt prezentate coordonatele celor dou| variabile ntr-un sistem de axe n care axele sunt rotite cu 10, 30, 45, 60 i 90 grade. Penultima linie a tabelului conine varianele celor dou| variabile, calculate pentru fiecare poziie obinut| din rotaia axelor cu un num|r de grade. Dup| cum se poate observa, varianele celor dou| variabile sunt diferite pentru diferitele poziii ale axelor, dei suma acestor variane, adic| variana total|, r|mne neschimbat| prin rotaia axelor. Aceasta nseamn| c| variabilitatea coninut| n observaiile corespunz|toare sistemului de axe iniial este integral conservat| odat| cu rotaia axelor. Coordonatele observaiilor variabilelor n condiiile rotaiei axelor Tabelul 6.2 Coordonatele variabilelor pentru diferite unghiuri de rotaie Observaia 10 grade 30 grade 45 grade 60 grade 90 grade
-0597
0,269 -0,733
-0,60
5,697 -0,868
-5,288 -4,652 -6,561 -2,563 -7,000 -0,778 -6,963 -1,466 -0,249 -1,462 0,040 0,851 2,647 2,531 1,373 0,041 0,904 1,269 0,267 -1,343 2,365 0,999 1,485 1,485 0,636 -1,133 2,051 0,636 1,965 1,599
1,060 -5,500 4,400 0,962 -0,500 1,400 1,596 0,230 2,500 0,400 1,500 0,500 -0,60 -2,60 -0,60
2,502 -0,867
2,192 -1,485
1,733 -2,002
0,157 -2,566 -0,730 -2,465 -1,343 -2,192 -1,865 -1,769 -2,500 -0,481 -0,423 -0,596 -0,233 -0,636 -0,071 -0,633 Variana Variana total| 6,527 5,795 9,396 2,926 10,606 1,716 10,624
12,322
12,322
12,322
12,322
Este evident c| rotaia axelor cu 90 de grade, determin| interschimbarea valorilor observaiilor celor dou| variabile. n mod corespunz|tor, are loc i interschimbarea valorilor varianelor celor dou| variabile. Pentru a ilustra modificarea valorilor pe care le iau varianele, n tabelul urm|tor sunt prezentate varianele individuale ale celor dou| variabile, variana total| i ponderile varianelor individuale n variana total|, pentru coordonatele calculate corespunz|tor unor rotaii ale axelor iniiale din 5 n 5 grade. Schimbarea varianelor individuale pentru diferite unghiuri de rotaie a axelor Tabelul 6.3 Procent fa| de variana Variana individual| Unghi Varian| total| (%) de rotaie total| 0 5 10 4,9333 5,7237 6,5274 7,3888 6,5984 5,7947 12,3221 12,3221 12,3221 46,45 52,97 59,41 53,55 47,03 40,59
44
Variana individual|
Varian| total| 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221 12,3221
7,3200 8,0774 8,7765 9,3962 9,9175 10,3248 10,6055 10,7512 10,7720 10,7574 10,6240 10,3549 9,9584 9,4466 8,8349 8,1420 7,3888
5,0021 4,2448 3,5456 2,9259 2,4046 1,9973 1,7166 1,5709 1,5501 1,5647 1,6982 1,9672 2,3637 2,8756 3,4872 4,1802 4,9333
65,55 71,23 76,25 80,49 83,79 86,07 87,25 87,30 87,42 86,22 84,03 80,82 76,66 71,70 66,08 59,96 81,59
34,45 28,77 23,75 19,51 16,21 13,93 12,75 12,70 12,58 13,78 15,97 19,18 23,34 28,30 33,92 40,04 18,41
Figura 6.2: Reprezentarea grafic | a varian ei primei variabile n func ie de m |rimea unghiului de rota ie a axelor Dup| cum se poate observa, pe m|sur| ce unghiul de rotaie crete, variana crete, atingnd un maxim pentru un unghi de rotaie de 52,7 grade, dup| care variana ncepe s| se reduc|. Pe de alt| parte, pe m|sur| ce variana primei variabile crete, variana celei de-a doua variabile scade, astfel nct suma celor dou| variane sau variana total| r|mne constant|. Similar, sc|derea varianei primei variabile este nsoit| de creterea varianei celei de-a doua variabile. Aceasta nseamn| c| atunci cnd variana variabilei este maxim|, variana variabilei este minim|. n final, se spoate spune c|, rotaia axelor iniiale cu un unghi de 52,7 grade maximizeaz| variana variabilei i minimizeaz| variana variabilei . Aceast| rotaie a axelor cu un unghi de 52,7 grade este chiar transformarea de care este nevoie pentru a maximiza relevana observaiilor primei variabile. Exemplul precedent eviden iaz | faptul c | prin rota ia axelor cu un anumit num |r de grade se poate ob ine o diferen iere a semnifica iei variabilelor originale, din punct de vedere al propor iei pe care acestea o explic | din varian a total|. n aceste condiii, se pune problema de a g |si o rota ie optimal | a axelor, astfel nct n noul sistem de axe semnifica iile informa ionale ale variabilelor s| fie ct mai accentuate, problem | care define te n mod sintetic i sugestiv esen a logicii componentelor principale.
sunt rotite n aa fel nct s| asigure maximizarea varianei primei variabile. Coordonatele noilor punctelor, reprezentate de observaiile celor dou| variabile n sistemul de axe rotit cu un unghi de 52,7 grade, sunt prezentate n tabelul urm|tor. Coordonatele observaiilor n sistemul de axe rotit cu 52,7 grade Tabelul 6.4 Coordonate transformate Observaia -0,344 -4,502 57,611 -70,414 -12,458 17,469 15,569 19,727 -16,258 -6,401 Media Variana 0 10,7720 -7,803 14,168 -1,388 1,696 8,111 18,325 4,312 -17,659 -19,917 0,154 0 1,5501
Dac| vom presupune c| cele dou| serii de observaii din tabel, rezultate n urma transform|rii reprezentate de rotaia axelor cu un unghi de 52,7 grade, sunt observaiile corespunz|toare unor noi variabile, notate cu , vom putea spune c| am definit dou| noi variabile, care sunt necorelate i care au varianele n aa fel nct variana primei variabile este maximal|. Aceste noi variabile sunt chiar componentele principale, iar observaiile corespunz|toare acestora i definite de relaiile: , reprezint| scorurile componentelor principale. Prima component| principal| are variana 10,772, iar cea de-a doua component| principal| are variana 1,5501. n acest fel, prima component| principal| preia 87,42% din variana total| i deci sintetizeaz|, explic| ntr-o proporie suficient de mare cele dou| variabile originale. Matricea produselor ncruciate, matricea de covarian| i matricea de corelaie pentru cele dou| componente principale sunt: . n consecin|, n locul observaiilor ce corespund celor dou| variabile originale, n analiz| pot fi utilizate observaiile corespunz|toare primei componente principale, adic| scorurile acesteia, n condiiile unei pierderi informaionale de 12,78%. Axele noului spaiu, rezultate din rotaia axelor iniiale cu 52,7 grade, sunt definite, n mod similar, de urm|torii doi vectori: , Cei doi vectori, respectiv: .
, care definesc noile axe, sunt vectori de lungime unitar| i sunt ortogonali, adic| verific| urm|toarele relaii:
. Unghiul dintre vectorul , reprezentnd prima ax| nou|, i vectorul , reprezezntnd prima din axele iniiale, reprezint| chiar unghiul i vectorul .
de rotaie a axelor, respectiv 52,72 grade. n virtutea ortogonalit|ii, aceeai valoare o are i unghiul dintre vectorul Cosinusurile unghiurilor dintre vectorii fiec|reia dintre cele cele dou| perechi vor fi:
iar acestora le vor corespunde acelai unghi, de 52,72 grade: . n graficul din figura urm|toare este sunt reprezentate att axele iniiale, ct i noile axe, adic| axele rotite cu 52,72 grade. Coordonatele observaiilor n noile axe, adic| valorile din tabelul anterior, reprezint| proieciile punctelor pe noile axe ale spaiului.
46
Figura 6.3: Reprezentarea grafic | a observa iilor n sistemul de axe rotite cu 52,72 grade
Referitor la exemplificarea anterioar | cu privire la logica determin |rii componentelor principale, putem face urm |toarele observa ii finale: rota ia axelor iniiale cu un anumit unghi, n vederea maximiz |rii varian ei de-a lungul unei axe, nu modific | pozi ia sau configura ia punctelor reprezentate de observa iile originale; ceea ce se schimb | sunt doar coordonatele acestora n raport cu noile axe; noile axe rezultate n urma rora iei care maximizeaz | varian a dup | prima ax | definesc dou | noi variabile, numite com ponente principale i care au proprietatea c | au media nul|; cele dou | variabilele numite componente principale reprezint| combina ii liniare de variabilele originale i sunt necorelate ntre ele; coordonatele noilor variabile sunt proiec iile punctelor reprezentate de observa iile iniiale i se numesc scoruri ale com ponentelor principale; cele dou | componente principale conserv | integral varian a total| corespunz |toare variabilelor originale, adic | suma varian elor celor dou | componente principale este egal| cu suma varian elor celor dou | variabile originale; prima component | principal | are varian | maxim al|, prelund maximum posibil din varian a total| ce caracterizeaz | variabilele originale.
47
Valorile proprii pentru aceast| matrice de corelaie i semnificaiile lor relative se g|sesc n tabelul urm|tor. Informaii cu privire la valorile proprii ale matricii de corelaie Tabelul 6.5 Nr. Crt. 1 2 3 4 5 Valori proprii 1,292867 1,112724 0,965477 0,893816 0,735115 Pondere (%) 25,857 22,255 19,309 17,877 14,702 Pondere cumulat| (%) 25,857 48,112 67,421 85,298 100,000
Analiza valorilor proprii prezentate n tabel arat| c| exprimarea prin intermediul componentelor principale a celor 5 variabile originale poate fi satisf|c|toare numai dac| se folosesc 4 sau chiar 5 componente principale. Acest lucru se ntmpl| deoarece chiar contribuia ultimelor componente principale la explicarea varianei totale este relativ ridicat|, astfel nct renunarea la ele este echivalent| cu o pierdere semnificativ| de informaie. Cazul limit| pentru situaia de necorelare a variabilelor originale este cel n care matricea de corelaie este egal| cu matricea unitate. n acest caz, toate valorile proprii sunt egale cu unitatea, iar contribuia fiec|reia la formarea varianei totale este de 20%, adic| un procent relativ ridicat. Rezult| c| pentru a asigura conservarea varianei totale n proporie de peste 80% este necesar| luarea n considerare a tuturor componentelor principale. Vom considera acum o a doua situaie, opus| celei precedente, i anume aceea n care toate variabilele originale sunt puternic corelate. Matricea de corelaie presupus| pentru acest caz este: .
Tabelul urm|tor conine situaia celor 5 valori proprii corespunz|toare matricii de corelaie considerate. Informaii cu privire la valorile proprii ale matricii de corelaie Tabelul 6.6 Nr. Crt. 1 2 3 4 5 Valori proprii 4,828053 0,082870 0,067152 0,017526 0,004399 Pondere (%) 96,561 1,657 1,343 0,351 0,088 Pondere cumulat| (%) 96,561 98,218 99,561 99,912 100,000
n acest caz, o singur| component| principal|, i anume prima, poate fi folosit| pentru a sintetiza din punct de vedere informaional toate cele 5 variabile originale. Prin intermediul acestei componente principale se asigur| conservarea a peste 96% din variabilitatea coninut| n spaiul cauzal iniial, determinat de cele 5 variabile. i n aceast| situaie exist| un caz limit|, anume acela n care matricea de corelaie are toate elementele egale cu unitatea, expresie a unei corel|ri perfecte a oric|ror dou| variabile originale. n acest caz, prima valoare proprie este egal| cu 5,0, iar celelalte patru valori proprii sunt nule. Aceasta nseamn| c| prima component| principal| asigur| captarea ntregii variabilit|i individuale, variana ei fiind egal| cu variana total| din spaiul cauzal iniial. Rezult| c| prima component| principal| exprim| din punct de vedere informaional toate cele 5 variabile originale, f|r| pierdere de informaie. Acest lucru este natural deoarece corelarea perfect| a oric|ror dou| variabile originale nu nseamn| altceva dect c| aceste variabile sunt identice. n sfrit, o a treia situaie pe care vrem s-o lu|m n considerare este aceea n care pe mulimea variabilelor originale se evideniaz| grupe de variabile puternic corelate.Vom considera cazul a 6 variabile originale, pe mulimea c|rora se evideniaz| trei grupe de variabile puternic corelate. Matricea de corelaie care exprim| o astfel de situaie este urm|toarea: 48
Din analiza matricii de corelaie se poate observa c| exist| trei grupe de variabile corelate puternic:
, respectiv
. Pe de alt| parte, ntre cele trei grupe exist| leg|turi foarte slabe. Aceasta nseamn| c| pentru a exprima cele 6 variabile sunt suficiente, practic, doar trei componente principale, care vor acoperi variabilitatea din spaiul celor 6 variabile ntr-o proporie foarte mare. n tabelul urm|tor sunt prezentate cele 6 valori proprii ale acestei matrici de corelaie i informaiile privind ponderea fiec|rei valori proprii. Informaii cu privire la valorile proprii ale matricii de corelaie Tabelul 6.7 Nr. Pondere Valori proprii Pondere (%) Crt. cumulat| (%) 1 2 3 4 5 6 2,308133 1,766032 1,750709 0,132365 0,042761 0,000000 38,469 29,434 29,178 2,206 0,713 100,000 38,469 67,903 97,071 99,287 100,000 100,000
ntr-adev|r valorile proprii i ponderea lor n variana total| arat| c| primele trei componente principale preiau din variabilitatea spaiului iniial 97,071%. Fiecare dintre aceste trei componente principale exprim| variabilele originale din fiecare cele trei grupe de varibile corelate. Astfel, se justific| ideea c| num|rul de componente principale este egal cu num|rul de submulimi de variabile originale puternic corelate.
49
Fiecare coordonat|
ajutorul combina iei liniare urm |toare: (6.1) Este evident c | pentru determinarea componentei principale A a cum o s | vedem n continuare, coeficien ii covarian | a variabilelor originale este necesar | determinarea coeficien ilor , care definesc
combina ia liniar | corespunz |toare acestei componente principale. sunt chiar coordonatele vectorilor proprii corespunz |tori matricii de , iar varian ele componentelor principale sunt chiar valorile proprii ale acestei
matrici. Conform definiiei componentelor principale, determinarea acestor coeficien i trebuie s | se fac | n a a fel nct componenta principal | s | aib | varian a maxim |. Considernd c | cei n coeficien i , respectiv: ai combina iei liniare de mai sus sunt coordonatele vectorului n-dimensional
presupus a fi repartizat normal, de medie : i matrice de covarian | G, rezult| c | aceast| component | principal | este ea ns |i, de asemenea, o variabil| aleatoare, repartizat| normal. Pe baza rela iei (6.2), care define te componenta principal | , pot fi deduse media i varian a acestei componente principale astfel: . Rezult| c |: . Avnd f|cute preciz |rile de mai sus, vom trece n continuare la descrierea modelului matematic pe care se bazeaz | analiza componentelor principale.
De asemenea, vom presupune c | x este vectorul ale c |rui coordonate sunt variabilele originale
i c | w este
50
vectorul ale c |rui coordonate sunt componentele principale componentele principale pot fi scrise sub forma:
Pe baza acestor nota ii, m odelul matem atic al analizei com ponentelor principale poate fi definit astfel: (6.3) A a cum vom vedea n continuare, cele n coloane ale matricii A reprezint| de fapt vectorii proprii normaliza i ai matricii de covarian | G, iar varian a fiec |rei componente principale , care este o varian | maximal | n raport cu varian ele componentelor principale anterioare, este reprezentat| chiar de valoarea proprie a aceleea i matrici de covarian |. Aceast | pe subspaiul , sunt modalitate de determinare a elementelor matricii A este echivalent | cu calculul proiec iilor obiectelor de tip liniar generat de vectorii coloanelor matricii A. Am v |zut anterior c | cele n componente principale ale spa iului cauzal determinat de variabilele originale definite de combina iile liniare: , ale c |ror ponderi se determin | n a a fel nct s| maximizeze varian a componentelor principale .
n scopul simplific |rii nota iilor, vom renun a, temporar, la unii dintre indicii care apar n rela ii. Astfel, vom considera n continuare c | w este nota ia generic | pentru o anumit| component | principal |, iar " este nota ia generic | pentru vectorul coeficien ilor ce definesc combina ia liniar | pentru aceast | component | principal |. n acest sens, vom avea grij | s | specific |m explicit, la fiecare apariie a nota iei w, dac | este vorba de vectorul w sau de componenta principal | w i s| men ion |m explicit indicele componentei principale atunci cnd o privim ca pe un element al vectorului componentelor principale w.
51
(6.4)
unde variabilele de alegere sau necunoscutele problemei sunt reprezentate de componentele vectorului ". Vectorul , care este solu ie a acestei probleme, define te o component | principal| de varian | maximal |. Rezolvarea problemei de extrem condiionat precedente poate fi f|cut | cu ajutorul metodei multiplicatorilor lui Lagrange, metod | care reduce problema de extrem condiionat la o problem | de extrem liber. Func ia Lagrangean asociat| problemei de extrem (6.4), folosit| pentru rezolvarea indirect| a acestei probleme de extrem, are forma urm |toare: (6.5) Condiiile necesare de extrem pentru func ia Lagrangean definit| de rela ia (6.5) sunt date de anularea derivatelor par iale n raport cu componentele vectorului " i cu multiplicatorul 8, respectiv:
(6.6)
Din prima condiie necesar | de extrem, care mai poate fi scris | i sub forma urm |toare: . rezult| c | solu ia a problemei de extrem (6.4) este chiar unul din vectorii proprii ai matricii de covarian | G, anume cel asociat valorii proprii de extrem , egal| cu a aceleia i matrici. Mai mult, se observ | c | valoarea maxim | a formei p |tratice , respectiv: este, n punctul
. Aceast | ultim | rela ie eviden iaz | faptul c | varian a unei componente principale este egal| cu o valoare proprie a matricii de covarian |.
este acel vector propriu al matricii de covarian | G c |ruia i corespunde valoarea proprie cea mai mare,
adic | este vectorul care verific | restric iile de mai jos: . Valoarea proprie 81 este r |d |cin | a ecua iei caracteristice: , iar I este nota ia pentru matricea unitate. Determinarea n acest fel a componentei principale
, face
Dup | determinarea primei componente principale w 1, urmeaz | determinarea celei de-a doua componente principale w, component | care trebuie s | fie caracterizat|, la rndul s |u, de urm |toarele propriet|i: s | aib | varian | maximal| i s | fie necorelat| cu prima component| principal| w 1. Exem plul 6.5 Pentru a ilustra modul de calcul implicat de analiza componentelor principale, vom considera cazul unui num|r de 10 obiecte, fiecare obiect avnd un num|r de 5 caracteristici exprimate prin intermediul variabilelor . M|sur|torile efectuate asupra caracteristicilor celor 10 obiecte sunt presupuse a fi cele din tabelul urm|tor.
52
Observaii iniiale Tabelul 6.8 Caracteristici Obiecte O1 O2 O3 O4 O5 O6 O7 O8 O9 O10 Medie 3,31 2,76 10,86 9,29 8,36 12,07 4,73 8,77 18,10 4,58 8,283 3,02 3,94 15,16 9,71 9,12 11,12 2,99 14,13 21,00 8,83 9,902 4,27 4,14 15,19 10,94 11,91 13,69 4,76 13,56 13,67 7,43 9,957 5,31 8,07 6,42 8,15 7,13 8,05 18,12 6,17 11,16 14,84 9,342 4,24 11,08 6,55 11,34 8,33 11,01 28,21 5,99 23,39 16,97 12,711
Abatere 4,716 5,798 4,378 4,150 7,845 standard Estimaia pentru matricea de covarian| corespunz|toare celor 5 variabile originale este urm|toarea:
iar valorile proprii ale matricii de covarian| sunt: Suma celor 5 valori proprii, reprezentnd varianele celor 5 componente principale, este egal| cu suma varianelor variabilelor originale: . Vectorii proprii ai matricii de covarian| E, corespunz|tori valorilor proprii menionate anterior sunt prezentai sub forma liniilor matricii urm|toare:
Cei 5 vectori proprii sunt de lungime egal| cu unitatea i sunt ortogonali doi cte doi, astfel nct matricea U este ortogonal|. Deoarece suma varianelor primelor dou| componente principale reprezint| 96,623% din variana celor 5 variabile originale, adic|: ,
se poate considera c| cele 5 variabile originale pot fi reexprimate suficient de bine din punct de vedere informaional - n limita unei pierderi de 3,4% - prin intermediul primelor dou| componente principale ale c|ror ecuaii sunt: . Coordonatele celor 10 obiecte n spaiul redus, ale c|rui axe sunt reprezentate de primii doi vectori ai matricii de covarian| E, sunt prezentate n tabelul urm|tor: Scorurile principale ale obiectelor Tabelul 6.9 Coordonatele obiectelor Obiectele O1 -54,037 -101,762
53
Coordonatele obiectelor Obiectele O2 O3 O4 O5 O6 O7 O8 O9 O10 7,284 -78,067 -17,385 -44,532 -29,873 174,078 -76,982 56,611 62,904 -82,893 44,211 3,534 -7,746 33,017 -34,196 21,818 144,532 -20,515
n analiza componentelor principale coordonatele obiectelor n spaiul redus se mai numesc i scoruri principale ale obiectelor. Dac| vom presupune c| au fost reinute p componente principale i dac| vom nota cu matricea de dimensiune , ale c|rei coloane sunt cei p vectori proprii care definesc cele p componente principale, atunci matricea scorurilor poate fi determinat| astfel: . Liniile matricii W reprezint| scorurile corespunz|toare noilor variabile sau observaiile celor p componente principale. O dat| determinate, scorurile principale pot fi folosite n analiz| ca substitut al observaiilor originale, simplificnd, n acest fel, baza informaional| iniial|. n leg|tur| cu aceast| problem|, consider|m c| este extrem de important s| facem precizarea c| scorurile principale sunt mai potrivite pentru a fi folosite n analize deoarece sunt mai puin afectate de erori, n comparaie cu m|sur|torile originale. Faptul c| scorurile principale sunt mai robuste n raport cu perturbaiile introduse de erori, c| au o anumit| invarian| n raport cu erorile, le face s| devin| mai importante din punct de vedere informaional dect observaiile originale. Deoarece noul spaiu redus are numai dou| axe, cele 10 obiecte pot fi reprezentate grafic n acest spaiu. Reprezentarea grafic| din figura urm|toare arat| poziionarea celor 10 obiecte n raport cu axele noului spaiu.
Figura 4.6: Reprezentarea obiectelor n spa iul redus n condiiile n care obiectele reprezint| entit|i reale, un astfel de grafic poate servi ca baz| eficient| pentru o analiz| a mulimii de obiecte. Poziionarea obiectelor n raport cu cele dou| axe ofer| o prim| imagine cu privire la leg|turile dintre obiecte, evideniind cu claritate similarit|ile sau nesimilarit|ile dintre acestea.
54
norm al cu media
unde 7 este matricea diagonal| ale c |rei elemente sunt valorile proprii
Normalitatea celor n variabile reprezentnd componentele principale rezult| din faptul c | acestea sunt combina ii liniare de cele n variabile originale, care, prin ipotez |, sunt variabile normale. Pentru a ar |ta c | matricea de covarian | a vectorului w este matricea 7 este suficient s| ar |t|m c | dac |: , x fiind repartizat normal, cu matricea de covarian | G, atunci matricea de covarian | a transform |rii liniare w este: .
Exem plul 6.6 Vom presupune c| estimaia pentru o matrice de covarian| corespunz|toare observaiilor efectuate asupra a 3 variabile este de forma urm|toare: .
Elementele diagonale ale acestei matrici reprezint| varianele corespunz|toare celor trei variabile originale, respectiv: . Cele trei valori proprii corespunz|toare acestei matrici de covarian| au valorile urm|toare: . Aa cum se poate observa imediat, este verificat| proprietatea menionat| anterior, respectiv: .
i varian ele acestora depind de unit|ile de m |sur | n care sunt m |surate variabilele
. Aceasta nseamn | c |, odat | cu schimbarea unit|ilor de m |sur| ale variabilelor originale se schimb | att
componentele principale, ct i varian ele acestora. Cunoa terea propriet|ilor pe care le au componentele principale este deosebit de important | n procesul de analiz | a datelor, permind stabilirea modific |rilor induse asupra componentelor principale i asupra m |rimilor asociate acestora de c |tre transform |rile aplicate asupra observa iilor variabilelor originale.
55
iar matricea Var(w) este chiar matricea 7. innd seama de exprimarea anterioar | a covarian ei dintre x i w, matricea de corela ie dintre x i w devine: . Matricea este o matrice foarte important | pentru analiza componentelor principale i este cunoscut| sub numele de m atrice factor. Modalitatea detaliat| n care aceast| matrice poate fi calculat| este definit| de rela ia:
un element generic
Elementele matricii factor se numes intensit |iale factorilor i au o interpretare deosebit de interesant| din punct de vedere al leg |turii dintre variabilele originale i componentele principale . Astfel, elementul care se g |se te la intersec ia liniei i cu coloana j n matricea factor dintre cea de-a i-a variabil| standardizat| , adic | elementul , reprezint| coeficientul de corela ie .
Intensit|ile factorilor sunt indicatori ai m |surii n care variabilele originale particip | la formarea componentelor principale sau, mai corect, ai m |surii n care componentele principale sintetizeaz | informa ia con inut| n variabilele originale. Cu ct este
56
mai mare valoarea coeficientului de corela ie dintr o variabil| original| i o component | principal |, cu att este mai adecvat| i mai complet| exprimarea informa ional| a variabilei originale prin intermediul componentei principale respective. Matricea factor este foarte important | deoarece, pe baza analizei valorilor elementelor ei, pot fi identificate o serie de partiii sau cluster-e pe mulimea variabilelor, parti ii sau clustere care, asociate cu anumite componente principale, pot conduce la stabilirea unor semnifica ii intuitive pentru acele componente. Aceasta nseamn | c | analiza elementelor matricii factor poate permite identificarea acelor variabile originale care sunt reprezentate prin intermediul unei anumite componente principale i, pe aceast | baz |, crearea posibilit|ii de atribuire a unei semnifica ii concrete pentru fiecare component| principal|. n cazul n care variabilele care intr | n componen a vectorului x sunt standardizate, varian ele acestora sunt egale cu unitatea, ceea ce nseamn | c | matricea este egal| cu matricea unitate. Rezult| c |: . n acest caz, coeficientul de corela ie dintre ce-a de-a i-a variabil| original| i cea de-a j-a component | principal | este definit sub forma: . n aceast | variant |, matricea factor are o proprietate important | care const | n aceea c | suma p |tratelor elementelor din fiecare coloan | a sa coincide cu varian a componentei principale care se asociaz | cu respectiva coloan |, respectiv: . Ca rezultat al acestei propriet|i, p |tratul unui coeficient de corela ie din matricea factor poate fi interpretat ca m |sur | a contribu iei pe care o are fiecare variabil| original| la formarea varian ei componentei principale. Exem plul 6.8 Vom presupune c| pentru cazul a patru variabile originale matricea de covarian| este de forma urm|toare:
, :
. Vectorii proprii
corespunz|tori acestor valori proprii sunt reprezentai sub forma coloanelor matricii
Matricea factor, obinut| din nmulirea coloanelor matricii cu r|d|cina p|trat| a valorii proprii corespunz|toare componentelor principale i din mp|rirea liniilor cu abaterea standard corespunz|toare variabilelor originale, este exprimat| prin intermediul urm|torului tablou:
Leg|tura foarte puternic| exprimat| de primii doi coeficieni de corelaie din prima coloan| evideniaz| faptul c| prima component| principal| exprim| coninutul informaional al variabilelor originale . n mod similar, corelaia foarte puternic| exprimat| de ultimii doi coeficieni din cea de-a doua coloan| arat| c| cea de-a doua component| principal| sintetizeaz| informaional variabile originale . Din faptul c| primele dou| valori proprii reprezint| 99,77% din suma tuturor valorilor proprii rezult| c| cele patru variabile originale pot fi exprimate prin intermediul primelor dou| componente principale, cu pierdere neglijabil| de informaie.
57
58
se consider| c| respectivii indicatori au o capabilitate mai ridicat| de a servi la exprimarea, indirect|, a factorului latent. Astfel, pentru un exemplu de tipul celui menionat anterior, se poate considera c| volumul produsului intern brut, ritmul creterii economice, productivitatea social| a muncii, nivelul de instruire a populaiei, volumul schimburilor economice externe etc., sunt rezultate ale unui anumit nivel de dezvoltare, sunt expresii ale acestui nivel de dezvoltare i, n consecin|, pot servi la evaluarea acestuia. n ceea ce privete leg|tura dintre valoarea unei variabile indicator i factorul comun, facem precizarea c| m|rimea nregistrat| de valoarea unui indicator nu este determinat| n mod exclusiv de factorul comun, ea depinznd, n afar| de acesta, i de influena altor factori, cunoscui sub numele de factori specifici. Influena acestor factori este diferit| de la un indicator la altul i nu este comparabil| pe mulimea acestor indicatori. Dat| fiind natura lor, din rndul factorilor specifici fac parte i erorile sau reziduurile. De exemplu, produsul intern brut i volumul schimburilor economice externe au o determinare comun|, dat| de nivelul de dezvoltare a economiei, dar au i o determinare specific|, dat| de m|rimea |rii, n cazul primului indicator, respectiv de poziia geografic| a |rii, n cazul celui de-al doilea indicator. M|rimea |rii este factor specific pentru produsul intern brut, iar poziia geografic| a |rii este indicator specific pentru volumul schimburilor externe. Schematic, leg|turile dintre indicatori, pe de o parte, i factorul comun i specifici, pe de alt| parte poate fi prezentat| schematic sub forma din figura urm|toare.
M |surarea influen ei specificului local asupra volumului vnz |rilor dintr-un produs, evaluarea aptitudinilor manageriale ale unei persoane, cuantificarea imaginii pe care o firm | o are pe pia |, m |surarea for ei financiare a unei firme, aprecierea gradului de dezvoltare economic | a |ri, evaluarea gradului de profitabilitate a unei firme etc., reprezint| probleme care conduc la necesitatea efectu |rii unor evalu |ri de tip indirect, pe baz | de intermediere, f|cndu-se apel la o serie de entit|i observabile, cunoscute sub numele de teste sau indicatori. Pe baza informa iilor colaterale i cu ajutorul unor instrumente specifice, pot fi ob inute dimension |ri de natur | cantitativ | pentru factorii neobservabili i pot fi construite scale de m |surare pe care ace tia s | poat | fi evalua i. Un rol unic n acest sens, rol bine determinat i extrem de important n activitatea de evaluare i cuantificare a factorilor de natur | neobservabil| i de construire a unor scale de m |surare pentru ace ti factori, revine tehnicilor de analiz | cunoscute sub numele generic de analiz| factorial|. Deducerea, pe cale indirect|, a informa iilor referitoare la factorii neobservabili se bazeaz | pe identificarea unor variabile indicator sau pe construirea unor teste, care s | furnizeze informa iile necesare aplic |rii tehnicilor de analiz | factorial|. Pe baza informa iilor referitoare la variabilele de tip indicator, analiza factorial| i propun | de deduc | substan a informa ional| con inut| n observa iile acestor variabile indicator, substan | comun | tuturor acestor variabile.
m |sur |torilor efectuate asupra acestor variabile. Din punct de vedere teoretic, se consider | c | m |rimea cantit|ii din aceast| substan | reg |sit| n fiecare variabil| este cea care determin |, n cea mai mare parte, nivelul i evolu ia respectivelor variabile, constituind n acela i timp fundamentul invizibil care genereaz | i dimensioneaz | rela iile de interdependen | dintre variabile. n func ie de cantitatea din respectiva substan | comun |, con inut| n fiecare variabil| explicativ |, se poate determina o structur | riguroas | a dependen ei acestora, se pot construi "cluster-e" de variabile explicative i se pot deduce informa ii a c |ror natur | s | nu mai fie parazitat| de modalit|ile particulare de manifestare a formei fenomenelor descrise de respectivele variabile.
Ob inerea de informa ii necesare pentru deducerea unor aproxim |ri cantitative pentru factorii comuni este bazat| pe existen a unor variabile speciale denumite indicatori, teste sau m |suri. Definiie: Indicatorul sau testul este o variabil| ale c |rei observa ii, cunoscute sub numele de scoruri, sunt utilizate n cadrul analizei factoriale n scopul de a produce evalu |ri numerice pentru factorul sau factorii comuni. n analiza factorial| se presupune c | leg |tura dintre variabilele indicator i factorii comuni poate fi exprimat | sub o form | liniar |, exprimare care conduce la necesitatea estim |rii coeficien ilor care intervin n definirea respectivei forme. Prin raportare la contextul terminologiei utilizate n cadrul analizei componentelor principale, se poate spune c | indicatorii sau testele sunt reprezentate de variabilele originale. Vom presupune n continuare c | n analiz | exist| n indicatori sau n teste i vom simboliza ace ti indicatori cu . Observa iile existente cu privire la cei n indicatori, observa ii ob inute prin extragerea unui e antion aleator de volum T din popula ia ale c |rei unit|i sunt caracterizate de cei n indicatori, reprezint| scorurile indicatorilor sau scorurile testelor. O ipotez | important | a analizei factoriale const | n presupunerea conform c |reia nivelul unei variabile indicator se formeaz | ca urmare a unor influen ei conjugate, exercitate att de factorul sau factorii comuni, ct i de un factor unic. n afara acestor influen e cu natur | semnificativ |, asupra nivelului unei variabile indicator se mai exercit| i influen a erorilor de m |surare, influen | considerat| a fi neglijabil|. Departe de a avea o semnifica ie m |car comparabil| cu aceea a factorilor comuni, factorul unic are, totu i, o natur | similar | cu cea a acestor factori: influen eaz | nivelul unei variabile indicator i are natur | neobservabil|. Spre deosebire de factorul comun, a c |rui influen | se manifest | la nivelul tuturor variabilelor indicator, factorul unic este caracterizat prin aceea c | influen a sa are o natur | particular |, unilateral|, considerat| a se exercita sau exprima numai la nivelul unei singure variabile indicator. Din acest motiv, num |rul de factori unici coincide cu num |rul de indicatori sau de teste. Vom folosi pentru notarea celor n factori unici, care sunt asocia i celor n indicatori, simbolurile . Factorul unic poate fi definit sub forma urm |toare: Definiie: Factorul unic reprezint| o entitate informa ional| de natur | particular |, care i exercit| influen a n mod unilateral, asupra unei singure variabile indicator, i care nu poate fi supus | unei proces direct de observare i m |surare. n analiza factorial| variabilele indicator sunt considerate a fi dependente de factorii comuni i de factorul unic, n mod similar cu dependen a descris | de modelele de regresie, n care variabila dependent| este reprezentat| de indicator sau test, variabilele independente sunt reprezentate de factorii comuni, iar termenul eroare este reprezentat de factorul unic i de factorul rezidual. Considernd cazul celei de-a i-a variabile indicator, un astfel de model de regresie are forma urm |toare:
Deosebirea acestui tip de model fa | de un model de regresie autentic, const | n aceea c | variabilele sale independente, , sunt variabile aleatoare neobservabile. Vom ilustra i vom concretiza con inutul celor trei m |rimi fundamentale definite anterior, respectiv indicator, factor comun i factor unic, prin intermediul urm |torului exemplu. Exem plul 7.2 n scopul evalu|rii nivelului de inteligen| general| i a capacit|ii de memorare ce caracterizeaz| fiecare dintre cei 10 studeni ai unei grupe ipotetice, vom presupune c| dispunem de notele obinute de acetia la 5 examene: Matematic|, Informatic|, Economie, Istorie, Englez|. Rezultatele se g|sesc n tabelul urm|tor. Situaia notelor obinute de studenii unei grupe
Tabelul 7.1
Note obinute Matematic| 6,25 5,50 9,25 8,00 5,75 7,50 10,00 9,50 6,50 5,25 7,350 3,1139 Informatic| 8,25 7,50 9,75 7,75 6,00 8,00 9,25 9,75 8,25 6,75 8,125 1,5035 Economie 7,25 7,50 9,25 9,00 7,25 6,75 9,00 8,50 9,25 7,00 8,075 1,0285 Istorie (h) 8,00 6,75 8,50 8,50 10,00 8,75 9,00 10,00 9,75 8,25 8,750 1,0139 Englez| (g) 8,50 7,00 8,25 9,25 8,25 9,00 9,25 9,00 10,00 8,50 8,700 0,6500
Medie student 7,65 6,85 9,00 8,50 7,45 8,00 9,30 9,35 8,75 7,15
n limbajul analizei factoriale, cele cinci examene reprezint| variabilele indicator sau testele. Factorii comuni sunt, n acest caz, inteligena i memoria. Notele obinute de studeni la examene reprezint| scorurile testelor. 61
Ipoteza raionamentului specific analizei factoriale este aceea c| rezultatele obinute de studeni sunt intercorelate, ca urmare a faptului c| ele sunt influenate de dou| caracteristici care sunt comune tuturor studenilor: inteligena i capacitatea de memorare. n tabelul urm|tor sunt prezentai coeficienii de corelaie dintre cele cinci variabile indicator. Faptul c| notele obinute la cele cinci discipline sunt corelate, ntre ele, ntr-o m|sur| mai mare sau mai mic|, constituie suportul pentru a considera c| n obinerea acestor note se manifest| ceva care este comun tuturor disciplinelor, indiferent de natura acestora. n aceste condiii, este natural a presupune c| elementele comune, care determin| corelarea rezultatelor, in de inteligena nativ| a indivizilor i de capacitatea lor de memorare. Matricea de corelaie a variabilelor indicator
Tabelul 7.2
Englez| 0,30 0,24 0,39 0,73 1,00 Inteligena i capacitatea de memorare reprezint| doi factori care influeneaz| notele obinute de fiecare student la fiecare dintre examenele susinute, cu diferene de la student la student, n funcie de inteligena i memoria proprii fiec|ruia dintre studeni. n afara celor doi factori comuni, nota obinut| de studeni la fiecare dintre examene este influenat| i de un factor unic, factor care reprezint| aptitudinile studentului pentru domeniul de care aparine disciplina respectiv|. De exemplu, separat de nivelul de inteligen| i de capacitatea de memorare, un student poate avea aptitudini speciale pentru domeniul Informaticii. Influena acestor aptitudini asupra notei obinute la informatic| se va concretiza prin intermediul factorului unic asociat cu acest indicator, adic| prin intermediul factorului unic . Rezult| c| performanele obinute de studeni la fiecare examen pot fi descrise cu ajutorul unor ecuaii de regresie de forma: , unde influeneaz| notele, iar definesc variabilele indicator, care reprezint| notele la cele cinci examene, reprezint| factorii unici celor cinci discipline considerate. M|rimile sunt cei doi factori comuni care reprezint| coeficienii
corespunz|tori celor doi factori comuni. Efectund analiza factorial| pe datele coninute n tabelul de mai sus, am obinut urm|toarele rezultate: . Cei doi factori comuni, inteligena i capacitatea de memorare, explic| o proporie semnificativ de mare din variana total| a variabilelor indicator, respectiv un procent de 78,30%, din care primul factor deine 53,58%, iar cel de-al doilea 24,72%. Cu toate acestea, rezultatele manifest| o inadverten| logic| legat| de interpretarea celui de-al doilea factor comun. Aceast| inadverten| const| n faptul c|, n cazul variabilelor indicator Istorie i Englez|, coeficienii corespunz|tori factorului Memorie au valori negative. Existena acestor coeficieni cu valori negative ridicate conduce la o interpretare aberant|, interpretare conform c|reia capacitatea de memorare ar influena foarte puternic performanele la Istorie i Englez|, ns| n sens negativ. Deoarece exist| soluia obinut| nu este unic|, poate fi c|utat| alt| soluie, care s| fie compatibil| cu o interpretare natural| i corect| a factorilor. Aceast| soluie poate fi obinut| printr-o procedur| de transformare a coeficienilor factorilor, procedur| cunoscut| sub numele de rotaia structurii factor. n urma aplic|rii acestei proceduri, poate obine o interpretare mai corect| a factorilor i o cretere a semnificaiei acesteia, n condiiile n care contribuia total| a factorilor comuni la formarea variabilit|ii variabilelor indicator r|mne neschimbat|. n cazul exemplului nostru, prin aplicarea procedurii de rotaie a structurii factor au fost obinute rezultate care conduc la urm|toarea form| a modelului factorial: . Se poate observa c| inadvertena legat| de interpretarea celui de-al doilea factor a disp|rut, n condiiile n care proporia explicat| de cei doi factori din variana total| a variabilelor indicator a r|mas tot la nivelul de 78,30%. Ceea ce s-a modificat n urma rotaiei este structura acestei proporii pe cei doi factori, structur| conform c|reia, din procentul de 78,30%, primul factor deine 47,17%, iar cel de-al doilea 31,13%. Rezultatele obinute evideniaz| c| indicatorii reprezentnd notele la Matematic|, Informatic| i Economie exprim| foarte bine nivelul de inteligen| al studenilor, dup| cum indicatorii care reprezint| notele la Istorie i Englez| reflect| foarte bine capacitatea de memorare a studentului. Contribuiile factorilor unici sunt relativ reduse, cu excepia Economiei, unde se nregistreaz| o contribuie ceva mai ridicat| a factorului unic. n graficul din figura urm|toare sunt prezentate leg|turile dintre cele trei categorii de m|rimi i sunt evideniate intensit|ile cu care aceste leg|turi se manifest|.
62
Figura 7.2: Exemplificarea leg|turilor dintre notele la examene, nivelul de inteligen | i capacitatea de memorare
Definiie: Analiza factorial| exploratorie reprezint| acea modalitate de utilizare a analizei factoriale care are ca scop detectarea unei structuri a dependen ei i generarea unor construc ii teoretice, cunoscute sub numele de factori comuni. n varianta sa de analiz | exploratorie, analiza factorial| reprezint| o tehnic | de identificare a structurii dependen ei, de generare a unor construc ii teoretice. Analiza factorial| de tip exploratoriu nu presupune cunoa terea aprioric | a structurii dependen ei cauzale sau cunoa terea aprioric | a factorilor. Definiie: Analiza factorial| confirm atorie reprezint| acea modalitate de utilizare a analizei factoriale, care are ca scop confirmarea unor ipoteze i teorii privind structura unei dependen e cauzale. n analiza factorial| confirmatorie, structura dependen ei cauzale sau construc ia cauzal| teoretic | sunt presupuse a fi cunoscute, adic | date prin ipotez |. Prin intermediul teoriei de acest tip se urm |re te confirmarea unei anumite teorii, verificarea acestei teorii pe cale empiric |.
fiecare factor unic influen nd una i numai una dintre variabilele considerate; o mulime de n factori reziduali, , a c |ror influen | se consider | a fi exercitat| tot n mod individual, fiecare factor rezidual influen nd cte o singur | variabil|. Din punct de vedere statistic, se consider | c | influen ele semnificative, care trebuie re inute n analiz |, sunt cele exercitate de factorii comuni i unici, n timp ce influen ele factorilor reziduali, se consider | a avea caracter accidental, nesemnificativ. La nivelul fiec |rei variabile, influena factorului rezidual corespunz |tor poate fi considerat| a fi neglijabil| i este asimilabil| erorilor de m |surare. Din acest motiv, factorii reziduali se mai numesc i erori. n ceea ce prive te factorii comuni, exist| posibilitatea ca n cazul anumitor variabile influen a lor asupra acestor variabile s | fie neglijabil| sau chiar nul|, ceea ce nseamn | c | factorii respectivi pot fi elimina i din lista factorilor pentru variabila respectiv |. n aceste condiii, este posibil ca schema de influen| pentru anumite variabile s | con in | mai muli factori comuni, iar pentru alte variabile mai pu ini. Num |rul de factori comuni cu influen | semnificativ | asupra variabilei indicator determin | complexitatea variabilei indicator respective. Faptul c | influen ele considerate sunt structurate pe cele trei categorii de factori, determin | o anumit| structur | a modelului factorial general, structur | eviden iat| de rea iile urm |toare:
sunt func ii reale de p+1 variabile, func ii care pot fi liniare sau nelininare n raport cu variabilele. pot fi, n principiu, liniare sau neliniare, aproape n toate cazurile, att n cele legate de teoria
analizei factoriale, ct i n cele legate de utilizarea acesteia n aplica ii, este considerat| varianta liniar |, ceea ce nseamn | c | rela iile care definesc modelul au forma urm |toare:
Coeficien ii factorilor sunt cunoscu i sub numele de intensit|iale factorilor. Prin magnitudinea sa coeficientul m |soar | intensitatea influen ei exercitate de factorul corespunz |tor asupra nivelului variabilei indicator, iar prin semnul s |u m |soar | sensul influen ei exercitate. Definiie: Se nume te intensitate a unui factor comun cu cte unit|i se modific | nivelul variabilei indicator n raport cu o variabil| indicator m |rimea , care arat| , atunci cnd nivelul factorului cre te cu o unitate.
Cea de-a doua ipotez | pe care se fundamenteaz | analiza factorial| este aceea c | n con inutul informa ional al variabilelor aleatoare se reg |sesc informa ii cu privire la factorii comuni i unici, ceea ce nseamn | c | ele pot fi folosite ca indicatori ai acestor factori, ca semnale informa ionale generate de ace ti factori. 64
Avnd n vedere c | la nivelul unei variabile indicator, nu se poate face, sub nici o form |, o distinc ie clar | ntre factorul unic i factorul rezidual, din motive legate de simplificare i de crearea posibilit|ilor de solu ionare efectiv | a problemei de analiz | factorial|, factorul rezidual este neglijat sau, ceea ce nseamn | acela i lucru, este unificat cu factorul unic. n consecin |, modelul factorial cap |t| forma urm |toare:
atunci modelul factorial poate fi scris sub forma urm |toare: . n raport cu aceast| ultim | form | a modelului factorial se define te conceptul de configura ie factorial|, concept care este folosit i ntr-un sens mai larg, cu referire la ntregul set de ecua ii care define te modelul. n continuarea prezent |rii, vom nota matricea de corela ie a variabilelor indicator cu , respectiv:
Deoarece, de regul| variabilele indicator sunt considerate a fi centrate, matricea de corela ie a acestora coincide cu matricea de covarian |. n ceea ce prive te cei n factori comuni, vom nota matricea de covarian | a acestora sub forma urm |toare:
reprezin, adic | .
. Dac | factorii comuni sunt m |rimi standardizate, atunci matricea de corela ie a factorilor comuni coincide cu matricea de covarian | a acestor factori. n aceast| situa ie, elementele diagonale sunt egale cu unitatea, respectiv
65
Variabilitatea ce caracterizeaz | celor dou | spa ii implicate n analiz |, spa iul original i spa iul test, este m |surat| prin intermediul varian ei sau dispersiei. n analiza datelor se consider | c |, pentru oricare dintre variabilele care definesc spa iul cauzal original, varian a este o m |sur | a informa iei con inut| n observa iile efectuate asupra respectivei variabile. ntre gradul de variabilitate specific unei variabile i semnifica ia informa ional-statistic | produs | de observa iile f|cute asupra respectivei variabile exist| un stabil raport de direct| propor ionalitate, considerndu-se c | o variabil| este cu att mai semnificativ | cu ct variabilitatea sa este mai mare.
, poate fi
componenta , numit| comunalitate, care este acea parte a varianei totale ce exprim| informaia comun| tuturor variabilelor care definesc spaiul cauzal n-dimensional i care se formeaz| sub influena factorilor comuni . componenta , numit| unicitate, care este acea parte a varianei totale ce exprim| informaie semnificativ| de natur| specific|, caracteristic| variabilei particulare i care se formeaz| sub influena factorului unic ; componenta , numit| rezidualitate sau eroare, care este acea parte a varianei totale format| sub influena factorului rezidual asociat cu variabila respectiv| i exprim| informaie nesemnificativ| cu caracter specific variabilei . Pe baza celor trei tipuri de influen e men ionate anterior, varian a variabilei indicator sau, utiliznd nota iile corespunz |toare, sub forma: poate fi descompus | sub forma:
unde m |rimile
reprezint|, a a cum o s | ar |t|m n continuare, tot varian e. Aceast | rela ie define te descompunerea
varian ei unei variabile indicator n func ie de varian ele celor trei categorii factori care influen eaz | variabila respectiv |. De i cele trei componente ale descompunerii au natur | de varian e, ele nu trebuie identificate ca reprezentnd varian e ale factorilor, deoarece descompunerea este f|cut | doar n func ie de varian ele factorilor. Cu excep ia celei de-a treia componente a descompunerii, care este chiar varian a factorului rezidual, primelor dou | componente nu li se poate atribui calitatea de varian e ale factorilor. Primele dou | componente sunt determinate de coeficien ii care pondereaz | varian elor factorilor, ceea ce nseamn | c | ele reprezint| contribu ii ale varian elor factorilor la formarea varian ei variabilei indicator. De fapt, n condiiile unor ipoteze privind necorelarea factorilor, forma complet| a rela iei de descompunere a varian ei variabilei indicator poate fi scris | astfel: . Este evident c | p |tratele coeficien ilor care pondereaz | varian ele factorilor reprezint| contribu ii ale factorilor la formarea varian ei variabilei indicator. Forma simplificat| a descompunerii rezult| din impunerea ipotezei c | varian ele factorilor comuni i unic sunt egale cu unitatea i din definirea comunalit|ii ca sum | a contribu iilor factorilor comuni la formarea varian ei indicator, respectiv: . Componenta cea mai important | a varian ei variabila indicator este comunalitatea, care exprim | contribu ia factorilor comuni la formarea varian ei variabilei indicator i care poate fi privit|, la rndul s|u, ca o varian |. Definiie: Com unalitatea este acea parte a varian ei unei variabile indicator, care exprim | variabilitatea indus | de influen a factorilor comuni . Avnd n vedere c | la formarea variabilit |ii unei variabile indicator contribuie, n principiu, to i cei n factori comuni, comunalitatea poate fi descompus |, la rndul s|u, n raport cu cele n influen e. Cea de-a doua component | a varian ei variabilei indicator, numit| unicitate, exprim | contribu ia factorului unic la formarea varian ei variabilei indicator i are, de asemenea, natur | de varian |. Ea se mai nume te i varian | unic |, i se define te astfel: Definiie: Unicitatea este acea parte a varian ei unei variabile indicator, care exprim | variabilitatea indus | de influen a factorului unic i care nu poate fi explicat| prin intermediul factorilor comuni.
66
Ultima component | a varian ei variabilei indicator, respectiv cea datorat| factorului rezidual, reflect| influen a erorilor de m |surare asupra form |rii variabilit|ii variabilei indicator i se mai nume te i varian | rezidual| sau varian | eroare. De cele mai multe ori, aceast| influen | este considerat| a fi neglijabil| n raport cu celelalte influen e. Cu excep ia varian ei reziduale, care exprim | influen a factorilor cu natur | accidental|, a cauzelor aleatorii, imprevizibile i nesemnificative, celelalte dou | componente, comunalitatea i unicitatea, exprim | influen e de natur | sistematic | asupra form |rii variabilit|ii variabilei indicator, influen e cu caracter permanent i stabil. Din acest punct de vedere, varian a variabilei indicator poate fi privit| ca fiind suma a dou | tipuri de varian e: varian a sistematic | i varian a rezidual|. Dac | vom nota varian a sistematic | cu , adic |: , atunci varian a variabilei indicator poate fi scris | sub forma: . Din aceast | reformulare rezult| c | varian a variabilei indicator poate fi descompus | ca sum | a dou | componente numite sistematicitate i rezidualitate, respectiv: . Pe de alt| parte, influen a factorului unic
direc ionalitate specific |, bine determinat|, fiind raportate numai la o anumit| variabil| indicator. Din acest punct de vedere, contribu ia celor doi factori la formarea varian ei variabilei indicator este numit| specificitate, care se define te sub forma: . Pe baza acestei noi redefiniri a componentelor, varian a variabilei indicator poate fi rescris | sub forma urm |toare: , ceea ce nseamn | c |: . Exem plul 7.3 Pentru a evidenia componentele prin intermediul c|rora poate fi descompus| variana variabilelor indicator, vom considera datele din exemplul 7.1 i vom efectua analiza factorial| pe matricea de corelaie urm|toare:
Valorile proprii corespunz|toare matricii de corelaie evideiaz| faptul c| exist| doi factori comuni importani, care explic| un procent de 78,30% din variana total| a variabilelor indicator. n tabelul urm|tor sunt prezentate informaiile referitoare la contribuia varianelor factorilor la formarea varianei totale a variabilelor indicator. Contribuiile iniiale ale varianelor factorilorla formarea varianei totale a variabilelor indicator
Tabelul 7.3
Factor comun
Diferen| 1,085083 5,000000 21,70164 100,00000 Dup| rotaia structurii factor, efectuat| n scopul asigur|rii unei interpretabilit|i mai corecte pentru cei doi factori, varianele factorilor i contribuiile acestora la formarea varianei variabilelor indicator se modific| astfel: Contribuiile modificate ale varianelor factorilor la formarea varianei totale a variabilelor indicator
Tabelul 7.4
Factor comun
Diferen| 1,085083 5,000000 21,70164 100,00000 n ceea ce privete descompunerea varianei variabilelor indicator pe componente, vom considera c| cele dou| componente sunt reprezentate de comunalitate i specificitate, ceea ce nseamn| c| presupunem o comasare a factorului unic cu factorul rezidual. Rezultatele 67
descompunerii varianei sunt prezentate n tabelul urm|tor. Descompunerea varianei variabilelor indicator
Tabelul 7.5
Intensit|i Inteligen| 0,93797 0,90689 0,78539 0,05008 0,19147 Memorie 0,13158 0,06630 0,25461 0,78158 0,92696 Total| 1,00000 1,00000 1,00000 1,00000 1,00000
Tipuri de variane Comunalitate 0,89710 0,82685 0,68167 0,61338 0,89592 Specificitate 0,10290 0,17315 0,31833 0,38662 0,10408
Varian| 2,358245 1,556673 5,00000 3,91492 1,08508 Pentru fiecare variabil| indicator, prima component| a varianei, comunalitatea, reprezint| suma p|tratelor intensit|ilor celor doi factori. De exemplu, pentru prima variabil| indicator, comunalitatea se obine astfel: . Informaiile referitoare la specificitate, adic| datele din ultima coloan|, au fost determinate prin diferen| ntre variana fiec|rei variabile i comunalitatea corespunz|toare celor doi factori. De exemplu, pentru cazul primei variabile indicator, specificitatea se determin| astfel: . Facem precizarea c| aceast| component| a varianei include influena combinat| a factorului unic i a factorului rezidual. De asemenea, se poate verifica faptul c| suma p|tratelor intensit|ilor care apar n coloana fiec|rui factor comun reprezint| variana factorului comun respectiv. n cazul primului factor, vom avea: .
68
variabilele indicator i factorii comuni i faciliteaz | interpretarea esen ei factorilor comuni, prin prisma naturii pe care o au variabilele indicator. Spre deosebire de configura ia factorial| care sintetizeaz | exprimarea variabilelor indicatori sub form | de combina ii liniare de factorii comuni i specifici, structura factorial| eviden iaz | schema leg |turilor existente ntre indicatori i factori. Structura factorial| este considerat| n cadrul analizei factoriale ca fiind una dintre numeroasele solu ii posibile pentru o anumit| problem | concret|. De altfel, structura factorial| mai este cunoscut| n literatura de specialitate i sub numele de solu ie factor sau solu ie factorial|. n numeroase situa ii practice, solu ia factorial| ob inut| iniial nu ntrune te toate condiiile necesare pentru a permite o interpretare facil | a factorilor. De multe ori, se poate ntmpla, ca elementele structurii factor s| sugereze interpret|ri ale factorilor care s | vin | n contradic ie cu posibila esen | ce poate fi atribuit|, n mod logic, factorilor. n aceste situa ii este necesar | g |sirea altor solu ii factor, care s | permit| o mai bun | interpretare i o mai consistent | interpretare a factorilor. n scopul cre terii posibilit|ilor de interpretare i a consisten ei acestor interpret|ri, structura factor poate fi supus | unei proces de rota ie, n urma c |ruia rezult| structura factor rotit|.
i matricea factor F definit| mai sus, atunci matricea Z de dimensiune pT definit| astfel:
, se nume te m atricea scorurilor factor. Scorurile factor determinate n acest fel pot fi folosite n analize ulterioare, n locul valorilor variabilelor originale. Exem plul 7.4 n cadrul unei cercet|ri avnd ca obiectiv determinarea nivelului de dezvoltare economico-social| a 10 zone geografice din ar|, a fost selectat un num|r de 6 indicatori de natur| economico-social|: capitalul industrial, cifra de afaceri a firmelor, profiturile obinute, cheltuielile pentru nv||mnt, cheltuielile pentru cultur| i cheltuielile pentru s|n|tate. Valorile nregistrate, la nivelul unui an, de cele 10 zone geografice la cei ase indicatori sunt cuprinse n tabelul urm|tor. Indicatori economico-sociali ai zonelor geografice Tabelul 7.6 Capital Cifra Cheltuieli Cheltuieli Cheltuieli Zona Profituri industrial afaceri nva|mnt cultur| s|natate
Z1 Z2 Z3 Z4 Z5 Z6 Z7
69
Zona
Capital industrial
Cifra afaceri
Profituri
Cheltuieli nva|mnt
Cheltuieli cultur|
Cheltuieli s|natate
Matricea de corelaie corespunz|toare valorilor celor 6 variabile indicator din tabel, este urm|toarea:
acestor valori proprii, factori care justific| un procent de 73,02% din variana variabilelor indicator. n tabelul urm|tor sunt prezentate informaii cu privire la modul n care variana total| a variabilelor indicator poate fi explicat| prin intermediul a doi factori comuni. Contribuiile iniiale ale varianelor factorilor la formarea varianei totale a variabilelor indicator Tabelul 7.7 Factor comun Valoare proprie 2,72029 1,66104 Varian| explicat| Individual 2,72029 1,66104 Cumulat 2,72029 4,38132 Procent varian| explicat| Individual 45,3381 27,6839 Cumulat 45,3381 73,0220
Diferen| 1,61868 6,00000 26,79797 100,00000 n tabelul urm|tor sunt prezentate informaii