Sunteți pe pagina 1din 13

Analiza Canonic

1. Analiza statistic, generaliti Analiza statistic sau, mai simplu, statistica, opereaz cu informaii cantitative. Analiza statistic este o metod stiinific de analizare a volumurilor mari de date numerice, prin rezumarea caracteristicilor lor eseniale i a relaiilor dintre aceste date, facnd posibil, prin generalizarea acestei analize s se determine tipare comportamentale, efecte specifice i tendine de viitor. Statistica poate fi aplicat n orice domeniu n care se dispune de volume mari de date numerice, nu numai in contabilitate i afaceri, ci si n medicin. inginerie, tiine, administraie public si multe alte domenii. Teoria statistic are la baz matematica probabilistic, care constituie baza, nu numai pentru determinarea caracteristicilor generale ale datelor, ci i pentru determinarea gradului de credibilitate a fiecrei generalizri. Din punctul de vedere al domeniului managementului, principalii pai ai unei analize statistice sunt: a) colectarea datelor provenind din diverse surse deja constituite sau din sondaje efectuate pe eantioane reprezentative de subieci; b) analiza i interpretarea datelor prin mijloacele tehnicilor statistice; c) utilizarea rezultatelor calculate, mpreun cu diverse estimri probabilistice. Ce este statistica? Statistica este tiina care studiaz aspectele cantitative ale determinrilor calitative ale fenomenelor de mas, fenomene care sunt supuse aciunii legilor statistice ce se manifest n condiii concrete, variabile n timp i spaiu.
1

Termeni utilizati: - Populaia statistic, denumit i colectivitate statistic, reprezint totalitatea elementelor de aceeai natur, care au trsturi eseniale comune i care sunt supuse unui studiu statistic. - Eantionul reprezint un subset de elemente selectate dintr-o colectivitate statistic. - Varianta/valoarea reprezint nivelul concret pe care l poate lua o variabil la nivelul unei uniti sau grup de uniti statistice. - Frecvena de apariie a unei variante/valori reprezint numrul de apariii al acestei variante/valori n colectivitate. - Datele multivariate sunt cele care se refer la trei sau mai multe variabile statistice, obinnd deci cte trei sau mai multe informaii pentru fiecare unitate statistic din colectivitatea studiat. Dei sunt multivariate, datele pot fi analizate separat (pentru fiecare variabil), sau n interdependen unele cu altele. Exist dou tipuri de baz de variabile aleatoare (caracteristici) care pot fi studiate ca oferind niveluri observate sau date statistice: caracteristici nenumerice (calitative), care ofer rspunsuri categoriale i caracteristici numerice (cantitative), care ofer rspunsuri sub form de valori numerice. Datele discrete sunt rspunsuri numerice care apar n urma unui proces de numrare, n timp ce datele continue sunt rspunsuri numerice care apar n urma unui proces de msurare. - Media: de departe, cea mai important msur pentru medie este media aritmetic, notat in general cu
x

si care se calculeaz cu formula:

x = ; n

- Dispersia: reprezinta imprtierea i variaia valorilor unui set de date numerice. Cea mai important masur a dispersiei este deviaia standard, care se noteaz cu s=

( x x) N 1

Exemplu de calcul: Se d seria: 5, 8, 15, 29, 47, 47, 64, 71, 74. S se calculeze media aritmetic si deviaia standard. Rezolvare: a) media aritmetic: b) deviaia standard: - pentru primul termen, adica 5, ( x x) = (val media_art) = (5-40) = -35 , iar ridicat la ptrat = 1225 (idem cu ceilali termeni). s=
x

= (5+8+15+29+47+47+64+71+74) / 9 = 40

( x x) N 1

adic s = =

(1225 +1024 + +625 +121 + 49 + 49 + 576 + 961 +1156) 9 1


723,25

= 26,893

2. Analiza canonic Analiza canonic este considerat, pe plan teoretic, una din metodele descriptive multidimensionale centrale deoarece generalizeaz diverse alte metode i de asemenea poate fi privit ca un caz particular de analiz n componente principale a dou pachete de variabile ntr-un spaiu nzestrat cu o metric special. Mult vreme analiza canonic, nefiind uor aplicabil, a avut puine aplicaii practice, dar lucrurile s-au schimbat mai ales datorit dezvoltrii, la mijlocul anilor 1990, a regresiei PLS ("partial least squares", a celor mai mici patrate) metod destul de apropiat cu analiza canonic i ulterior, prin apariia datelor de expresie genomic (biochip-uri) combinate cu variabile biologice pentru situaii tipice de analiz canonic. Analiza canonic prezint anumite analogii att cu analiza n componente principale, privind construirea i interpretarea graficelor, ct i cu regresia liniar, privind natura datelor. Analiza canonic este apropiat de regresia liniar multipl (explicarea unei variabile cantitative prin o mulime de alte variabile cantitative) metod
3

pentru care analiza canonic constituie de altfel o generalizare (dac unul din grupuri se reduce la o singur variabil se regsete regresia). Termenul de regresie si are originea n studiile statisticianului englez Francis Galton (1822-1911), n domeniul ereditii. Acesta a observat c nlimea fiilor proveniti din tai foarte nali se apropie mai mult de de nlimea medie dect de nlimea tailor. Astfel, Galton a constatat c avea loc o regresie sau o revenire la nlimea medie. Clarificarea acestei afirmaii mi s-a parut foarte important, in eliminarea oricror dubii, mai ales din poziia mea de nceptoare n acest domeniu de studiu. n sintez, Analiza Canonica se caracterizeaz, ndeosebi, prin urmtoarele elemente: Analiza canonic este o metod de descompunere a asocierilor ntre dou mulimi de variabile, un "predictor" (variabila independent), cunoscut, i un "dependent, variabil: Observa Variabila Variabila Variabila Variabila tia independenta independent dependenta dependenta 1 a 1 2 2

1 2 N

X11 X12 X1n

X21 X22 X2n

Y11 Y12 Y1n

Y21 Y22 Y2n

n cazul regresiei multiple ne intereseaz s estimm efectul uneia sau mai multor variabile independente asupra unei variabile dependent n analiza canonic, interesul este de a determina numrul i natura relaiilor independente dintre dou mulimi de variabile, una de variabile independente i

una de variabile independente; Acest lucru este realizat, prin utilizarea de perechi de combinaii liniare de variabile care sunt necorelate (factori canonici) Factorii canonici sunt vectorii proprii ai matricei de corelaie corespunztoare, i reprezint segmente de linie ortogonale ce explic variabilitatea din interior, fie al lui X, fie al lui Y Corelaia reprezint o metod utilizat pentru exprimarea gradului de asociere sau a intensitii unei relaii existente ntre dou valori sau mai multe variabile (Goodall 1987). n afar de faptul c prin corelaie se stabilete co-variaia, coeficienii de corelaie pot furniza trei tipuri de informaie asupra relaiei descoperite: 1. intensitatea relaiei, indicat de valoarea coeficentului de corelaie; cu ct acesta este mai mare cu att relaia este mai puternic; 2. direcia relaiei (mai ales pentru datele ordinale i intervale), pozitiv sau negativ; 3. linearitatea, tendina de distribuia a datelor variabile, liar sau non-linear; Mai concret: n statistic corelaia are o semnificaie specific: presupune automat faptul c, spre exemplu, n timp ce o variabil crete sau descrete ca valoare, a doua variabil crete sau descrete i ea. Dau mai jos un exemplu de 2 variabile aflate in corelaie perfect pozitiv (de proportionalitate):

16 14 Variabila B 12 10 8 6 4 2 0 0 5 10 Variabila A 15 20

n continuare, voi prezenta un studiu de caz: Romnia, perioada 2001 - 2010 Variabila 1: Fonduri alocate pentru sntate (milioane Euro) Variabila 2: Numr de cazuri spitalizate An 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 Fonduri alocate (mil Euro) 1,243 859 1,159 1,323 1,564 1,563 1,565 1,872 1,585 1,645 Numr cazuri spitalizate 5,359,000 6,401,000 5,786,000 5,898,000 5,445,000 5,205,000 5,149,000 4,831,000 5,224,000 5,264,000

Vom ncerca s stabilim dac exist vreo relaie/corelaie ntre Fondurile alocate pentru sntate i Numrul de cazuri spitalizate in perioada 2001-2010, adic s stabilim dac cele dou variabile co-variaz.
6

Pasul 1 Se ntocmete reprezentarea grafic de distribuie a valorilor celor 2 variabile pentru analiz vizual. Dac distribuia nu pare s ia o form corelativ nseamn c nu exist o corelaie i calculul nu se mai justific. Pentru studiul nostru de caz distribuia valorilor se prezint ca n figura de mai jos:

7000 Numar de cazuri spitalizate 6000 5000 4000 3000 2000 1000 0 0 500 1000 1500 2000 Fonduri alocate (milioane Euro)

Aparent ele par s co-varieze, avnd o tendin descendent, direcie negativ, adic pare sa existe o relatie intre cele doua variabile. Pasul 2 Observnd datele i distribuia acestora situaia este aparent i neclar. n acest caz, vom formula o IPOTEZ iniial (Hi), bazat pe observaia efectuat: Exist o relaie ntre Fondurile alocate i Numrul de cazuri spitalizate n Romnia n perioada 2001 2010, ct i o IPOTEZA nul (HO): Nu exist nicio o relaie ntre Fondurile alocate i Numrul de cazuri spitalizate n Romnia n perioada 2001 2010. Dac, n urma calculelor vom obine un coeficient de corelaie mai mare dect cel acceptat n statistic (tabele consacrate) pentru un grad de confiden de minim 95%, atunci ipoteza iniial se va considera adevrat.
7

Pasul 3 Se construiete un tabel cu 6 coloane n care se nscriu mai nti datele existente, utilizndu-se primele 2 coloane (1 i 2)

Variabila 1 (Fonduri) 1243 859 1159 1323 1564 1563 1565 1872 1585 1645 Pasul 4

Variabila 2 (spitalizari) 5,359,000 6,401,000 5,786,000 5,898,000 5,445,000 5,205,000 5,149,000 4,831,000 5,224,000 5,264,000

Se acord rang de mrime valorilor variabilei 1 (ex: cea mai mare valoare = 1, urmtoarea = 2, etc). Notm rangul fiecrei valori n coloana 3. Pasul 5 n mod similar acordm rang de mrime valorilor variabilei 2. fiecrei valori n coloana 4. Completnd datele, Tabelul devine: Variabila 1 (Fonduri) 1243 859 1159 1323 1564 1563 Variabila 2 (spitalizari) 5,359,000 6,401,000 5,786,000 5,898,000 5,445,000 5,205,000 Rang Variabila 1 8 10 9 7 5 6
8

Notm rangul

Rang Variabila 2 5 1 3 2 4 8

1565 1872 1585 1645 Pasul 6

5,149,000 4,831,000 5,224,000 5,264,000

4 1 3 2

9 10 7 6

Se calculeaz diferena dintre ranguri (rang 1 rang 2). Adic din coloana 3 scdem coloana 4. Diferena de rang se noteaz cu d i o nscriem n coloana 5. Variabila 1 (Fonduri alocate) 1243 859 1159 1323 1564 1563 1565 1872 1585 1645 Pasul 7 Se ridic la ptrat d (diferena de rang). Aceasta se noteaz cu d2 i o nscriem n coloana 6. Variabila 2 (numr spitalizari) 5,359,000 6,401,000 5,786,000 5,898,000 5,445,000 5,205,000 5,149,000 4,831,000 5,224,000 5,264,000 Rang Variabila 1 8 10 9 7 5 6 4 1 3 2 Rang Variabila 2 5 1 3 2 4 8 9 10 7 6 d

3 9 6 5 1 -2 -5 -9 -6 -4

Variabila 1 (Fonduri alocate) 1243 859 1159

Variabila 2 (numr spitalizari) 5,359,000 6,401,000 5,786,000

Rang Variabila 1 8 10 9
9

Rang Variabila 2 5 1 3

d 3 9 6

d2 9 81 36

1323 1564 1563 1565 1872 1585 1645 Pasul 8:

5,898,000 5,445,000 5,205,000 5,149,000 4,831,000 5,224,000 5,264,000

7 5 6 4 1 3 2

2 4 8 9 10 7 6

5 1 -2 -5 -9 -4 -4

25 1 4 25 81 16 16

Se calculeaz d2 adic suma tuturor valorilor d2. d2 = 294 Pasul 9: La datele din Tabel, aplicm formula de calcul a coeficientului de corelaie:
rs = 1 6 n3 n

(d )
2

unde: rs = este coeficientul de corelaie n = numrul de perechi ale variabilelor 1 i 2 (sau A i B)


6 294 1000 10 1764 =1 990 = 1 1,78 = 0,78 =1

rs = - 0.78 (aceasta este Coeficientul de corelaie) Pasul 10: Se analizeaz semnificaia coeficientului de corelaie. Analiza semnificaiei presupune n primul rnd testarea semnificaiei. Testarea semnificaiei presupune sigurana, corectidunea, ncrederea n rezultatul obinut. Aceasta se exprim prin gradul de confiden al coeficientului de corelaie. De regul, statisticienii au nevoie de 95% grad de confiden nainte s accepte un coeficient. n statistic gradul de confiden este notat cu p. El este pre calculat i se
10

gsete n tabele consacrate. Un grad de confiden de 95% se noteaz n aceste tabele sub forma de p = 0.05. Gradul de confiden este menionat ntotdeauna n interpretare i analiz i nscris obligatoriu n forma p = 0.05 Pentru o siguran i o rigoare tiinific mai mare se poate merge la 99% grad de confiden asupra rezultatului. Acesta se noteaz cu p = 0.01 Cu ct valoarea lui p este mai mic cu att gradul de confiden este mai mare ceea ce implic o siguran o mai mare siguran i rigoare de calcul. Gradul de confiden cu care se lucreaz se stabilete nc din stadiile incipiente de calcul n funcie de natura variabilelor i numrul de perechi de date disponibile. n general pentru studiul proceselor, fenomene sociale cu caracter amplu, general cnd sunt disponibile puine perechi de date i ne raportm la perioade de timp mari, se lucreaz cu p = 0,05. Cnd se studiaz procese, fenomene de detaliu cu numr mare de perechi de date, pe perioade mici de timp se lucreaz cu p = 0,01. Tabelul de mai jos reprezint o variant simplificat a unui tabel cu grade de confiden, folosit in statistic. N (numr de perechi de variabile) 5 6 7 8 9 10 12 14 16 95% (p = 0.05) 1.000 0.886 0.786 0.738 0.683 0.648 0.591 0.544 0.506 99% (p= 0.01) 1.000 0.929 0.881 0.833 0.794 0.777 0.715 0.665

Pentru stabilirea semnificaiei din studiul nostru de caz se utilizeaz coloana 1 n care se afl N = numrul de perechi de variabile. n studiul nostru de caz am utilizat

11

10 perechi de variabile, adic vom folosi rndul haurat. Astfel urmrim pentru N = 10, valorile de semnificaie, fie pentru p = 0.05 fie p = 0.01 . Se raporteaz valoare lui r la valorile p = 0.05 pentru N =10. Dac coeficientul de corelaie r este egal sau mai mare dect valoarea lui p (se ignor semnul lui r). Coeficientul de corelare r, este 0.78, obinut de noi, este mai mare dect valoarea lui p = 0,05 (n coloana cu 95% confident) aceasta fiind de 0.648. Ca urmare respinge ipoteza nul (Nu exist nicio relaie ntre Fondurile alocate i Numarul de cazuri spitalizate n Romnia n perioada 2001 2010,) i se accept ipoteza iniial, (Exist o relaie ntre Fondurile alocate si Numrul de cazuri spitalizate n Romnia n perioada 2001 2010), Dac am fi ales ca grad de confiden p = 0,01 situaia ar fi fost exact invers, coeficientul de corelare r = 0.78, obinut de noi, fiind mai mic dect valoarea lui p = 0,01 (n coloana cu 99% confiden) aceasta fiind de 0.794. n concluzie se poate spune c cele dou variabile sunt corelate cu un grad de confiden de 95% Pasul 11 Pn aici am stabilit statistic faptul c Exist o relaie ntre Fondurile alocate si Numrul de cazuri spitalizate, ns cel mai important lucru din punct de vedere al impactului social este interpretarea i analiza rezultatelor. CONCLUZIE: - Exist o relaie ntre Fondurile alocate sntii i Numrul de cazuri spitalizate, n sensul c, cu ct fondurile alocate sunt mai mari, cu att scade numrul cazurilor rezolvate prin spitalizare n unitile sanitare prevzute cu paturi.

12

- Factorii de decizie din ministerul sntii pot constata c pe masur ce se cheltuiesc mai muli bani pentru Medicina Profilatic, pentru asigurarea prompt cu medicamente de calitate, pentru depistarea i tratarea precoce a bolilor, cu att mai mult scade Numrul cazurilor rezolvate prin internare. Implicit vor scdea i cheltuielile indirecte suplimentare (cazare n spital, hran pe perioada spitalizrii, servicii de curenie/ntreinere), i astfel banii s-ar putea aloca ntr-o mai mare msur actului medical. Statistica folosete multe tehnici care au o natur repetitiv: formule pentru a calcula statistici descriptive, proceduri de urmat pentru a formula predicii. Calculatorul este foarte bun pentru a face asemenea operaii repetitive. Dac pe calculator este instalat un soft standard statistic este mult mai uoar analiza unor date statistice. Cele mai cunoscute softuri statistice sunt: HIS, HL7, DICOM, Matlab, Minitab, Biomed (program biomedical), SAS (Sistem de analiz statistic), IBM Scientific Subroutine Packages si SPSS (pachet statistic pentru stiine sociale). Doresc s menionez c o parte din indicatorii statistici se pot calcula i n Excel (Tools/Data Analysis/Descriptive Statistics, cu Summary Statistics bifat).

13