Sunteți pe pagina 1din 85

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/275657551

Curs de statistica aplicata pentru inginerii silvici

Research · May 2015


DOI: 10.13140/RG.2.1.3954.3201

CITATIONS READS

0 1,425

1 author:

Roxana Tesileanu

35 PUBLICATIONS   27 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Experimenting with Scala and R for multivariate analyses View project

Activity Proposal: Soil-conservation Strategies for Natura 2000 Sites View project

All content following this page was uploaded by Roxana Tesileanu on 01 May 2015.

The user has requested enhancement of the downloaded file.


CURS DE STATISTICA APLICATA PENTRU INGINERII SILVICI

modificat si adaptat dupa Quinn si Keough (2002)

Roxana Tesileanu
ICAS Brasov – 2014
2
Curs de statistica aplicata pentru inginerii silvici
Cuprins
Capitolul 1: Variabile si distributii........................................................................................................5
1.1 Distributiile de probabilitati ale variabilelor..............................................................................5
1.1.1 Distributii de probabilitati pentru variabile continue ........................................................5
1.1.2 Distributii de probabilitati pentru variabile discrete..........................................................7
1.2 Distributiile de probabilitati ale statisticilor de testare............................................................10
Capitolul 2: Estimarea parametrilor....................................................................................................11
2.1 Esantioane si populatii statistice..............................................................................................11
2.2 Parametrii uzuali ai unei populatii si statisticile lor esantionale (estimatorii de punct)..........12
2.3 Eroarea standard si intervale de confidenta pentru medie.......................................................13
2.4 Metode de estimarea parametrilor...........................................................................................17
2.5 Metode de reesantionare folosite pentru estimare...................................................................19
2.6 Inferenta Bayesiana ............................................................................................................20
Capitolul 3: Testarea ipotezelor..........................................................................................................23
3.1 Testarea ipotezelor statisticii clasice........................................................................................23
3.2 Valoarea P (probabilitatea asociata) si eroarea de Tip I (α).....................................................24
3.3 Testarea ipotezelor pentru una sau doua populatii...................................................................26
3.4 Erorile de decizie ...................................................................................................................29
3.5 Semnificatia de mediu vs. semnificatia statistica ...............................................................32
3.6 Alte metode de testarea ipotezelor (in afara celor parametrice)..............................................33
3.6.1 Testele parametrice robuste..............................................................................................33
3.6.2 Testele randomizante........................................................................................................34
3.6.3 Testele neparametrice bazate pe ranguri (engl. rank-based tests)....................................35
3.6.4 Clasa de teste cu transformari in ranguri (engl. rank transformation tests).....................36
3.6.5 Testele neparametrice: remarci ...................................................................................36
3.7 Testarea multipla......................................................................................................................37
3.8 Combinarea rezultatelor testelor statistice...............................................................................38
3.9 Critica adusa procesului de testare al ipotezelor statistice.......................................................39
3.10 Testarea Bayesiana a ipotezelor ............................................................................................42
Capitolul 4: Explorarea grafica a datelor............................................................................................44
4.1 Tehnici grafice de explorare a datelor .....................................................................................44
4.2 Analiza grafica a prezumtiilor..................................................................................................48
4.3 Transformarile datelor.............................................................................................................51
4.4 Valorile extreme .....................................................................................................................54
Capitolul 5: Corelatia si regresia........................................................................................................55
5.1 Analiza corelatiei.....................................................................................................................55
5.2 Corelatia robusta......................................................................................................................58
5.3 Modelele lineare......................................................................................................................59
5.4 Regresia lineara simpla (bivariata) .................................................................................61
5.4.1 Modelul de regresie lineara simpla..................................................................................61
5.4.2 Estimarea parametrilor modelului....................................................................................63
5.4.3 Valorile prognozate si reziduurile....................................................................................65
5.4.4 Analiza variatiei...............................................................................................................66
5.4.5 Ipotezele nule ale regresiei...............................................................................................67
5.4.6 Prezumtiile analizei de regresie.......................................................................................68
5.4.7 Metode de diagnosticare a regresiei.................................................................................70
5.4.8 Grafice de diagnoza .........................................................................................................72

3
5.4.9 Transformari.....................................................................................................................74
5.4.10 Regresia prin origine .....................................................................................................75
5.4.11 Metoda celor mai mici patrate ponderate.......................................................................76
5.4.12 Modelul II al regresiei (X aleator).................................................................................76
5.4.13 Regresia robusta .........................................................................................................79
5.4.14 Netezirea (engl. smoothing) .........................................................................................80
5.5 Remarci generale pentru analiza de corelatie si regresie....................................................82
Bibliografie...............................................................................................................................84

4
Capitolul 1: Variabile si distributii

Datele folosite in orice tip de analiza statistica sunt reprezentate de observatiile esantionate/
prelevate in cadrul unitatilor experimentale (de ex. parcele tratate diferit, sau diferite zone folosite
pentru prelevarea datelor). Observatiile sunt grupate in esantioane care provin dintr-o populatie
statistica clar definita anterior. Dupa cum mentioneaza Quinn si Keough (2002), rolul observatiilor
este de a masura o caracteristica a obiectelor/indivizilor acestei populatii statistice (de ex. diametrul
sau inaltimea arborilor, numarul de arbori atacati de o ciuperca, etc.). Aceste caracteristici se
numesc variabile. O variabila, pe care o denotam cu Y si care ia valorile y, poate fi
aleatoare/randomizata (necunoscuta la inceputul experimentului, inainte de prelevare) sau fixa
(cunoscuta si fixata de catre investigator). Setul de valori posibil sa fie inregistrate in cadrul unui
experiment deci ale unei variabile randomizate reprezinta spatiul esantional. Variabilele
randomizate pot fi de doua feluri:
(i) variabile randomizate discrete - pot lua numai anumite valori, de obicei sunt numere intregi
cum ar fi un anumit nr. de oua depuse, sau animale prezente intr-un anume areal, sau
(ii) variabile randomizate continue - care pot lua orice valoare, de ex. lungimea unei aripi, sau
greutatea unui animal.
Conform celor doi autori australieni Quinn si Keough (2002), Kleinbaum et al. (1997) au facut
diferenta intre cele doua tipuri de variabile randomizate cu referire la „golurile“ dintre valorile
posibile. Variabilele discrete au goluri intre doua valori alaturate, iar valorile continue nu au goluri
intre valorile alaturate.

Diferentierea intre discret si continuu influenteaza tipul de distributie caracteristic pentru


probabilitatile variabilei date, fapt important in estimarea probabilitatilor legate de valorile acelei
variabile.

1.1 Distributiile de probabilitati ale variabilelor

1.1.1 Distributii de probabilitati pentru variabile continue

Majoritatea analizelor statistice sunt bazate pe distributiile de probabilitati ale variabilelor analizate.
Exista multe tipuri de distributii definite matematic si unele dintre ele se preteaza foarte bine la
descrierea distributiilor variabilelor biologice. De exemplu, una din distributiile cele mai des
folosite in biologie este distributia normala sau Gaussiana. Multe procese si variabile biologice pot
fi descrise cu ajutorul ei (Pelz 2005), cum ar fi de ex. pentru a descrie dinamica populatiei
daunatorilor in timpul gradatiei. Distributia normala poate descrie numai o variabila continua, iar
forma ei simetrica de clopot (fig. 1.1) poate fi definita matematic cu ajutorul a doi parametrii, media
(μ) si varianta (σ2), independenti unul de altul:

unde f(y) este functia de densitate a probabilitatii oricarei valorii y a variabilei Y.


Distributia normala poate fi abreviata cu ajutorul celor doi parametrii dupa forma generala
N(Y:μ,σ2). Pentru ca exista un numar infinit de combinatii de medie cu varianta, avem un numar
infinit de distributii normale (Quinn & Keough, 2002). Cele mai uzuale proceduri statistice, cum ar
fi regresia lineara sau analiza variantei au la baza distributia normala.

5
Pentru variabilele continue care se stie ca au distributii experimentale cu asimetrie pozitiva (adica
alungite spre dreapta), se poate folosi distributia matematica lognormala. Aceste valori daca sunt
transformate logaritmic, devin distribuite normal, ceea ce ingaduie aplicarea procedurilor bazate pe
distributia normala. In biologie, majoritatea variabilelor masurate au asimetrie pozitiva, din simplul
fapt ca ele nu pot lua valori de zero (Quinn si Keough 2002), de ex. greutatea unei insecte,
diametrul unui arbore, etc.. In cazul distributiei lognormale, exista o relatie pozitiva intre medie si
varianta.

O alta distributie teoretica aplicata pentru unele variabile este cea exponentiala (cum sunt cresterea
sau scaderea exponentiala in timp a unei variabile). Aceasta distributie e bazata deci pe un singur
parametru (λ) care caracterizeaza rata si are urmatoarea functie de densitate a probabilitatilor:

Distributia gamma face parte din familia distributiilor exponentiale (ca si cea normala si
exponentiala). Este definita ca ajutorul a doi parametrii ce caracterizeaza forma (α) si rata (β-1).
Distributia exponentiala este un caz special al distributiei gamma (α=1), ca si distributia chi-patrat
(α=ν/2 – unde ν este nr. de df, β=2). Functia de densitate a distributiei gamma este:

unde, Г(α) reprezinta functia gamma dupa care este denumita distributia. Pentru α<1 avem functii
descrescator monotone iar pentru α>1 avem curbe asimetrice pozitiv (Crawley, 2007). De aceea,
distributiile gamma sunt folosite mai ales pentru a descrie date de masurare continue care nu sunt
distribuite normal.

6
Distributia gama pentru diferite
combinatii de parametrii:

O alta categorie de distributii folosite pentru variabilele continue este cea beta. Ea este definita cu
ajutorul a doi parametrii de forma (a si b, cu x intre 0 si 1) si poate lua forme de la U la J pana la
forme simetrice ca in graficul de mai jos.

Distributia beta (Crawley 2007):

O alta distributie folosita in ecologie este distributia Weibull cu doi parametrii (de forma si de
scala), a carei forme variaza intre asimetric pozitiv si simetric, in functie de parametrii. Ea sta la
baza analizei celei mai slabe verigi (engl. weakest link analysis). De ex. cei mai slabi indivizi dintr-
o populatie sunt distribuiti conform distributiei Weibull daca avem un nr. mare de verigi/indivizi.
Este folosita in studii demografice si analiza supravietuirii (engl. survival analysis) pentru ca
permite ca rata mortalitatii sa creasca sau sa scada cu varsta (Crawley, 2007).

1.1.2 Distributii de probabilitati pentru variabile discrete

Si pentru variabilele discrete exista distributii care pot fi folosite pentru descrierea frecventelor
variabilelor explorate experimental. Cel mai minimalist exemplu pentru un experiment cu variabile

7
discrete este tipul de experiment cu doar doua rezultate posibile: succes sau esec, bila alba sau bila
neagra, arbore vatamat sau arbore nevatamat, etc., in care numarul de incercari n este limitat de
catre investigator. Acest gen de experiment este numit experiment de tip Bernoulli. Distributia de
probabilitati a numarului de succese inregistrate intr-un sir de n experimente identice dar
independente de tip Bernoulli este numita distributia binomiala (cu o variabila de raspuns binara,
adica care poate lua doar doua valori):

unde, P(y=r) este probabilitatea unei anume valori (y) a variabilei randomizate (Y) de a inregistra r
succese in n experimente. Distributia binomiala poate fi folosita pentru a calcula probabilitatea lui r
(a numarului de succese) inregistrate in n experimente, stiind probabilitatea de succes a unui
experiment (Quinn si Keough, 2002). Sa luam exemplul oferit de Crawley (2007) care explica
distributia binomiala a functiei de densitate cu ajutorul pestilor parazitati gasiti intr-un esantion.
Daca vrem sa aflam probabilitatea ca avem un numar x de pesti parazitati intr-un esantion de n=4
pesti, stiind o anume probabilitate de succes, de ex. 0.1, atunci obtinem graficul din stanga:

In graficul stang de mai sus vedem ca cel mai posibil numar de pesti parazitati gasiti intr-un
esantion cu n=4 pesti, cu probabilitatea de a gasi un peste parazitat de p=0.1 este 0 (cu o p=0.6),
adica analizam f(x).

Pe de alta parte, daca analizam distributia binomiala pentru functia cumulativa p(x), vedem ca
probabilitatea de a avea 1 sau mai putin de un peste parazitat intr-un esantion este de 0.9 iar
probabilitatea de a avea 2 sau mai putin de 2 pesti parazitati se apropie de 1.0 (graficul drept).
Putem sa luam si un exemplu din hidrologie cu o inundatie mare o data la 20 de ani, deci cu o
probabilitate anuala de 1/20, adica de p=0.05. Dar daca vrem sa aflam de exemplu probabilitatea cu
care un an din trei va fi lovit de o inundatie pe fundalul probabilitatii ca o data la 20 de ani se
intampla o inundatie, atunci probabilitatea de densitate este p=0.135 (se aplica formula functiei
binomiale de densitate) si deci, ca nu se va intampla de p=0.865 (adica 1-0.135). Insa, daca privim
suma cumulativa a probabilitatilor, atunci pentru 1 an inundat si mai putin de 1 an inundat din 3 ani
obtinem o p=0.99. Deci nu putem sa excludem posibilitatea unei mari inundatii intr-o perioada de 3
ani consecutivi, pe fundalul unei mari inundatii o data la 20 de ani (Rosin, 2010).

O alta distributie de probabilitati foarte importanta pentru variabilele discrete este distributia

8
Poisson, care descrie un numar de aparitii independente ale unor rezultate intr-o perioada de timp
sau intr-un spatiu delimitat, de ex. numarul de organizme dintr-o parcela, numarul de seminte
ciugulite de o pasare pe minut, numarul de gandaci pe o anume suprafata de scoarta, etc., adica
pentru date numarate (enlg. count data). Distributia Poisson este descrisa de functia:

unde, P(y=r) este probabilitatea cu care un numar de evenimente/rezultate inregistrate este egal cu
un numar intreg (r=0,1,2,3....), μ este media (si varianta) numarului de rezultate inregistrate (Quinn
& Keough 2002). O variabila Poisson poate fi orice numar integru intre zero si infinit pentru ca
numarul de incercari/experimente dintr-o serie de experimente binomiale identice nu este fix (in
contrast cu distributia binomiala). Una dintre caracteristicile distributiei Poisson este ca media
egaleaza varianta. Pentru valori mici ale mediei (deci a variantei), distributia Poisson este asimetrica
pozitiv iar dar daca media este in jurul sau mai mare decat cinci, atunci ea devine simetrica (vezi
fig. 1.1 – rata mica si rata mare de evenimente inregistrate). Pentru a face inteleasa mai bine
diferenta intre distributia binomiala si cea Poisson, Quinn si Keough (2002) ne dau urmatorul
exemplu: daca stim media nr. de seminte al unei specii ce a fost numarat pentru o parcela, putem
folosi distributia Poisson pentru a modela probabilitatea diferitelor numere de seminte numarate pro
parcela, presupunand o esantionare independenta. Distributia binomiala cere o variabila binara, care
aici ar putea fi parcela cu seminte vs. parcela fara seminte, cu care sa modelam numarul de parcele
cu seminte (dintr-un nr. fix de parcele), stiind probabilitatea unei parcele de a avea seminte.

Distributia Poisson este o distributie de baza in urmatoarele pentru urmatoarele trei teme ale
statisticii (Crawley, 2007):
• in descrierea aleatoare a aranjamentelor de date in spatiu, de ex. pentru a descrie daca
organizmele in natura sunt distribuite la intamplare (Quinn & Keough, 2002),
• ca distributie de frecventa ale datelor numarate (engl. counts) ce privesc evenimente rare dar
independente, de ex. probabilitatea de a fi lovit de traznet, sau de o bomba pe timp de pace,
• ca distributie a erorilor modelelor lineare generalizate (GLMs) pentru date numarate.

O alta distributie de probabilitati folositoare pentru datele numarate este distributia binomiala
negativa. Ea este definita de doi parametrii (media si parametrul de conglomerare – adica un fel de
varianta). Ea este des folosita in cazurile in care varianta este mult mai mare ca media, adica este
foarte asimetrica pozitiv (Crawley, 2007). Stiind ca parametrul de conglomerare (engl. clumping
parameter) denotat cu k este:

functia de probabilitate a densitatilor distributiei binomiale negative este:

<= Exemplu de distributie binomial negativa (probabilitatea


densitatilor p(x)). In contrast cu functia de densitate f(x) a
probabilitatii valorilor, care are forma de curba asimetrica.

9
Distributia binomiala negativa prezinta doua avantaje fata de distributia binomiala in reprezentarea
datelor asimetrice numarate (Quinn & Keough, 2002):
• media nu trebuie sa fie egala cu varianta
• nu este necesara independenta experimentelor dintr-o serie de experimente.

1.2 Distributiile de probabilitati ale statisticilor de testare

Statisticile de testare sunt folosite in testarea ipotezelor. Aceste distributii ne indica probabilitatea
unei valori a unei statistici de testare, probabilitate care ne asteptam sa fie inregistrata daca ipoteza
nula este adevarata. Daca valoarea statisticii este mai mare sau mai mica decat valorile
prinse/considerate in distributia de testare pentru H0 adevarata, atunci ipoteza nula este falsa. Deci,
distributiile de testare definesc cand este considerat un rezultat statistic (adica o valoare a statisticii
de testare) ca dovada adusa in favoarea ipotezei nule (Crawley, 2007). Principiul testatii ipotezelor
va fi pe larg explicat in capitolul 3 („Testarea ipotezelor“).

Patru dintre distributiile de testare sunt deosebit de uzuale (Quinn & Keough, 2002; Crawley, 2007):
– distributia z sau distributia normala standardizata folosita pentru compararea unei statistici
esantionale cu parametrul corespunzator al populatiei din care provine esantionul,
– distributia chi-patrat (X2), pentru ipoteze formulate pentru date masurate (engl. counts),
– distributia t a lui Student, pentru compararea a doua medii in esantioane mici,
– distributia F a lui Fisher, in analiza variantelor (ANOVA) pentru compararea a doua variante
independente una de alta (adica care provin din populatii independente).

Distributiile de testare sunt tabelate in cartile de specialitate si programate in software-urile


statistice, deci citirea probailitatilor valorilor obtinute pentru statisticile de testare (F,t,z,X 2) nu este
o problema. Probabilitatile reprezentate in distributiile de testare sunt probabilitati ale statisticilor de
testare la care ne-am astepta in exercitii de esantionare randomizata repetate pentru aceeasi
populatie sau populatii.

10
Capitolul 2: Estimarea parametrilor

2.1 Esantioane si populatii statistice

Populatie: colectia tuturor observatiilor posibile de interes.


Esantion: colectia de observatii prelevate din cadrul unei populatii.
Dimensiunea esantionului: numarul de observatii dintr-un esantion (denotat n).
Statistici esantionale: caracteristici masurate ale unui esantion (de ex. media esantionului) –
variabile aleatoare (engl. random variables).
Parametrii: caracteristici masurate ale unei populatii (de ex. media populatiei) – variabile fixe.

Tipuri de esantionare: o metoda de baza a selectarii observatiilor pentru un esantion este


esantionarea aleatorie simpla (engl. simple random sampling). Prin aceasta metoda toate
observatiile au aceeasi probabilitate de a fi selectate. Daca vrem sa luam in considerare si
heterogenitatea populatiei putem sa folosim esantionarea stratificata – engl. stratified sampling
(vezi cap. 7 pentru descrieri).

Populatiile statistice trebuiesc definite la inceputul unui studiu, atunci cand se stabileste si cadrul
temporal si spatial al populatiei precum si inferenta noastra statistica. Cateodata o populatie
statistica coincide cu o populatie biologica, dar nu este intotdeauna cazul. Deci o populatie statistica
nu este acelasi lucru cu o populatie biologica.

Prelevarea aleatorie este importanta in biologie si alte stiinte ale naturii. Motivul pentru care se
foloseste esantionarea/prelevarea aleatorie dintr-o populatie clar definita este ca se pot folosi
statisticile esantionale (de ex. media esantionala sau varianta esantionala) pentru a estima
parametrii populatiei din care face parte (de ex. media si varianta populatiei).

Parametrii populatiei sunt considerati ca fiind ficsi (chiar daca sunt necunoscuti), deci nu sunt
variabile aleatoare, si nu au distributii de probabilitate! (In contrast cu analiza Bayesiana, in care
parametrii populatiei sunt priviti ca fiind variabile aleatorii.)

Statisticile esantionale sunt variabile aleatoare, pentru ca valoarea lor depinde de rezultatul
esantionarii, si deci au distributii de probabilitate, care se numesc distributii esantionale (engl.
sampling distributions).

Un bun estimator al unui parametru are urmatoarele calitati:


– este nedistorsionat- adica valoarea asteptata (valoarea cu probabilitatea maxima) a unei
statistici esantionale (adica media distributiei ei de probabilitate) ar trebui in mod ideal sa fie
egala cu parametrul populatiei si sa nu il sub- ori supraestimeze considerabil.

11
– este consistent – adica cu cat creste dimensiunea esantionului (nr. de observatii dintr-un
esantion), cu atat se apropie mai mult de parametrul populatiei.
– eficient- adica are cea mai mica varianta dintre toti estimatorii unui parametru.

Tipuri de estimatori:
– estimatori de punct – ofera o singura valoare care estimeaza parametrul unei populatii, de
ex. media esantionala
– estimatori de interval- ofera un interval de valori care ar putea include cu o anume
probabilitate parametrul estimat, de ex. intervale de confidenta

2.2 Parametrii uzuali ai unei populatii si statisticile lor esantionale (estimatorii


de punct)

Sa consideram o populatie de observatii ale unei variabile Y masurata pe N unitati esantionale din
cadrul populatiei in discutie. Prelevam un esantion aleator de n observatii (y1, y2, y3, y4,...n) din
cadrul populatiei. Suntem interesati in cele mai multe cazuri de parametrii de locatie (enlg. location
parameters) si de parametrii de spectru (engl. spread parameters). Parametrii uzuali ai unei
populatii sunt: media, medianul, varianta, deviatia standard, deviatia absoluta mediana, coeficientul
de variatie, eroarea standard, intervalul de confidenta de 95% pentru medie. Sunt prezentati in
tabelul 2.1 impreuna cu statisticile lor.

Se recomanda invatarea termenilor si pe engleza, dat fiind ca programele de statistica genereaza


rezultatele pe engleza si trebuie sa le putem intelege pentru a le analiza. De aceea vom folosi in
acest curs denotarea pe stil englez, de ex. " se da o variabila Y" si nu " se da o variabila X".

12
Estimatorii de locatie ai unei distributii:
– estimatorii L: organizeaza/ordoneaza datele de la valoarea cea mai mica la valoarea cea mai
mare si apoi formeaza o combinatie lineara de asa-numite statistici ponderate de ordine.
• Media aritmetica (ponderata cu 1/n), medianul, media trimmed (media
calculata dupa omiterea a 5% dintre cele mai mari si cele mai mici valori),
media Winzorized (valorile omise sunt inlocuite cu cea mai apropiata valoare
ramasa).
– estimatorii M: ponderarea (engl. weightings) data diferitelor observatii se schimba gradual
de la mijlocul/media esantionului spre margini si incorporeaza in procedura de estimare o
masura a variabilitatii. De ex. estimatorii M de tip Huber sau Hampel. Acesti estimatori
joaca un rol important in regresia robusta si tehnicile ANOVA pentru analiza modelelor
lineare.
– estimatorii R: sunt bazati pe rangurile observatiilor si formeaza baza multor teste
neparametrice bazate pe ranguri. De ex. estimatorul Hodges-Lehmann.

Pentru datele cu valori extreme (enlg. outliers), medianul si media trimmed si Winzorized sunt cele
mai simplu de calculat. Dar programele de statistica noi calculeaza si estimatorii de tip M si R.

Estimatorii de spectru al distributiilor (spectrul de variabilitate al distributiilor):


– varianta esantionala s2 (engl. sample variance)- estimatorul variantei populatiei σ2, este o
masura importanta a variabilitatii. Varianta esantionala este suma medie a patratelor (engl.
averaged sum-of-squares). Unitatile ei de masura sunt patratul unitatilor observatiilor
originale.
– deviatia standard esantionala s (engl. sample standard deviation) – estimatorul deviatiei
standard a populatiei σ, este radacina patrata a variantei. O masura de variatie in aceleasi
unitati de masura ca si observatiile originale.
– coeficientul de variatie (CV) – folosit pentru a compara deviatiile standard ale populatiilor
cu medii diferite, si este independent de unitatea de masura (expune deviatia standard ca si
procentaj din medie).
– deviatia absoluta mediana – este mai putin sensibila la valori extreme. Este un estimator de
spectru care se foloseste in asociatie cu medianul.
– spectrul intercuartilic – diferenta dintre 1. cuartil si al 3. cuartil (observatia care are 25% din
observatii sub ea, si observatia care are 25% din observatii deasupra). Este folosit la
construirea boxplot-urilor.

2.3 Eroarea standard si intervale de confidenta pentru medie

Teorema limitei centrale este importanta pentru a intelege cum se calculeaza intervalele de
confidenta pentru media populatiei. Ea presupune urmatoarele:
– distributia probabilitatilor mediilor esantionale ale unei populatii distribuite normal este si ea
distribuita normal.
– odata cu cresterea dimensiunilor esantionale (numarul de observatii dintr-un esantion),
distributia probabilitatiilor mediilor esantionale care provin din oricare alt tip de distributie
(nu numai populatii distribuite normal) se apropie de distributia normala.
– valoarea asteptata a mediei din distributia probabilitatiilor mediilor esantionale este egala cu
media populatiei (μ ) din care provin esantioanele.

13
Fig. 2.2 ilustreaza principiul teoremei limitei centrale, conform careia esantioane repetate de
dimensiuni mari (n mari) provenite din orice tip de distributie vor avea medii esantionale distribuite
normal.

Eroarea standard a mediei esantionale

Dupa cum am vazut in teorema limitei centrale, ne indreptam atentia de la distributia populatiei
originale, spre distributia normala a populatiei de medii esantionale ale esantioanelor populatiei
originale.

Conform teoremei limitei centrale mediile esantionale sunt distribuite normal. Deci, putem sa
calculam varianta si eroarea standard a observatiilor unui singur esantion, ca si estimatori pentru
parametrii populatiei mediilor esantionale.

Eroarea standard a mediilor Eroarea standard a mediei (unui esantion), sau


esantionale deviatia standard esantionala

Pentru ca suntem rar in pozitia in care putem colecta multe esantioane dintr-o populatie, estimam
eroarea standard a mediilor esantionale σӯ (engl. standard deviation of the sample means), pe baza
unui singur esantion, deci pe baza deviatiei standard esantionale sӯ (engl. sample standard
deviation).

sӯ - deviatia standard esantionala descrie variatia din esantionul ales. Ne indica eroarea ce ia nastere
cand folosim ӯ pentru a estima μ. Daca sӯ este mare, media esantionului nu se apropie de adevarata
medie a populatiei.

Intervale de confidenta pentru media esantionala (interval de confidenta=t˟eroarea standard)

Orice intervalul de confidenta al oricarei medii are forma generala:


interval de confidenta=t˟eroarea standard a mediei unui esantion

Prin intremediul distributiei z, convertim orice distributie normala intr-o distributie normala
standardizata. Pentru o valoare yi a oricarei distributii normale obtinem urmatoarea valoare z:

14
Confrom formulei de mai sus, putem sa convertim orice medie esantionala dintr-o populatie de
medii esantionale intr-o medie esantionala standardizata. Adaptam formula pentru cazul mediei
esantionale:

(media esantionala minus media populatiei de medii esantionale, echivalentul


mediei populatiei adevarate, divizata pe eroarea standard a mediilor
esantionale)

Putem face asta cu orice medie esantionala ӯ a distributiei de medii esantionale.

Dar intrebarea urmatoare este:


• cat de aproape suntem de adevarata medie a populatiei (media distributiei mediilor
esantionale)?
Sau altfel spus:
• cat de increzatori/confidenti suntem ca media noastra esantionala este un estimator bun
pentru μ, adevarata medie a populatiei?

De ex. sa determinam intre ce valori ale lui z se incadreaza media adevarata in 95 din 100 de cazuri
calculate (interval de confidenta de 95%). Stim ca intre -1.96σ si +1.96σ se afla 95% din valorile z
obtinute (vezi distributia normala).Deci putem spune ca avem urmatoarea probabilitate pentru
intevalul de confidenta de 95%:

P{-1.96 ≤z ≤ +1.96}=0.95

sau

P{-1.96 ≤ ( ӯ- μ)/σӯ ≤ +1.96}=0.95

mai departe izolam media μ:

P{ ӯ-1.96 σ ӯ ≤ μ ≤ ӯ+1.96 σ ӯ }=0.95

Deci media se incadreaza intre cele doua valori limita (de jos L1 si de sus L2):

L1= ӯ-1.96 σ ӯ
L2= ӯ+1.96 σ ӯ

Problema este ca cunoastem rar σ (deviatia standard a populatiei), deci trebuie sa folosim deviatia
standard esantionala sӯ.

Deviatia standard esantionala sӯ se distribuie ca si o distributie t, nu ca o distributie normala. Deci,


trebuie sa folosim distributia t pentru a calcula intervalul de confidenta al mediei populatiei.

15
Distributia t arata diferit pentru diferite grade de libertate (enlg. degrees-of-freedom):

Distributia t este simetrica, centrata in jurul lui zero si poate fi definita matematic. Probabilitati
pentru distributia t standardizata (media la 0, deviatia standard de 1) sunt tabelate in carti. Forma
distributiei depinde de gradele de libertate definite ca df=n-1 si nu de n, pentru ca eroarea standard s
ofera o estimare imprecisa a σ daca dimensiunea esantionului este mica, si creste in precizie odata
cu cresterea dimensiunii esantionului. Cand n este mare (>30), distributia t este foarte similara cu
distributia normala (sӯ o sa fie aproape de σӯ).

Deci distributia t este simplu distributia relatiei (ӯ-μ)/sȳ (analog cu z al distributiei normale), si
avem un diferit t pentru fiecare df(n-1). Intervalul de confidenta al mediei populatiei este atunci:

P{ ӯ-t0.05(n-1) sӯ ≤ μ ≤ ӯ+ t0.05(n-1) sӯ}=0.95

• t0.05(n-1) este valoarea din distributia t cu (n-1) df intre care se gasesc 95% din toate valorile t
• sӯ este eroarea standard a mediei esantionale.
=> dimensiunea intervalului depinde de dimensiunea esantionului n, deviatia standard esantionala si
de nivelul de confidenta.

Explicatia gradelor de libertate:


Gradele de libertate (df) sunt simplu expus numarul de observatii din esantion care sunt “libere sa
varieze” cand estimam varianta. Din moment ce am determinat deja media, atunci numai n-1
observatii sunt libere sa varieze, pentru ca cunoscand media avem numai 1 valoare fixa. Ca o regula
generala, numarul gradelor de libertate este numarul observatiilor minus numarul parametrilor
inclusi in formula variantei (Quinn & Keough 2002).

Interpretarea intervalelor de confidenta pentru media populatiei:


– nu sunt o constatare a probabilitatii valorii mediei populatiei, care este o variabila fixa
=> deci, intervalele de confidenta ori estimeaza corect μ ori nu.

Probabilitatea asociata cu intervalele de confidenta este interpretata ca si frecventa de lunga durata a


unei proceduri care va produce intervale corecte 95% din cazuri (din 100 de medii esantionale
calculate, 95 din intervalele de confidenta contin μ si 5 nu).

Erori standard pentru alte statistici esantionale

Putem sa calculam erorile standard si deci, intervale de confidenta si pentru alte statistici
esantionale (de ex. coeficienti de regresie, varianta esantionala).

Cand suntem siguri ca distributia statisticii noaste esantionale este distribuita normal, putem sa

16
folosim aceeasi procedura de calculare a erorii standard esantionale ca si in cazul mediei
esantionale, de ex. pentru coeficientii de regresie. Aceste statistici esantionale divizate cu eroarea
standard, se distribuie ca distributie t, si ca atare, intervalele de confidenta pot fi determinate pentru
aceste statistici esantionale conform formei generale: confidence interval= t ˟ standard error.

O exceptie importanta este varianta esantionala care se distribuie non-normal, deci teorema limitei
centrale nu se aplica la variante. Pentru a calcula intervale de confidenta pentru varianta populatiei,
ne folosim de distributia X2 (distributia chi-patrat).

Chi-patrat (X2) poate lua valori de la 0 la ∞. Este o distributie esantionala, ca si distributia t, deci
forma distributiei de probabilitati depinde de (n-1)df. Vom folosi distributia chi-patrat pentru a
calcula intervale de confidenta pentru varianta:

Frecventa de lunga durata a esantionarii repetate a intervalului de confidenta resulta in intervale de


confidenta dintre care 95% ar include adevarata varianta a populatiei. Intervalele de confidenta
pentru variante sunt foarte importante pentru interpretarea componentelor variantei din modelele
lineare (cap. 8).

2.4 Metode de estimarea parametrilor

Vom prezenta pe scurt doua proceduri generale pentru estimarea parametrilor, pentru ca modelele in
care sunt folositi sa se potriveasca cat mai bine cu datele observate (engl. best fit): metoda
verosimilitudinii/posibilitatii maxime si metoda celor mai mici patrate.

Verosimilitudinea/posibilitatea maxima (engl. Maximal Likelihood) - ML

Idea de baza:
Sa consideram un esantion de observatii dintr-o populatie. Telul nostru este sa gasim estimatii ale
unui sau mai multor parametrii care sa maximizeze posibilitatea (engl. likelihood) de a observa cu
adevarat datele prelevate. Deci vom determina asa numiti estimatori de maxima posibilitate prin
intermediul unei functii de posibilitate a unui parametru, care calculeaza posibilitatea datelor
statisticii noatre esantionale de a fi cu adevarat observate pentru toate valorile parametrului pe care
incercam sa il estimam.

Pentru un parametru θ, avem urmatoarea functie de posibilitate:

Deci L(y;θ) este produsul (Π) al f(yi; θ). Unde f(yi; θ) este probabilitatea comuna a yi si θ, adica
distributia probabilitatilor lui Y pentru toate valorile lui θ. Estimatorul ML este acela care
maximizeaza functia de posibilitate a parametrului. Pentru a maximiza functia de posibilitate o
transformam logaritmic pentru a putea lucra mai usor cu ea (produsul Π devine suma ∑):

17
De ex. estimatorul ML al μ pentru media esantionala (cunoscand varianta σ 2), este valoarea lui μ
care maximizeaza posibilitatea de a observa cu adevarat datele prelevate in esantion. Pentru un μ
care provine dintr-o populatie distribuita normal, functia de posibilitate f(yi,μ) este ecuatia
distributiei normale (depinde numai de μ si de σ2):

Estimatorii ML au cateodata solutii aritmetice exacte, cum ar fi in cazul estimarii mediilor sau a
parametrilor modelelor lineare. Din potriva, cand analizam distributii non-normale, estimatorii ML
trebuiesc calculati folosind algoritmi iterativi complecsi.

Este important sa intelegem ca o posibilitate a unui parametru (engl. likelihood) nu este acelasi
lucru cu probabilitatea unei variabile (engl. probability), si ca functia de posibilitate nu este o
distributie de probabilitati. In distributia de probabilitati a unei variabile randomizate parametrul
este considerat fix si datele sunt considerate variabile necunoscute. Intr-o functie de posibilitate,
datale sunt considerate fixe si parametrul variaza intre toate valorile posibile, pentru a maximiza
posibilitatea ca estimatia descrie cat mai bine datele. In orice caz, posibilitatea unei estimatii de a
descrie cu adevarat datele prelevate este legata de probabilitatea de a obtine exact aceleasi date daca
aplicam estimatia.

Metoda celor mai mici patrate (OLS)

Prin metoda celor mai mici patrate (engl. ordinary least squares OLS) se estimeaza parametrul
cautat in asa fel incat el sa minimizeze suma diferentelor la patrat dintre valoarea observata in
esantion si cea estimata de parametru, adica minimizeaza urmatoarea functie:

De ex. estimatorul OLS al μ pentru un esantion dat este valoarea lui μ care minimizeaza suma
diferentelor patrate dintre orice valoare din esantion si estimatia lui μ (adica Σ (yi-ӯ)2).

18
Estimatorii OLS au intotdeauna solutii aritmetice exacte.
Cea mai importanta aplicatie a estimarii OLS este cand estimam parametrii modelelor lineare, in
care ecuatia de mai sus reprezinta suma diferentelor patrate dintre valorile observate si cele estimate
de model.

Estimarea ML vs estimarea OLS

Pentru cei mai uzuali parametrii de populatie, valorile estimatorilor ML si OLS coincid daca
premizele pentru OLS sunt indeplinite. Exceptie face varianta populatiei pentru care estimatorul ML
este usor distorsionat. In modelele lineare balansate (regresia lineara si ANOVA) pentru care
premizele sunt indeplinite, valorile estimatorilor ML si OLS pentru panta regresiei (engl. regression
slope) si/sau pentru efectele factoriale sunt identice. Pentru modelele in care variabila raspuns sau
rezidurile nu sunt distribuite normal (sunt binare sau date de tip categoric), estimarea pe baza de ML
este apropriata. Deci, modelarea lineara generalizata (engl. generalized linear models – GLM) de
ex. regresia logistica si modelele log-lineare pe de o parte, si modelarea nonlineara pe de alta parte,
sunt bazate pe estimarea ML.

2.5 Metode de reesantionare folosite pentru estimare

Putem sa calculam eroarea standard a unei statistici si intervalul de confidenta pentru un parametru,
daca sunt indeplinite doua conditii:
• distributia esantionala a acelei statistici este presupusa a fi normala (deci, teorema limitei
centrale poate fi aplicata), si daca
• cunoastem formula exacta a erorii standard.
Daca variantele si distributiile esantionale ale statisticilor sunt necunoscute, trebuie sa ne bazam pe
metodele de reesantionare (engl. resampling methods) intensive ca procesare informatica, pentru a
masura precizia statisticilor noastre. In absenta oricarei alte informatii, cele mai importante indicii
pentru cum ar arata distributia esantionala a statisticii cautate ni le ofera observatiile din esantion.
Metodele de reesantionare estimeaza eroarea standard a unei statistici esantionale si intervalul de
confidenta a unui parametru prin reesantionarea esantionului original. Metodele de reesantionare
pot fi folosite si in testarea de ipoteze (cap.3).

Bootstrap

Distributia esantionala este determinata empiric prin reesantionare randomizata, cu inlocuire din
esantionul original, creand esantioane noi de obicei de dimensiunile esantionului original. Statistica
dorita poate fi determinata din oricare esantion obtinut prin bootstrap si distributia esantionala a
oricarei statistici poate fi determinata. Estimatia bootstrap este simpla medie a statisticii esantionale
provenita din esantioanele obtinute prin bootstrap.
Pentru a masura cat de distorsionat este un estimator, tehnici ca bootstrap calculeaza diferenta dintre
media unei statistici obtinute prin bootstrap si statistica calculata din esantionul original.
Distributia probabilitatilor unei statistici bootstrap este calculata. Din nefericire distributiile lor sunt
deseori deformate, in special pentru statistici altele decat media, deci si intervalele de confidenta
sunt distorsionate. O metoda care corecteaza distorsionarea determina percentilele pentru valorile
intervalului. Metoda numita bootstrap accelerat corecteaza in plus distorsiunea.

Jackknife

Este o alternativa mai veche a bootstrap-ului. Sunt calculate pseudovalori prin indepartarea

19
observatiilor din esantion. Fiecare pseudovaloare este o combinatie a doua estimatii a statisticii
esantionale cautate, o estimare fiind bazata pe intregul esantion iar a doua pe esantionul cu o
observatie eliminata. Jackknife nu se foloseste de obicei pentru estimarea intervalelor de confidenta.

2.6 Inferenta Bayesiana

Exista doua mari limitari in procedeul clasic de determinarea estimarilor de punct si de interval, si
anume:
– numai datele observate in esantion contribuie la estimarea parametrilor unei populatii
=> orice informatie anterioara pe care o avem cu privire la o posibila valoare a unui parametru nu
poate fi luata in considerare usor cand determinam estimatia. Desi, cunostintele noastre anterioare
despre subiectul studiat ar trebui sa influentieze design-ul de esantionare si prelevare a
observatiilor.

– estimarile intervalelor au o interpretare frecventiata (engl. frequentist), adica legata de


frecventa cu care se intampla un eveniment intr-un experiment repetativ de lunga durata.
Sau mai simplu spus, doar un anumit procentaj (de ex. 95%) al intervalelor de confidenta
obtinute prin esantionare repetata contin parametrul considerat fix al populatiei.
=> procedeul Bayesian incorporeaza cunostintele anterioare sub forma de grade-de-supozitie (engl.
degrees-of-belief) in estimarea parametrilor si produce astfel declaratii probabile: de ex. 95% ca μ
este continut intr-un anumit interval.

Estimarea Bayesiana

Unii Bayesieni considera parametrii populatiei ca fiind variabile aleatorii/randomizate (ca de ex.
Barnett 1999). Altii considera parametrii populatiei ca fiind doar variabile necunoscute, care au
distributii aterioare si posterioare (engl. prior and posterior) de probabilitati ca acestea ar putea
avea diferite valori (ca de ex. Dennis 1996).

Logica de baza a inferentei Bayesiene pentru a estima un parametru este:

• θ este parametrul populatiei (considerat o variabila necunoscuta si randomizata)


• P(θ) este probabilitatea anterioara neconditionata a lui θ, exprimata ca distributie de
probabilitati care insumeaza parerile noastre anterioare despre probabilitatea ca θ o sa ia
anumite valori
• P(data│θ) este posibilitatea (engl. likelihood) de a observa cu adevarat esantionul de date
pentru valori diferite ale lui θ, exprimata ca functie de posibilitate (distributia comuna de
probabilitati a lui Y pentru valori posibile ale lui θ)
• P(data) este valoarea asteptata (media) a functiei de posibilitate P(data│θ); aceasta
standardizare a ecuatiei de mai sus prin divizarea cu media inseamna ca suprafata de sub
distributia posterioara de probabilitati este egala cu unu; P(data) este o constanta care
normalizeaza distributia posterioara.
• P(θ│data) este probabilitatea posterioara a lui θ conditionata de observarea cu adevarat a
datelor, exprimata ca o distributie de probabilitati care insumeaza probabilitatile ca θ ia

20
diferite valori prin combinarea distributiei anterioare de probabilitati cu functia de
posibilitate.

probabilitatea posterioara = functia de posibilitate ˟ probabilitatea anterioara


(Regula-SI de calculare a probabilitatilor)

P(θ): nivelul de cunostinte anterior si probabilitatea lui

Distributia anterioara de probabilitati masuara influenta relativa a supozitiei (engl. strength of


belief) asupra posibilelor valori pe care le poate lua un parametru. Exista doua tipuri de distributii
anterioare de probabilitati, si anume:

– Ignoranta anterioara, sau altfel spus cunostinte anterioare vagi, in cazul in care nu avem
informatii deloc sau numai putine despre ce valoare ar putea lua parametrul.
=> putem reprezenta ignoranta anterioara printr-o distributie anterioara non-informativa (de ex. o
distributie aplatizata care acorda fiecarei valori aceeasi probabilitate de a fi observata in realitate).
=> o clasa de probabilitati anterioare dizainate pentru a reprezenta cunostinte anterioare putine si
pentru a lasa datele prelevate, deci functia de posibilitate, sa domine distributia posterioara.

– Cunostinte anterioare substantiale sau supozitii puternice, reprezentate printr-o distributie


anterioara informativa (de ex. distributia normala sau distributia beta). Constructia acestor
distributii anterioare informative este unul dintre aspectele cele mai controversate ale
inferentei Bayesiene, in special daca sunt construite pe baza unor opinii subiective.

P(data│θ): functia de posibilitate

Este standardizata, fiind divizata cu valoarea asteptata (engl. expected value) a functiei de
posibilitate P(data). Datele prelevate intra in inferenta Bayesiana doar prin intermediul functiei de
posibilitate. Daca variabila noastra este distribuita normal si parametrul in care suntem interesati
este media, functia de posibilitate standardizata este o distributie normala cu o media egala cu
media datelor prelevate si o varianta egala cu eroarea standard la patrat a mediei datelor prelevate.

P(θ│data): probabilitatea posterioara

Reprezinta distributia noastra anterioara modificata de functia de posibilitate. Forma distributiei


posterioare ne arata spectrul de valori in care se observa cea mai mare masa a probabilitatilor. Cea
mai buna estimatie a parametrului este media distributiei posterioare, daca distributia este simetrica,
sau medianul sau valoarea modala daca distributia este non-simetrica.

Daca consideram un parametru (θ) cu o distributie anterioara normala media distributiei posterioare
este media ponderata dintre media distributiei anterioare si media datelor din esantion.

Sa remarcam ca daca avem o distributie anterioara non-informativa, adica aplatizata, distributia


posterioara va fi determinata in intregime de datele esantionale si de functia de posibilitate a
parametrului de a reda cu adevarat datele prelevate. Media distributiei posterioare este atunci media
datelor esantionale iar varianta posterioara este varianta datelor esantionale divizate cu numarul de
observatii din esantion (adica cu n, dimensiunea esantionala).

21
Intervalele de confidenta Bayesiene sunt numite intervale de credibilitate sau de probabilitate
Bayesiene. Ele sunt de asemenea numite si regiuni de densitate maxima sau regiuni de probabilitati
pentru ca orice valoare din regiune sau interval are o probabilitate mai mare de a se intampla/aparea
decat o valoare din exteriorul regiunii sau intervalului.

Pentru intervalul de probabilitate a unui parametru (θ) cu o distributie posterioara normala avem:

unde, este varianta distributiei posterioare.

Intervalul de probabilitate ne informeaza ca exista o probabilitate de 95% ca valoarea obtinuta se


incadreaza in interval, informatie construita in jurul datelor prelevate.

Cu o distributie anterioara non-informativa (aplatizata), intervalul de credibilitate Bayesian va fi


identic cu cel obtinut prin metodele statisticii clasice, de orientare frecventiala. Singura diferenta
este cea de interpretare!

Cu o distributie anterioara informativa, intervalul de credibilitate Bayesian va fi mai restrans decat


intevalul de confidenta al statisticii clasice. Pe de alta parte, avem si riscul de a construi o anterioara
falsa (bazata pe opinii false despre praguri critice de ex.), care o sa eroneze probabilitatea
posterioara si mai mult decat o face metodologia statisticii clasice, fapt ce rezulta in regiuni de
confidenta false. De aceea calitatea anterioarei este esentiala. Cum putem calcula influenta opiniilor
eronate din probabilitatea anterioara asupra celei posterioare. Cand se inclina rezulatatul in directia
eronata (punctul de inflexiune – engl. tipping point)? Un fel de eroare de Tip I numai ca pentru
metoda Bayesiana. In cazul pragurilor ecologice critice care de cele mai multe ori nu pot fi clar
definite ar trebui sa calculam intervalele de confidenta cu ajutorul a mai multor metode (una clasica
si una Bayesiana) si sa le comparam si eventual insumam, pentru a urma sfatul dat de Chee (2004)
de a “se mentine de partea precautiei”.

In figura de mai jos este schitat principiul inferentei Bayesiene cu o probabilitate anterioara P(θ) si
o functie de posibilitate standardizata normala:

22
Alte remarci la adresa inferentei Bayesiene:

• ca si in estimarea statisticii clasice, distributiile normale sunt folosite pentru a descrie


distributiile de interes (de ex. pentru probabilitatile anterioare, posterioare si functiile de
posibilitate), cand avem de-a face cu parametrii distribuiti normal (e.g mediile). Pentru
parametrii distribuiti binomial este folosita distributia beta. Putem folosi si alte tipuri de
distributii in functie de parametrii.
• Datele esantionale au o influenta mai mare asupra distributiei posterioare de probabilitati
decat o are distributia anterioara de probabilitati. O exceptie o face cazul in care
dimensiunea esantionala si/sau varianta probabilitatii anterioare sunt foarte mici. Daca
deviatia standard a distributiei anterioare este foarte mica, atunci diferentele in media acestei
distributii ar putea avea efecte marcante asupra mediei distributiei posterioare => asa-
numitul “efect editorial” cand rezultatele analizei sunt mai mult opinie!
• Daca folosim o anterioara non-informativa, si presupunem ca datele provin dintr-o populatie
distribuita normal, atunci posterioara o sa fie o distributie normala sau o distributie t, ca si in
statistica clasica. In cazul unei anterioare non-informative, distributia posterioara folosita la
estimarea lui μ este o distributie normala daca o cunoastem pe σ, sau o distributie t daca σ
este necunoscuta si folosim s (eroarea standard) pentru estimare. Deci, folosim intr-un fel
chiar si in statistica clasica o distributie anterioara. Altfel spus, folosind o distributie
anterioara non-informativa (aplatizata) si data provenind din distributii normale va da
aceleasi rezultate ca si analiza statisticii clasice.

Capitolul 3: Testarea ipotezelor

3.1 Testarea ipotezelor statisticii clasice

Testarea ipotezelor in statistica clasica are trei componente:


– ipoteza nula H0 care este de obicei (dar nu necesar) o ipoteza despre o diferenta inexistenta
sau despre o relatie inexistenta intre parametrii populatiei. Deci, H0 este de obicei o ipoteza
despre faptul ca un efect este inexistent (nici o diferenta intre mediile sau variantele a doua
populatii diferite, s.a). Ipoteza nula H 0 este rezultatul pe care l-am astepta daca am
esantiona randomizat din diferite grupuri experimentale cand in realitate nu este nici un
efect al tratamentului experimentat.
– alegerea unei statistici de testare (engl. test statistic) pentru a testa H0. O statistica de testare
este o variabila randomizata care poate fi descrisa cu ajutorul unei distributii de probabilitati.
De ex. o statistica de testare pentru a testa o ipoteza despre media unei sau a mai multor
populatii este statistica t. Are o distributie de probabilitati pentru fiecare grad de libertate
df(n-1).

Statisticile de testare sunt variabile randomizate continue, deci nu putem defini probabilitatea unei
singure valori t. Putem doar sa vorbim despre probabilitatea cu care t este mai mare sau mai mic
decat o anume valoare sau ca t este cuprins in intervalul dintre doua valori.

23
– ipoteza alternativa HA care trebuie sa fie adevarata daca H 0 este falsa. De ex. daca H0 spune
ca doua medii de populatie sunt egale, atunci HA spune ca ele difera cu o anumita valoare.

Biologii, ca si psihologii folosesc cel mai curent urmatoarea metodologie pentru testarea ipotezelor
cu ajutorul statisticii clasice:
1. Se specifica H0 si HA si statistica de testare apropriata.
2. Se specifica a priori nivelul de significanta (de ex. 0.05), care este frecventa de lunga durata
a erorii de Tip I (α) (eroarea de a respinge in mod gresit H 0) pe care suntem pregatiti sa o
acceptam.
3. Colectarea datelor cu ajutorul unui sau mai multor esantioane randomizate/aleatorii din
cadrul populatiei/populatiilor de interes si calcularea statisticilor esantionale pe baza
observatiilor colectate.
4. Compararea statisticii calculate cu distributia ei esantionala, presupunand ca H 0 este
adevarata, pentru a descoperii valoarea P care corespunde statisticii noastre calculate, adica
valoarea P a, de ex., valorii t calculate, deci P(t).
5. Daca probabilitatea de a obtine acea valoare t este mai mica decat nivelul de significanta
specificat a priori (de ex. 0.05), atunci se conclude ca H0 este falsa si este respinsa.
Rezultatul experimentului nostru este semnificant din punct de vedere statistic.
6. Daca probabilitatea de a obtine acea valoare este mai mare sau egala cu nivelul de
significanta specificat, atunci se conclude ca H0 este adevarata, neavand nici un argument
impotriva ei. Rezultatul experimentului nostru este nesemnificant din punct de vedere
statistic.

Unii biologi folosesc:


• P < 0.05 (semnificant)
• P<0.01 (foarte semnificant)
• P<0.001 (extrem de significant)
• sau prezinta valoarea P obtinuta pentru a indica intensitatea argumentului adus impotriva H0.

Interpretarea testelor statistice clasice este bazata pe interpretarea probabilitatilor dintr-un punct de
vedere frecvential. Adica, probabilitatea unui rezultat/eveniment de a se intampla intr-un experiment
identic repetat de lunga durata. Frecventa cu care este inregistrat, sau mai simplu spus de cate ori a
fost inregistrat acel rezultat pe durata experimentului. Pentru interpretarea testelor statistice clasice ,
datele trebuiesc prelevate randomizat din populatii clar definite. Deci, testarea ipotezelor statisticii
clasice este bazata pe frecventele de lunga durata ale evenimentelor inregistrate in esantionari
repetate.

Daca populatiile statistice din care se esantioneaza randomizat nu sunt clar definite, rezultatele
testarii ipotezelor clasice sunt mai greu de interpretat. In acest caz, testele de randomizare, care nu
necesita esantionare randomizata dintr-o populatie, sunt mai apropriate.

3.2 Valoarea P (probabilitatea asociata) si eroarea de Tip I (α)

Distributia esantionala a unei statistici (de ex. t) ne prezinta probabilitatile de lunga durata a
diferitelor intervale de valori t care se inregistreaza daca esantionam repetat dintr-o populatie pentru
care H0 este adevarata.
Valoarea P (probabilitatea asociata) este probabilitatea de lunga durata de a obtine statistica
esantionala obtinuta de noi acum daca H0 este adevarata. Deci valoarea P poate fi exprimata si ca

24
P(data│H0), probabilitatea de a observa cu adevarat datele obtinute in experimente identice repetate,
daca H0 este adevarata. Daca vrem sa stim probabilitatea alternativei nule H 0 de a fi adevarata
avand in vedere datele esantionate acum, deci P(H0│data), trebuie sa investigam intrebarea/ipoteza
statistica din punct de vedere Bayesian.

In analiza clasica valorile P se folosesc astfel:

P(t)<P( tc) => H0 falsa => rezultat significant => HA se accepta


P(t)≥P( tc) => H0 adevarata => rezultat nesignificant => H0 se retine

Un rezultat nesignificant statistic (retinerea H0) inseamna de fapt ca nu avem nici un argument
impotriva H0 si nu putem trage nici o concluzie pe baza datelor. Un nou experiment cu o noua
ipoteza de testat, poate va genera un rezultat significant din punct de vedere statistic. Desi, un
rezultat nesignificant este tot un rezultat. Underwood (1990, 1999) este de parere ca un rezultat
statistic nesignificant ar trebui sa initieze un proces de revizuire sau inlocuire a modelului
folosit/teoriei testate si dizainarea unor noi teste pentru noi modele/teorii (Quinn & Keough 2002).

Rata erorii de Tip I este probabilitatea de lunga durata de a respinge H0 la nivelul de significanta
ales daca H0 este de fapt adevarata in toate experimentele repetate.

Graficul de mai jos explica relatia dintre valorile t si valorile P(t) corespunzatoare pentru distributia
t a H0:

P( )

25
3.3 Testarea ipotezelor pentru una sau doua populatii

Exemplu pentru o singura populatie:

Sa folosim testul t pentru un singur parametru in baza unui singur esantion (engl. one-sample t test)

• St – statistica esantionala
• SSt – eroarea standard a statisticii esantionale St
• θ – valoarea populatiei

=> pentru testarea ipotezelor despre parametrii unei singure populatii

1. Ipoteza: Este media populatiei egala cu zero? Acest gen de intrebare este din punct de
vedere biologic rar de intalnit, de aceea vom presupune ca schimbarea in media populatiei in
urma unui tratament experimental este egala cu zero. Intrebarea se poate pune si pentru
coeficienti de regresie sau componente ale variantei. Schimbarea in media populatiei (∆μ) o
consideram ca fiind tot o medie si o denotam numai cu μ, ca pe orice medie, fiind o simpla
diferenta intre doua medii. Acest exemplu de schimbare in media unei populatii dupa un
tratament experimental ar putea fi si un caz pentru testul t pereche (engl. pairwise-t-test),
daca avem doua esantioane pe aceleasi observatii ale aceleiasi populatii, sau testul t pentru
doua esantioane (engl. two-sample t test), daca avem doua seturi de date esantionate pe
aceleasi observatii, dar care provin din doua populatii diferite.

H0: μ=0
HA: μ≠0

2. Se preleva un esantion randomizat dintr-o populatie clar definita si se calculeaza t=( ӯ-0)/sӯ
Daca H0 este adevarata ne asteptam ca media populatiei sa se situeze in jurul lui zero. Deci,
media esantionala a celor mai multe esantioane ar trebui sa fie aproape de zero. Valori mai
mari sau mai mici sunt si ele preconizate daca H 0 este adevarata, dar valori t extrem de mari
sau extrem de mici fata de zero sunt mai putin probabile.
3. Compararea valorii t esantionale (obtinute pe baza esantionului prelevat de noi) cu valoarea
t din distributia esantionala a lui t pentru a identifica valoarea t a esantionului prelevat de noi
(engl. sample t value). Valori mari ale statisticii t esantionale au valori P mici. Daca valoarea
P este mai mica decat nivelul de significanta ales, de ex. 0.05, atunci H0 este respinsa.

Teste unilaterale si teste bilaterale

Testele a caror ipoteza nula H0 presupune ca un parametru este egal cu o anumita valoare (numite
ipoteze simple sau ipoteze de punct) sunt teste bilaterale (engl. two-tailed tests). Testele bilaterale
au o valoarea critica (tc) la ambele capete ale distributiei. De ex. daca nivelul de significanta P=0.05,
atunci avem α=0.025 la ambele capete (eroarea de Tip I se imparte in doua).

Exemplu de ipoteze simple: H0: μ = 0 sau HA:μ ≠ 0

26
Daca ipoteza nula H0 presupune ca un parametru este mai mare sau mai mic decat o anumita
valoare, deci mai clar specificat decat in prezumtia de nici o diferenta a ipotezelor simple, eroarea
de Tip I este in intregime amplasata la un singur capat al distributiei. Daca presupunem ca un
parametru este mai mare decat o anumita valoare, atunci excludem posibilitatea ca statistica noastra
esantionala sa se inregistreze si la un nivel mai mic decat valoarea specificata in ipoteza, deci
excludem o parte din distributie si din posibilitati. De aceea trebuie sa ne gandim bine daca cazul
nostru este intr-adevar un caz de testare unilaterala (engl. one-tailed test) (Quinn & Keough 2002).

Exemplu de ipoteze unilaterale: H0: μ1 ≤μ2 sau HA: μ1 ≥μ2

Fig.: Distributia t pentru H0


unui test bilateral (a) si a
unui test unilateral (b)

Ipoteze pentru doua populatii

Exista teste de ipoteza nula despre acelasi parametru al doua populatii independente. Aceste teste
pot fi bilaterale sau unilaterale, desi cele bilaterale sunt cele mai des folosite pentru ca testele
verifica de cele mai multe ori ipoteza nula ca parametrul celor doua populatii are aceeasi valoare.
Pentru doua populatii independente, care sunt reprezentate de doua colectii de observatii diferite (de
ex. provenite din doua unitati experimentale diferite) putem sa comparam de ex. cele doua medii
(testul t pentru doua esantioane a doua populatii independente), sau cele doua variante a doua
populatii independente (testul F).

Putem compara de altfel si doua variabile pereche a fiecarei observatii a aceleiasi populatii (testul t
pereche).

Daca comparam mediile a doua populatii independete utilizand doua esantioane randomizate (unul
din fiecare populatie), testam urmatoarea ipoteza:

• H0: μ1= μ2 (compararea a doua medii independete) => poate fi testata cu testul t si
cu un test de raport-F ANOVA.

27
• sӯ1- ӯ2 este eroarea standard a diferentei dintre doua medii.

Daca testam daca variantele a doua populatii sunt egale, testam ipoteza:

• H0: σ21= σ22 (compararea variantelor a doua populatii)=> poate fi testata cu


testul raport-F

Daca comparam diferentele dintre doua esantioane ale acelorasi observatii ale unei singure
populatii:

• H0: μd= 0 (compararea esantioanelor pereche provenite din aceeasi populatie)=>


poate fi testata cu testul t pereche

Testele parametrice si prezumtiile lor

Putem folosi un test parametric cand putem sa specificam o distributie de probabilitati pentru
populatiile variabilelor din care provin esantioanele, si cand urmatoarele prezumtii sunt adevarate:
• esantioanele provin din populatii distribuite normal
• esantioanele provin din populatii cu variante egale
• observatiile sunt esantionate randomizat/aleator din populatii clar definite
• valorile extreme se pot detecta si trata

1. Populatii distribuite normal

Testele t sunt de obicei robuste la incalcarea acestei prezumtii, daca distributiile nu sunt extrem de
asimetrice, adica orientate mai mult spre dreapta sau stanga sau multimodale (mai multe maxime
locale). Verificari ale simetriei pot fi facute cu ajutorul graficelor de tip dotplot (daca n este destul
de mare), boxplot sau pplot. Transformari ale variabilelor in alte scale de masura (vezi cap. 4) pot in
cele mai multe cazuri sa imbunatateasca normalitatea distributiei. Quinn & Keough (2002) nu
recomanda testele de significanta formale pentru a testa normalitatea (cum ar fi testul Kolmogorov-
Smirnov), pentru ca ele depind de dimensiunea esantionala, si ar putea respinge H 0 pentru
normalitate si in situatii in care testul t ulterior este fiabil.

28
2. Populatii cu variante egale

Testul t comun este foarte robust la o inegalitate moderata a variantelor daca dimensiunea
esantioanelor este aceeasi. Acesta lucru este valabil si pentru ANOVA (testul t este echivalentul unui
test de raport-F ANOVA pentru doua grupuri). Dar, daca avem dimensiuni esantionale inegale apar
urmatoarele probleme (stiind ca F=s12/s22=[∆μ1/(n-1)]/[∆μ2/(n-2)], si s12 este varianta mai mare):
- Eroarea de Tip I: daca esantionul de dimensiuni mai mici are varianta mai mare => F devine mai
mare => P(F) devine mai mica => H0 este respinsa din greseala mai usor => Eroarea de Tip I.
- Eroarea de Tip II: daca esantionul de dimensiuni mai mari are varianta mai mare => F devine
mai mic => P(F) devine mai mare => H0 este retinuata din greseala mai usor => Eroarea de Tip II.

Deci, rezultatele testelor depind de dimensiunile esantioanelor!


Deci, este intotdeauna o idee buna sa dizainam studii cu dimensiuni esantionale egale!

Variantele inegale apar de cele mai multe ori din cauza distributiilor asimetrice, deci rezolvarea
problemei de non-normalitate a distributiilor va produce variante mai apropiate/asemanatoare.
Aceasta prezumtie se poate verifica prin examinarea boxplot-urilor pentru fiecare esantion pentru a
vedea daca spectrul de variatie este asemanator. Nu se recomanda folosirea unui test prelimar pentru
a testa egalitatea dintre variantele populatiilor cu un test de raport-F inaintea unui test t, pentru ca
testul de raport-F este mai sensibil la non-normalitate decat testul t. Rezultatul testului de raport-F
depinde de dimensiunea esantionala (cum am aratat mai sus) si s-ar putea sa nu detecteze inegalitate
in variante care ar putea invalida testul t efectuat ulterior, sau ar putea detecta inegalitate care nu ar
afecta testul t ulterior.

3. Observatiile sunt esantionate randomizat

La lucrul acesta ar trebui sa ne gandim inca din faza dizainarii studiului!


Daca esantioanele nu pot fi prelevate randomizat atunci nu putem sa testam ipoteze despre diferente
intre doua esantioane cu ajutorul testelor parametrice. Daca nu putem preleva randomizat
esantioanele, atunci putem folosi un test randomizant (engl. randomization test).

4. Detectarea si tratarea valorilor extreme

Ambele tipuri de teste (parametrice si neparametrice bazate pe ranguri) sunt afectate de valorile
extreme, desi cele bazate pe ranguri sunt mai putin sensibile. Valorile extreme ar putea creste sau
scade mediile si variantele, deci ar putea amplifica erorile de Tip I si II.

3.4 Erorile de decizie

Exista doua tipuri de erori in testele statisticii clasice:

Eroarea de Tip I: respingerea gresita a H0, cand H0 este adevarata, eroare denotata cu α.
Eroarea de Tip II: retinerea gresita a H0, cand H0 este falsa, eroare denotata cu β.

Urmatoarele doua grafice prezinta principiul celor doua tipuri de erori.

29
Probability Probability
distribution of distribution of
H0 retained H0 rejected
H0 wird nicht HA wird nicht
abgelehnt abgelehnt
H0 trifft zu HA trifft zu

Type II Type I
α=β
error error

Region where H0 true Region where H0 false, HA true

Probability distribution of Probability distribution of


H0 retained H0 rejected

H0 wird nicht HA wird nicht


abgelehnt abgelehnt
H0 trifft zu H0 true HA true HA trifft zu

H0 true H false
0

Type II error Type I error


α=β

30
Exista asadar patru decizii statistice:
– a se decide corect pentru H0, cand ea este adevarata
– a se decide corect pentru HA, cand HA este adevatata si H0 falsa
– a respinge din greseala H0, cand H0 este adevarata (eroarea de Tip I)
– a retine din greseala H0, cand HA este adevarata (eroarea de Tip II).

Daca diferentele sunt mici intre parametrii testati (de ex. intre mediile a doua esantioane), distributia
probabilitatilor a H0 si a HA de a fi retinute se apropie una de alta, deci regiunea in care H 0 cand este
adevarata devine si ea mai mare (vezi urmatorul grafic). In acest fel eroarea de Tip I de a respinge
din greseala H0 este mai mare decat eroarea de Tip II (α > β ). Erorile de Tip I detecteaza un efect
neexistent.

α > β
Daca diferentele intre parametrii testati sunt mari, cele doua distributii de probabilitati se vor
indeparta una de alta. Prin urmare, regiunea in care H0 este adevarata va scadea iar regiunea in care
HA este adevarata va creste. Deci, eroarea de Tip II de a retine din greseala H 0 este mai mare decat
eroarea de Tip I. Erorile de Tip II nu detecteaza un efect existent.

Erorile de Tip II (efecte nedetectate) sunt foarte importante in monitoring-ul de mediu si evaluarea
impacturilor activitatilor umane asupra mediului. Ele reprezinta de fapt nereusita de a detecta o
schimbare care a avut loc. Verdictul de “impact nesemnificativ” (retinerea defectuoasa a H0) rezulta
in continuarea activitatilor nocive. Consecinta erorii de Tip II esta de a nu detecta degradarea
significanta a mediului cand ea este prezenta deja sau, cel putin, de a o detecta inainte de a se
inrautati situatia prea tare (Quinn & Keough 2002). Inversul erorii de Tip II este puterea testului,
probabilitatea de a respinge o H0 falsa:
puterea testului=P(H0 respinsa|HA adevarata)=(1- β).

31
3.5 Semnificatia de mediu vs. semnificatia statistica

Am vazut ca erorile de Tip II (efect nedetectat) pot cauza probleme de mediu. Deci, trebuie sa
prestabilim dimensiunile efectelor (engl. effect sizes), care sunt significante din punct de vedere al
mediului, ca si puncte de referinta sau intervale de referinta (daca variabilele sunt continue) inainte
de a efectua testul statistic. Mai apoi sa comparam rezultatele statistice cu punctul sau intervalul de
referinta si sa concludem daca rezultatele sunt semnificative in situatii reale date (Quinn & Keough
2002). Pentru ca suntem adeptii parerii ca si dimensiuni mici ale efectelor pot avea un impact mare
nu numai asupra parametrilor biologici ci si la scale spatiale mari de mediu, introducem pe scurt
conceptul panarhiei dezvoltat de Folke (2006). Conform acestuia, efecte mici dar la scala mare
(spatiala si/sau temporala) in variabile care se modifica foarte incet (de ex. pedogeneza,
biodiversitatea, specii cheie – engl. keystone species) ar putea genera efecte mari la scale mici
(Tesileanu 2009).

Fig.: Panarhia, un model explicativ simplificant


format din cicluri de reinoire adaptive
intercalate care subliniaza influentele pe care le
au scalele una asupra alteia.

Acest tip de a vedea lucrurile ar putea genera discutii noi si pe tema pragurilor ecologice critice, mai
ales in alegerea intervalelor de confidenta ale testelor statistice, alegere care ar trebui sa fie bazata
pe analizarea dimensiunilor semnificative ale efectelor si incorporarea lor in controlul erorii de Tip
II. Deciziile luate in legatura cu pragurile ecologice critice ar trebui intotdeauna sa aiba intervale de
confidenta astfel stabilite. Daca pragurile ecologice critice nu pot fi stabilite (din lipsa de
cunostinte), atunci ar trebui folosite praguri critice stabilite de societatea in care traim, in functie de
importanta atribuita riscurilor cu privire la deciziile de mediu (Jax 2014). Insa atunci rezultatele
statistice au un alt inteles care trebuie interpretat ca atare.

Fig. Valoarea arborilor in protectia impotriva


inundatiilor ( dupa Farber et al. 2002)

32
Pentru ca cele doua erori, α si β, au caracter competitiv, adica cresterea uneia duce la scaderea
celeilalte, raportul celor doua erori descrie ce importanta atribuim fiecarei dintre ele.

P(choosing H0|H0 true)/P(choosing HA/HA true)=(1- α)/(1- β)


• daca α = β, raportul lor este egal cu 1
• daca α > β => (1- β) devine mai mare, deci puterea testului devine mai mare.

Problema este ca de multe ori nu stim cum arata distributia H A, numai cea a H0 (Quinn & Keough
2002). Daca distributia HA este necunoscuta, este greu de stiut raportul exact dintre cele doua erori.
Desi, acest lucru este important daca vrem sa controlam eroarea de Tip II cu ajutorul acestui raport.
Daca folosim numai H0 in distributii (ca in graficele de mai sus), ambele erori pot fi mai usor
vizualizate. Putem astfel sa ne decidem ce tip de eroare este mai importanta pentru analiza noastra,
si sa stabilim raportul dorit intre cele doua erori numai pe baza distributiilor H 0. Problema
necunoasterii distributiei HA ramane insa de necontestat. Daca respingem H0, alegem o necunoscuta
in schimb? Problema necunoasterii HA este cel putin la fel de controversata ca cea a subiectivitatii
distributiei anterioare. Daca avem subiectivitate in ambele tipuri de analiza statistica (in cea
Bayesiana si in cea clasica- in distributia anterioara si in distributia H A) atunci HA sunt practic la fel
numai interpretarea rezultatelor este diferita. Atunci cel putin sa recunoastem ca suntem subiectivi
intr-o oarecare masura. Deci, aici intervine importanta calitatii procesului de analiza in generarea
rezultatelor statistice. Cunoastem variabilele indeaproape? Ce dizain aplicam in acest context? Cum
stabilim nivelul de significanta? Ce tip de eroare este important? Cum interpretam rezultatele din
punct de vedere biologic/de mediu/s.a. m.d..

3.6 Alte metode de testarea ipotezelor (in afara celor parametrice)

Alte metode folosite in testarea ipotezelor statisticii clasice sunt:


– testele parametrice robuste (de ex. testul-t-Welch)
– testele randomizante
– testele neparametrice bazate pe ranguri (testul MWW, testul Wilcoxon)
– clasa de teste cu transformarea datelor in ranguri

3.6.1 Testele parametrice robuste

Pentru urmatoarea ipoteza nula:

H0: μ1= μ2, but σ21 ≠ σ22

putem folosi testul-t-Welch pentru doua esantioane de dimensiuni esantionale egale sau inegale si
cu variante inegale.

t=(ȳ1-ȳ2)/sȳ1-ȳ2
unde,

sȳ1-ȳ2=

33
Testul Welch este adecvat cand esantioanele provin din populatii distribuite normal.
Pentru populatii cu distributii asimetrice putem folosi testul H Wilcox, bazat pe estimatori M si
estimari ale variantei obtinute prin bootstrap.

3.6.2 Testele randomizante

Aceste teste reesantioneaza sau restructureaza datele originale de mai multe ori pentru a genera
distributii esantionale a unei statistici de testare.

De ex. sa testam ipoteza nula H0: μ1= μ2 , nici o diferenta intre unitati experimentale. Sa folosim
exemplul dat de Quinn & Keough (2002) de comparare a zonelelor cu midii si melci de strand in
ceea ce priveste media numarului de oua depuse de L. vinosa (gastropode).

Pasii unui test randomizant sunt urmatorii:


– calcularea diferentei intre mediile a doua unitati/grupuri/zone experimentale: D0=ӯ1-ӯ2
– redesemnarea randomizata/aleatoare a observatiilor celor doua zone (n1+n2) respectand
dimensiunile esantionale ale esantioanelor originale si recalcularea diferentei intre cele doua
zone: D1=ӯ1'-ӯ2
– repretarea pasului de redesemnare randomizata a observatiilor un numar mare de ori (de ex.
1000 de ori pentru un nivel de semnificatie de 0.05, de 5000 de ori pentru 0.01) de fiecare
data calculand Di
– calcularea proportiei intre numarul Di≥D0 si numarul total al Di => valoarea noastra P, care
poate fi comparata cu un nivel de semnificatie stabilit a priori va decide daca vom respinge
sau nu H0.

Putem folosi testele randomizante pentru a:


– compara doua grupuri experimentale
– testa daca un set de observatii se inregistreaza aleator sau nu (de ex. observatiile seriilor de
lunga durata)
– pentru a analiza datele ale caror distributii sunt necunoscute
– cand esantionarea randomizata nu este posibila (de ex. in folosirea observatiilor care se
inregistreaza in mod oportun)
– cand alte prezumtii, cum ar fi independenta observatiilor, sunt indoielnice, ca atunci cand
testam trend-uri temporale (autocorelarea observatiilor in seriile de lunga durata).

Potentiale probleme de interpretare:


– rezultatele lor sunt mai dificil de extrapolat pentru populatii mai mari, pentru ca testele
randomizante reesantioneaza datele a doar doua grupuri experimentale. Insa dat fiind ca
rezultatele testelor parametrice standard genereaza valori P similare cu cele ale testelor
randomizante, discutia extrapolarii pentru o populatie intreaga ar trebui extinsa si pentru
cele standard sau sa afirmam ca pentru testele randomizante aceasta problema este doar
teoretica si nu si practica (Quinn & Keough 2002).
– ipoteza H0 nu este legata strict de un parametru al populatiei ci doar de diferentele dintre
mediile a doua grupuri, sau ca alternativa sa afirmam ca diferenta daca este mai mare, nu
este mai mare doar in mod accidental. Pentru ca valoarea P este determinata printr-un proces

34
de reesantionare, putem determina si intervale de confidenta pentru valoarea P.

Testele randomizante nu sunt lipsite de prezumtii:


– este posibil sa fie sensibile la diferentele intre variante, deci aceste teste nu ar trebui aplicate
din start numai pentru a evita problema heterogenitatii variatelor
– testele randomizante de diferente de locatie (legate de medii) au prezumtia conform careia
distributiile variabilelor din cele doua esantioane sunt similare.

3.6.3 Testele neparametrice bazate pe ranguri (engl. rank-based tests)

Principiul dupa care sunt construite testele neparametrice bazate pe ranguri este de a atribui ranguri
observatiilor si mai apoi de a reesantiona randomizat valorile astfel transformate pentru a construi o
distributie esantionala pentru o statistica de testare bazata pe ranguri (de ex. pentru suma
esantionala a rangurilor). Reesantionarea randomizata are loc cu ajutorul testelor randomizante in
baza observatiilor originale.

Testul Mann-Whitney-Wilcoxon despre diferentele intre doua populatii

H0: doua populatii provin din distributii indentice


HA: esantioanele provin din populatii care difera doar in termeni de locatie (medii sau mediane)

Pasii unui test MWW:


– Atribuirea unui rang tuturor observatiilor, ignorand grupurile. Observatiilor legate li se
atribuie media rangurilor lor. Observatiile legate (engl. tied observations) apar cand doua
sau mai multe observatii sunt egale, fie ca ele apar in acelasi esantion sau in esantioane
diferite.
– Calcularea sumei rangurilor pentru ambele esantioane. Daca H 0 este adevarata, ne asteptam
la o mixtura de ranguri similara in ambele esantioane.
– Compararea sumei mai mici a rangurilor cu distributia de probabilitati a sumei esantionale a
rangurilor, care ne sta la dispozitie in tabele bazate pe esantionari randomizate repetate a
observatiilor, pentru a testa ipoteza.
– Pentru dimensiuni esantionale mari, distributia de probabilitati a sumei rangurilor se apropie
de distributia normala, si statistica z poate fi folosita. Dar este numai o
aproximare/apropiere, deci rezultatele testelor-MWW care au fost efectuate cu programe
diferite pot varia, in functie de ce s-a folosit pentru a testa: aproximarea bazata pe
dimensiuni esantionale mari sau metode de reesantionare randomizata exacte, si de cum s-au
tratat observatiile legate.

Testul Wilcoxon de ranguri cu semn despre diferente bazate pe observatii pereche


(engl. Wilcoxon signed-rank test)

H0: doua seturi de observatii provin din aceeasi populatie


HA: populatiile difera in locatie (media sau medianul)

=> analizeaza esantioane pereche, deci diferente pereche

Pasii unui test Wilcoxon de ranguri cu semn:


– Calcularea diferentei intre observatii pentru fiecare pereche, notand semnul pentru fiecare

35
diferenta. If H0 este adevarata, ne asteptam la aproape acelasi numar de semne – si + .
– Calcularea sumei rangurilor pozitive si a sumei celor negative.
– Compararea sumei mai mici a rangurilor cu distributia de probabilitati a sumei esantionale a
rangurilor, care ne sta la dispozitie in tabele bazate pe esantionari randomizate repetate a
observatiilor, pentru a testa ipoteza.
– Pentru dimensiuni esantionale mari, distributia de probabilitati a sumei rangurilor se apropie
de distributia normala, si statistica z poate fi folosita. Dar este numai o
aproximare/apropiere, deci rezultatele testelor-MWW care au fost efectuate cu programe
diferite pot varia, in functie de ce s-a folosit pentru a testa: aproximarea bazata pe
dimensiuni esantionale mari sau metode de reesantionare randomizata exacte, si de cum s-au
tratat observatiile legate.

3.6.4 Clasa de teste cu transformari in ranguri (engl. rank transformation tests)

Testele cu transformarea datelor in ranguri pot teoretic fi aplicate la orice fel de analiza pentru care
ar exista si un test parametric, numai ca prezumtiile parametrice nu sunt indeplinite si suntem
nevoiti sa folosim un test neparametric. Idea de baza a testelor cu tranformari in ranguri este de a
transforma mai intai datele in ranguri. Aceasta transformare este in principiu ca orice tranformare a
datelor in alte scale de masura, de ex. transformarea logaritmica a datelor. Testul cu transformari in
ranguri va da in general aceleasi rezultate ca si testul bazat pe ranguri care ii corespunde. Testele
bazate pe metoda transformarii in ranguri au fost folosite si in diferite analize de modele lineare.

3.6.5 Testele neparametrice: remarci

– Desi testele neparametrice de diferente de locatie nu pun conditia unei anumite forme a
distributiei (de ex. cea normala), ele presupun totusi ca distributiile populatiilor din care
provin observatiile sunt similare, deci prezumtia homogenitatii variantelor (variante egale)
ramane valabila. Heterogenitatea in variante in testarea ipotezelor cu doua esantioane ar
trebui efectuata folosind un test robust ca testul-t-Welch, sau prin tranformarea datelor
pentru a inlatura relatia dintre medie si varianta (cap. 4).
– Testele neparametrice au in general o putere a testului mai mica ca testele parametrice
corespunzatoare, dar diferenta in putere este mica.
– Cu distributii ne-normale, testele neparametrice sunt mai fiabile ca cele parametrice, dar
normalitatea in sine nu este o prezumtie parametrica atat de aspra, deci este greu de spus
care dintre cele doua tipuri de teste ar trebui folosite, cu exceptia cand:
• distributiile arata foarte ciudat (foarte asimetrice, foarte decalate spre o parte sau
alta), iar transformarile nu ne folosesc la nimic. Acest lucru poate fi cauzat de
valorile extreme. Care ne aduce la punctul urmator: prezenta valorilor extreme.
• Daca valorile extreme sunt prezente este bine de stiut ca nici testele
neparametrice nu sunt imune la valori extreme, ci doar ca nu sunt atat de afectate
de ele ca cele parametrice. O alternativa ar fi tratarea valorilor extreme prin
trimming si winzorizing (vezi cap. 1) si folosirea unui test parametric.
– Testele bazate pe ranguri nu aduc nici un avantaj fata de testele randomizante bazate pe
datele originale. Testele bazate pe ranguri au fost create inainte de dezvoltarea informaticii.
Ambele tipuri de testare au prezumtia distributiilor egale a celor doua grupuri, si deci
variante egale, si nici unul nu este foarte sensibil la ne-normalitate.

36
Quinn si Keough (2002) recomanda folosirea testelor parametrice pentru datele care in forma lor
originala sunt sub forma de ranguri (deci nu masurate pe o scala continua) daca prezumtiile
parametrice sunt indeplinite. Acest procedeu este mai simplu si mai coerent.

3.7 Testarea multipla

Unul din punctele cele mai critice ale testelor statistice este acumularea de erori de decizie in
testarea multipla. Sa consideram ca avem o familie de teste (un set de teste), definita ca fiind o
colectie de teste simultane, in care un numar de ipoteze sunt testate simultan folosind un singur set
de date de la un singur experiment sau program esantional. Ne intalnim cu o familie de teste cand
de ex. facem comparatii pereche intre grupuri de tratament dintr-un experiment, testam corelatii
pereche intre variabile multiple inregistrate in aceleasi unitati experimentale sau esantionale sau in
analize univariate multiple ( de ex. teste t) ale acestor variabile. Cand numarul de teste din cadrul
unei familii creste, asa se intampla si cu probabilitatea de a face cel putin o eroare de Tip I printre
multiplele teste efectuate. Aceasta probabilitate este numita rata familiala (la nivel de familie) de
erori de Tip I (engl. family-wise Type I error rate). Rata de erori de Tip I apare in orice situatie cand
avem teste de significanta multiple care sunt considerate simultane.
Daca testele sunt ortogonale (independente una de alta), rata familiala de erori de Tip I poate fi
calculata:

, unde c este numarul de teste.

Tinem testele independente daca nu folosim aceeasi populatie in mai mult de un test.
Daca testele sunt ne-ortogonale, atunci rata familiala de erori de Tip I este mai mica, dar nu poate fi
calculata pentru ca depinde de gradul de ne-independenta dintre teste.

Cand luam in considerare rata familiala a erorii de Tip I fiecare cercetator ar trebui sa ia o decizie a
priori despre importanta relativa a ratelor erorilor de Tip I si II, pentru ce ele sunt legate una de alta.
O reducere in eroarea de Tip I genereaza o crestere a erorii de Tip II. Controlul ratei familiale de
erori de Tip I (setarea ei prea joasa), devine o problema daca eroarea de Tip II are semnificatie de
mediu (adica daca efectul testat pentru populatia in cauza la un nivel care genereaza o problema de
mediu iar efectul ramane neidentificat statistic).

Controlul ratei familiale de erori de Tip I

Oricare ar fi parerea noastra despre cele expuse mai sus in legatura cu controlul ratei familiale de
erori de TipI, s-ar putea ca vreodata situatia sa ne ceara lucrul asta. Putem controla rata familiala a
erorii de Tip I prin ajustarea nivelelor de significanta in jos pentru fiecare test. Putem sa ajustam si
valorile P si sa folosim aceleasi nivele de significanta. Este echivalent.

– Procedura Bonferroni: in care se divizeaza α cu c (nr. de teste). Fiecare comparatie este


testata la nivelul de significanta α/c. Acest procedeu asigura un control strict al ratei de erori
de Tip I dar fiecare test sau comparatie va avea valoare interpretationala mica (puterea
testului este mica).
– Procedura Dunn-Sidak: fiecare comparatie este testata la 1-(1- α)1/c.
– Bonferroni secventiala: statisticile (F, t, ect.) fiecarui test c sau valorile P sunt aranjate pe
ranguri de la cea mai mare valoare la cea mai mica, iar valoarea P cea mai mica este testata
la α/c, urmatoarea la α/(c-1), urmatoarea la α/(c-2), etc.. Opriri de testare cand apare un

37
rezultat significant. Aceasta procedura confera mai multa putere fiecarui test c. Putem si sa
incepem cu valoarea P cea mai mare in mod analog. Testele ne-parametrice care folosesc
aceasta structura sunt de ex. testul Student-Newmann-Keuls, sau testul Dunnett, cu opriri la
aparitia unui rezultat significant.
– Ajustarea valorilor P bazata pe reesantionare: Westfall si Young (1993) au definit valoarea P
ajustata ca:

unde, Prand este valoarea P randomizata a fiecarui test. In principiu, procedura lor masoara cat
de extrema este oricare valoare P dintr-o lista de valori P obtinute intr-un set de teste
multiple presupunand ca toate H0 sunt adevarate.

3.8 Combinarea rezultatelor testelor statistice

– combinarea valorilor P
– meta-analiza

Aceste procedee sunt utilizate pentru a evalua studii in care au fost folosite analize statistice pentru
a testa ipoteze similare despre tema investigata, de ex. efectul unui anumit tratament experimental.
Interesul nostru este sa investigam dimensiunile efectului tratamentului la un nivel mai amplu cu
ajutorul datelor din mai multe studii si de a testa H 0 ca nu este un efect de amploare/general (engl.
overall effect) al tratamentului.

Combinarea valorilor P

Acest procedeu combina valorile P dintr-un numar de teste independente care au aceeasi ipoteza.
Pentru testarea H0 generala se foloseste o distributie de probabilitati bazata pe urmatoarea formula:

unde, c este numarul de teste independente, fiecare cu valoarea lui P folosita pentru testarea H 0
generale. Distributia de probabilitati pentru valorile P combinate este o distributie X 2 (chi patrat) cu
gradele de libertate df=2c.

H0 generala este ca toate H0 din colectie sunt adevarate. Respingem H0 generala daca concluzionam
ca exista un efect general/ de amploare al tratamentului investigat sau un contrast de amploare intre
analize.

Meta-analiza

Valorile P sunt numai o parte din informatia folosita pentru a interpreta testele statistice. Ele indica
numai daca sa respingem sau nu H 0 la nivelul ales de significanta. Un procedeu mai bun ar
incorpora dimesiunile efectelor si ale dimensiunilor esantionale in combinarea rezultatelor
diferitelor teste si un rezumat global al concluziilor diferitelor studii. O meta-analiza ofera aceste
lucruri.
In principiu, meta-analiza calculeaza pentru fiecare analiza incorporata, o masura a dimensiunii
efectelor care considera efectul variantei. Aceste dimensiuni ale efectelor ale unui numar c de teste
sunt divizate/ponderate folosind suma inverselor variantelor lor (inversa variantei medii ponderate).

38
Aceste dimensiuni ponderate ale efectelor pot fi folosite ca o masura rezumativa a efectului general
al procesului investigat. Putem sa calculam si o masura a homogenitatii (Q) pentru a testa daca toate
c dimensiuni ale efectelor sunt egale. Q este suma medie a diferentelor patrate intre dimensiunile
fiecarui efect si inversa variantei medii ponderate ale dimensiunilor efectelor (un fel de deviatie
standard pentru dimensiunile efectelor). Q are o distributie X2 cu grade de libertate df=c-1.

Meta-analiza poate fi folosita in orice situatie in care vrem sa investigam dimensiunile unui efect,
iar varianta lui poate fi calculata, deci nu se restrange doar la variabilele continue. Meta-analizele
insa depind de calitatea literaturii investigate. Daca lucrarile studiate nu ofera destula informatie
pentru a masura dimensiunile efectului si varianta lui, atunci aceste lucrari nu pot trece de controlul
calitatii. Un punct slab important al meta-analizei este problema publicarii preferentiate (engl. file-
drawer problem). Adica, cercetatorii sunt inclinati spre a publica cu predilectie studiile care au
produs rezultate significante din punt de vedere statistic, restul raman ascunse in sertarele (enlg. file
drawer) birourilor. Deci, studiile cu rezultate nesignificante sunt subreprezentate in literatura de
specialitate. O meta-analiza a lucrarilor publicate ar trebui sa includa si o analiza atenta a intrebarii
referitoare la ce populatie statistica formeaza aceste studii publicate.

3.9 Critica adusa procesului de testare al ipotezelor statistice

Conform argumentelor expuse de Quinn si Keough (2002), validitatea testarii significantei a fost
pusa sub semnul intrebarii de unii psihologi (de ex. Cohen 1990, 1994, s.a.) si de unii biologi (de
ex. Johnson 1999, s.a.). Unele dintre subiectele de debata sunt:
– dependenta de dimensiunile esantionale si regulile de oprirea testarii
– spatiul esantional – relevanta datelor ramase neobservate
– valorile P ca masura a dovezii aduse impotriva H0
– ipoteza nula formulata a priori ca falsa
– nivele de significanta alese arbitrar.

De aceea cu timpul au aparut alternative la procedurile statisticii clasice:


– estimarea intervalelor si determinarea dimensiunilor efectelor (Cohen si Oakes)
– posibilitati (engl. likelihoods) bazate pe date observate ca si dovada in evaluarea ipotezelor
alternative
– procedurile Bayesiene, bazate pe combinarea probabilitatilor anterioare cu functiile de
posibilitate pentru a produce probabilitati posterioare.

=> asadar exista patru curente importante ale inferentei statistice (adica ale statisticii ca domeniu):
– testarea ipotezelor dupa modelul Fisherian (inceputurile statisticii clasice)
– testarea ipotezelor dupa modelul Neyman-Pearson (statistica clasica moderna)
– inferenta posibilitatilor bazate pe functii de posibilitate (Royall 1997)
– metodele Bayesiene.

Cele patru curente ale inferentei statistice au doua puncte comune:


– functia de posibilitati: dovada adusa de datele observate in ceea ce priveste ipoteza este
reprezentata de functia de posibilitati, care este posibilitatea de a observa datele esantionate
avand in vedere ipoteza data.
– Proportia de posibilitati: putem avea mai multe ipoteze care sunt valabile intr-o oarecare
masura (masura relativa de dovada) pentru aceleasi date esantionate. Proportia dintre
masurile relative de dovada aduse in sprijinul ipotezelor competitive este numita proportia

39
de posibilitati. Cu alte cuvinte, poate fi vazuta ca o masura a influentei relative a dovezii
aduse de datele esantionate in favoarea H1 comparata cu H2. Daca propotia de posibilitati
este egala cu 1, atunci cele doua ipoteze sunt egale in termeni de dovada adusa in favoarea
lor. Acesta este principiul de posibilitate (engl. likelihood principle). Unul din argumentele
folosite impotriva testelor statistice de significanta este ca ele incalca principiul de
posibilitate.

Proportia de posibiliati a
doua ipoteze competitive.

Posibilitatile sunt relevante in ambele curente statistice, in cel clasic si in cel Bayesian. Proportiile
de posibilitati pot fi adesea testate in cadrul metodelor statisticii clasice. Cu multe conditii
indeplinite, proportia de posibilitati este distribuita conform unei distributii X 2. In analiza
Bayesiana, datele observate intra in inferenta statistica prin functia de posibilitate si, daca distributia
probabilitatii anterioare este non-informativa, atunci distributia probabilitatii posterioare are aceeasi
forma cu cea a functiei de posibilitate (Quinn & Keough 2002).

In ceea ce urmeaza prezentam pe scurt principalele subiecte de debata legate de testarea clasica a
ipotezelor: dependenta de dimensiunile esantionale si regulile de oprirea testarii, spatiul esantional –
relevanta datelor ramase neobservate, valorile P ca masura a dovezii aduse impotriva H 0, ipoteza
nula formulata a priori ca falsa, nivele de significanta alese arbitrar.

a) Dependenta de dimensiunile esantionale si regulile de oprirea testarii

Asta inseamna ca daca pastram tot dizainul testarii la fel si variam numai dimensiunile esantionale,
dimensiuni esantionale mari pot induce rezultate statistice significante chiar si in cazul efectelor
minore/neinsemnate. Deci dizainul bazat pe considerente a priori legate de puterea testului sunt
cruciale. Trebuie analizat cum se schimba eroarea de Tip II (retinerea gresita a H 0) prin varierea
dimensiunii esantionale. Decat sa alegem dimensiunile esantionale in mod arbitrar, alegerea noastra
ar trebui sa fie bazata pe cantitatea de esantioane necesare pentru a detecta un efect statistic care
indica un impact de mediu significant daca ar aparea la nivelul populatiei studiate. Subiectul legat
de alegerea arbitrara a dimensiunilor esantionale este legat si de regulile de oprirea testarii. Cum ne
hotaram cand sa oprim un experiment sau un program de esantionare? In testarea clasica a
ipotezelor, felul in care datele sunt colectate (randomizat/aleator sau nu, si ce dimensiuni
esantionale folosim) influenteaza modul in care analizam si interpretam rezultatele. Insa acest lucru
nu se intrevede in proportia de posibilitati a celor doua ipoteze competitive, a caror masuri de
dovada relative nu par a depinde de dimensiunile esantionale sau punctul de oprire al testarii.
Conform principiului de posibilitate aceste considerente nu ar trebui sa fie relevante (Quinn &
Keough 2002).

b) Spatiul esantional- relevanta datelor ramase neobservate

Spatiul esantional este setul de rezultate posibile ale unui experiment de lunga durata sau ale unui
exercitiu de esantionare, deci reuneste toate valorile posibile ale unei variabile randomizate ale unei
statistici de testare. Cu alte cuvinte, este distributia de probabilitati ale unei statistici de testare. Asa
o distributie include practic si valori care nu sunt observate in colectii de esantioane din situatiile
reale. Am putea spune ca valorile extreme de la capetele distributiei, care sunt folosite pentru a

40
delimita spatiul erorilor de sub curba distributiei (integralele erorilor), nu sunt bazate pe date
observate in realitate. Deci nu putem masura cu exactitate erorile decat teoretic si din punct de
vedere frecvential. Deci, dovada acelorasi date observate exprimata cu ajutorul functiei de
posibilitate poate duce la concluzii diferite. Un contra-argument este ca posibilitatile nu permit
masurarea probabilitatilor erorilor testelor statistice cu ajutorul distributiilor statisticii de testare.

Probabilitatile frecventiale sunt de fapt functii de posibilitate care sunt interpretate cu ajutorul
distributiilor statisticii de testare. Functiile de posibilitate L(data|H) nu au interpretare frecventiala,
chiar daca ca forma par a fi similare cu probabilitatile frecventiale (tot P(data|H)). L(data|H) este
acelasi lucru cu P(data|H) din formula inferentei Bayesiene.

c) Valorile P ca masura a dovezii aduse impotriva H0

Daca plecam de la intrebarea: ce vrem sa aflam de la un test statistic, atunci cele doua curente
statistice ne ofera doua raspunsuri diferite. Conform ideii expuse de Mayo (1996), testarea clasica a
ipotezelor investigheaza “care este probabilitatea cu care niste rezultate anume ar apare dat fiind un
anume experiment” (Quinn si Keough 2002). Deci, ceea ce ne informeaza testul de significanta
clasic este probabilitatea de lunga durata de a obtine datele esantionate, daca H 0 este adevarata,
adica P(data|H0). Pe de alta parte, analiza Bayesiana este bazata pe idea ca ceea ce vrem sa aflam de
fapt de la un test statistic este probabilitatea cu care H 0 este adevarata, dat fiind datele esantionate,
adica P(H0|data).

Aceste doua probabilitati, P(data|H0) si P(H0|data) nu sunt inverse, si analizele Bayesiene care ofera
o masura a P(H0|data), pot produce rezultate foarte diferite si nelegate de valorile P ale testelor de
significanta.

d) Ipoteza nula formulata a priori ca falsa

Cohen (1990) si altii au argumentat ca testarea H 0 este superfluu (inutila) pentru ca ea este de la
inceput formulata ca fiind falsa: mediile a doua populatii nu vor fi niciodata exact la fel, un anumit
parametru nu va fi niciodata exact zero. Si acest lucru este adevarat mai ales in stiintele naturii in
care cele mai multe H0 sunt intotdeauna false. Deci, ce rost are sa testam o ipoteza care stim de la
inceput ca este falsa? Ideea este ca ar trebui sa ne uitam la H 0 ca la un complement al ipotezei de
cercetare pe care vrem sa o investigam. Ipoteza nula nu ne arata decat ca am detectat un efect pe
care ar trebui sa il investigam mai departe. Mai mult ipotezele nule nu trebuie sa fie numai de forma
“nici un efect asteptat”. Ar putea fi si cazuri in care un parametru are o valoare non-zero. De ex. in
monitoringul de mediu am putea compara parcelele de control cu cele de impact, si sa presupunem
schimbari de-alungul timpului in diferenta control-impact. Am putea sa presupunem ca doua medii
sunt diferite una de alta ca rezultat al proceselor naturale, dar si al activitatii umane, de ex.. Acest tip
de investigatie este si in spiritul inferentei Bayesiene.

e) Nivele de significanta alese arbitrar

Nu avem de ce sa folosim pentru toate testele un nivel de significanta fixat la 0.05. Mapstone
(1995) ne ofera un cadru de luarea-deciziilor in care probabilitatile erorilor de Tip I si II sunt setate
in functie de evaluarea costurilor pe care le implica o decizie eronata.

Dupa ce am prezentat pe scurt punctele sensibile ale testarii clasice a ipotezelor, se mentioneaza ca
folosirea ei in mod adecvat, adica in legatura cu ipoteze apropriate, combinata si cu alte forme de
interpretare (de ex. care iau in considerare dimensiunile efectelor si intervalele de confidenta) poate

41
oferi un cadru de evaluare sensibil (care este capabil de a indica diferente) al ipotezelor de
cercetare. Totusi, dupa cum s-a mai mentionat anterior, ar trebui sa ne gandim in permanenta la
faptul ca significanta statistica nu implica in mod necesar importanta din punct de vedere biologic
sau de mediu. Rezultatele statistice fara o ipoteza de cercetare relevanta din punct de vedere
biologic sau de mediu nu sunt capabile de a aduce noi cunostinte in domeniu. Iar acesta este scopul
cercetarii. Rezultatele statistice doar ajuta la intelegerea proceselor nu le genereaza. Numai prin
planificarea studiilor statistice in asa fel incat ele sa detecteze un efect relevant din punct de vedere
biologic sau de mediu putem relationa significanta biologica sau de mediu cu cea statistica (Quinn
& Keough 2002).

3.10 Testarea Bayesiana a ipotezelor

O metodologie care reprezinta o alternativa realista la testarea clasica a ipotezelor in anumite


circumstante este cea Bayesiana. In metodologia Bayesiana, parametrii populatiei sunt aleatori sau
cel putin sunt declarati ca necunoscuti. Bayesienii construiesc distributii posterioare de posibilitati
pentru un parametru si folosesc aceste distributii de probabilitati pentru a calcula intervale de
confidenta. Ei folosesc informatii dobandite a priori (informatii anterioare) pentru a modifica
distributiile posterioare de probabilitati ale parametrilor. Aceaste informatii dobandite a priori sunt
exprimate in probabilitati bazate pe evaluari subiective despre starea unui parametru. Bayesienii nu
evalueaza de obicei ipoteze alternative sau modele dupa principiul respins/retinut. Ei pur si simplu
se pozitioneaza mai mult sau mai putin in favoarea alternativelor prezentate, folosindu-se de forma
distributiei posterioare de probabilitati.

Putem folosi inferenta Bayesiana pentru a afla probabilitatea unei ipoteze, de ex. H 1, de a fi
adevarata dat fiind datele esantionate:

Deci, putem sa facem asta cu orice H0:

probabilitatea posterioara a H0 = posibilitatea de a observa datele esantionate daca H 0 adevarata ˟


probabilitatea anterioara a H0

Probabilitatea posterioara se obtine prin integrare (daca parametrul al H 0 este continuu) sau
insumare (daca este discret) sub distributia posterioara de posibilitati pentru spectrul de valori
specificate in H0.

Putem sa prezentam dovada relativa pentru H0 si ipoteza competitiva HA sub forma de raport
posterior de sanse (engl. posterior odds ratio):

adica, raportul probabilitatilor posterioare ale ipotezelor competitive, dat fiind datele avute.

42
Raportul posterior de sanse este si produsul dintre [P(H0)/P(HA)] si factorul Bayes (B):

[P(H0)/P(HA)] ˟ factorul Bayes = P(H0│data)/P(HA│data)

Daca P(H0)=P(HA) => B = P(H0│data)/P(HA│data)


Daca P(H0)≠P(HA) => B≠ P(H0│data)/P(HA│data), de aceea factorul Bayes este folosit mai ales in
cazurile in care cele doua probabilitati anterioare sunt egale.

Cand ambele ipoteze sunt simple (adica θ egaleaza o anumita valoare) factorul Bayes este si
raportul de posibilitati:

Si, teoretic, daca:

B=L(data│H0)/L(data│HA) si P(H0)=P(HA), deci in plus B = P(H0│data)/P(HA│data) atunci


teoretic:

B= L(data│H0)/L(data│HA)=P(H0│data)/P(HA│data) => in acest caz, inferenta clasica = inferenta


Bayesiana. (cele doua probabilitati anterioare se anuleaza reciproc)

Totusi, cand valorile P clasice [P(data│H0)] sunt comparate cu factorii Bayes sau probabilitati
posterioare [P(H0│data)], diferentele pot fi notabile, chiar daca P(H0)=P(HA). Un motiv pentru acest
fapt este ca valorile P sunt conditionate de spatiul esantional, care include si o suprafata sub
distributie ce contine valori mult mai extreme decat cele observate. Pe de alta parte, probabilitatea
posterioara Bayesiana este conditionata numai de datele observate introduse in inferenta prin functia
de posibilitati.

Cand una sau amandoua ipotezele sunt mai complexe, factorul Bayes ramane un raport de
posibilitati, insa numitorul si numaratorul sunt determinate prin integrarea sub functiile de
posibilitati pentru spectrul de valori ale parametrului specifice pentru ipoteza respectiva. Acum
folosim functiile de posibilitate mai mult ca pe niste distributii de probabilitati. Pentru ipoteze
complexe cu parametrii multipli aceasta integrarea poate fi complicata, si s-ar putea sa avem nevoie
de metodele Monte Carlo (care vor fi explicate in cursul de statistica Bayesiana). Pentru a alege
intre ipoteze, putem ori sa elaboram un cadru decizional (engl. decision framework) cu valori critice
pentru raportul de sanse stabilite a priori, sau mai des intalnit, sa folosim dimensiunea/valoarea
factorului Bayes ca dovada in favoarea unei ipoteze.

Diferentele dintre valorile P si probabilitatile posterioare Bayesiene sunt mai severe in cazul testelor
bilaterale, in care valorile P subestimeaza dovada adusa impotriva H 0, adica retine H0 cand
probabilitatea posterioara sugereaza ca dovada adusa este destul de puternica pentru a respinge H 0.
In ciuda acestui fapt, valorile P sunt in mare parte intr-o relatie monotona cu probabilitatile
posterioare ale H0, adica valorile P mai mici implica valori mai mici ale probabilitatilor posterioare,
si pentru testele unilaterale s-ar putea chiar sa existe o echivalenta intre valorile P si probabilitatile
posterioare pentru distributii anterioare tolerabile.

Deci, ce metodologie sa alegem: testarea clasica a ipotezelor sau metodologia Bayesiana?

43
Daca continutul din informatia probabilitatii anterioare poate fi luat in considerare si incorporat in
dizainul experimentului/studiului, atunci Quinn si Keough (2002) recomanda utilizarea testarii
clasice a ipotezelor. Deci, in experimente bine dizainate, in care puterea de a detecta o H A
rezonabila (un efect) a fost considerata in mod explicit in dizainul procesului, si raportul dintre
eroarea de Tip I si II a fost stabilit, putem folosi testarea clasica a ipotezelor.

Pe de alta parte, metodele Bayesiene au fost folosite cu precadere in estimari si nu pentru testarea
ipotezelor. Pentru ca ele pot fi folosite pentru a descrie dimensiunile efectelor, le putem folosi
pentru a compara efectele estimate ale doua sau mai multe actiuni/activitati/scenarii. Deci, metodele
Bayesine au fost folosite mai ales in managementul de mediu, cand administratorii sunt interesati
mai mult in a sti probabilitatea unui anume rezultat sau probabilitatea diferitelor politici de a avea
rezultatele dorite. A sti daca diferitele politici sunt diferite significant una fata de alta nu ne ajuta
prea mult, iar calcularea probabilitatilor posterioare ale modelelor competitive ar fi mai apropriata.
Experimentele unice, nereplicate ar putea face si ele subiectul analizelor Bayesiene pentru ca in
acest caz interpretarea cu ajutorul frecventelor de lunga durata nu are sens, si doar probabilitatea
unui singur eveniment este de interes.

Capitolul 4: Explorarea grafica a datelor

4.1 Tehnici grafice de explorare a datelor

Explorarea datelor implica verificarea lor pentru a descoperi valori anormale, extreme, pentru a ne
asigura ca datele indeplinesc prezumtiile analizelor alese, si ocazional, de a decide ce analiza sau
model sa folosim. Este esential sa efectuam verificari preliminare ale datelor din urmatoarele
motive:
– sa ne asiguram ca avem date elocvente
– sa detectam erori provenite din introducerea gresita in calculator
– sa detectam un eventual aranjament sau trend informal in reprezentarea grafica a datelor
esantionate (engl. data pattern) care s-ar putea sa nu fie detectate de analizele statistice pe
care le vom folosi
– sa ne asiguram ca prezumtiile analizelor sunt indeplinite
– sa interpretam deraierile de la prezumtii
– sa detectam valorile anormale, adica valorile extreme (engl. outliers)

=> deci, scopul analizei de explorare a datelor este de a gasi si descrie aranjamente in datele
esantionate.

Pentru seturi mici de date, explorarea se poate face prin simpla examinare a coloanelor si liniilor
tabelelor. Pentru seturi mari de date, in special pentru cele cu variabile multiple, tehnicile/metodele
grafice sunt mai apropriate.

Cel mai important lucru pe care vrem sa-l stim despre datele esantionate, si deci despre populatia
statistica din care provin este forma distributiei. Putem sa analizam distributia de valori a unei
variabile cu ajutorul curbei de densitati (engl. density distribution), in care sunt reprezentate
frecventele, adica densitatile, diferitelor valori sau categorii.

44
Urmatoarele paragrafe prezinta pe scurt tipurile de reprezentari grafice folosite in mod uzual in
explorarea datelor: histograma, dotplot-ul, boxplot-ul, scatterplot-ul, matricea de scatterplot-uri.

a) Histograma

Histograma grupeaza observatiile in clase definite a priori (pe axa horizontala) si frecventa acestora
(pe axa verticala). Daca variabila este continua, dimensiunea (latimea) claselor va depinde de
numarul de observatii. Pentru variabilele discrete, valorile lor determina de obicei clasele.
Histogramele ne dezvaluie daca distributiile sunt simetrice sau asimetrice, unimodale sau
multimodale. Ele sunt foarte des folosite in biometria silvica, unde avem dimensiuni esantionale
mari si putem forma clase de diametre (Pelz 2005). Din pacate, histogramele nu sunt intotdeauna
folositoare in biologie, in special in cea experimentala, pentru ca aici intalnim cu precadere
dimensiuni esantionale mici (< 20).

Un component aditional folositor este suprapunerea unei functii formale de densitate a


probabilitatilor, de ex. functia distributiei normale de probabilitati, in functie de media si varianta
esantionala.

O alternativa este aceea de a nu specifica o distributie anume pentru datele esantionate, ci de a


folosi datele esantionate pentru a genera o curba de densitate a probabilitatilor. Acest procedeu este
un procedeu neparametric de estimare pentru ca nu presupune o distributie anume a variabilei
pentru populatia in cauza. Acest procedeu de estimare produce curbe de densitate a probabilitatilor
care pot fi simetrice, asimetrice sau multimodale, in functie de datele observate si
aspectul/aranjamentul grafic al densitatilor lor.

Cea mai uzuala metoda de estimare neparametrica a densitatilor este estimarea cu pasi marunti
numita estimarea kernel. Pentru fiecare observatie construim o fereastra de o anumita latime, dupa
principiul claselor unei histograme. Apoi se ajusteaza o functie simetrica de densitate a
probabilitatilor (engl. curve/function fitting), numita kernel, la observatiile din fiecare fereastra.
Ajustarea consta pe scurt in construirea unei curbe plecand de la functii matematice si ajustarea
parametrilor acestor functii in asa fel incat graficul ei sa se apropie de graficul datelor esantionate.
In mod normal, pentru estimarea kernel, datele se ajusteaza dupa distributia normala. Densitatea
estimata pentru orice valoare a variabilei studiate este suma estimatiilor functiilor de densitate din
fiecare fereastra. Estimatorii de densitate kernel sunt in zilele noastre optiuni uzuale in programele
de statistica. Latimea ferestrei este numita si parametrul de netezire (engl. smoothing parameter),
pentru ca ea influenteaza forma finala a functiei de densitati estimata. Daca parametrul de netezire
este mic (ferestre inguste), atunci functiile de densitate au numeroase puncte maxime locale (sunt
multimodale), multe din ele nascute in mod artificial daca dimensiunile esantionale sunt mici. Daca
parametrul de netezire este mare (ferestre late), atunci functia de densitate va fi mai neteda, dar
detalii importante, cum ar fi punctele maxime reale, s-ar putea pierde (fig. 4.2). Estimarea kernel
necesita dimensiuni esantionale mari, pentru a avea destule observatii pentru kernel-ul din interiorul
fiecarei ferestre si destule ferestre pentru a putea surprinde detaliile prezente in datele esantionate.
Estimatorul de densitate kernel poate de asemenea si sa ne indice ce distributie parametrica mai
formala ar putea fi folosita in modelare.

45
b) Dotplot-ul

Un dotplot este un grafic pentru valorile unei singure variabile, in care fiecare observatie este
reprezentata de un punct (engl. dot) sau un simbol, cu valoarea observatiei trecuta pe axa
horizontala. Dotplot-urile pot fi folosite pentru datele univariate si bivariate, in ultimul caz fiind
scatterplot-uri. Dotplot-urile univariate sunt foarte efective in reprezentarea unui singur esantion
pentru ca asimetria si valorile neobisnuit de mari sau de mici sunt usor de detectat.

46
c) Boxplot-ul

Boxplot-ul merge folosit cel mai bine impreuna cu un dotplot pentru a reprezenta esantioane de ca.
8 sau mai multe valori ale unei singure variabile. Boxplot-urile sunt bazate pe mediane si cuartile,
deci sunt foarte rezistente la valorile extreme, care nu afecteaza forma unui boxplot prea tare.
Boxplot-urile sunt formate din urmatoarele componente:
– medianul, pentru a identifica locatia
– cuartilul de 25% pentru capetele box-ului (engl. hinges)
– spectrul (engl. range), diferenta dintre valorile celor doua capete
– valorile neobisnuit de mari sau mici (engl. outliers), care sunt denotate cu *
– liniile, care se intind pana la valorile extreme din intervalul pornind de la capetele box-ului
pana la 1.5 ori spectrul.

Variabilitatea esantionului si forma lui, in special daca este simetrica sau nu, este indicata de
lungimea liniilor (linii egale in stanga si dreapta => simetrica).

Boxplot-urile pot fi utilizate pe post de rezumate grafice ale datelor in cadrul publicatiilor de
cercetare in locul uneltelor traditionalelor (de ex. deviatia standard, medii, s.a). Ele sunt folosite mai
ales cand s-au efectuat analize neparametrice, pentru care media s-ar putea sa nu fie o masura
apropriata pentru a indica centrul distributiei.

d) Scatterplot-ul

Scatterplot-urile prezinta relatia dintre doua variabile. Ele sunt foarte informative in special cand
sunt flancate de boxplot-uri pentru fiecare variabila. Nelinearitatea si valorile extreme pot fi
indetificate, la fel ca si deraierile de la modelele lineare ajustate.

47
e) Matricea de scatterplot-uri (SPLOM)

Matricea de scatterplot-uri este o extensie a scatterplot-ului pentru trei sau mai multe variabile.
Fiecare panou din matrice reprezinta un scatterplot intre doua variabile si panourile de-alungul
diagonalei indica informatie univariata (adica despre o singura variabila) in boxplot-uri.

4.2 Analiza grafica a prezumtiilor

Analiza statistica bazata pe modele lineare (de ex. regresia, modele de analiza variantei) pune
cateva conditii importante, asa-numitele prezumtii (engl. assumptions):
– esantionarea randomizata/aleatoare
– normalitatea
– homogenitatea variantelor
– linearitatea
– independenta

Prezumtiile modelelor lineare se aplica la variabila raspuns (variabila dependenta) si la termenii de


eroare ai modelului ajustat.

Cateodata unele din prezumtii nu sunt critice pentru ca rezultatul analizei (estimarea sau testarea
unei ipoteze) va fi la fel chiar daca ele sunt incalcate. Atunci spunem ca testele sunt robuste la
incalcarea prezumtiilor respective. Alte prezumtii, pe de alta parte, sunt critice pentru ca testele
statistice nu dau rezultate fiabile daca prezumtiile sunt incalcate.

In continuare vom explica ce implica prezumtiile si cum pot fi ele verificate grafic.

48
a) Normalitatea

Modelele lineare (regresia sau modelele de analiza variantei) sunt bazate pe estimarea OLS (engl.
ordinary least squares). Fiabilitatea estimarilor este influentata de faptul daca variabila raspuns
provine dintr-o populatie ditribuita normal. Majoritatea analizelor sunt robuste la aceasta prezumtie,
in mod special daca dimensiunile esantionale sunt egale. In ciuda acestei robustete, simetria fiecarui
esantion (parti aproximativ egale de o parte si de alta a mediei sau medianului) ar trebui verificata
in mod grafic, de ex. cu ajutorul boxplot-urilor.

Un alt mod de a evalua normalitatea este de a folosi plot-urile probabilitatilor (engl. probability
plots) numite pe scurt pplots. Aceste grafice/ploturi prezinta distributia cumulativa a frecventelor
datelor. Deci ele folosesc functia cumulativa a frecventelor pentru distributia normala, si nu functia
de densitate a frecventelor! Functia cumulativa a frecventelor distributiei de probabilitati a unei
variabile reale aleatorii Y, deci FY: R→ [0,1], arata probabilitatea cu care o valoare specificata a lui
Y (deci, orice yi) ia o valoare egala sau mai mica decat P(yi):

FY(yi)=P(Y≤yi).

Pe cand functia de densitate ne indica o probabilitate anume pentru o valoare yi.


Graficul de mai jos ne prezinta functiile cumulative ale distributiilor normale cu urmatorii
parametrii: N(0,0.2), N(0,1.0), N(0,5.0), N(-2,0.5).

In comparatie cu functiile de densitate ale distributiilor normale cu parametrii: N(0,1), N(0,4),


N(1,4), prezentate in graficul de mai jos.

49
Deci, cu ajutorul distributiei cumulative a frecventelor distributiei normale prezentate in pplot-uri,
putem sa evaluam normalitatea datelor esantionate. Daca datele esantionate sunt nomale, atunci ar
trebui sa se asemene cat de cat cu cele din graficul de mai sus care prezinta functiile cumulative ale
distributiilor normale N(0,0.2), N(0,1.0), N(0,5.0), N(-2,0.5). Asimetria si multimodalitatea se
traduce printr-o linie franta, in loc de un S alungit (fig. 4.7).

Quinn si Keough (2002) noteaza ca cel mai comun caz de asimetrie intalnit in datele esantionate in
biologie este asimetria pozitiva (engl. positive skewness), adica populatiile cu a parte alungita spre
dreapta. In biologie avem rareori cazuri de variabile care au valori sub zero (de ex. lungimi,
inaltimi, greutati, etc.), de aceea distributiile variabilelor sunt de obicei trunchiate la zero, rezultand
in asimetria pozitiva. Un alt motiv pentru asimetria pozitiva din datele biologice este ca adesea
variabilele sunt distribuite lognornal (variabile masurate) sau Poisson (variabile numarate).
Transformarile variabilelor asimetrice intr-o alta scala de masura (de ex. log, sau ridicari la putere)
imbunatatesc adesea normalitatea.

Pe langa distributia asimetrica, alt tip de distributie care pune proboleme este cea multimodala, care
are doua sau mai multe varfuri distincte. Nu putem aduce prea multe imbunatatiri la aceasta
distributie; ambele tipuri de teste (parametrice si neparametrice) nu produc rezultate fiabile in acest
caz. Cea mai buna solutie ar fi sa consideram fiecare varf (engl. peak) al distributiei ca reprezentand
o populatie aparte, si sa impartim analiza pe populatii luate separat. In studiile ecologice s-ar putea
ivi problema aceasta cand avem diferite cohorte intr-o populatie de plante sau animale, si suntem
nevoiti sa ne punem intrebari despre media si varianta primei, a celei de-a doua, etc., cohorte
(Quinn & Keough 2002).

Un ultim tip de distributie care ne pune probleme este cel care contine multe observatii de zero si
cateva observatii de non-zero. Aceste zero-uri vor duce la formarea de varfuri in distributia noastra.
Pentru aceasta situatie Quinn si Keough (2002) sugereaza ca datele reflecta doua procese diferite,
cum ar fi daca o replicare anume da raspuns sau nu (zero sau nu), si nivelul de raspuns cand el apare
(valorile non-zero). Am putea face doua comparatii: (i) difera probabilitatea de a da un raspuns de
zero sau non-zero intre grupuri, si (ii) o comparatie a raspunsului intre grupuri, folosind numai
replicatiile pentru care s-au inregistrat valori non-zero.

b) Homogenitatea variantelor

O alta prezumtie a modelelor parametrice lineare (regresia si modelele de analiza variantei) este
homogenitatea in variante. Adica, varianta din variabila raspuns ramane aceeasi pentru valori ale

50
variabilei de predictie (variabila independenta) alese la orice nivel sau combinatie de niveluri
(Quinn & Keough 2002). Termenul se va intelege mai bine cand vom avea de-a face cu regresia
lineara, unde homogenitatea implica variante egale in variabila raspuns pentru orice valoare a
variabilei de predictie.

Daca variabila raspuns se stie ca este distribuita normal, atunci variante inegale se datoreaza farte
probabil catorva valori neobisnuite, in special daca dimensiunile esantionale sunt mici. Rezidurile
(yi-ŷi) unui model de regresie cu o variabila raspuns distribuita normal sunt distribuite uniform:

yi − yˆ i + yi − yˆ i +
f

0
0 ŷi
ŷi

-
- - 0
+

Daca variabila raspuns are o distributie lognormala sau Poisson, inegalitatea in variante s-ar putea
datora distributiei aflata la baza variabilei. Transformari care imbunatatesc normalitatea
imbunatatesc de obicei si homogenitatea in variante.

Exista teste formale pentru testarea homogenitatii variantelor, cum ar fi testul de raport-F inaintea
unui test t sau a unei ANOVA. Dar Quinn si Keough (2002) nu recomanda folosirea acestora pentru
ca ele sunt mai sensibile la non-normalitate decat testul t ulterior. Mai putin formale, dar mai
folositoare sunt verificarile care includ boxplot-uri alaturate pentru analiza grupurilor multiple,
analiza care permite verificarea homogenitatii spectrului esantional (adica variantei). Plot-urile
rezidurilor dintre model si valorile preconizate (ca cele doua grafice de mai sus) sunt de asemenea
folosite in explorarea homogenitatii datelor.

d) Linearitatea relatiei dintre doua variabile

Corelatia parametrica si regresia lineara sunt bazate pe relatii drepte intre variabile. Cel mai simplu
mod de a verifica non-linearitatea este examinarea scatterplot-ului celor doua variabile sau ale
SPLOM-ului pentru mai mult de doua variabile. Functiile de netezire (engl. smoothing functions)
aplicate datelor esantionate, pot de asemenea sa dezvaluie non-linearitatea relatiei intre doua
variabile (vezi mai mult despre acest subiect in cap. 5). 7

e) Independenta

Aceasta prezumtie implica ca toate observatiile sa fie independente una de alta, in interiorul cat si
intre grupuri,

4.3 Transformarile datelor

Transformarile datelor in alte scale de masura pot fi o solutie in cazuri de non-normalitate, care daca
sunt corectate, ar putea de asemenea corecta si inhomogenitatea in variante sau problemele de non-

51
linearitate. Alt motiv pentru transformarea datelor este de a reduce influenta valorilor extreme, in
special daca ele se afla numai la un capat al distributiei, si pentru a atenua efectele care sunt
multilicative in scala originala de masura transformandu-le in efecte aditive in noua scala de masura
(reducand astfel dimensiunile interactiunilor dintre efecte). Justificarea cea mai plauzibila pentru
folosirea transformarilor pentru seturile de date este ca scalele de masura originale sunt alese
oricum arbitrar (Quinn & Keough 2002).

Cateodata transformarile constau numai in adaugarea unei constante la toate observatiile pentru a
inlatura valorile zero. Cele mai uzuale in analiza datelor sunt transformarile care modifica datele
intr-un mod non-linear. Una dintre transformarile non-lineare cele mai des folosite este
tranformarea logaritmica. Transformarea logaritmica este monotona (adica, ordinea valorilor
ramane aceeasi si dupa transformare), si este folosita pentru a face distributiile cu asimetrie pozitiva
mai simetrice. Daca o valoare constanta (c) este adaugata inaintea tranformarii log, valorile zero din
setul de date original pot fi incorporate in analiza. Berry (1987) a scos in evidenta ca daca folosim
valori diferite pentru constanta c, testul ANOVA poate produce rezultate diferite. De aceea el
recomanda folosirea unei valori c care face distributia rezidurilor sa fie cat mai simetrica cu putinta.
Pentru date cu asimetrie pozitiva putem de asemenea sa folosim transformarea radacinii patrate (√)
in mod special pentru seturi de date care au fost prelevate prin numarare (adica distribuite Poisson)
si in care schimbari in varianta provoaca schimbari in medie (adica avem outliers intr-un capat al
distributiei). Radacini din puterea a treia (radacina cubica), radacini din puterea a patra, etc., vor
imbunatati distributii din ce in ce mai asimetrice. Transformari cu ajutorul radacinii din puterea a
patra sunt uzuale in seturile de datel despre abundenta din ecologie (engl. abundence data), in care
se gasesc multe zerouri si cateva valori mari.

Pentru datele cu asimetrie negativa, adica daca distributia este deplasata spre stanga, putem folosi
reflectarea datelor originale inainte de transformare. Reflectarea consta in crearea unei constante
ulterioare (λ - lambda) prin adaugarea unei constante initiale la valoarea cea mai mare din setul dat
si divizarea fiecarei observatii la λ (Quinn si Keough, 2002). Acest tip de transformare face parte
din familia de transformari Box-Cox care sunt descrise prin formula: Y (λ)= (yλ-1)/λ (Crawley,
2007). Transformarile Box-Cox pot fi folosite pentru a imbunatati homogenitatea variantei si
normalitatea, printr-un proces iterativ care selecteaza o valoare a λ care maximizeaza functia de
posibilitate repectiva (Quinn si Keough 2002).

De asemenea, pentru ca in unele cazuri nu este clar din punct de vedere teoretic care este
transformarea optimala a variabilei raspuns, transformarea Box-Cox ne ofera solutia empirica la
aceasta problema, si gaseste λ care maximizeaza posibilitatea ca datele observate (X, variabilele
independente) sa fie ajustate la valorile variabilei raspuns (Y) (Crawley, 2007). Lambda λ poate lua
valori negative si pozitive. Daca avem:

λ=0 => avem transformarea log,


λ=0.5 => avem transformarea radacinii patrate,
λ=-1 => avem transformarea reciproca
λ=1 => nu avem nici o transformare.

Daca datele sunt procente sau proportii, ele iau valori intre 0% si 100%. Transformarile cu puteri ar
torsiona valorile de la cele doua capete ale distributiei in mod inegal. O procedura uzuala in aceste
cazuri este tranformarea unghiulara, in special transformarea arcsin.

La final, trebuie sa mentionam si transformarea in ranguri a datelor, care converteste observatiile in


ranguri asa cum a fost descris in cap. 3 la testele neparametrice. Acest tip de transformare este unul

52
extrem pentru ca ia in considerare diferenta dintre fiecare pereche de observatii din setul care este
transformat (diferente relative), indiferent de valorile lor absolute (indiferent de diferentele
absolute). De aceea aceasta transformare rezulata in cea mai mare pierdere de informatie dintre
toate transformarile monotonice.

53
Remarca: Transformarile si aditivitatea

Transformarile afecteaza de asemenea modul in care apreciam efectele modelelor lineare.


Interpretam efectele ca si valori absolute sau in termeni relativi? Pentru a evalua efectul unui
tratament pe o parcela tratata (engl. treatment plot) in comparatie cu una netratata (engl. control
plot), ar trebui sa alegem interpretarea care are sens din punct de vedere biologic.

Asa cum este prezentat in tabelul de mai sus, pe scala originala de valori (valorile netransformate),
efectele tratamentului sunt foarte diferite daca comparam Time 1 cu Time 2 fara sa ne uitam la
proportia dintre masura control/tratament. In termeni procentuali, efectele sunt de fapt egale, in
ambele cazuri inregistrandu-se o injumatatire a valorilor (daca comparam proportia
control/tratament pentru amandoua datile (Time 1 si Time 2). Deci, ar trebui sa concludem ca
efectele tratamentului sunt la fel de ambele dati. Transformarea log a datelor pune in evidenta acest
lucru.

Remarca: Standardizarile

Daca includem doua sau mai multe variabile intr-o analiza (de ex. regresie sau analiza multivariata),
atunci convertirea tuturor variabilelor la o scala similara este adesea importanta inainte de a fi
incluse in analiza (Quinn & Keough, 2002). Una din metodele de standardizare a variabilelor este
centrarea unei variabile prin schimbarea ei in asa fel incat sa aiba o medie de zero.

Variabilele pot fi si schimbate in asa fel incat sa se incadreze in spectrul de la zeor (minim) la unu
(maxim).

Tipul de transformare de mai sus este folositor in special la standardizarea datelor de abundenta
(engl. abundance data) inaintea analizelor multivariate care examineaza disimilaritatile dintre
unitatile de esantionare in ceea ce priveste compozitia speciilor (Quinn & Keough, 2002).

4.4 Valorile extreme

Valorile extreme sau valorile anormale (engl. outliers) sunt acele valori ale variabilelor care se
inregistreaza in afara spectrului uzual al acelor variabile, deci ele pot afecta in mod serios
rezultatele analizelor. Exista teste formale de detectarea valorilor extreme, care presupun ca
observatiile sunt distribuite normal, de ex. testul Q al lui Dixon examineaza diferenta dintre

54
valoarea extrema si cea mai apropiata observatie luand in considerare intreg spectrul datelor
esantionate. O alta metoda de detectare este statisitca D a lui Cook, folosita in modele lineare ca
regresia lineara. Statistica D indica influenta fiecarei informatii asupra analizei. Valorile extreme
sunt usor de detectat cu ajutorul tehnicilor de analiza grafica prezentate la punctul 4.1 (boxplot-uri,
plot-urile rezidurilor, scatterplot-urile la care sunt adaugate functii adecvate de netezire – engl.
smoothing functions). Dupa identificarea valorilor extreme, trebuie explorata natura/originea lor.
Sunt rezultatul greselilor de dactilografiere? Sunt produse prin implementarea gresita a dizainului
experimental? Tinand protocoale exacte ale experimentelor putem verifica ulterior originea valorilor
extreme. Daca valorile extreme nu sunt rezultatul erorilor (sistematice sau aleatorii/randomizate),
atunci ele trebuiesc incluse in analiza (Pelz 2005). Ele ar putea indica faptul ca exploram din
greseala sau in acelasi timp valori care provin din doua populatii diferite. Daca nu este asa, atunci
putem sa incercam transformarea datelor pentru a integra valorile extreme in distributiile
experimentale. O alta optiune ar fi sa folosim tehnici care sunt mai robuste la valorile extreme cam
sunt de ex. testele bazate pe ranguri. Este important sa stergem valorile extreme numai daca ele sunt
rezultate din erori.

Capitolul 5: Corelatia si regresia

Analizele statistice care exploreaza o singura variabila se numesc univariate (de ex. daca se
analizeaza numai diametrele). Datele care contin doua variabile inregistrate pentru fiecare unitate
esantionata sunt denumite bivariate (de ex. daca se analizeaza diametrele si inaltimile), pe cand cele
care contin mai mult de doua variabile randomizate sunt denumite multivariate. Seturile de date bi-
si multivariate sunt folosite pentru a descrie relatiile intre doua si mai multe variabile continue, si
pentru a folosi relatia dintre ele pentru prognosticari.

5.1 Analiza corelatiei

Putem sa descriem „intensitatea“ (engl. strength) relatiei statistice dintre doua variabile
aleatoare/randomizate folosind corelatia. Sa consideram doua variabile continue Y 1 si Y2 ce
caracterizeaza o populatie biologica, ce pot lua valorile yi1 si yi2 (i este folosit pentru denotarea
fiecarei perechi de observatii esantionate). In acest fel se formeaza o populatie statistica comuna,
populatia lui (Y1 & Y2). Deci avem si o distributie comuna a celor doua variabile, o asa-numita
distributie bivariata, cu Y1 , Y2 si f((Y1 & Y2) pe axele x, y si z. Pentru ca doua variabile sa fie
corelate, distributia lor bivariata este considerata ca fiind distribuita normal (vezi fig. 5.1), deci
analiza corelatiei este o analiza parametrica. Daca distributia bivariata este distribuita normal, atunci
relatia dintre cele doua variabile este una lineara.

55
Distributia bivariata normala este definita prin media si deviatia standard a fiecarei variabile,
covarianta populatiei si coeficientul de corelatie al populatiei (μ1, μ2, σY1, σY2, σY1Y2, ρY1Y2). Deci,
trebuie sa nu uitam de faptul ca fiecare dintre cele doua variabile isi pastreaza in continuare varianta
ei proprie, deci varianta comuna, asa-numita covarianta σY1Y2 (suma produselor celor i deviatii de la
mediile ponderate cu gradele de libertate df) nu este acelasi lucru cu produsul celor doua variante
luate separat (adica produsul dintre cele doua sume patrate ale celor i deviatii de la mediile
ponderate cu gradele de libertate df) (Giurgiu 1972). Proportia dintre cele doua masuri reprezinta
coeficientul de corelatie al populatiei ρ Y1Y2. In acest fel eliminam gradele de libertate din ecuatie
(Quinn & Keough, 2002).

Covarianta populatiei σY1Y2 si estimatorul sY1Y2 ei au spectrul de la - ∞ la + ∞, in functie de gradele


de libertate df. Pe de alta parte, coeficientul de corelatie al populatiei ρ Y1Y2 si estimatorul lui,
coeficientul de corelatie esantional rY1Y2, ajunge de la +1 la -1, fiind independent de df (adica, fiind
standardizat). Numim rY1Y2 coeficientul de corelatie Pearson, cu -1 si +1 indicand o corelatie stransa
(perechile de observatii ale celor doua variabile sunt asezate de-alungul unei linii) si cu 0 indicand
lipsa unei corelatii. Coeficientul de corelatie esantional r Y1Y2 este o statistica esantionala, deci are
propria lui distributie esantionala (distributia de probabilitati a r Y1Y2 bazata pe esantionare repetata).
Cand rY1Y2 este egal cu ±1, cea mai stransa corelatie, distributia lui r Y1Y2 ar trebui sa se apropie de
cea normala. In acest caz deviatia standard esantionala poate fi calculata. Pentru corelatii mai putin
stranse distributia lui rY1Y2 este asimetrica, iar deviatia standard esantionala nu poate fi determinata
cu usurinta (Quinn si Keough 2002). Intervale de confidenta aproximate pot fi calculate folosind
una dintre versiunile transformarii lui Fisher care converteste distributia lui rY1Y2 intr-una
aproximativ normala (vezi Sokal & Rohlf 1995).

Exemple cu diagrame pentru diferite valori ale coeficientului de corelatie (ρY1Y2):

56
Relatiile nonlineare intre doua variabile ne indica ca nu avem de-a face cu o distributie bivariata
normala si trebuie sa folosim alte proceduri care nu pun aceasta conditie pentru a cuantifica
intensitatea acestor relatii.

Ipoteze de testare pentru ρY1Y2

In mod traditional, cea mai uzuala H0 folosita pentru testarea statistica a corelatiei intre doua
variabile randomizate este (Sokal & Rohlf 2012):

H0: ρ=0, care este testata cu urmatoarea statistica t de testare cu (n-2) df:

Totusi, daca ne gandim ca prezumtia teoretica a corelatiei ca cele doua variabile randomizate Y 1 si
Y2 sunt distribuite normal si f(Y 1&Y2) este distribuita normal in cazul de cea mai stransa corelatie,
adica in cazul in care ρ=±1, atunci ar trebui sa testam de fapt urmatoarea ipoteza nula:

H0: ρ=│±1│, care ar trebui sa fie testata folosind statistica t de testare prezentata mai sus.

Pentru distributii rY1Y2 care nu sunt distribuite normal si pentru a testa daca doi coeficienti de
corelatie sunt egali putem folosi teste bazate pe transformarea z a lui Fisher (Quinn & Keough
2002).

Prezumtiile corelatiei

Corelatia presupune, pe langa esantionarea randomizata si independenta observatiilor si


urmatoarele:
– cele doua variabile Y1 si Y2 sunt independente. O corelatie stransa nu indica neaparat o
relatie cauzala intre cele doua variabile. Corelatia poate apare pentru ca alti factori decat
efectul unei variabile asupra celeilalte variabile influenteaza simultan valorile celor doua
variabile corelate. Detectarea unei corelatii intre cele doua variabile este primul pas in
identificarea exacta a naturii relatiei dintre cele doua variabile. Numai in cercetari ulterioare
stabilirii unei corelatii se pot detecta causalitatile in jurul fenomenelor studiate (Giurgiu
1972, p. 227).
– distributia comuna de probabilitati a variabilelor Y 1 si Y2 este bivariata normala. Aceasta
prezumtie impune linearitatea lui f(Y1 & Y2). Aceasta prezumtie nu este indeplinita neaparat
chiar si pentru cazul in care cele doua variabile sunt distribuite normal. Relatii nonlineare
pot aparea chiar daca cele doua variabile sunt distribuite normal. De aceea trebuie sa tinem
minte ca coeficientul de corelatie Pearson masoara intensitatea unei relatii lineare dintre
doua variabile, deci verificari ale nonlinearitatii si asimetriei cu ajutorul scatterplot-urilor si
boxplot-urilor (fig. 5.3) sunt importante (Quinn & Keough 2002).

Daca prezumtia de normalitate bivariata este suspecta (din cauza distributiei non-normale a unei
dintre variabile sau/si relatie non-lineara intre cele doua variabile), putem folosi urmatoarele
proceduri: (i) transformarile pot ajuta la normalizarea distributiilor variabilelor, sau (ii) masuri mai
robuste ale corelatiei care nu presupun normalitate bivariata, deci nu presupun relatii lineare.

57
5.2 Corelatia robusta

Daca detectam ca f(Y1 & Y2) nu este linear, atunci putem folosi analizele de corelatie non-
parametrice care detecteaza relatiile monotone dintre doua variabile. Este de remarcat ca nu toate
asociatiile nonlineare ale variabilelor sunt detectate, ci doar cele monotone (Quinn & Keough
2002).

Exemple de monotonie:

a. functie monoton crescanda, b. functie monoton descrescanda, c. functie nemonotona.

a. b. c.

Dupa cum se observa in graficul de mai sus, o functie monoton crescanda este caracterizata de
faptul ca pentru fiecare valoare x mai mica avem intotdeauna o valoare y mai mica (Papula 2011):

x1<x2 => f(x1)<f(x2) => y1<y2 (monoton crescanda).

Analog, o functie monoton descrescanda este caracterizata de faptul ca pentru orice x mai mic
intotdeauna avem un y mai mare:

x1<x2 => f(x1)>f(x2) => y1>y2 (monoton descrescanda).

Deci, corelatia robusta (corelatia neparametrica) este folosita pentru a detecta relatii monotone intre
variabile, adica daca o variabila numai creste cand cealalta numai creste, sau numai scade cand
cealalta numai creste, dar nu neaparat intr-o maniera lineara.

58
O procedura neparametrica generala este sa transformi valorile celor doua variabile in ranguri si sa
examinezi relatia dintre ele. Coeficientul de corelatie pentru ranguri a lui Spearman (r s) este
coeficientul de corelatie Pearson dupa transformarea separata a celor doua variabile in ranguri cu
pastrarea perechiilor (yi1, yi2) dupa transformare. O masura alternativa este coeficientul de corelatie
pentru ranguri a lui Kendall (τ), care se numeste si tau-ul (τ) lui Kendall. Pentru un anumit set de
date, coeficientul lui Spearman rs este cu ceva mai mare decat τ (Quinn & Keough 2002).

Regiuni de confidenta parametrice si neparametrice

Cand reprezentam o relatie bivariata cu un scatterplot, este de multe ori necesar sa includem in
grafic si regiunile de confidenta (fig. 5.4).

Regiunea de confidenta de, spre exemplu, 95% este regiunea in care ne asteptam ca observatia care
reprezinta media celor doua variabile sa apara in 95 din 100 de ori in conditii de esantionare
repetata pentru aceeasi populatie. Presupunand ca cele doua variabile sunt distribuite bivariat
normal, banda de confidenta o sa fie intotdeauna o elipsa centrata in jurul mediilor esantionale ale
lui Y1 si Y2, iar orientarea elipsei este determinata de covarianta. Axele principale ale elipsei
(latimea si lungimea) sunt determinate de variantele lui Y 1 si Y2. Aceste axe sunt folosite si in cadrul
unor forme de analiza a regresiei si proceduri care cu date multivariate cum ar fi analiza
componentelor principale (Quinn & Keough 2002).

Este de remarcat ca daca relatia lineara dintre cele doua variabile este slaba, atunci marginea elipsei
se poate chiar sa depaseasca spectrul teoretic si esantionat al datelor noastre, si sa includa valori
imposibile pentru acele variabile, cum sunt de ex. cele negative pentru variabilele din fig. 5.4. De
aceea s-ar putea ca in unele cazuri sa nu ne intereseze regiunile de confidenta parametrice, bazate
pe estimari ale mediilor, ci sa folosim estimatorii de densitate kernel, care determina regiuni de
confidenta neparametrice. Pentru o relatie bivariata, estimatorii de densitate kernel determina
contururile care imprejmuiesc regiuni de densitate bivariata ridicata. Contururile sunt determinate
prin insumarea unei serii de distributii bivariate simetrice ajustate la grupuri de observatii locale
pereche. Estimatorii de densitate kernel nu sunt constransi de respectarea unei forme elipsoide si
reprezinta deseori mai bine aranjamentul de densitate al datelor (Quinn & Keough 2002).

5.3 Modelele lineare

Am vazut mai sus ca analiza corelatiei indica numai existenta unei relatii intre doua variabile. La
inceputul investigatiei se presupune mai intai ca ele sunt independente una de alta (Giurgiu 1972).

59
Pentru a testa daca exista o dependenta lineara intre cele doua variabile, trebuie sa ne imaginam, pe
baza aranjamentului grafic al datelor esantionate (deci, cu ajutorul metodelor de analiza grafica),
felul in care o variabila ar putea influenta-o pe cealalta. Incepem prin a presupune ca exista o relatie
biofizica intre variabile (Quinn & Keough 2002, Giurgiu 1972). Aceasta relatie biofizica este
“capturata” de catre cercetatori cu ajutorul unei functii biofizice (Papula 2011, p. 190), adica cu
ajutorul unei functii teoretice care descrie in mare relatiile biofizice dintre diferitii parametrii care
determina procesul biofizic capturat/descris. Pentru a fi investigat, functia biofizica teoretica
(modelul plin al relatiilor biofizice din jurul fenomenului/procesului biofizic investigat) poate fi
impartita pana la un anumit grad in mai multe componente (subseturi ale modelului plin), care pot fi
descrise cu ajutorul functiilor polinomiale (Papula 2011 p. 190). Functiile polinomiale sunt
combinatii lineare de parametrii, in care, conform Netter et al. (1996), “nici un parametru nu apare
ca exponent sau nu este multiplicat sau divizat cu alt parametru” (Quinn & Keough 2002, p. 77). In
statistica, combinatiile lineare de parametrii sunt numite modele lineare. Putem avea n parametrii, in
care n este numar natural (nϵN), deci modelele lineare (sinonim: combinatii lineare de parametrii,
functii polinomiale) se formeaza dupa formula generala:

f(x)=anxn+an-1xn-1+....+a1x1+a0

unde: xϵR, nϵN, an≠0.

Cum am aratat mai sus, modelele lineare explica aranjamentul grafic al unei variabile (variabila
dependenta) cu ajutorul altei variabile (variabila independenta sau de prognoza). Cum nϵN, putem
avea tot felul de functii polinomiale ca si modele lineare:

y=c (functia constanta)


y=a1x+a0 (functia simpla sau lineara)
y=a2x2+a1x1+a0 (functia patrata)
y=a3x3+ a2x2+a1x1+a0 (functia cubica)
etc... etc....

Pentru ca modelul plin (functia biofizica) poate fi impartit, deci explicat, numai pana la un anumit
grad cu ajutorul unui sau mai multor modele lineare de subset (una sau mai multe functii
polinomiale), vom avea intotdeauna un rest nexplicat. Acest fapt este cauzat de complexitatea
proceselor biofizice, in special la scala larga cum este cea de peisaj, complexitate pe care nu reusim
sa o intelegem pe deplin (Giurgiu 1972). In consecinta aceste modele vor avea urmatoarea forma
generala:

model plin= i modele subset + rest (eroare)


model subset= model + eroarea de subset

eroarea totala de model= restul + suma celor i erori de subset

Chiar daca suntem constienti de toate tipurile de erori, tot nu suntem in masura sa cream un model
corect in sensul absolut al cuvantului. Aceasta este urmarea faptului ca s-ar putea sa nu fi ales toti
parametrii care sunt de relevanta sau sa nu fi considerat combinatii de parametrii care influenteaza
variabila raspuns (Quinn & Keough 2002). Tot ceea ce pot face modelele lineare este sa ne ajute sa
comparam modelele imaginate de noi si sa vedem care dintre ele se potriveste cel mai bine la datele
esantionate, asa incat sa fim in pozitia sa testam ipoteze despre parametrii inclusi in acel model
(Quinn & Keough 2002).

60
Modele lineare generale si modele lineare generalizate

Scopul nostru principal este sa schimbam/adaptam modelul pana es potriveste bine la datele noastre.
Aceasta ajustare este in principiu o procedura de estimare ce poate fi facuta cu ajutorul celor mai
mici patrate (OLS) sau a posibilitatii maxime (ML) (Quinn & Keough 2002). Daca presupunem ca
erorile de Tip I ale estimarilor de interval si ale testarilor de ipoteze sunt distribuite normal, putem
folosi pentru modelul nostru metoda celor mai mici patrate (OLS). Modelele bazate pe estimari
OLS sunt denumite modele lineare generale (engl. general linear models). Termenul de “general” se
refera la faptul ca ambele tipuri de prognoze, cele continue si cele categorice, sunt posibile. Daca
erorile modelului sunt distribuite altfel decat normal, in special cand este o relatie intre varianta si
medie, atunci se foloseste ML pentru estimari. Aceste modele sunt numite modele lineare
generalizate (engl. generalized linear models – GLMs), generalizate insemnand ca alte distributii
decat cea normala si relatii intre varianta si medie pot fi acceptate/tolerate (Quinn & Keough 2002).

5.4 Regresia lineara simpla (bivariata)

Analiza de regresia lineara simpla (bivariata) a relatiei dintre doua variabile continue (o variabila
raspuns Y si o variabila de prognoza X) are trei mari scopuri (Quinn & Keough 2002):
– sa descrie relatia lineara dintre Y si X,
– sa determine cat din variatia (deviatia de la linia regresiei) lui Y poate fi explicata prin
relatia lineara cu X si cat din aceasta variatie ramane neexplicata de modelul regresiei
simple,
– de a prognoza valori noi ale lui Y din valori noi ale lui X.

5.4.1 Modelul de regresie lineara simpla

Am vazut mai sus ca in matematica functia polinomiala lineara simpla are forma generala
urmatoare:

y=a0 +a1x => doua variabile pentru care, y=f(x). Relatia dintre cele doua variabile este descrisa de
o linie dreapta. Panta (engl. slope) este a1. Punctul de intersectie (engl. intercept) cu axa y este a0.

Acum sa consideram un set de la i=1 la n observatii in care fiecare observatie a fost selectata pentru
valoarea ei X specifica, adica valorile lui X sunt fixate de catre investigator, deci sunt fixe, iar
valorile lui Y pentru aceste valori X selectate sunt libere sa varieze, adica sunt esantionate dintr-o
populatie de valori Y posibile (yi). Modelul de regresie lineara simpla foloseste conceptul functiei
polinomiale simple adaptata la conditiile statistice (esantionare repetata si variatia neexplicata
asociata cu observatia i) si este numita ecuatia de regresie lineara, care este:

yi=ß0+ß1xi+ɛi

unde,

• yi este valoarea lui Y pentru observatia i cand variabila de prognoza are valoarea X=xi ,
• ß0 este intersectarea cu axa y, valoarea medie a distributiei de probabilitati a Y cand xi=0,
• ß1 este panta populatiei si masura de schimbare in Y pentru o unitate de schimbare in X,
• ɛi este eroarea aleatoare/randomizata neexplicata a modelului asociata cu observatia i.

61
Ca si in cazul corelatiei avem o populatie statistica comuna (engl. joint statistical population),
populatia lui (Y&X). Despre aceasta populatie este vorba cand vorbim de ß 1 ca fiind panta
populatiei, pentru ca ecuatia de regresie simpla descrie populatia statistica a lui (Y&X). Din cauza
ca ecuatia contine ɛi (eroarea aleatoare neexplicata), obtinem in conditii de esantionare repetata o
distributie de probabilitati a valorilor lui Y in jurul unei valori asteptate a lui Y, μ yi (adica media
valorii Y pentru observatia i) pentru fiecare valoare xi aleasa a lui X (vezi fig. 5.5). Deci pentru μ yi
avem:

μyi= ß0+ß1xi (adica nu avem eroare in ecuatie)


si deci putem reexprima modelul de regresie linear pentru fiecare xi ca fiind si:
yi=μyi+ɛi => ɛi =yi-μyi deci, pentru fiecare xi avem o eroare ɛi care masoara diferenta dintre fiecare yi
observat si media lui yi (μyi), prognozata de modelul de regresie al populatiei.

Pentru ca niciodata nu stim cu exactitate ɛ i, presupunem ca pentru fiecare xi obtinem o populatie de


valori ɛi distribuite normal. Aceasta prezumtie este bazata pe faptul ca, in conditii de esantionare
repetata, valorile ɛi sunt conectate cu valorile yi obtinute pentru fiecare xi iar acestea din urma sunt
distribuite normal. Pentru μyi (cand yi este egal cu μyi) avem o eroare ɛi de zero. Varianta ɛi este
aceeasi pentru toate valorile xi pentru ca varianta yi este de asemenea aceeasi pentru toate valorile x i
(homogenitatea variantelor), deci varianta valorilor ɛ i si cea a valorilor yi sunt egale. Varianta lor
comuna este denotata cu σ2ε. Pentru ca numai valorile lui Y sunt aleatoare (nu sunt fixe ca cele ale
X), putem spune ca fiecare yi este independent de alte valori y i obtinute pentru o valoare xi
anume/specificata, deci fiecare ɛi este independent de alte valori ɛi obtinute pentru o valoare xi
anume/specificata. Normalitatea, homogenitatea in variante si independenta sunt transmise mai
departe de la valorile yi obtinute pentru fiecare xi si la valorie ɛi obtinute pentru fiecare xi.

Daca schimbam perspectiva si trecem de la nivelul unei populatii la nivelul unui esantion folosit la
estimarea parametrilor populatiei, modelul de regresie al populatiei devine ecuatia esantionala a
regresiei (fara litere grecesti!), care este urmatoarea (Quinn & Keough 2002):

ŷi=b0+b1xi

in care,
ŷi este valoarea Y prognozata pentru un xi; estimeaza media populatiei μyi ,
b0 este punctul de intersectie esantional care estimeaza ß0 ,
b1 este panta esantionala a regresiei care estimeaza ß1.

62
5.4.2 Estimarea parametrilor modelului

Scopul principal al analizei de regresie este de a estima parametrii inclusi in modelul linear de
regresie (ß0, ß1, si εi) in baza observatiilor esantionate cu valori X fixe si valori Y
aleatoare/randomizate.

Pentru a estima ß0 si ß1 cu ajutorul metodei celor mai mici patrate (OLS) producem o dreapta
esantionala de regresie (ŷi=b0+b1xi) care minimizeaza Σ(yi-ŷi)2. Aceasta este suma deviatiilor la
patrat (engl. sum-of-squares) intre fiecare yi observat si valoarea yi prognozata de dreapta
esantionala de regresie pentru fiecare x i. Aceasta este suma distantelor verticale patrate intre dintre
fiecare observatie si dreapta de regresie ajustata (fig. 5.6).

Valorile lui b0 si b1 sunt gasite prin metode de calcul care duc la derivarea a doua noi ecuatii,
denumite ecuatii normale, care sunt rezolvate simultan pentru b0 si b1. Derivarea parametrilor de
regresie cu ajutorul OLS poate fi gasita in Neter el al. 1996 (Quinn & Keough 2002). Tabelul 5.2
insumeaza estimarile modelului linear de regresie.

63
Panta estimata (b1) a modelului linear de regresie derivata prin rezolvarea ecuatiilor normale este
covarianta dintre Y si X divizata cu suma patratelor lui X (vezi tabelul 5.2). Relatia matematica
stransa dintre regresia lineara si corelatia bivariata (b 1 are covarianta in formula) face posibila
exprimarea lui b1 si ca fiind:

unde,
• r este coeficientul de corelatie dintre Y si X,
• sy si sx sunt deviatiile standard esantionale ale Y si X.

Sa notam ca b1 depinde de unitatile de masura ale lui Y si X, deci este dificil sa comparam pantele
de regresie estimate pentru diferite seturi de date (Quinn & Keough 2002, p. 86). Deci, este practic
sa folosim o panta de regresie standardizata b 1*, denumita coeficientul beta, care este independenta
de unitatile lui Y si X:

Panta de regresie standardizata este deci panta de regresie estimata multiplicata cu raportul dintre
deviatia standard a lui X si Y, deci este coeficientul de corelatie dintre Y si X, adica r. Valoarea lui
b1* ne ofera o estimare a pantei modelului de regresie care este folositoare in compararea pantelor
diferitelor seturi de date. Daca folosim valori standardizate pentru Y si X (media de zero, deviatia
standard de unu), nu vom avea un punct de intersectare cu axa y, pentru ca dreapta de regresie trece
prin origine (Quinn & Keough 2002). Pantele de regresie standardizate sunt produse de cele mai
multe programe statistice.

Punctul de intersectare (b0) este exprimat folosind caracteristica dreptei de regresie de a


trece prin punctele ce contin in coordinate (vezi fig. 5.6).

Intervale de confidenta pentru β1 si β0


(intervale de confidenta=t*eroarea standard a statisticii esantionale)
Avand estimatiile de punct (b1 si b0) pentru ambele, panta populatiei si punctul de intersectare al
populatiei (β1 si β0), putem sa determinam intervalele de confidenta pentru aceste statistici
esantionale, stiind eroarea standard a b1 si b0 a esantionului (vezi tab. 5.2) folosindu-ne de
distributia t.

Limitele pentru intervalul de confidenta de 95% sunt urmatoarele:

pentru β1:

limita de jos L1=b1-t0.05,n-2*sb1


limita de sus L2=b1+t0.05,n-2*sb1

pentru β0:

limita de jos L1=bo-t0.05,n-2*sb0


limita de sus L2=b0+t0.05,n-2*sb0

Interpretarea frecventiala a intervalului de confidenta de 95% este ca in conditii de esantionare

64
repetata, ne asteptam ca 95% din aceste intervale sa contina adevarata panta si adevaratul punct de
intersectare al modelului nostru de regresie, care sunt fixe dar necunoscute.

5.4.3 Valorile prognozate si reziduurile

Pentru a estima eroarea intamplatoare/randomizata εi, trebuie sa retinem ca avem o distributie de


probabilitati pentru populatia de valori yi pentru fiecare valoare xi, deci, εi este estimat cu ajutorul
mediei acelei populatii, mai precis cu ajutorul ŷi ca si estimatie pentru media μyi. Diferenta dintre
fiecare valoare Y preconizata, adica ŷi, si cea observata yi este numita reziduu (ei). Reziduu ei este
estimarea OLS a erorii randomizate εi.

ei=yi- ŷi

Tocmai am introdus mai sus o a treia populatie statistica, populatia de erori randomizate εi, cu
reziduul esantional ei ca si estimator. Varianta esantionala a acestor reziduri este denumita Patratul
Mediu Rezidual (engl. Residual Mean Square – MSResidual). MSResidual este estimatorul variantei
populatiei εi, deci a σ2ε. Ca si orice varianta, MS Residual este suma patratelor divizata cu gradele de
libertate df=(n-2). Suma patratelor (SSResidual) este cantitatea pe care OLS o minimizeaza cand se
determina estimatiile pentru parametrii modelului de regresie.

Cand ŷi=yi, atunci, ei=0, deci media erorilor ei pentru acea valoare xi este egala cu 0. Acest lucru se
datoreaza faptului ca distributia normala lui P(yi) si distributia lui P(ei) a valorilor yi pentru o
valoare X anume (xi), sunt conectate una cu alta. Ambele distributii sunt normale, ambele au aceeasi
varianta si ambele au media la aceeasi valoare a lui Y. Putem vedea grafic ca suma rezidurilor este
zero, pentru ca distributia de probabilitati a lui e i pentru o anume valoare X este simetrica si suma
erorilor ei cu semn negativ egaleaza suma erorilor ei cu semn pozitiv pentru o valoare xi anume, dat
fiind ca ei=0 este media distributiei normale P(ei) (vezi graficul urmator).
Distributia de probabilitati a valorilor Y pentru o valoare X si distributia corespunzatoare
superimpozata a valorilor ei:

P(yi)
for one
xi value

xi yi for one
xi value

P(ei) the sample regression line


for one
xi value

65
Eroarea standard si valorile Y prognozate

Prognozarea cu ajutorul ecuatiei de regresie cu parametrii estimati prin metoda OLS se face prin
simpla atribuire a unei valori xi in modelul de regresie cu parametrii ajustati. Apoi se calculeaza
valoarea Y, care este valoarea Y prognozata de model. Este bine sa ne ferim sa extrapolam cand
facem prognoze, adica sa nu prognozanm pe baza valorilor X din afara spectrului datelor noastre
(Quinn & Keough 2002, p. 87). Am vazut mai sus ca valorile Y ale unei valori X au o distributie
esantionala care este normala. De aceea prezentam imediat mai jos ecuatia pentru eroarea standard a
unei valori Y prognozate, pentru cazul in care programul statistic nu folosit nu o are (Quinn &
Keough 2002):

Daca am calculat eroarea standard putem calcula intevale de confidenta (cu distributia t si df=n-2)
pentru valoarea Y prognozata, valoare care este considerata estimatia mediei adevarate a valorilor yi
pentru valoarea X introdusa in ecuatia regresiei (xp - valoarea X folosita in prognozare).

5.4.4 Analiza variatiei

O componenta fundamentala a analizei cu ajutorul modelelor lineare este explicarea surselor de


variatie din jurul modelului.

In mod traditional, se considera ca analiza regresiei are doua surse de variatie: variatia explicata de
model si variatia reziduala (vezi fig. 5.7).

66
Insa, cand analizam variatia din jurul unui model de regresie lineara, ar trebui sa ne uitam la media
valorilor lui Y pentru o valoare X data, si nu la media dreptei de regresie pentru intregul set de date.
Trebuie sa ne uitam la fig. 5.5 care prezinta distributia normala a valorilor Y pentru mai multe valori
X pentru a intelege acest lucru.

Deci, o sa analizam variatia legata de un model de regresie lineara dupa cum urmeaza:
– la nivelul fiecarei valori X (variatia reziduala), pentru a explora normalitatea erorii
randomizate neexplicata de model pentru fiecare valoare X si apoi sa agregam suma a n e i la
∑∑ei, si
– intre valori X diferite (variatia variantelor), pentru a explora homogenitatea variantelor
dintre diferitele distributii ei.

Deci, modelul ideal de regresie lineara ar trebui sa aranjeze valorile Y corespunzatoare valorilor X
date in asa maniera incat sa formeze un “val” uniform de distributii normale y i centrat in jurul
dreptei regresiei (Sokal & Rohlf 2012, p. 476). Pentru ca distributiile e i sunt conectate cu
distributiile yi, modelul ideal de “val” uniform se aplica si pentru distributiile normale ale ei.

Variatia la nivelul fiecarei valori X

Avem diferenta dintre yi observat si ŷi prognozat, care este asa-numitul reziduu ei, care genereaza
variatia neexplicata de model, variatia reziduala. In mod traditional se presupune ca a doua sursa de
variatie in Y este pozitia yi fata de media valorilor lui Y, adica ӯ. Aceasta diferenta reprezinta
variatia regresiei, sau variatia explicata de model. De fapt exista numai o singura sursa de variatie la
nivelul fiecarei valori X prezenta in modelele de regresie lineara, si anume cea randomizata,
reziduala. Ea este cea care genereaza distributiile normale ale valorilor y i pentru o valoare X in
conditii de esantionare repetata. Cel putin pentru analiza calitatii ajustarii (engl. goodness-of-fit
analysis), doar MSResidual joaca un rol. Graficul care arata legatura dintre ei si ӯi pentru o singura
valoare X, ne arata ca in caz ideal cand yi= ŷi => atunci,yi= ŷi =ӯi. In acest caz ei=0. Daca ne miscam
de-a lungul distributiei de probabilitati a e i si yi putem vedea ca ei creste cand ne indepartam de ӯi
(adica de punctul ei=0). De fapt pentru calitatea ajustarii dreptei de regresie nu este relevant, daca ea
este orizontala cu axa x sau nu. Doar segmentul dintre yi si ӯi este important, iar acest segment este
de fapt valoarea ei. Deci, ar trebui mai degraba sa exploram normalitatea fiecarei distributii e i pentru
a vedea daca erorile ei sunt aleatoare/randomizate pentru orice valoare X, deci pentru a vedea daca
este vorba de variatie naturala. Daca gasim alte distributii, atunci ar trebui sa reconsideram numarul
variabilelor, si sa trecem la regresia multipla, pentru a imparti variatia naturala intre mai multe
variabile.

Variatia dintre distributiile yi (si deci si ei) ale diferitelor valori X

Problema este ca nu stim daca varianta estimata a valorilor lui Y pentru o valoare X este aceeasi
pentru toate valorile lui X. Variatia variantelor valorilor lui Y pentru diferite valori X reprezinta a
doua sursa a variatiei in analiza regresiei lineare. Deci ar trebui sa exploram homogenitatea
variantelor pentru a vedea daca modelul regresiei se potriveste cu aranjamentul grafic real al datelor
noastre.

5.4.5 Ipotezele nule ale regresiei

Ipoteza nula testata in mod uzual in regresia lineara este cea conform careia β1=0, deci termenul
β1*x al modelului de regresie dispare si nu mai putem avea o relatie lineara intre Y si X. Dar, chiar

67
daca avem o functie constanta de forma y= β0 + 0*x, tot avem o linie de regresie (deci o relatie
intre Y si X) (Giurgiu 1972). Vom avea o dreapta horizontala cu axa x. Pentru toate valorile X ale
unei populatii trecem un y= β0, care genereaza o singura populatie de valori yi, datorata erorii
randomizate ei. Deci daca β1=0 nu inseamna neaparat ca suma patratelor n-ar exista, ci doar ca
panta regresiei este zero.

Pentru ca panta sa fie zero, coeficientul de corelatie trebuie sa fie zero, asta conform formulei:

iar asa ceva ar exclude o relatie lineara intre Y si X, doar in sensul ca cele doua variabile nu sunt
corelate una cu alta. De fapt noi repetam testul corelatiei si pentru regresie. Din cauza ca o regresie
implica intotdeauna si o corelatie, nu ne putem baza pe una pentru a o conclude pe cealalta.

De fapt ar trebui sa testam daca ∑∑εi (suma celor n sume ale erorilor neexplicate e i) egaleaza 0.
Pentru ca stim ca suma rezidurilor trebuie sa fie zero, daca este vorba de o regresie. Deci, o H0 a
regresiei ar putea fi si:

∑∑εi=0

Putem folosi testul t pentru fiecare distributie e i, ca in cazul testarii mediei esantionale egala cu
zero. Apoi sa vedem procentul de distributii care trec testul. Cu cat procentul este mai mare cu atat
mai bine. De aici putem deduce puterea explicativa a modelului de regresie.

Ar trebui sa testam si egalitatea variantelor intre diferitele distributii ale valorilor X date. Am putea
folosi un gen de test multiplu, cu opriri de testare daca observam o diferenta semnificativa intre
variante. O eventuala problema ar putea fi eroarea familiala de Tip I. Cu cat avem mai putine opriri
de testare cu atat mai bun este modelul de regresie. Ar trebui sa ne gandim si la prezenta valorilor
extreme. Cat de des apar? Apar intotdeauna in mod sistematic sau sunt genul de erori singulare.
Daca apar sistematic si cauzeaza inhomogenitate in variante atunci modelul nostru nu este corect.
Daca sunt o prezenta singulara (apar o singura data), atunci ele pot fi ignorate in estimarea
parametrilor modelului de regresie. Putem de asemenea sa folosim doua modele, unul pentru
spectrul care include marea masa de observatii (ale valorilor X) si unul care ia in considerare
valorile X pentru care apar valorile extreme (daca ele apar in dreapta sau in stanga spectrului de
valori X integrate in primul model).

Daca vrem sa comparam doua modele de regresie simpla, ar trebui sa ne uitam la cat de bine sunt
acoperite datele esantionate de catre cele doua modele, adica la cat de bine sunt ajustate modelele.

5.4.6 Prezumtiile analizei de regresie

Prezumtiile analizei de regresie (normalitatea, homogenitatea variantelor si independenta


observatiilor) nu sunt importante doar pentru evaluarea relatiei dintre cele doua variabile (testarea
ipotezelor cu referire la relatia dintre Y si X), dar si pentru determinarea fiabila a intervalelor de
confidenta ai parametrilor modelului de regresie. Datorita legaturii cu valorile y i, rezidurile
modelului ajustat sunt importante pentru a verifica daca prezumtiile analizei de regresie lineara sunt
indeplinite. Rezidurile ne indica cat de departe este orice observatie de dreapta de regresie ajustata
cu ajutorul metodei OLS, in spatiul variabilei Y. Observatiile cu reziduri mari se afla mai departe de

68
dreapta de regresie decat cele cu reziduri mici. De aceea, aranjamentele rezidurilor (plot-urile
rezidurilor) pot fi folosite pentru a verifica prezumtiile si influenta pe care orice observatie o are
asupra estimarii parametrilor modelului, adica in ajustarea lui la datele esantionate (Quinn &
Keough 2002).

Normalitatea

Normalitatea populatiilor yi si ei ale variabilei raspuns Y a fost subliniata de-alungul acestui capitol.
Normalitatea este importanta pentru ca este asociata cu homogenitatea variantelor. Daca avem
distributii yi asimetrice suntem de obicei confruntati si cu inhomogenitatea in variante si non-
linearitatea relatiilor dintre variabile. Putem sa analizam grafic normalitatea rezidurilor si sa
concludem despre normalitatea valorilor yi (cu ajutorul boxplot-urilor, pplot-urilor). Daca distributia
este asimetrica pozitiv, putem incerca transformarea lui Y, pentru a vedea daca asa sunt indeplinite
prezumtiile. O alta optiune este folosirea modelelor lineare generalizate (GMLs) care tolereaza alte
distributii pentru erori decat cea normala (Quinn & Keough 2002).

Homogenitatea variantelor

Aceasta prezumtie implica ca populatia de valori Y si termenii e i sa aiba aceeasi varianta pentru
orice xi. Aceasta prezumtie este importanta pentru fiabilitatea estimarilor intervalelor de confidenta
si testarii ipotezelor bazate pe variante. Inhomogenitatea este datorata in special distributiilor
asimetrice ale valorilor variabilei Y la nivel de x i dar si unui numar mic de valori extreme. Putem sa
verificam cu usurinta homogenitatea variantelor cu plot-ul rezidurilor la fiecare x i. Pentru a inlatura
inhomogenitatea putem imbunatati normalitatea valorilor lui Y transformandu-le, sau putem folosi
GLMs. Alternativ, putem folosi metoda celor mai mici patrate ponderate (engl. weighted least
squares) daca avem un aranjament anume de variante inegale (de ex. cresterea variantei in Y cu
cresterea in X) (Quinn & Keough 2002).

Independenta

Aceasta prezumtie implica ca valoarea Y pentru orice valoare X, nu influenteaza valorile Y pentru
alte valori X. Acest lucru este valabil si pentru termenii de eroare. Cel mai comun caz de non-
independenta este cand valorile Y, deci si termenii de eroare, se auto-coreleaza temporal. Adica,
valorile Y si termenii de eroare sunt non-independenti de-alungul timpului, si avem un coeficient de
cerelatie intre valorile Y succesive si intre termenii de eroare succesivi. Auto-corelarea apare cand
(Quinn & Keough 2002):
– observatiile reprezinta masurari repetate in cadrul unitatilor experimentale sau de
esantionare, deci in studii care implementeaza o structura de tratament in baza mai multor
unitati experimentale, si fiecare unitate este esantionata repetat de-alungul timpului sau face
subiectul diferitelor tratamente de-alungul timpului. Modelarea seriilor de observatii repetate
dintr-o unitate experimentala sau esantionala este bazata pe analiza modelelor de tip al
variantei (vezi cap. 11 din Quinn & Keough 2002). Alte proceduri includ unified mixed
linear models sau generalized estimating equations bazate pe modele lineare generalizate
(vezi cap. 13 din Quinn & Keough 2002).
– observatiile reprezinta o serie a unui experiment de lunga durata (engl. time series), cu una
sau mai multe unitati esantionale. O procedura este de a modifica estimarea OLS a analizei
de regresie in functie de nivelul de auto-corelare. De obicei insa, seturile de date care
formeaza seriile de lunga durata au nevoie de proceduri mai sofisticate de modelare, cum
sunt analizele formale ale seriilor de lunga durata (engl. time-series analysis). Acestea pot fi

69
lineare sau mai uzual non-lineare.

Relatia pozitiva dintre termenii de eroare ale observatiilor adiacente in timp (observatii succesive)
este numita auto-corelare pozitiva de primul ordin. Acest tip de auto-corelare poate fi testat cu
ajutorul testului Durbin-Watson cu H0 ca parametrul de auto-corelare este egal cu zero (Quinn &
Keough 2002).
Auto-corelarea poate fi nu numai temporala ci si spatiala, unde observatiile apropiate spatial sunt
mai similare decat cele departate.

Valorile X fixe

Un model linear in care valorile variabilei de prognoza sunt fixe (adica stabilite de investigator, cu
nici o varianta asociata cu ele) este cunoscut ca fiind un Model I sau un model cu efecte fixe (engl.
fixed effects model). Adeseori acesta este cazul experimentelor in care nivelurile variabilei X sunt
reprezentate de tratamente alese in mod specific. In agronomie si silvicultura am putea intalni mai
des asa tratamente (comparatii intre tratamente de-alungul timpului). In biologie totusi, intalnim rar
aceste experimente astfel dizainate. De obicei se alege randomizat aria exacta din care se colecteaza
datele (de ex. esantionare intamplatoare a ariilor in care se gasesc midii la tarm; orice repetitie a
acestui studiu ar produce alte arii de esantionare). Acest tip de model de regresie linear cu ambele
variabile aleatoare/randomizate este cunoscut si ca Model II sau model cu efecte randomizate
(engl. random effects model).

5.4.7 Metode de diagnosticare a regresiei

Diagnosticarea regresiei lineare simple cuprinde verificari legate de cat de bine este ajustat modelul
pentru a se potrivi cu datele esantionate. In legatura cu aceasta chestiune, am putea sa ne punem
urmatoarele intrebari (Quinn & Keough 2002):
• Este modelul dreptei un model fiabil pentru datele esantionate, sau ar trebui sa luam in
considerare si varianta unui model curvilinear?
• Avem valori extreme care influenteaza ajustarea modelului la datele esantionate?

Prima intrebare este usor de elucidat grafic, cu ajutorul scatterplot-ului dintre cele doua variabile.
Trebuie sa comparam aranjamentul datelor noastre esantionate cu distributiile matematice
curvilineare folosite in statistica (de ex. cea exponentiala) (Giurgiu 1972).

A doua intrebare se ocupa de influenta unei valori asupra calitatii ajustarii modelului (engl.
goodness-of-fit). Influenta unei anume valori este data de: ce reziduu are (diferenta dintre valorile
observate si cele prognozate de model) si de faptul daca xi este o valoare extrema in spatiul axei X.

Parghia (engl. leverage)

Daca un anumit xi este o valoare extrema in spatiul X, atunci acea observatie are o valoare parghie
mare (enlg. high leverage value). Ar trebui sa ne gandim la dreapta de regresie ca la o balanta cu
punctul de echilibru la media-x (media-x intra in calcularea parametrilor de regresie b 1 si b0). Deci
valorile X mai departate de media-x influenteaza modelul (deci, valorile Y prognozate) mai mult
decat cele mai apropiate de media lui X. Acesta este cazul general al oricarei medii influentate de
valorile extreme. Numai ca pentru ca aici media-x intra in calcularea parametrilor regresiei, valorile
extreme din spatiul X influenteaza indirect modelul de regresie (vezi fig. 5.8). Sa notam ca parghia
investigheaza doar spatiul X, cel Y nu intra deloc in calculul parghiei (Quinn & Keough 2002).

70
Reziduuri

Pentru a evalua influenta unei anumite valori x i asupra parametrilor regresiei, ar trebui de asemenea
sa analizam reziduul sau (diferenta dintre yi-observat si yi-prognozat). Problema cu rezidurile este
ca s-ar putea ca ele sa nu aiba o varianta constanta ca urmare a inhomogenitatii variatiei in y i de-
alungul valorilor X. Metodele de detectare a unei valori extreme e i care ne indica o valoare extrema
yi (deci, o valoare extrema fata de dreapta de regresie ajustata) incearca sa depaseasca problema
inhomogenitatii in variantele reziduurilor (Quinn & Keough 2002). De ex. reziduul studentizat
(engl. studentized residual), care include parghia (hi) si eroarea standard a rezidurilor (MSResidual):

Aceste reziduri studentizate au varianta constanta, deci reziduuri studentizate diferite pot fi
comparate in mod fiabil. Reziduri studentizate mari ne indica ca ele corespund unei valori y i care
este o valoare extrema fata de dreapta de regresie ajustata. O alta metoda este sa folosim asa-
numitul reziduu PRESS numit si reziduul sters pentru observatia i. Reziduul sters pentru observatia
i este definit ca si diferenta dintre valorile Y observate si cele prognozate de dreapta de regresie
pentru toate observatiile cu exceptia lui i. Aceste reziduuri sterse sunt de obicei calculate din
reziduuri studentizate. Aceste reziduuri sterse studentizate pot detecta valori extreme care altfel nu
ar fi fost detectate de verificari normale ale altor tipuri de reziduuri.

Statistica de distanta a lui Cook

O masura a influentei pe care o observatie anume o are asupra ajustarii dreptei de regresie (adica
asupra procesului de estimare al parametrilor modelului nostru de regresie) este statistica de distanta
a lui Cook (Di) (engl. Cook's distance statistic). Di ia in considerare ambele: marimea parghiei si
reziduul pentru o anume observatie si masoara practic influenta fiecarei observatii asupra estimarii

71
pantei regresiei (fig. 5.8). O valoare D i mare indica ca inlaturarea acelei observatii ar schimba
estimatiile parametrilor regresiei in mod considerabil. Ca regula aproximativa de ghidare este ca
daca o observatie are o Di mai mare de unu atunci ei influenteaza deosibit de tare procesul de
estimare al parametrilor regresiei.

Prezenta valorilor extreme in randul ei si deci, si a non-normalitatii si inhomogenitatii variantelor,


poate fi inlaturata si de transformari ale variabilei Y pentru a reduce influenta valorilor extreme
asupra ajustarii dreptei de regresie. Daca transformarile nu ajuta, atunci strategiile discutate la
punctul 2.2 pentru atenuarea valorilor extreme ar trebui luate in considerare.

5.4.8 Grafice de diagnoza

Inspectarea in preliminariu a datelor esantionate este foarte importanta pentru a verifica prezumtiile
impuse de modelul de regresie lineara. Deci, inainte de a incepe orice analiza formala, ar trebui mai
intai sa exploram grafic datele esantionate (Quinn & Keough 2002). Doua dintre cele mai
folositoare grafice de explorare sunt: scatterplot-ul si plot-ul cu reziduri.

Scatterplot-urile

Scatterplot-ul lui Y si X este, ca si in cazul corelatiei, primul pas in orice analiza de regresie.
Scatterplot-urile pot indica variantele inegale, non-linearitatea si valorile extreme. Le putem folosi
pentru a explora relatia dintre Y si X fara a fi constransi de un model linear anume (Quinn &
Keough 2002). Pentru a sublinia importanta scatterplot-urilor inainte de orice analiza formala a
datelor noaste, ne folosim de exemplul realizat de Anscombe (1973) si preluat de Quinn & Keough
(2002, p. 97).

72
Exemplul lui Anscombe (1973) subliniaza si faptul ca ipotezele nule traditionale ale regresiei
lineare nu ne ajuta in identificarea linearitatii relatiei dintre Y si X. De aceea ar trebui sa luam in
considerare si ipoteza nula introdusa de noi mai sus.

Plot-urile reziduurilor

Cel mai informativ mod de a examina rezidurile (originale sau studentizate) este cu plot-ul
rezidurilor pentru valorile lor yi prognozate (fig. 5.10). Aceste plot-uri ne pot spune daca
prezumtiile modelului sunt indeplinite si daca sunt multe observatii neobisnuite care nu se potrivesc
cu modelul foarte bine.

Aranjamentul grafic ideal in plot-urile rezidurilor este o dispersie a punctelor care nu indica o forma
crescanda sau descrescanda a rezidurilor, mai precis spus a variantei lor cum este in exemplul din
fig. 5.10 d).

73
Non-linearitatea poate fi detectata daca identificam un aranjament grafic curbat al rezidurilor.
Valorile extreme fata de dreapta de regresie ajustata se deosebesc prin faptul ca au reziduri mari.
Aceste valori extreme pot fi diferite de valorile extreme din spatiul Y, care pot fi identificate si cu
simplele boxplot-uri, care nu iau in considerare variabila X.

Conform celor doi autori australieni, Quinn si Keough (2002), putem intalni si plot-uri de reziduri
in care punctele sunt asezate de-alungul liniilor paralele, fiecare dintre linii avand o panta mai mica
cu unu (fig. 5.11). Acest fenomen este rezultatul faptului ca mai multe observatii au valori similare
pentru una dintre variabile. In exemplul din fig. 5.11, variabila raspuns (numarul de melci de mare
pro aglomerare de midii) ia doar trei valori: zero, unu si doi. Daca variabila raspuns este binara
(doar doua valori posibile), atunci punctele din plot-ul rezidurilor vor fi ordonate de-alungul a doua
linii paralele. In acest caz special regresia estimata cu OLS nu este probabil technica cea mai
apropriata pentru aceste date si am putea folosi in schimb un model linear generalizat cu termen de
eroare binomial.

5.4.9 Transformari

Pentru ca avem nevoie ca valorile Y sa fie distribuite normal, putem incerca transformarea
distributiilor Y asimetrice pentru a le apropia de normal. Transformarea variabilei raspuns Y poate
de asemenea imbunatati inhomogenitatea in variantele valorilor yi pentru a fiecarui xi, in special
cand varianta creste cand xi creste.

Prezumtia ca valorile xi sunt valori fixe alese de investigator ne sugereaza ca transformari ale
variabilei de predictie X nu sunt indicate. Totusi, daca avem analize de regresie bazate pe ambele Y
si X ca fiind variabile aleatoare, atunci ar trebui sa concluzionam numai pentru valorile X folosite
(numai pentru spectrul esantionat), sau putem folosi analiza pe baza Modelului II. In orice caz
transformarea lui X poate fi de ajutor daca avem valori X cu o valoare parghie neobisnuit de mare,
care influenteaza estimatia parametriilor regresiei. Deci, transformari ale lui X pot imbunatati
ajustarea modelului, de aceea transformarile ambelor variabile Y si X sunt cateodata mai efective
decat doar transformarea lui Y (Quinn & Keough 2002).

74
Pe langa faptul ca combat non-normalitatea, transformarile efectuate in cadrul analizei de regresie
lineara pot ajuta la linearizarea relatiei dintre Y si X daca ea este non-lineara. Putem sa ne
descurcam cu non-linearitatea ori prin introducerea unor termeni polinomiali in modelul linear, ori
prin transformarea unei sau ambelor variabile pentru a face ca un model linear simplu sa fie o
ajustare apropriata pentru datele esantionate. Relatiile nonlineare care pot fi linearizate prin simpla
transformare a variabilelor sunt cateodata denumite „lineare intrinsec“. Daca nu este nici o dovada
ca ar fi vreo inhomogenitate in variante, atunci ar fi bine sa fie transformat doar X in incercarea de a
lineariza relatia dintre X si Y, pentru ca transformarea lui Y ar putea afecta homogenitatea
variantelor, si ar putea „supara termenii de eroare care sunt deja distribuiti normal“ (Quinn &
Keough 2002). Totusi non-linearitatea este asociata adesea cu non-normalitatea variabilei raspuns
deci transformarea ambelor variabile ar putea fi necesara.

Sa notam ca interpretarea modelului de regresie bazat pe variabile transformate, si orice prognoze


bazate pe el, trebuie sa fie in termeni de variabile Y si/sau X transformate, de ex. prognoza in
logaritmi a nr. de specii dintr-o arie in logaritmi, desi prognozele se pot transforma inapoi in scala
originala de masura daca este necesar.

5.4.10 Regresia prin origine

Exista situatii numeroase cand stim ca teoretic cand Y este zero si X trebuie sa fie zero, de ex. cand
greutatea unui organizm este zero atunci si dimensiunile lui sunt egale cu zero. Acest lucru ne
tenteaza sa fortam dreapta de regresie sa treaca prin origine, prin ajustarea unui model linear fara
punct de intersectare (Quinn & Keough 2002):

75
yi=ß1xi+ɛi

A forta o dreapta de regresie sa treaca prin origine cauzeaza cateva dificultati in interpretarea
rezultatelor:
– valoarea xi minima observata rar atinge zero, si a forta dreapta de regresie sa treaca prin
origine nu inseamna numai a extrapola in afara spectrului de date esantionat ci si a
presupune ca relatia dintre Y si X ramane lineara si pentru spectrul de valori X mici. Desi, s-
ar putea ca relatia dintre Y si X sa fie non-lineara, cel putin pentru valori X mici,
– suma patratelor rezidurilor poate creste la modelul fortat prin origine, afectand calitatea
ajustarii.

Deci, Quinn si Keough (2002) recomanda ca in general, sa nu ne decidem pentru un model fortat
prin origine.

5.4.11 Metoda celor mai mici patrate ponderate

Inca o metoda folosita la imbunatatirea inhomogenitatilor in variante, pe langa transformari, este


metoda celor mai mici patrate ponderate (engl. weighted least squares). Ea pondereaza fiecare
observatie cu reciproca estimatiei variantei (σi2) : wi=1/si2.

Stim ca pentru a estima β0 si β1 cu ajutorul metodei celor mai mici patrate (OLS) producem o
dreapta de regresie (ŷi=b0+b1xi) care minimizeaza Σ(yi-ŷi)2, care reprezinta suma deviatiilor patrate
dintre fiecare yi observat si valoarea yi prognozata de dreapta de regresie esantionala pentru fiecare
xi. Principiul metodei celor mai mici patrate ponderate minimizeaza termenul Σw i(yi-ŷi)2, denotat ca
cele mai mici patrate generalizate (engl. generalized least squares). Dificultatea in calcularea wi
este ca nu putem calcula si2 decat daca avem replicari ale valorilor Y obtinute la fiecare xi. Una din
procedurile folosite este de a grupa observatiile invecinate si de a calcula astfel s i2, desi nu exita
recomandari clare cate observatii trebuiesc incluse intr-un grup. O alta procedura foloseste valoarea
absoluta a fiecarui reziduu (|ei|) generat de dreapta regresiei OLS ca si estimatie a σi. Quinn si
Keough (2002) afirma ca metoda celor mai mici patrate ponderate a fost aplicata rar in biologie, cei
mai multi biologi preferand sa transforme una sau ambele variabile pentru a intruni prezumtiile
modelelor lineare generalizate.

5.4.12 Modelul II al regresiei (X aleator)

Pana acum am presupus ca valorile X sunt fixe si estimarile OLS au fost facute pentru axa Y,
minimizand Σ(yi-ŷi)2. In majoritatea stiintelor naturii insa, cazurile in care ambele variabile Y si X
sunt aleatoare/randomizate este des intalnit. Acest lucru se datoreaza faptului ca deseori ambele
variabile fac subiectul variatiei naturale si al erorilor de masurare (Sokal & Rohlf 2012). Desi am
putea sa distingem din punct de vedere conceptual a variabila raspuns Y si una de predictie X,
ajustarea unui model de predictie linear pentru Y bazat pe X a datelor cand ambele variabile sunt
aleatoare, si presupuse sa aiba o distributie bivariata normala comuna, a fost denumita Modelul II al
regresiei (Quinn & Keough 2002). Intrebarea care dintre cele doua modele de regresie (Modelul I
sau Modelul II) este cel mai apropriat, depinde de natura datelor si de intentiile investigatorului
(Sokal & Rohlf 2012). Daca dreapta de regresie este ajustata mai ales cu scopul de a fi folosita
pentru prognozare, recomandarea actuala stabilita prin consens este de a folosi Modelul I de
regresie. Daca vrem sa determinam panta comuna a celor doua variabile aleatoare si intersectarea cu

76
axa Y (adica relatia functionala dintre cele doua variabile), atunci se recomanda folosirea Modelului
II al regresiei (Sokal & Rohlf 2012). Desi pentru prognozare se recomanda Modelul I al regresiei,
suntem interesati in prognozare mai ales de varianta care ne ofera cea mai buna ajustare a modelului
la datele esantionate cand vrem sa prezicem valori Y in baza valorilor X, deci ar trebui sa fim
interesati de Modelul II al regresiei. De aceea recomandarile nu trebuiesc luate ca fiind ceva strict,
decizia de alegere a modelului cel mai apropriat apartinand de fapt investigatorului.

Daca presupunem ca ambele variabile variaza natural (diferente individuale sunt cauzate genetic sau
de mediu), deci ambele sunt aleatoare, avem o eroare datorata variatiei asociata cu ambele Y (σ2ε) si
X (σ2δ). Raportul dintre cele doua variante (λ) ne indica dimensiunile greselii din estimarea OLS
pentru β1 (adica Modelul I), comparata cu cea estimarea pentru β 1 din Modelul II al regresiei. Pentru
regresia OLS obisnuita, σ2δ este egala cu zero, atunci λ este egal cu ∞. Alegerea metodei de estimare
pentru modelul de regresie linear cand ambele variabile sunt aleatoare/randomizate, depinde de cum
evaluam/ghicim valoarea lui λ, evaluare care este bazata pe cunoasterea celor doua variabile, a
scalelor pe care ele au fost masurate si a variantelor lor esantionale (Quinn & Keough 2002). Exista
doua metode folosite uzual in Modelul II al regresiei: regresia axei majore (MA) si regresia axei
majore reduse (RMA).

Regresia axei majore (engl. major axis regression- MA) este estimata prin minimizarea sumei
patratelor distantelor perpendiculare de la fiecare observatie la dreapta ajustata (fig. 5.12). Aceste
perpendiculare iau in considerare ambele axe X si Y. Pentru regresia lineara simpla, aceste deviatii
de la dreapta ajustata sunt paralele cu axa Y (Sokal & Rohlf 2012). Pentru regresia MA presupunem
ca σ2δ este egala cu σ2ε, deci λ este egala cu unu (Quinn & Keough 2002).

Calcularea pantei modelului de regresie MA es face folosind estimarea pantei obtinuta in Modelul I
al regresiei si a coeficientului de corelatie (Quinn & Keough 2002):

unde,

77
Erorile standard si intervalele de confidenta se estimeaza cel mai bine prin bootstrapping iar pentru
testul ipotezei nule de corelatie (H0 al pantei egala cu ±1) sunt folosite testele randomizante.
Conform Quinn & Keough (2002), Legendre & Legendre (1998) au afirmat ca regresia MA este
adecvata cand ambele variabile sunt masurate pe aceeasi scala cu aceleasi unitati de masura, sau
pentru variabilele care sunt nedimensionale. Ei au prezentat si o modificare a regresiei MA, numita
regresia MA de spectru (engl. ranged MA regression). Variabilele sunt standardizate cu spectrele
lor, apoi se calculeaza regresia MA, si mai apoi panta regresiei este transformata inapoi la scala de
masura originala. Avantajul regresiei MA de spectru este ca variabilele nu trebuie sa fie in unitati de
masura comparabile (Quinn & Keough 2002).

Regresia axei majore reduse (engl. reduced major axis regression – RMA) numita si regresia axei
majore standard (SMA), este ajustata prin minimizarea sumei suprafetelor triunghiurilor formate de
liniile verticale si orizontale de la fiecare observatie la dreapta ajustata (fig. 5.12). Pentru regresia
RMA se presupune ca cele doua proportii σ2ε/ σ2δ si σ2Y/ σ2X sunt egale. Deci, panta regresiei RMA
este raportul dintre deviatia standard a lui Y si deviatia standard a lui X:

Eroarea standard pentru estimarea RMA poate fi determinata prin bootstrapping si s-a constatat ca
pentru b1 ea este aceeasi ca cea obtinuta in estimarea OLS (Modelul I de regresie) (Quinn &
Keough 2002). Intervalele de confidenta pentru β1 pot fi determinate in modul prezentat pentru
media populatiei. Ipoteza nula H0 ca β1 este egal cu o anume valoare (cu exceptia valorii de zero!)
poate fi testata cu o statistica T (Quinn & Keough 2002):

unde,
b1 este estimarea RMA a β1,
β1* este valoarea lui β1 specificata in H0,
numitorul este eroarea standard a coeficientului de corelatie r.

Dreapta RMA de regresie este si axa longitudinala a elipsei bivariate de confidenta, ceea ce indica o
legatura stransa intre coeficientul de corelatie si dreapta de regresie RMA (cu siguranta pentru ca
estimatia RMA a β1 contine cele doua erori standard ca si coeficientul de corelatie).

Remarca:

Sa notam ca ajustarea unui model de regresie a lui Y bazat pe X produce o dreapta de regresie OLS
diferita de cea a modelului de regresie a lui X bazat pe Y pentru acelasi set de date! Acest lucru se
datoreaza faptului ca pentru Y bazat pe X se minimizeaza deviatiile in spatiul Y de la dreapta de
regresie iar pentru X bazat pe Y se minimizeaza deviatiile de la dreapta de regresie in spatiul X. In
mod interesant, conform lui Jackson (1991), dreapta RMA pare a fi pentru cei mai multi dintre
observatori mai intuitiva si mai bine ajustata la datele esantionate decat cea bazata pe OLS, din
moment ce ea pica la jumatatea dintre dreapta OLS a lui Y bazat pe X si dreapta OLS a lui X bazat
pe Y (Quinn & Keough 2002).

Pentru a intelege mai bine conceptele legate de MA, MA de spectru si RMA este nevoie de o
analiza mai amanuntita. Quinn si Keough (2002) recomanda ca punct de plecare pentru o lectura

78
mai amanuntita despre cum sa selectam modelul adecvat analizei noastre articolele lui Legendre &
Legendre (1998) si McArdle (1988). Pentru ca stiintele naturii sunt ramura in care variatia naturala
predomina, deci in care ambele variabile sunt aleatorii, ar trebui sa ajungem sa cunoastem mai bine
metodele Modelului II de regresie. Quinn si Keough (2002) afirma ca aceste metode sunt deseori
omise in studiile biologice pentru faptul ca majoritatea cartilor despre modelele lineare descriu
numai exemple de regresii din domeniul industriei si business-ului unde prezumtia conform careia
X este fix este valabila mai des.

5.4.13 Regresia robusta

Am vazut ca estimarile OLS pentru parametrii regresiei sunt sensibile la prezumtiile distributionale
si afectate de valorile extreme, care produc reziduuri mari. Chiar si modelele lineare generalizate
(GLMs) care tolereaza si alt gen de distributii pentru termenii de eroare in afara de cea normala, si
care sunt bazate pe estimarea ML, sunt sensibile la observatii extreme. Metodele regresiei robuste
sunt proceduri folosite la ajustarea modelelor de regresie lineara, proceduri care sunt mai putin
sensibile la deviatii de la distributia aleasa pentru descrierea termenilor de eroare, deci sunt mai
putin sensibile la observatiile extreme (Quinn & Keough 2002). Mai jos prezentam pe scurt cateva
dintre metodele cele mai uzuale ale regresiei robuste: metoda celor mai mici deviatii absolute
(LAD), estimatorii M, regresia bazata pe ranguri (neparametrica) si testele randomizante.

Cele mai mici deviatii absolute (engl. LAD – least absolute deviations)

Aceasta procedura estimeaza β1 si β0 asa incat sa minimizeze suma valorilor absolute ale
reziduurilor si nu suma patratelor reziduurilor (Ʃ=ei2) ca in OLS:

.
Prin evitarea ridicarii la patrat a reziduurilor, valorile extreme influenteaza mai putin procesul de
ajustare a modelului. Exista algoritmi pentru calcularea β1 si β0, si metodele LAD sunt integrate in
programele uzuale de statistica (deseori ca procedura de rutina in modelarea non-lineara) (Quinn &
Keough 2002).

Estimatorii M

Estimatorii M de tip Huber pondereaza observatiile diferit in functie de cat de departe se gasesc de
centrul distributiei. In contextul regresiei, estimatorii M contribuie la minimizarea Ʃ=ei2 pentru
estimarea OLS si Ʃ=|ei| pentru LAD. Estimatorii M de tip Huber pondereaza reziduurile (e i) in
functie de cat de departe sunt de zero, si folosesc aceste reziduuri noi pentru a calcula valori Y
adaptate. Estimarea β1 si β0 cu ajutorul estimatorilor M Huber, implica alegerea pragului in valoarea
reziduurilor la care metoda schimba de la OLS (cand reziduurile sunt aproape de zero) la LAD
(cand rezidurile sunt departe de zero). Wilcoxon (1997) a descris un tip de estimator M bazat pe
reponderari iterative a reziduurilor pentru a ne ajuta sa raspundem la aceasta intrebare (Quinn &
Keough 2002). Distributiile esantionale ale parametrilor β 1 si β0 estimati cu ajutorul estimatorilor M
este putin probabil sa fie normale, doar daca dimensiunile esantionale sunt mari. Deci, calculatiile
erorilor standard, intervalelor de confidenta si testarii ipotezelor s-ar putea sa nu fie valabile (Quinn
& Keough 2002).

79
Regresia bazata pe ranguri (neparametrica)

Aceasta procedura nu are prezumtia unei distributii specifice pentru termenii de eroare, si este
deosebit de folositoare daca una sau ambele variabile sunt distribuite normal si non-linearitatea este
evidenta iar transformarile sunt ori inefective sau nu mai reprezinta procesele biologice studiate.
Analiza de regresie non-parametrica simpla este bazata pe un numar egal cu [n(n-1)]/2 de pante
OLS ale dreptelor de regresie construite cu cate doua puncte apartinand lui X (adica panta pentru
dreapta care trece prin y1x1 si y2x2, panta pentru dreapta care trece prin y2x2 si y3x3, s.a.m.d.).
Estimatorul non-parametric al lui β1 (b1) este medianul acestor pante iar estimatorul lui β 0 (b0) este
medianul tuturor diferentelor yi-b1xi. Birkes & Dodge (1993) prezinta un test t pentru β 1 non-
parametric bazat pe valori Y; o alternativa este folosirea coeficientului de corelatie bazat pe ranguri
al lui Kendall (Quinn & Keough 2002).

Testele randomizante

Quinn si Keough (2002) afirma ca pentru o H0 cu β1 putem folosi si un test randomizant prin
compararea valorii b1 observate cu valoarea b1 din distributia construita pentru b1 prin imperecherea
la intamplare a unui nr. mare de valori y i si xi si valoarea calculata a b 1 pentru fiecare pereche de
valori yixi. Valoarea P este % de valori b1 din aceasta distributie care sunt egale sau mai mari decat
valoarea b1 observata.

5.4.14 Netezirea (engl. smoothing)

In unele cazuri stim ca un model linear nu este adecvat pentru descrierea relatiei dintre Y si X
pentru ca scatterplot-ul celor doua variabile ne arata in mod evident non-linearitatea relatiei dintre
cele doua variabile sau si pentru ca s-ar putea sa stim din start ca din punct de vedere teoretic se
potriveste alt tip de modelare. Sau pur si simplu dorim sa exploram natura relatiei dintre Y si X fara
sa avem in minte un anumit model teoretic. In aceste cazuri, avem nevoie de o metoda de ajustare a
curbelor la relatia dintre Y si X care sa nu fie restrictionata de un model linear anume sau de o
structura specifica. Metodele de netezire (engl. smoothers) sunt o clasa larga de tehnici care descriu
relatia dintre doua variabile impunand putine conditii in ceea ce priveste forma pe care sa o aiba
relatia celor doua variabile.

Daca scopul modelului linear uzual este de a separa datele in doua componente (model + reziduu),
netezirea are ca scop separarea datelor in neted + dispers (engl. smooth + rough), unde componentul
dispers ar trebui sa contina cat mai putina informatie si structura cu putinta (Quinn & Keough
2002).

Logica netezirii este destul de simpla:


– Orice observatie este inlocuita de media sau medianul observatiilor din jurul sau, sau de
valoarea prognozata de un model de regresie ajustat pentru aceste observatii locale.
– Observatiile inconjuratoare sunt acelea din interiorul unei ferestre (cateodata denumita
banda sau vecinatate) care cuprinde spectrul de observatii de-alungul axei X sau valoarea X
in jurul careia este centrata fereastra, valoare numita si valoare tinta. Dimensiunea ferestrei,
adica nr. de observatii incluse, este determinata de un parametru de netezire (engl.
smoothing parameter).
– Liniile succesive obtinute astfel se suprapun asa incat sa rezulta o linie neteda.
– Media sau medianul dintr-o fereastra nu sunt afectate de observatiile altor ferestre, deci

80
smoother-ii sunt robusti la valorile extreme.
– Ferestrele de la extremele spectrului de valori esantionate se intind deseori peste cea mai
mica si peste cea mai mare valoare X a datelor noastre. De aceea aceste ferestre trebuiesc
setate diferit, pentru ca valorile tinta (in jurul carora se centreaza fereastra) sa nu fie chiar
ultima valoare din stanga si dreapta spectrului esantionat.

Functiile de netezire nu impun conditii sepciale pentru Y si X. Exista o varietate de smoother-ii.


Introducem mai jos cativa dintre ei: running means, LO(W)ESS, splines si kernels.

Mediile miscatoare (engl. running means)

Un smoother cu medii miscatoare este determinat de mediile tuturor ferestrelor. Fiecare fereastra
este centrata pe valoarea tinta X iar valorile X incluse in fereastra pot fi determinate in doua
moduri: (i) este inclus un nr. fix de observatii de ambele parti ale valorii tinta, sau (ii) este inclus un
nr. fix de observatii din apropierea tintei X indiferent de ce parte a tintei apar. Varianta a doua tinde
sa aiba performante mai bune in special pentru smother-ii locali ponderati. Sa notam ca orice
observatie poate fi inclusa in calcularea mediei mai multor ferestre invecinate, de aici termenul de
running means. Folosirea medianului miscator in locul mediei miscatoare face netezirea mai
rezistenta la observatiile extreme, adica face netezirea mai robusta. Mediile sau medianele
miscatoare au fost folosite de obicei pentru analiza seturilor de date din experimentele de lunga
durata simple (engl. simple time series), desi linia care rezulta din netezire este rareori neteda.

LO(W)ESS

O modificare simpla a mediilor sau medianelor miscatoare este de a calcula dreapta de regresie
OLS din ferestre si sa inlocuim yi observate cu cele prognozate de dreptele de regresie locale pentru
valoarea X tinta a fiecarei ferestre. O modificare a acestei proceduri este netezirea prin regresia
locala ponderata (engl. locally weighted regression scatterplot smoothing). Aici, observatiile dintr-o
fereastra sunt ponderate diferit in functie de cat de departe sunt de valoarea X tinta folosind functia
tricubica de ponderare. Prin repetarea procesului un numar de ori observatiile cu reziduuri mari
pierd din influenta. Netezirea Loess finala este deseori o reprezentare excelenta a relatiei dintre Y si
X, desi alegerea parametrului de netezire (dimensiunea ferestrei) poate fi importanta pentru
interpretare.

81
Splines

Procedura bazata pe splines adreseaza problema netezirii prin ajustarea regresiilor polinomiale, de
obicei polinoame cubice, pentru fiecare fereastra. Calculatiile sunt complexe iar modul cum se
definesc nodurile (stabilite de utilizator) care despart ferestrele nu este transparent. Conform Quinn
si Keough (2002), regresia pe baza de splines este mai putin utila decat smoother-ii Loess ca unealta
exploratoare pentru relatiile bivariate.

Kernels

Netezirea de tip kernel pentru relatia lui Y bazat pe X functioneaza in principiu in felul urmator: in
interiorul unei ferestre, observatiile sunt ponderate in baza unei functii cunoscute (de ex. distributia
normala) denumita kernel, astfel incat greutatea/influenta unei observatii descreste cu cat este mai
departe de valoarea X tinta (ca si in netezirea de tip Loess). Netezirea rezulata din mediile valorilor
Y ale fiecarei ferestre. Si aici, parametrul de netezire defineste dimensiunea ferestrei, iar ea si
kernel-ul (functia care seteaza ponderarea observatiilor din fiecare fereastra) sunt definite de
utilizator. Functiile kernel nu sunt folosite des ca metoda de netezire pentru descrierea relatiei dintre
Y si X dar sunt folositoare ca estimatori de densitate ai datelor uni- si bivariate (de ex. sunt folositi
in estimarea non-parametrica a regiunilor de confidenta pentru corelatie).

Remarci in legatura cu netezirea

Metodele de netezire prezentate mai sus prognozeaza o valoare Y pentru fiecare x i. De aceea se pot
calcula si reziduurile (yi-ŷi) pentru fiecare observatie. Aceste reziduuri pot fi folosite pentru
evaluarea calitatii ajustarii liniei de netezire la datele esantionate, asemanator cu metodele descrise
pentru regresia lineara. De asemenea erori standard pentru valorile prognozate ŷi pot fi determinate
prin bootstrapping iar ipotezele despre ŷi pot fi testate cu ajutorul procedurilor de randomizare.

Metodele de netezire sunt cel mai des folosite ca unelte de explorare, si nu neaparat pentru ajustarea
modelelor. Putem verifica grafic prezumtiile unui model linear sau ne ajuta sa ne decidem ce forma
de model non-linear ar putea fi adecvata pentru datele esantionate.

Prin compararea a mai multi parametrii de netezire putem vedea ca cei mai mici produc ferestre mai
mici, deci linia de netezire este mai putin neteda, decat daca am aplica un parametru de netezire mai
mare, cu ferestre mai mari care ar produce o linie de netezire mai dreapta (vezi fig. 5.21). Daca
metodele de netezire fac parte dintr-un proces de modelare (de ex. Generalized Additive Modeling –
GAM), suntem interesati in parametrul de netezire care minimizeaza varianta, pentru a imbunatati
puterea de prognoza a modelului.

5.5 Remarci generale pentru analiza de corelatie si regresie

• Pentru estimarea si testarea corelatiilor relatiilor lineare exista proceduri parametrice clar
definite. Metodele corelatiei robuste (neparametrice) se pot folosi pentru relatiile nonlineare
dar monotone.
• Testele ipotezelor nule pentru valori non-zero ale coeficientului de corelatie ar trebui
introduse in analizele de corelatie (mai ales pentru ρ=│±1│).
• Cu un scatterplot dintre Y si X ar trebui sa porneasca exploarea datelor in analiza de
corealtie si regresie. Cand este folosit in combinatie cu o functie de netezire (de ex. Loess),
scatterplot-ul poate dezvalui non-linearitatea relatiei celor doua variabile, variante inegale si

82
valorile extreme.
• Modelele clasice de regresie lineara ajustate cu ajutorul OLS presupun ca variabila X este
fixa (Modelul I al regresiei). In stiintele naturii, ambele variabile, Y si X, sunt de obicei
aleatoare/randomizate iar pentru aceste cazuri exista modele alternative pentru estimarea
pantei.
• Cand vrem sa ajustam modele lineare la datele esantionate, este practic sa folosim plot-urile
de diagnoza pentru a verifica prezumtiile si calitatea ajustarii modelului. Pentru regresia
lineara, plot-urile dintre reziduuri si valorile prognozate ne ajuta sa verificam homogenitatea
variantelor reziduale. Verificari pentru a depista auto-corelarea, mai ales daca variabila de
prognoza reprezinta o secventa temporala cum este cazul experimentelor de lunga durata, ar
trebui sa preceada orice analiza formala. Statistica lui Cook, D i, este o masura valoroasa a
influentei pe care fiecare observatie o are in ajustarea modelului.
• Panta de regresie standardizata ne ofera o masura a pantei relatiilor lineare dintre variabila
raspuns si cea de predictie care este independenta de unitatile de masura.
• Prezumtiile analizei de regresie lineara (normalitatea, homogenitatea variantelor,
independenta) valabile pentru variabila raspuns, se aplica si la termenii ei de eroare.
Incalcarile acestor prezumtii, in spcial a homogenitatii variantelor si independenta pot avea
urmari importante in estimarea si testarea modelului linear de regresie.
• Transformarile pentru una sau ambele variabile pot imbunatati ajustarea modelelor de
regresie lineara prin integrarea valorilor extreme in distributiile tolerate si reducerea
influentei lor asupra procesului de ajustare a parametriilor.
• Daca transformarile sunt inefective sau inaplicabile, regresia robusta bazata pe estimatorii M
sau pe ranguri ar trebui luata in considerare pentru a atenua valorile extreme si observatiile
cu influenta mare asupra ajustarii parametrilor.
• Functiile de netezire (engl. smoothing functions) sunt unelte de explorare foarte folositoare,
ce ne pot sugera tipul de model teoretic adecvat pentru datele esantionate.

83
Bibliografie

•Crawley, M. , The R book , Wiley, 2007.


•Giurgiu, V., Metode ale statisticii matematice aplicate in silvicultura, Ceres, 1972.
•Papula, L., Mathematik für Ingenieure und Naturwissenschaftler - Band 1, Vieweg und
Teubner, 2011.
• Pelz, D. , Einführung in Waldmessslehre, 2005, unpublished
• Quinn G. P.; Keough, M. J., Experimental Design and Data Analysis for Biologists,
Cambridge University Press, 2002.
• Rosin, K., Einführung in Hydrologie mit R, 2010, unpublished
• Sokal, R.S., Rohlf, F.J., Biometry, Freeman, 2012.
• Tesileanu, R., Assessment of ecological restoration activities, 2009, unpublished.

84

View publication stats

S-ar putea să vă placă și