Documente Academic
Documente Profesional
Documente Cultură
Un articol stiintific incepe cu titlul articolului, dupa care se scriu numele autorilor, in ordinea
contributiei.
Pentru fiecare autor trebuie mentionata afilierea, adica institutia in care lucreaza.
Urmeaza rezumatul articolului, in care se prezinta, pe scurt, scopul lucrarii, rezultatele obtinute si
concluziile la care au ajuns autorii.
La sfarsitul rezumatului se adauga o lista de cuvinte-cheie, care sunt sugestive pentru tema abordata
si pentru rezultatele obtinute.
Articolul propriu-zis este constituit din urmatoarele parti:
1.Introducere
2.Material si metoda
3.Rezultate
4.Discutii
5.Concluzii
6.Bibliografie
1
PRELUCRAREA STATISTICĂ A DATELOR
1)Media aritmetică - este indicatorul care arată tendinţa centrală a seriei de valori şi, de
obicei, reprezintă valoarea în jurul căreia sunt situate majoritate datelor. Se notează cu litera m sau,
dacă seria de valori este notată cu o majusculă ca X sau Y, media se notează cu X sau Y . Formula
este cea cunoscută:
x1 + x2 +......... xn
X = =m
n
De cele mai multe ori, valorile din serie sunt situate, în majoritate, în apropierea mediei, iar
o mai mică parte din ele sunt situate mult în stânga sau în dreapta mediei.
( x1 − X ) 2 + ( x2 − X ) 2 + ....... + ( xn − X ) 2
σ= D sau σ =
n −1
Deviația standard se exprimă cu aceeaşi unitate de măsură ca şi valorile din seria considerată
şi este un indicator foarte fidel al împrăştierii seriei. Deviaţia standard nu are dezavantajele
dispersiei, adică unitatea de măsură este aceeaşi cu a valorilor din serie şi are o valoare comparabilă
cu abaterile individuale de la medie.
4)Mediana şi cuartilele
Mediana este valoarea dintr-o serie de valori, pentru care jumătate din valorile seriei sunt
mai mici decât mediana şi jumătate mai mari. Cuartila Q1 este valoarea dintr-o serie de valori,
pentru care un sfert din valorile seriei sunt mai mici decât Q1 şi trei sferturi mai mari. Cuartila Q3
este valoarea dintr-o serie de valori, pentru care trei sferturi din valorile seriei sunt mai mici decât
Q3 şi un sfert mai mari. Percentilele reprezintă valori fata de care un anumit procent (5%, 10%,
90%, 95% etc.) din toate datele din serie sunt mai mici.
2
Pentru aplicarea corectă a anumitor teste statistice este necesar ca datele studiate să aibă un
anumit tip de distribuţie. Cele mai multe teste prin care se compara valorile medii ale rezultatelor,
necesită ca datele să fie distribuite normal, gaussian. Verificarea distribuţiei gaussiene a valorilor
dintr-o serie de date se poate efectua cu ajutorul testelor de normalitate Anderson-Darling,
Shapiro-Wilks sau Kolmogorov-Smirnov.
În cazul în care datele analizate au o distribuţie gaussiană, în mod curent, pentru compararea
valorilor medii ale datelor, se folosesc testul Student sau testul ANOVA. Dacă datele nu au o
distribuţie normală, gaussiană, trebuie să apelăm la teste neparametrice, precum testul Mann-
Whitney-Wilcoxon sau Kruskal-Wallis/Friedman.
Testul t al lui Student, de comparare a mediilor pentru 2 loturi, propune doua ipoteze
statistice:
-p < 0.05, diferenţa între cele două medii este semnificativă (S, încredere 95%).
-p < 0.01, diferenţa între cele două medii este semnificativă (S, încredere 99%).
-p < 0.001, diferenţa între cele două medii este înalt semnificativă (HS, încredere 99.9%).
-p > 0.05, diferenţa între cele două medii este nesemnificativă (NS).
Testul t al lui Student poate fi aplicat doar pentru date numerice care provin dintr-o
populaţie cu distribuţie normala, gaussiană. Dacă această condiţie nu este îndeplinită, pentru a
compara datele celor două loturi pot fi folosite testul Wilcoxon (număr de date egale, valori
pereche) sau testul Mann-Whitney (număr diferit de valori în cele doua loturi comparate).
Rezultatele acestor teste pot fi şi ele exprimate sub forma unei probabilităţi, interpretată la fel ca la
testul Student.
3
Testul ANOVA (Analysis of Variance) este un procedeu de analiză a dispersiei unei
variabile numerice (eng.=”variance”), sub influenţa unei variabile care imparte datele in subloturi
(variabila de grupare). Prin ANOVA se compară medii pentru trei şi mai multe subpopulaţii definite
de variabila de grupare (variabila independentă).
Metoda permite extensia analizei realizate prin testul t Student, aplicabil asupra a două
medii, la situaţii în care variabila independentă (variabila de grupare) prezintă trei sau mai multe
categorii, verificând astfel dacă sunt diferenţe semnificative între populaţiile din care s-au extras
eşantionanele observate.
-ipoteza nulă H0: x̄ 1 =x̄ 2 =.....x̄ k (toate mediile sunt asemănătoare) unde x – parametrul considerat, x̄
- media
-ipoteza alternativă H1: cel puţin valorile medii a doi parametri sunt diferite între ele
În cazul în care rezultatul testului ANOVA este semnificativ statistic, putem continua
analiza prin testele „post hoc” Tuckey HSD sau Fisher LSD, pentru a identifica perechile de
categorii între care există diferențe semnificative. Într-un mod oarecum asemănator testului t
Student se calculează, pentru toate combinațiile posibile de câte 2 categorii, valori p, al căror nivel
critic este ajustat în funcție de numărul total de combinații, pragul găsit fiind, de cele mai multe ori,
mai mic decât pragul obisnuit, de 0,05.
• p < 0.05, diferenţa între medii este semnificativă (S, incredere 95%).
• p < 0.01, diferenţa între medii este semnificativă (S, incredere 99%).
• p < 0.001, diferenţa între medii este înalt semnificativă (HS, incredere 99.9%).
• p > 0.05, diferenţa între medii este nesemnificativă (NS).
Testul Kruskal-Wallis este un test statistic neparametric care compară valorile datelor din
trei sau mai multe grupuri. Fiind un test neparametric, deci care nu necesita distributia normala,
gaussiana, a datelor comparate, el poate inlocui testul ANOVA cand acesta nu poate fi aplicat. Daca
dorim sa comparam datele distribuie ne-gaussian din 3 sau mai multe serii-perechi (cu acelasi nr. de
valori, de obicei masuratori facute la mai multe momente de timp, pe un singur lot) vom folsi testul
Friedman.
4
Corelaţia
Este un termen general folosit pentru a defini interdependenţa sau legătura dintre variabilele
observate în populaţii statistice. Apare uneori cu un înţeles foarte larg, acoperind orice legătură
statistică fie între variabile cantitative, fie între variabile calitative, fie între ambele tipuri de
variabile. În sens restrâns însă, este o măsură a gradului de legătură statistică între variabilele
cantitative, sub numele de „coeficient de corelaţie”.
Cel mai des folosit este coeficientul de corelaţie al lui Pearson (coeficient de corelaţie
liniară), care măsoară gradul de legătură între variabile.
Coeficientul de corelaţie
Pentru două serii de date distribuie gaussian, coeficientul de corelaţie folosit este
coeficientul lui Pearson. Deşi distribuţiile datelor nu sunt întotdeauna de aşa natură ca rezultatele
obţinute folosind acest coeficient sa fie cele mai bune, totuşi am considerat ca este cel mai sintetic
indicator al corelaţiei.
În cazul unui coeficient de corelaţie pozitiv (ex. r = 0,5) avem o corelaţie directă - cele două
variabile corelate variază în acelaşi sens (când una creşte, şi cealaltă creşte, respectiv când una
scade, şi cealaltă scade).
În cazul unui coeficient de corelaţie negativ (ex. r = -0,5) avem o corelaţie inversă, cele două
variabile corelate variază în sens contrar (când una creşte, cealaltă scade).
Dacă valoarea absolută a coeficientului de corelaţie aproape de 0 corelatia liniara este aproape
absenta. Nu trebuie să se conchidă neapărat că nu există legătură statistică între cele două variabile;
legătura poate să existe, dar nu este liniară (nu poate fi descrisă de o linie dreaptă).
Pentru date care nu au o distribuţie gaussiana, dar care se pot ordona, fără a avea un număr
mare de valori egale intre ele, putem folosi coeficientul Spearman, obţinut prin testul neparametric
Spearman de corelaţie a rangurilor.
Dreapta de regresie - pentru a putea caracteriza evoluţia în timp a unui set de valori,
aparţinând unui număr de observaţii, se poate folosi ecuaţia de regresie.
5
Ecuaţia de regresie (ecuaţia de estimare) este relaţia matematică care exprimă dependenţa
dintre două sau mai multe variabile. Admiţându-se, fie numai ipotetic, dependenţa unei variabile de
unul sau mai mulţi factori, trebuie aleasă ecuaţia de regresie care să descrie relaţia dintre variabila
dependentă şi variabila independentă. Frecvent se foloseşte ecuaţia de regresie liniară, respectiv
dreapta de regresie:
y = a·x +b,
Acest model presupune că variabila dependentă y este egală în medie cu o funcţie liniară de
x, depinzând de parametrii necunoscuţi a şi b. Această dependenţă liniară este un model determinist
şi nu reflectă exact legătura dintre x şi y. Valorile observate nu se găsesc exact pe dreapta de mai
sus. Dreapta trasată este însă cea mai apropiată (statistic) de valorile observate.
Estimarea parametrilor a şi b se face prin „metoda celor mai mici pătrate” sau în sensul
celor mai mici pătrate (adică să se fie minimă suma pătratelor abaterilor între punctele observate şi
punctele corespunzătoare de pe dreapta de regresie).
În cazul parametrilor care nu sunt reprezentaţi prin date numerice, continue sau discrete, nu
putem calcula coeficienţii de corelaţie tradiţionali, enumeraţi anterior. În cazul datelor ordinale sau
nominale trebuie să apelăm la teste care analizează tabelele de incidenţă (contingenţă) generate prin
aplicarea încrucişata („cross tabulation”) a unor perechi de factori, pentru a identifica legăturile
dintre categoriile acelor variabile.
Testul Chi pătrat este un test statistic ce arata daca exista vreo legatura (influenta
reciproca) intre doi factori. El este folosit pentru a interpreta tabelele de incidenţă generate prin
aplicarea încrucişata („cross tabulation”) a perechilor de factori urmăriţi in cadrul studiului.
6
La testul Chi patrat de testare a dependentei ( χ2 ) se calculeaza rezultatul testului pentru
datele din tabelele de incidenta, rezultat care se compara cu o valoarea prag care indica o
dependenta semnificativa (prag de 95% sau 99%) sau o dependenta inalt semnificativa (prag de
99.9%) intre cei doi factori de clasificare. Valoarea lui χ2 se calculeaza prin formula:
n
(| Oi − Ei |) 2
χ2 = ∑ ,
i =1 Ei
• p < 0.05, rezultat semnificativ (S, încredere 95% că exista o asociere intre factori);
• p < 0.01, rezultat semnificativ (S, încredere 99% că exista o asociere intre factori);
• p < 0.001, rezultat înalt semnificativ (HS, încredere 99,9% că exista o asociere intre factori);
• p > 0.05, rezultat nesemnificativ (NS, încrederea de a considera ca exista o dependenta intre
factorii studiati este mai mica de 95%, deci eroarea de a respinge ipoteza ca factorii sunt
independenti este mai mare de 5%, prag considerat prea mare).