Sunteți pe pagina 1din 25

Notiuni de statistica si

prelucrare date
Tipuri de date VARIABILE

• date numerice: au inteles ca masuratoare, numaratoare - CANTITATIVE


• date cu variatie discontinua (discrete) – distincte si separate, pot lua doar anumite
valori
- nu pot fi masurate, dar pot fi numarate (de cate ori o moneda cade
pe o anumita fata, nr de bolnavi intr-un spital)
• date cu variatie continua – pot fi masurate, nu pot fi numarate (inaltimea
oamenilor)
• scala de tip interval: temperatura de peste zi, exprimata in intervale de 2 grade; nu exista un zero
adevarat – nu se poate sa nu existe temperatura
• scala de tip raport: unitati ordonate cu distanta egala intre ele, dar exista zero adevarat – de
exemplu: lungime, greutate

• date categoriale: caracteristici: sex, limbi straine vorbite, etc (pot lua valori nominale,
fara inteles mathematic) - CALITATIVE
• date nominale – unitati discrete utilizate pentru a eticheta variabilele (sexul unei
persoane); nu pot fi ordonate
• date ordinale – unitati dicrete care pot fi ordonate (nivelul de educatie), dar nu se
cunoaste exact distante dintre ele
Organizare date si reprezentare
• X = (7, 5, 7, 8, 4, 9, 8, 10, 5, 3, 8, 10, 8, 7, 9, 6, 4, 7, 6, 1, 8, 6, 8, 7, 5, 7, 4, 7, 1, 9, 5, 8, 6, 7, 7)
• n = nr de date in set = 35 =COUNT(D1,D35)
• valoare minima = 1 =MIN(D1,D35) Histogram
10

• valoare maxima = 10 =MAX(D1,D35) 8

Frequency
• table – frecventa de aparitie a datelor 6

4
Frequency

Valoarea X Frecventa f 2

1 2 0
1 2 3 4 5 6 7 8 9 10 More
2 0 Bin

3 1 Histogram
4 3 18
histograma
5 4 16
de frecventa 14
6 4
12
7 9

Frequency
10
8 7 8
Frequency
9 3 6
4
10 2 2
0
0 2 4 6 8 10 More
Data Analysis - Histogram Bin
Placinta Coloane
Raspuns Nr Procent Masa moleculara
da 2 12,5 Medicament (g/mol) Nr atomi grei
nu 3 18,75 aspirina 180 13
depinde 6 37,5 ibuprofen 206 15
nu stiu 5 31,25 paracetamol 151 11
diclofenac 295 19
Raspunsul la chestionar
400 Masa moleculara (g/mol)

300
12% da
31% 200
19% nu
100
depinde

38% nu stiu 0
aspirina ibuprofen paracetamol diclofenac

Masa moleculara in functie de nr. de atomi grei


305
285

Masa moleculara (g/mol)


265
245
225
Grafice XY (scatter) – variatia masei moleculare 205 Masa moleculara (g/mol)

in functie de numarul de atomi grei 185


165
145
10 12 14 16 18 20
Numar atomi grei
Statistica descriptiva
• TENDINTA CENTRALA – medie, mod, mediana

• Media = media aritmetica (suma valorilor/numar valori)


=AVERAGE(B3:B8)=SUM(B3:B8)/COUNT(B3:B8)

• Modul = valoarea/categoria cea mai frecventa in seria de date (poate fi aplicat la date
categoriale)

=MODE(B3:B8)

• Mediana = valoarea de mijloc a datelor ordonate crescator

=MEDIAN(B3:B8)
• VARIABILITATEA – interval, intercuartile, varianta, deviatie standard
Domeniul de dispersie = valoare maxima – valoare minima; ia in
calcul extremele
=MAX(B3:B8)-MIN(B3:B8)
- Team 1 = 8.5; Team 2 = 27.7

Intervalul intercuartilelor – masoara dispersia intre 25% si 75% dintre


valori (unde se gasesc majoritatea valorilor)

=QUARTILE(B3:B8)
descrierea insuficienta a datelor (este necesara
cuantificarea variabilitatii)

Varianta = media aritmetica a patratelor diferentelor


fata de medie =VAR(B3:B8)

Deviatia standard = radical din varianta

=STDEV(B3:B8)
exercitiu: Inaltimea pana la umar: 600mm, 470mm, 170mm, 430mm and 300mm

Coeficientul de variatie:

CV= deviatia standard / medie

Calculati: Medie, mediana, mod


intervalul, intervalul cuartilelor, varianta, SD, CV

Calcul in cazul unei populatii vs o proba:

=STDEVP(B3:B8)

=STDEV(B3:B8)
corectia lui Bessel
Distributia datelor – Distributia normala
• reprezentarea grafica a unei serii mari de date
• distributie in forma de clopot, Gaussiana
• tipul de date care permit aplicarea testelor statistice

• Modalitatea = nr de maxime dintr-o distributie

tendinta centrala:
media=mediana=modul 1SD 2SD 3SD

scorul z: scorstandardizat, care arata la cate deviatii standard se afla un element fata de medie
z<0 => valoare sub medie
𝑥𝑖 − 𝑥ҧ z>0 => valoare peste medie
𝑧𝑖 =
𝜎
• Asimetria – deviatia de la distributia normala Boltirea – aplatizarea/inaltarea unei distributii fata de distributia normala

implicatii:
-mai multe valori excentrice (α > 0)
-mai putine valori excentrice (α < 0)

=SKEW(B3:B8) =KURT(B3:B8)
Fitare date
-se dau doua variabile cantitative:
-variabila exploratorie (independenta) de exp: concentratia
-variabila de raspuns (dependent) de exp: absorbanta la 430 nm
-stabilirea relatiei intre cele 2 variabile – grafic xy (scatter),
unde x=variab independenta si y=variab dependent

-cat de puternic sunt corelate datele?

-corelatia poate fi liniara – regresie liniara – regresie Pearson sau neliniara

- pentru corelatie liniara: coeficientul de corelatie Pearson numar intre -1 si 1, unde -1 este corelatie
perfect negative si 1 este corelatie perfect
pozitiva; 0 = lipsa corelatie
Coeficientul de corelatie Pearson (r)
x zx y zy zx*zy
σ 𝑧𝑥 ∙ 𝑧𝑦
𝑟= 50 50
𝑛−1
100 70
unde scorul z este
200 70
𝑥𝑖 − 𝑥ҧ 300 95
𝑧𝑖 =
𝜎
r=0.93 corelatie liniara puternica
Fitare date
• Regresie liniara – verificam cat de puternica este relatia de liniaritate
intre variabile continue
• se traseaza grafic tip xy (scatter) cu datele masurate
2 valori reziduale: diferenta dintre valorile reale si cele prezise

fitare liniara, fiecare linie din 1.

aplicand calculul ajungem la (2), unde (residualele)^2 sunt


minime ptr toate punctele

1 3 ecuatia finala (3) – a = intercept; b = panta

coeficientul de corelatie Pearson: r (valori intre -1 si 1)


r^2 = masura a variantei fata de medie (valori positive)
Calcul ecuatie regresie liniara

valori medii

deviatii standard

Calculati dreapta pentru valorile anterioare, comparati cu ecuatia


dreptei din excel

-corelatii intre seturi de date: masa moleculara a unor compusi si numarul de atomi grei
Distributii non-lineare
• http://www.mcb5068.wustl.edu/MCB/Lecturers/Baranski/Articles/Re
gressionBook.pdf

exemplu: Curba doza-raspuns

distributie logistica –ecuatia Hill

E= raspunsul la medicament
[A] = concentratia medicamentului
EC50 = concetratia care produce 50% din raspunsul maximal
n = coeficientul Hill
Teste statistice
• Testul statistic = mecanism pentru a lua decizii cantitative despre un proces
• Se bazeaza pe emiterea de ipoteze si confirmarea/infirmarea acestora
• Ipoteza statistica – asumtie asupra parametrului (poate fi / nu poate fi adevarata)
• Rezultat semnificativ statistic – este putin probabil sa apara datorita intamplarii
• Etape: Ipoteza nula (Ho) – ipoteza statistica ce urmeaza a fi testata (µ = 110; nu
• Formularea ipotezei exista o relatie intre date)
• Daca ipoteza ar fi adevarata – Ipoteza alternativa (H1) - contrazice ipoteza nula:
determinare probabilitate de obtinere a -unidirectional µ < 110 sau µ > 110
unor date ca ale noastre (valoare p) * -bilateral: µ ≠ 110
• Daca probabilitatea este foarte mica, Regiunea critica – punctele de pe scala statistica dincolo de care
respingem ipoteza. respingem ipoteza nula

-Este in stransa corelatie cu valoari p mai putin probabile ; Valoarea


critica – relatie inversa cu probabilitatea

-p este probabilitatea de a face o eroare daca respingem H0


-Valoarea prag = nivel de semnificatie a testului (α)
-Daca p< α, atunci rezultatul este semnificativ statistic

-Daca parametrul apartine regiunii critice – respingem H0 si aceptam H1


Teste statistice Eroarea standard a mediei (SEM) vs deviatia standard (SD)

Populatie vs esantion Deviatia standard – dispersia datelor in jurul mediei


Eroarea standard a mediei – cat de departe sunt mediile fata de
media adevarata a populatiei
Deviatia standard

Varianta

Conditii:
Eroarea standard a mediei
-esantionarea se face aleator;
-esantioanele sunt independente;
-numarul de probe din esantion este mare
Intervalul de incredere pentru
Conteaza distrubtia datelor, in functie de care se medie
alege testul statistic corespunzator

http://people.stern.nyu.edu/adamodar/New_H
ome_Page/StatFile/statdistns.htm?source=post
_page-----704557554740----------------------
Intervale de confidenta
• Interval plauzibil de erori asociat unui parametru al populatiei
interval de confidenta = media ± Z x SE

Marginea erorii
(intra in calculul valorii Nr elemente in
critice) esantion Pragul de Procentul de Valori
semnificatie date interesante critice
Intervalul de confidenta

Este media semnificativ diferita de


0?

Ipoteza nula: media =0; Ipotezaalternativa: media ≠ 0

𝑚𝑒𝑑𝑖𝑎−0
Calculam𝑍 = = 17.4 p < 0.00001 media este semnificativ diferita de 0
𝑆𝐸
Problema 1. Problema 2.
Se doreşte testarea efectului unui medicament folosit în tratamentul Un eşantion de 49 studenţi au fost întrebaţi în câte relaţii exclusive au fost
epilepsiei la mamă asupra dezvoltării cognitive a copilului. implicaţi până la data studiului. Studenţii din eşantion au avut în medie 3
Dezvoltarea cognitivă se testează prin estimarea indicelui de relaţii exclusive, cu o deviaţie standard de 1,2. Estimaţi media adevărată
inteligenţă a copilului de 3 ani născut de femei care au urmat în a numărului de relaţii exclusive bazată pe rezultatele acestui eşantion
timpul sarcinii tratament cu medicamentul de interes. utilizând intervalul de confidenţă de 95%. Distribuţia de eşantionare a fost
Studii anterioare au arătat că deviaţia standard a indicelui de aproximativ normală.
intelingenţă a copilului de 3 ani este egală cu 18 puncte. Care este
numărul de copii în vârstă de 3 ani care trebuie incluşi în studiu
pentru a obţine un interval de confidenţă de 90% cu o margine a
erorii mai mică sau egală cu 4 puncte?
ME = media ± Z x SE
Teste statistice
Parametrul Parametrul populatiei - media

Calcularea statisticii testului Fiecare test are formula proprie de calculare a statisticii
testului
Calcularea probabilitatii p asociate statisticii testului Pentru fiecare statistica a testului se calculeaza
probabilitatea (p) de a observa acea statistica doar
datorita sansei
Decizia statistica p<α => respinge H0 – semnificativ statistic
p≥α => H0 nu se poate respinge – nesemnificativ statistic
Concluzia Semnificativ statistic sau nesemnificativ statistic

α (nivelul de semnificaţie) = probabilitatea erorii de tip I (probabilitatea de a respinge ipoteza nula în condiţiile în care
acesta este adevarata)

β = probabilitatea erorii de tip II (probabilitatea de a accepta ipoteza nula în condiţiile în care ipoteza alternativa este
adevarata)
Teste statistice
• Teste parametrice – se presupune o distributie normala a datelor
Evaluarea normalitatii:

-Parametrii statistici descriptivi:


◦ Media, mediana și modului au valori apropiate vs
◦ Asimetria are valoare în intervalul (-1, 1)
◦ Boltirea are valoare în intervalul (-0,5; +0,5)

Teste statistice:
◦ H0: Datele sunt normal distribuite
◦ H1: Datele nu urmează distribuția normală
• Teste nonparametrice – nu fac presupuneri asupra distributiei datelor
Teste statistice
verificati normalitatea distributiei urmatoarelor seturi de date – reprezentati grafic; completati tabelul

setul 1: setul 2: setul 3:


4 2 2 1 5 2 Set1 Set2 Set3
5 2 4 1 6 3 Media

6 1 5 2 8 15 Mediana

7 5 6 2 8 6 Modul

8 6 7 5 9 15 Asimetria

9 9 8 11 10 9 Boltirea

10 5 9 10
10 8
Teste de comparare a mediei cu media populatiei
Testul Z Testul T (Student)
Compara media esantionului cu media Comparamediile a douaesntioane
populatiei Deviatia standard a populatieinecunoscuta
Deviatia standard a populatieicunoscuta
Ipoteze:
H0: 𝑋ത = 𝜇 H0: 𝜇1 = 𝜇2
H1: 𝑋ത ≠ 𝜇 H1: 𝜇1 ≠ 𝜇2
Nivel de semnificatie:
α< 0.05; grade de libertate n-1 α< 0.05; grade de libertate𝑛1 + 𝑛2 − 2
Statistica testului: Varianta egala Varianta neegala
𝑋ത − 𝜇 𝜇1 − 𝜇2 𝜇1 − 𝜇2
𝑍= 𝑡= 𝑡=
𝜎/ 𝑛 1 1
𝜎12 +
𝑛1 𝑛2 𝜎12 𝜎22
Unde +
𝑛1 𝑛2
𝑋ത este media esantionului Unde
Μeste media populatiei 𝜇1 este media setului 1 Unde
σestedeviatia standard a populatiei 𝜇2 este media setului 2 𝜇1 este media setului 1
si n estevolumulesantionului 𝑛1 estevolumulsetului 1 𝜇2 este media setului 2
𝑛2 estevolumulsetului 2 𝑛1 estevolumulsetului 1
𝑛2 estevolumulsetului 2
𝜎1 estevolumulsetului 1
𝑛1 − 1 𝜎12 + 𝑛2 − 1 𝜎22
𝜎12 = 𝜎2 estevolumulsetului 2
𝑛1 + 𝑛2 − 2
Aplicatie -
Concentrația NP ( Viabilitate celule Viabilitate celule (%) NP
Deviația standard Deviația standard
µg/ml) (%) NP Zeină Zeină+Ghimbir
0 100 1,6 100 1,6
100 84 3,0 80 2,1
200 56 3,3 54 0,3
500 8 3,9 7 3,5

Calculati:
media Variable 1 Variable 2
SD
varianta
Mean 62 60,25 Viabilitatea celulelor
Variance 1626,667 1614,917
n Observations 4 4
Caco-2 tratate cu 100,
asimetria 200 şi 500 μg/ml
boltirea Hypothesized Mean Difference 0
nanoparticule de zeină
df 6
t Stat 0,061474 şi nanoparticule de
P(T<=t) one-tail 0,476489 zeină dopate cu
Decideti daca distributiile sunt normale t Critical one-tail 1,94318
extract de ghimbir.
ptr a aplica testul t P(T<=t) two-tail 0,952979
Controlul a fost
t Critical two-tail 2,446912
reprezentat de celule
Care test poate fi aplicat – variate egale Regiunea critică: (-∞; -1,96] U [1,96; ∞) care nu au fost tratate
sau inegale? cu nanoparticule.
deoarece -1.96<0.06<1.96, nu
Formulati ipotezele si aplicati testul ales respingem ipoteza nula, intre seturi nu
exista diferente semnificative statistic
Teste statistice
• ANOVA (testul F) – comparatie seturi de date independente

• H0: Media este aceeaşi în toate grupurile (μ1= μ2= … = μk)


• H1: Cel puţin într-un caz media dintre 2 grupuri este semnificativ diferită
• Dacă statistica F este mare, valoarea p este mică
• Dacă valoarea p este suficient de mică atunci H0 se respinge, şi concluzionăm că putem susţine existenţa unei
diferenţe semnificative statistic între mediile populaţiilor

• Conditii:
• serii de date independente
• distributie normala
nj = nr de date in esantionul j k este nr total de esantioane
• variante aproximativ egale
este media in esantionul j N este numarul total de date

este media generala


Viabilitate celule (%)
Concentrația NP ( Viabilitate celule Viabilitate celule (%) NP Viabilitate celule (%) NP
NP Zeină+Ghimbir
µg/ml) (%) NP Zeină Zeină+Ghimbir Zeină+Ghimbir hidrolizat
tratat termic
0 100 100 100 100
100 84 80 74,22301 61,03127
200 56 54 47,23375 38,40084
500 8 7 3,79863 15,1734

media 62 60,25 56,3138475 53,6513775


deviatia standard 40,3319559 40,18602576 41,10764025 36,12843417
varianta 1626,666667 1614,916667 1689,838087 1305,263756
n 4 4 4 4
asimetria -0,936490457 -0,829278416 -0,541847211 0,557739477
boltirea 0,135124966 0,16419715 -0,241980555 -0,070820038

Anova: Single Factor

SUMMARY
Groups Count Sum Average Variance
Column 1 4 248 62 1626,667
H0 nu poate fi respinsa, nu am Column 2 4 241 60,25 1614,917
determinat diferente semnificativ Column 3 4 225,2554 56,31385 1689,838
statistic intre mediile seriilor de
masuratori ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 67,85084 2 33,92542 0,020638 0,979619 4,256495
Within Groups 14794,26 9 1643,807

Total 14862,12 11
calcule online
• https://www.socscistatistics.com/descriptive/