Sunteți pe pagina 1din 13

Biostatistica

1. Introducere
*Biostatistica e o ramura a statisticii, specializata in studiul fenomenelor biologice, inclusiv al celor medicale. *Prelucreaza si determina parametri *Statistica matematica opereaza cu doua notiuni de baza: 1. Populatia sau colectivitatea statistica 2. Proba(esatntionul) extras din populatia aflata in studiu **pop. stat. si probele stat. -populatia statistica: totalit. fenomenelor sau obiectelor calitativ omogene avand una sau mai multe caracteristici comune - populatia statistica, clasificare: - finita - infinita - ipotetica -esantionul: parte finita extrasa din populatia statistica - conditie: fiecare parte din populatie sa aibe aceeasi probabilitate de a face parte din esantion => esantion reprezentativ **variabilitatea biologica -esantion redus ca numar => rezultate diferite => fluctuatie de esantion -esantion mare ca numar => rezultate mai apropiate de adevar - imprastierea rezultatelor: imprastiere mare => valoare reala - generalizarea depinde de 2 factori: - numarul de observatii facute (n) - imprastierea(dispersia) acestora () **factori de eroare - factori care tin de animalul de experienta: 1. factori interni 2. factori externi 3. factori care tin de individualitatea animalului - factori care tin de mediul geografic si climateric - factori care tin de tehnicile intrebuintate !!! masuri !!!

- eroare: diferenta numerica dintre valoarea obtinuta de experimentator si valoarea reala (adevarata) a unui parametru masurat. - valoarea reala nu este cunoscuta => cautam valorile care sa se apropie cat mai mult de ea. - tipuri de erori: - erori sistematice: afecteaza exactitatea rezultatului - erori aleatoare (intamplatoare): afecteaza exactitatea dar si precizia rezultatelor * exactitatea: apropierea valorii numerice determinata experimental de valoarea adevarata => eroarea absoluta !!! mai este si eroarea relativa !!! * precizia: cand rezultatele pot fi reproduse * abaterea: devierea rezultatelor obtinute de la o valoare medie => precizia determinarilor !!! imprastierea rezultatelor fata de medie este mica + media este apropiata de valoarea reala => eroarea determinarii e mica => exactitate + precizie buna !!!

2. Distributii de frcventa
* Repartizarea datelor calitative i a celor cantitative (numerice) dintr-o populaie statistic sau un eantion se poate efectua dup frecvena de apariie a caracteristicilor lor => structura colectivitatii * distributiile de frecventa: efectueaza o descriere calitativa + cantitativa a observatiilor (masuratorilor) + numarul de aparitii ale unui rezultat al masuratorii respective (frecventa absoluta) * frecventa relativa = frecventa absoluta/numarul total al observatiilor * intervalele de variatie: folosite pentru datele cantitative (numerice) continue -reguli de construire a intervalelor: - numarul de intervale = indicat sub 15 - limitele fiecarei clase sa se potriveasca cu gradul de acuratete (precizie, exactitate) al masuratorilor. - de preferat intervale cu lungime egala (mai convenabile, faciliteaza prelucrarile ulterioare) - intervalele sa fie mutual exclusive (sa nu li se suprapuna capetele) * distributii de frecventa: - homograde (cu o singura scara de comparatie in sistemul cartezian genul diagramelor)

- heterograde (pe doua scari de comparatie in sistemul cartezian genul histogramelor)

* poligonul de frecventa: se formeaza prin ordonatelor care trec prin mijlocul intervalelor de clasa

unirea

* din distributia de frecventa => - tendinta centrala (media) - mediana - forma distributiei - variabilitatea din interiorul distributiei * Curba de distributie normala a frecventei = frecventa cu care revine acelasi rezultat in mai multe determinari succesive

!!! Distana BD sau BC (0-1 sau 0+1) reprezint convenional o unitate denumit abatere standard i notat cu (sigma) * Caracteristicile distributiilor de frecventa

1. indicatorii tendintei centrale 2. indicatori ai imprastierii sau dispersiei datelor => parametrii statistici (daca elementele sunt obtinute in urma unui studiu populational) => parametrii statistici (daca elementele sunt obtinute in urma analizei unui esantion) *d.p.d.v. al tendintei centrale, distributiile de frecventa sunt caracterizate prin: - medie - mod (dominanta) - mediana **media: reprezinta tendinta centrala a unei distributii **dominanta: reprezinta valoarea cea mai frecventa a unei distributii, care se confunda, de fapt, cu varful poligonului de frecventa **mediana: corespunde valorii care se gaseste la punctul care imparte seria statisticii in doua grupuri egale *Forma curbei de frecventa -simetrica -asimetrica: - pozitiva - negativa *Distributii anormale (non-Gaussiene)

- lipsa de omogenitate => distributii anormale - capatarea formei literei U => luarea in calcul a valorii minime !!! Distributia binomiala: prezinta interes mai ales in studiul fenomenelor ereditatii !!! Distributia Poisson: prezinta interes mai ales in studiul unor efecte ale compusilor radioactivi si in radiochimie !!! distributii non-Gaussiene => teste de semnificatie neparametrice (testul Wilcoxon, testul U-Man Whitney, etc.)

3. Statistica descriptiva. Consideratii generale. Indicatori statistici.


*principalii indicatori: - indicatori ai tendintei centrale - indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii (indicatori ai dispersiei) * indicatori ai tendintei centrale:

- media aritmetica - mediana - modul (valoarea care apare cel mai des) *indicatori ai dispersiei (imprastierii) datelor in jurul unei valori medii - variantza (dispersia) - abaterea standard - coeficientul de variatie - asimetria (skewness) - aplatizarea (kurtosis) - amplitudinea - amplitudinea relativa !!! frecventa a clasei !!!

3.1 Medii
- media aritmetica simpla - media aritmetica ponderata - media arbitrara

3.2 Dispersia (Variatia). Abaterea standard


*abaterea standard: unitatea de abatere individuala fata de medie reprezinta o masura a preciziei determinarilor !!! cunoastere abatere standard => cunoastere precizie

3.3 Eroarea standard


= abaterea medie a valorilor medii obtinute

3.4 Eroarea procent


-abaterea standard a unui procent de aciune calculat cu aceast formul reprezint limitele probabile, n plus sau n minus, ale procentajului de aciune pentru o doz dat de substan activ.

3.5 Coeficientul de variatie


- raport procentual intre abaterea standard si valoarea medie a sirului de valori. *<10% => dispersie mica a datelor *10%-30% => dispersie mijlocie a datelor *>30% => dispersie mare a datelor => media nu este un indicator reprezentativ.

3.6 Grade de libertate


= numarul marimilor (animale, determinari, observatii) folosite in experimentarea respectiva, din care se scade o unitate.

= numarul marimilor independente folosite in experimentarea respectiva. - factorul de corectie t : - depinde de numarul gradelor de libertate - valuarea lui t scade cu cat creste numarul observatiilor, deci cu cat e mai mare numarul gradelor de libertate

3.7 Limite fiduciale (interval de incredere)


= intervalul in care se poate prevedea ca se gaseste valoarea unei medii. - sunt proportionale cu valoarea mediei - in determinari biologice calculam limitele de eroare (fiduciale) la o probabilitate p=0.05. - se foloseste factorul de corectie t.

4. Statistica inferentiala. Interpretarea statistica a rezultatelor unui experiment.


=Totalitatea testelor statistice folosite cu scopul de a demonstra existena sau inexistena unor legturi sau diferene statistic semnificative, respectiv tiinific corecte ntre variabilele unui anumit studiu sau experiment. * Teste: - Teste de valabilitate - Teste de concordanta (goodness of fit) - Teste de semnificatie - Corelatii si regresii

4.1 Teste de valabilitate


= testele care permit aflarea valorii unei experimentri n funcie de probabilitile apariiei variaiei n natur. * rezultate aberante (outliers) : deviaza media intr-un sens care poate fi foarte departe de valoarea reala. * Teste de eliminare a rezultatelor aberante: --Testul Grubbs: - Z primeste o serie de valori critice - valoarea critica va creste odata cu marimea esantionului - p<0.05 => rezultatul poate fi considerat aberant -- Testul Chauvenet: - Se bazeaz pe considerentul c orice valoare a crei probabilitate de apariie este mai mic dect o valoare limit care depinde de numrul n de rezultate, trebuie eliminat.

4.2 Teste de concordanta


* => distributia gaussiana

* Distribuia Gaussian (normal) joac un rol central n analiza statistic datorit unei legiti matematice cunoscute ca Teorema Limitei Centrale (Central Limit Theorem) => afirmare daca esantioanele sunt destul de mari => functioneaza chiar si daca distributia nu e gaussiana * Teste de concordanta: - Testul de concordan Kolmogorov-Smirnov - Testul de concordan AndersonDarling - Testul de concordan Chi-Square - Testul de normalitate Shapiro-Wilk -- Testul de concordan Kolmogorov-Smirnov - Ipoteza nul, H0 => Datele studiate urmeaz distribuia specificat (n cazul nostru distribuia Gaussian) - Ipoteza alternativ, H1 => Datele studiate NU urmeaz distribuia specificat (n cazul nostru distribuia Gaussian) - Ipoteza H0 este respins dac Dcalculat are o valoare mai mare dect o valoare critic obinut din tabele

4.3 Teste de semnificatie


* valoarea lui p : - Dac cele dou populaii statistice studiate chiar au aceeai medie (sau media nu difer semnificativ), care este probabilitatea de a observa o aceeai diferen sau chiar una mai mare ntre mediile unor eantioane de aceeai mrime ntr-un viitor experiment ? Parametrul statistic ce rspunde la aceast ntrebare este valoarea lui P. - p ia valori intre 0 si 1 - p<0.05 => esantionarea aleatorie e improbabila => cele doua populatii studiate sunt din medii diferite. * ipoteza nula (H0) : - nu exista nici o diferenta intre esantioanele studiate * ipoteza alternativa (Ha sau H1) : - exista o diferenta intre esantioanele studiate * valoarea lui p = probabilitatea de a observa (ntr-un viitor experiment) o aceeai diferen sau chiar una mai mare ntre dou eantioane aleatorii prelevate din cele dou populaii statistice studiate, dect am observat n acest moment, n cazul n care ipoteza nul s-ar fi dovedit adevrat. * n general n cazul testelor statistice, o valoare a lui P>0,05 duce la acceptarea ipotezei nule H0, respectiv o

valoare a lui P<0,05 determin respingerea ipotezei nule i acceptarea ipotezei alternative Ha. * dependenta/independenta esantioanelor studiate (date pereche/nepereche) * statistica parametrica/neparametrica : - daca rezultatele se incadreaza intr-o distributie normala => testul t student daca rezultatele nu se incadreaza intr-o distributie normala => testul Wilcoxon, respectiv testul U Mann-Whitney.

4.3.1 Teste de semnificatie parametrice


* tipuri de efecte: - gradate (cantitative) - unice (cuantale) --- de tip calitativ **Teste de semnificatie pentru efecte gradate: - testul F Fischer Snedecor --- p>0.05 => exista o diferenta semnificativ statistic intre varianta in jurul celor doua medii obtinute experimental. - testul T Student : - 3 tipuri : 1. date pereche (esantioane dependente) 2. date nepereche (esantioane independente) ce au variantza egala (homoscedatic) 3. date nepereche (esantioane independente) ce au variantza inegala (heteroscedatic) **Teste de semnificatie pentru efecte cuantale - testul 2 (Chi2) : - folosit in cazul determinarilor cuantale comparative - Legtura funcional este definit de concordana sau neconcordana dintre ipoteza de lucru (efecte teoretice) i rezultatele experimentale (empirice), gradul de legtur putndu-se msura prin stabilirea frecvenei asociaiei n comparaie cu numrul cazurilor examinate - se aplica: - frecventelor absolute (numere, efecte de diverse categorii) - frecventelor relative (procentaje) - poate fi folosit numai daca efectele studiate au frecvente de aparitie sunt mai mari de 10

4.3.2 Teste de semnificatie Statistica ordinei.

neparametrice.

*rezultatele ce se obtin nu depind de natura repartitiei variabilei aleatoare studiate * verificarea unei ipoteze nu este legata de parametrul unei anumite repartitii

** Testul Wilcoxon : - pentru datele pereche ** Testul Mann Whitney U : - pentru datele nepereche (esantioane independente) - p<0.05 => nesemnificativ statistic

6. Corelatie si regresie
* corelatie = asociere intre doua variabile studiate * variabile: - y = dependenta - x = independenta * regresie liniara : - implica estimarea celei mai potrivite linii drepte care sa reliefeze asocierea * coeficientul de corelatie (r) : - masoara gradul de asociere a variabilelor - este o masura a asocierii liniare a celor doua variabile - ia valori intre -1....0....+1 - daca r=0 => nu exista nici o corelatie intre cele doua variabile - daca r=+1 => corelatie pozitiva perfecta => exista o corelatie intre cele doua variabile => o valoare mare la prima variabila impune o valoare mare si la cea de-a doua variabila - daca r=-1 => dependenta inversa perfecta => o valoare mare la prima variabila impune o valoare mica la cea de-a doua variabila - daca r e cuprins intre -1 si 0 sau o si +1 => valoarea lui r ne da taria dependentei celor doua variabile - |0 < r < 0,19| - asociere foarte slab |0,20 < r < 0,39| - asociere slab |0,40 < r < 0,59| - asociere moderat |0,60 < r < 0,79| - asociere puternic |0,80 < r < 1| - asociere foarte puternic ** pasi: * reprezentarea grafica:

- pe axa x masuratori legate de variabila independenta - pe axa y masuratori legate de variabila dependenta * analiza graficului * calcularea coeficientului de corelatie * Coeficientul de determinare - cuantifica cat din varianta variabilei dependente se datoreaza variabilei independente = r2 (r la patrat) - ia valori de la o la 1 (0<r2<1) * Ecuatia de regresie - termenul de regresie semnific faptul c o anumit valoare a variabilei Y este o funcie de X, cu alte cuvinte se modific odat cu modificarea valorii lui X, conform unei anumite ecuaii mai mult sau mai puin complexe - regresie liniara = ecuatia dreptei - Ecuaia de regresie ne arat ct de mult se schimb valoarea variabilei Y n raport cu o anumit schimbare a variabile X i poate fi folosit pentru a trasa o aa-numit linie de regresie, n interiorul unei diagrame scatter-plot, iar cel mai simplu caz este cazul n care aceast linie este o linie dreapt, caz n care se folosete termenul de regresie liniar - directia de inclinare a regresiei depinde de corelatie (pozitiva sau negativa)

- primul punct este interceptul (dat de valoarea lui ) - ultimul punct este panta (dat de valoarea lui ) (mai e numit si coeficient de regresie)

8. Studii epidemiologice si clinice


*Indicatori statistici utilizati in studiile epidemiologice - diverse tipuri de raporturi, proportii, si rate - indicatori ai frecventei bolii: - prevalenta (la un moment dat, in cursul unei perioade de timp si toata viata) - incidenta (incidenta cumulative si rata incidentei) - indicatori ai asocierii factorului de risc(expunere) boala -riscul relative -rata de sansa -rata standardizata a mortalitatii -rata proportionala a mortalitatii - indicatori ai diferentei -riscul atribuit/populatie raportul = folosit pentru a compara doua cantitati proportia = procentajul rata = tip special de proportie ce include specificatii legate de timp prevalenta = proportia de indivizi dintr-o anumita populatie ce sunt bolnavi de o anumita boala la un anumit moment de timp

folosita pentru: - permite estimarea probabilitatii sau riscului de inbolnavire la un anumit moment dat -da o imagine asupra severitatii bolii o incidenta = indicator a cazurilor noi dintr-o anumita boala ce au aparut in populatia studiata de-a lungul unei perioade de timp o incidenta cumulativa = proportia de indivizi ce sau imbolnavit intr-o perioada specificata de timp o rata de incidenta = masura ce da informatii chiar daca respectivele cazuri sunt urmarite pe perioade de timp inegale o tabelele de contigenta de tip 2x2 sunt folosite pentru calculul indicatorilor ai asocierii factorului de risc boala (ilustreaza frecventa bolii, frecventa expunerii, si asocierea dintre expunearea la factorul de risc si boala) o riscul relative : - servete la msurarea magnitudinii asocierii ntre incidena bolii studiate i factorul de risc cercetat - reprezint n fapt un raport dintre rata incidenei persoanelor expuse i rata incidentei in randul celor neexpusi la factorul de risc - folositor n cercetrile legate de etiologia unor boli Interpretarea valorilor riscului relativ: - Riscul relativ poate avea, teoretic vorbind, valori ntre 0 i infinit - RR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i boal; practic incidena(rata incidenei) este identic ntre cele dou grupuri (expui, respectiv neexpui la factorul de ric) RR> 1 = Exist o asociere pozitiv ntre expunere (factorul de risc) i boal RR< 1 = Exist o asociere negativ ntre expunere (factorul de risc) i boal sau, n unele cazuri putem spune c expunerea la factorul respectiv are chiar un efect protector fa de boal o Singura modalitate de msurarea a asocierii expunere (factor de risc)-boal disponibil n cazul studiilor de tip Case-Control

o Rata de ans (Odds Ratio OR) Raportul dintre rata (ansa) expunerii in rndul celor bolnavi i rata (ansa) expunerii n rndul celor sntoi Interpretarea valorilor ratei de ans (OR): - Rata de ans (OR) poate avea, teoretic vorbind, valori ntre 0 i infinit OR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i boal; OR> 1 : Expunerea reprezint un factor de risc n cazul bolii respective (crete riscul apariiei bolii) OR< 1 : Expunerea reprezint un factor protector n cazul bolii respective(scade riscul apariiei bolii)