Sunteți pe pagina 1din 13

Biostatistica

1. Introducere
*Biostatistica e o ramura a statisticii, specializata in studiul
fenomenelor biologice, inclusiv al celor medicale.
*Prelucreaza si determina parametri
*Statistica matematica opereaza cu doua notiuni de baza:
1. Populatia sau colectivitatea statistica
2. Proba(esatntionul) extras din populatia aflata in studiu

**pop. stat. si probele stat.


-populatia statistica: totalit. fenomenelor sau obiectelor
calitativ omogene avand una sau mai multe caracteristici comune
- populatia statistica, clasificare: - finita
- infinita
- ipotetica
-esantionul: parte finita extrasa din populatia statistica
- conditie: fiecare parte din populatie sa aibe
aceeasi probabilitate de a face parte din esantion => esantion
reprezentativ

**variabilitatea biologica
-esantion redus ca numar => rezultate diferite => fluctuatie
de esantion
-esantion mare ca numar => rezultate mai apropiate de
adevar
- imprastierea rezultatelor: imprastiere mare => valoare
reala
- generalizarea depinde de 2 factori:
- numarul de observatii facute (n)
- imprastierea(dispersia) acestora (σ)
**factori de eroare
- factori care tin de animalul de experienta:
1. factori interni
2. factori externi
3. factori care tin de individualitatea animalului
- factori care tin de mediul geografic si climateric
- factori care tin de tehnicile intrebuintate
!!! masuri !!!
- eroare: diferenta numerica dintre valoarea obtinuta de
experimentator si valoarea reala (adevarata) a unui parametru masurat.
- valoarea reala nu este cunoscuta => cautam valorile care
sa se apropie cat mai mult de ea.
- tipuri de erori: - erori sistematice: afecteaza exactitatea
rezultatului
- erori aleatoare (intamplatoare): afecteaza
exactitatea dar si precizia rezultatelor
* exactitatea: apropierea valorii numerice
determinata experimental de valoarea adevarata => eroarea absoluta
!!! mai este si eroarea relativa !!!
* precizia: cand rezultatele pot fi reproduse
* abaterea: devierea rezultatelor obtinute de la o
valoare medie
=> precizia determinarilor
!!! imprastierea rezultatelor fata de medie este mica + media este
apropiata de valoarea reala => eroarea determinarii e mica =>
exactitate + precizie buna !!!

2. Distributii de frcventa
* Repartizarea datelor calitative şi a celor cantitative (numerice)
dintr-o populaţie statistică sau un eşantion se poate efectua după
frecvenţa de apariţie a caracteristicilor lor => structura colectivitatii
* distributiile de frecventa: efectueaza o descriere calitativa +
cantitativa a observatiilor (masuratorilor) + numarul de aparitii ale
unui rezultat al masuratorii respective (frecventa absoluta)
* frecventa relativa = frecventa absoluta/numarul total al
observatiilor
* intervalele de variatie: folosite pentru datele cantitative
(numerice) continue
-reguli de construire a intervalelor:
- numarul de intervale = indicat sub 15
- limitele fiecarei clase sa se potriveasca cu
gradul de acuratete (precizie, exactitate) al masuratorilor.
- de preferat intervale cu lungime egala (mai
convenabile, faciliteaza prelucrarile ulterioare)
- intervalele sa fie mutual exclusive (sa nu li se
suprapuna capetele)
* distributii de frecventa: - homograde (cu o singura scara de
comparatie in sistemul cartezian – genul diagramelor)
- heterograde (pe doua scari de
comparatie in sistemul cartezian – genul histogramelor)

* poligonul de frecventa: se formeaza prin unirea ordonatelor


care trec prin mijlocul intervalelor de clasa

* din distributia de frecventa => - tendinta centrala (media)


- mediana
- forma distributiei
- variabilitatea din interiorul
distributiei
* Curba de distributie normala a frecventei
= frecventa cu care revine acelasi rezultat in mai multe
determinari succesive
!!! Distanţa BD sau BC (0-1 sau 0+1) reprezintă convenţional o
unitate denumită abatere standard şi notată cu σ (sigma)
* Caracteristicile distributiilor de frecventa
1. indicatorii tendintei centrale
2. indicatori ai imprastierii sau dispersiei datelor
=> parametrii statistici (daca elementele sunt obtinute
in urma unui studiu populational)
=> parametrii statistici (daca elementele sunt obtinute
in urma analizei unui esantion)
*d.p.d.v. al tendintei centrale, distributiile de frecventa sunt
caracterizate prin: - medie
- mod (dominanta)
- mediana
**media: reprezinta tendinta centrala a unei distributii
**dominanta: reprezinta valoarea cea mai frecventa a unei
distributii, care se confunda, de fapt, cu varful poligonului de frecventa
**mediana: corespunde valorii care se gaseste la punctul
care imparte seria statisticii in doua grupuri egale
*Forma curbei de frecventa
-simetrica
-asimetrica: - pozitiva
- negativa
*Distributii anormale (non-Gaussiene)

- lipsa de omogenitate => distributii anormale


- capatarea formei literei „U” => luarea in calcul a valorii minime
!!! Distributia binomiala: prezinta interes mai ales in studiul
fenomenelor ereditatii
!!! Distributia Poisson: prezinta interes mai ales in studiul unor
efecte ale compusilor radioactivi si in radiochimie
!!! distributii non-Gaussiene => teste de semnificatie
neparametrice (testul Wilcoxon, testul U-Man Whitney, etc.)

3. Statistica descriptiva. Consideratii generale. Indicatori statistici.


*principalii indicatori: - indicatori ai tendintei centrale
- indicatori ce caracterizează împrăştierea
datelor în jurul unei valori medii (indicatori ai dispersiei)
* indicatori ai tendintei centrale:
- media aritmetica
- mediana
- modul (valoarea care apare cel mai des)
*indicatori ai dispersiei (imprastierii) datelor in jurul unei valori
medii
- variantza (dispersia)
- abaterea standard
- coeficientul de variatie
- asimetria (skewness)
- aplatizarea (kurtosis)
- amplitudinea
- amplitudinea relativa

!!! frecventa a clasei !!!

3.1 Medii
- media aritmetica simpla
- media aritmetica ponderata
- media arbitrara
3.2 Dispersia (Variatia). Abaterea standard
*abaterea standard: unitatea de abatere individuala fata de medie
reprezinta o masura a preciziei determinarilor
!!! cunoastere abatere standard => cunoastere precizie
3.3 Eroarea standard
= abaterea medie a valorilor medii obtinute
3.4 Eroarea procent
-abaterea standard a unui procent de acţiune calculat cu această
formulă reprezintă limitele probabile, în plus sau în minus, ale
procentajului de acţiune pentru o doză dată de substanţă activă.
3.5 Coeficientul de variatie
- raport procentual intre abaterea standard si valoarea medie a
sirului de valori.
*<10% => dispersie mica a datelor
*10%-30% => dispersie mijlocie a datelor
*>30% => dispersie mare a datelor => media nu este un indicator
reprezentativ.
3.6 Grade de libertate
= numarul marimilor (animale, determinari, observatii) folosite in
experimentarea respectiva, din care se scade o unitate.
= numarul marimilor independente folosite in experimentarea
respectiva.
- factorul de corectie „t” : - depinde de numarul gradelor de
libertate
- valuarea lui t scade cu cat creste
numarul observatiilor, deci cu cat e mai mare
numarul gradelor de libertate
3.7 Limite fiduciale (interval de incredere)
= intervalul in care se poate prevedea ca se gaseste valoarea unei
medii.
- sunt proportionale cu valoarea mediei
- in determinari biologice calculam limitele de eroare (fiduciale)
la o probabilitate p=0.05.
- se foloseste factorul de corectie t.

4. Statistica inferentiala. Interpretarea statistica a rezultatelor unui


experiment.

=Totalitatea testelor statistice folosite cu scopul de a demonstra


existenţa sau inexistenţa unor legături sau diferenţe statistic
semnificative, respectiv ştiinţific corecte între variabilele unui anumit
studiu sau experiment.
* Teste: - Teste de valabilitate
- Teste de concordanta (goodness of fit)
- Teste de semnificatie
- Corelatii si regresii
4.1 Teste de valabilitate
= testele care permit aflarea valorii unei experimentări în funcţie
de probabilităţile apariţiei variaţiei în natură.
* rezultate aberante (outliers) : deviaza media intr-un sens care
poate fi foarte departe de valoarea reala.
* Teste de eliminare a rezultatelor aberante:
--Testul Grubbs: - „Z” primeste o serie de valori critice
- valoarea critica va creste odata cu
marimea esantionului
- p<0.05 => rezultatul poate fi considerat
aberant
-- Testul Chauvenet: - Se bazează pe considerentul că orice
valoare a cărei probabilitate de apariţie este mai mică decât o valoare
limită care depinde de numărul „n” de rezultate, trebuie eliminată.
4.2 Teste de concordanta
* => distributia gaussiana
* Distribuţia Gaussiană (normală) joacă un rol central în analiza
statistică datorită unei legităţi matematice cunoscute ca Teorema
Limitei Centrale (Central Limit Theorem) => afirmare daca
esantioanele sunt destul de mari
=> functioneaza chiar si daca distributia nu e gaussiana
* Teste de concordanta: - Testul de concordanţă Kolmogorov-
Smirnov
- Testul de concordanţă Anderson-Darling
- Testul de concordanţă Chi-Square
- Testul de normalitate Shapiro-Wilk
-- Testul de concordanţă Kolmogorov-Smirnov
- Ipoteza nulă, H0 => Datele studiate urmează
distribuţia specificată (în cazul nostru distribuţia
Gaussiană)
- Ipoteza alternativă, H1 => Datele studiate NU
urmează distribuţia specificată (în cazul nostru
distribuţia Gaussiană)
- Ipoteza H0 este respinsă dacă Dcalculat are o
valoare mai mare decât o valoare critică obţinută din
tabele
4.3 Teste de semnificatie
* valoarea lui ”p” : - Dacă cele două populaţii statistice studiate
chiar au aceeaşi medie (sau media nu diferă semnificativ), care este
probabilitatea de a observa o aceeaşi diferenţă sau chiar una mai mare
între mediile unor eşantioane de aceeaşi mărime într-un viitor
experiment ? Parametrul statistic ce răspunde la această întrebare este
valoarea lui P.
- p ia valori intre 0 si 1
- p<0.05 => esantionarea aleatorie e
improbabila => cele doua populatii studiate sunt din medii diferite.
* ipoteza nula (H0) : - nu exista nici o diferenta intre esantioanele
studiate
* ipoteza alternativa (Ha sau H1) : - exista o diferenta intre
esantioanele studiate
* valoarea lui „p” = probabilitatea de a observa (într-un viitor
experiment) o aceeaşi diferenţă sau chiar una mai mare între două
eşantioane aleatorii prelevate din cele două populaţii statistice studiate,
decât am observat în acest moment, în cazul în care ipoteza nulă s-ar fi
dovedit adevărată.
* În general în cazul testelor statistice, o valoare a lui P>0,05 duce
la acceptarea ipotezei nule H0, respectiv o valoare a lui P<0,05
determină respingerea ipotezei nule şi acceptarea ipotezei alternative
Ha.
* dependenta/independenta esantioanelor studiate (date
pereche/nepereche)
* statistica parametrica/neparametrica :
- daca rezultatele se incadreaza intr-o distributie normala
=> testul t student - daca rezultatele nu se incadreaza intr-o
distributie normala => testul Wilcoxon, respectiv testul U Mann-
Whitney.
4.3.1 Teste de semnificatie parametrice
* tipuri de efecte: - gradate (cantitative)
- unice (cuantale) --- de tip calitativ
**Teste de semnificatie pentru efecte gradate:
- testul „F” Fischer – Snedecor --- p>0.05 => exista o
diferenta semnificativ statistic intre varianta in jurul celor doua medii
obtinute experimental.
- testul „T” Student : - 3 tipuri : 1. date pereche (esantioane
dependente)
2. date nepereche (esantioane
independente) ce au variantza egala (homoscedatic)
3. date nepereche (esantioane
independente) ce au variantza inegala (heteroscedatic)
**Teste de semnificatie pentru efecte cuantale
- testul χ2 (Chi2) : - folosit in cazul determinarilor cuantale
comparative
- Legătura funcţională este definită de
concordanţa sau neconcordanţa dintre ipoteza de lucru (efecte teoretice)
şi rezultatele experimentale (empirice), gradul de legătură putându-se
măsura prin stabilirea frecvenţei asociaţiei în comparaţie cu numărul
cazurilor examinate
- se aplica: - frecventelor absolute
(numere, efecte de diverse categorii)
- frecventelor relative
(procentaje)
- poate fi folosit numai daca efectele
studiate au frecvente de aparitie sunt mai mari de 10
4.3.2 Teste de semnificatie neparametrice. Statistica ordinei.
*rezultatele ce se obtin nu depind de natura repartitiei variabilei
aleatoare studiate
* verificarea unei ipoteze nu este legata de parametrul unei
anumite repartitii
** Testul Wilcoxon : - pentru datele pereche
** Testul Mann – Whitney U : - pentru datele nepereche
(esantioane independente)
- p<0.05 => nesemnificativ
statistic

6. Corelatie si regresie
* corelatie = asociere intre doua variabile studiate
* variabile: - „y” = dependenta
- „x” = independenta
* regresie liniara : - implica estimarea celei mai potrivite linii
drepte care sa reliefeze asocierea
* coeficientul de corelatie (r) : - masoara gradul de asociere a
variabilelor
- este o masura a asocierii liniare a celor
doua variabile
- ia valori intre -1....0....+1
- daca r=0 => nu exista nici o corelatie
intre cele doua variabile
- daca r=+1 => corelatie pozitiva perfecta
=> exista o corelatie intre cele
doua variabile
=> o valoare mare la prima
variabila impune o valoare mare si la cea de-a doua variabila
- daca r=-1 => dependenta inversa
perfecta
=> o valoare mare la prima
variabila impune o valoare mica la cea de-a doua variabila
- daca r e cuprins intre -1 si 0 sau o si +1
=> valoarea lui r ne da taria dependentei celor doua variabile
- |0 < r < 0,19| - asociere foarte slabă
|0,20 < r < 0,39| - asociere slabă
|0,40 < r < 0,59| - asociere moderată
|0,60 < r < 0,79| - asociere puternică
|0,80 < r < 1| - asociere foarte puternică
** pasi:
* reprezentarea grafica:

- pe axa x – masuratori legate de variabila independenta


- pe axa y – masuratori legate de variabila dependenta
* analiza graficului
* calcularea coeficientului de corelatie
* Coeficientul de determinare
- cuantifica cat din varianta variabilei dependente se
datoreaza variabilei independente
= r2 (r la patrat)
- ia valori de la o la 1 (0<r2<1)
* Ecuatia de regresie
- termenul de regresie semnifică faptul că o anumită valoare
a variabilei Y este o “funcţie” de X, cu alte cuvinte se modifică odată cu
modificarea valorii lui X, conform unei anumite ecuaţii mai mult sau
mai puţin complexe
- regresie liniara = ecuatia dreptei
- Ecuaţia de regresie ne arată cât de mult se schimbă
valoarea variabilei Y în raport cu o anumită schimbare a variabile X şi
poate fi folosită pentru a trasa o aşa-numită linie de regresie, în interiorul
unei diagrame scatter-plot, iar cel mai simplu caz este cazul în care
această linie este o linie dreaptă, caz în care se foloseşte termenul de
regresie liniară
- directia de inclinare a regresiei depinde de corelatie
(pozitiva sau negativa)

- primul punct este interceptul (dat de valoarea lui α)


- ultimul punct este panta (dat de valoarea lui β)(mai e
numit si coeficient de regresie)

8. Studii epidemiologice si clinice

*Indicatori statistici utilizati in studiile epidemiologice


- diverse tipuri de raporturi, proportii, si rate
- indicatori ai frecventei bolii: - prevalenta (la un moment
dat, in cursul unei perioade de timp si toata viata)
- incidenta (incidenta
cumulative si rata incidentei)
- indicatori ai asocierii factorului de risc(expunere) – boala
-riscul relative
-rata de sansa
-rata standardizata a mortalitatii
-rata proportionala a mortalitatii
- indicatori ai diferentei
-riscul atribuit/populatie
 raportul = folosit pentru a compara doua
cantitati
 proportia = procentajul
 rata = tip special de proportie ce include
specificatii legate de timp
 prevalenta = proportia de indivizi dintr-o
anumita populatie ce sunt bolnavi de o
anumita boala la un anumit moment de
timp
 folosita pentru: - permite estimarea
probabilitatii sau riscului de inbolnavire
la un anumit moment dat
-da o imagine asupra severitatii bolii

o incidenta = indicator a cazurilor noi dintr-o anumita boala


ce au aparut in populatia studiata de-a lungul unei perioade
de timp
o incidenta cumulativa = proportia de indivizi ce sau
imbolnavit intr-o perioada specificata de timp
o rata de incidenta = masura ce da informatii chiar daca
respectivele cazuri sunt urmarite pe perioade de timp
inegale
o tabelele de contigenta de tip 2x2 sunt folosite pentru
calculul indicatorilor ai asocierii factorului de risc – boala
(ilustreaza frecventa bolii, frecventa expunerii, si asocierea
dintre expunearea la factorul de risc si boala)
o riscul relative : - serveşte la măsurarea magnitudinii
asocierii între incidenţa bolii studiate şi factorul de risc
cercetat
- reprezintă în fapt un raport dintre rata
incidenţei persoanelor expuse şi rata incidentei in
randul celor neexpusi la factorul de risc
- folositor în cercetările legate de etiologia unor
boli
Interpretarea valorilor riscului relativ:
- Riscul relativ poate avea, teoretic vorbind, valori între 0 şi infinit
- RR = 1 : Nu există nici un fel de asociere între expunere (factorul de
risc)
şi boală; practic incidenţa(rata incidenţei) este identică între cele două
grupuri (expuşi, respectiv neexpuşi la factorul de ric)
RR> 1 = Există o asociere pozitivă între expunere (factorul de risc) şi
boală
RR< 1 = Există o asociere negativă între expunere (factorul de risc) şi
boală
sau, în unele cazuri putem spune că expunerea la factorul respectiv are
chiar
un “efect protector” faţă de boală
o Singura modalitate de măsurarea a asocierii expunere (factor de
risc)-boală disponibilă în cazul studiilor de tip Case-Control
o Rata de şansă (Odds Ratio –OR) – Raportul dintre rata (şansa)
expunerii in rândul celor bolnavi şi rata (şansa) expunerii în
rândul celor sănătoşi
Interpretarea valorilor ratei de şansă (OR):
- Rata de şansă (OR) poate avea, teoretic vorbind, valori între 0 şi infinit
OR = 1 : Nu există nici un fel de asociere între expunere (factorul de
risc) şi
boală;
OR> 1 : Expunerea reprezintă un factor de risc în cazul bolii respective
(creşte riscul apariţiei bolii)
OR< 1 : Expunerea reprezintă un factor „protector” în cazul bolii
respective(scade riscul apariţiei bolii)

S-ar putea să vă placă și