Documente Academic
Documente Profesional
Documente Cultură
1. Introducere
*Biostatistica e o ramura a statisticii, specializata in studiul fenomenelor biologice, inclusiv al celor medicale. *Prelucreaza si determina parametri *Statistica matematica opereaza cu doua notiuni de baza: 1. Populatia sau colectivitatea statistica 2. Proba(esatntionul) extras din populatia aflata in studiu **pop. stat. si probele stat. -populatia statistica: totalit. fenomenelor sau obiectelor calitativ omogene avand una sau mai multe caracteristici comune - populatia statistica, clasificare: - finita - infinita - ipotetica -esantionul: parte finita extrasa din populatia statistica - conditie: fiecare parte din populatie sa aibe aceeasi probabilitate de a face parte din esantion => esantion reprezentativ **variabilitatea biologica -esantion redus ca numar => rezultate diferite => fluctuatie de esantion -esantion mare ca numar => rezultate mai apropiate de adevar - imprastierea rezultatelor: imprastiere mare => valoare reala - generalizarea depinde de 2 factori: - numarul de observatii facute (n) - imprastierea(dispersia) acestora () **factori de eroare - factori care tin de animalul de experienta: 1. factori interni 2. factori externi 3. factori care tin de individualitatea animalului - factori care tin de mediul geografic si climateric - factori care tin de tehnicile intrebuintate !!! masuri !!!
- eroare: diferenta numerica dintre valoarea obtinuta de experimentator si valoarea reala (adevarata) a unui parametru masurat. - valoarea reala nu este cunoscuta => cautam valorile care sa se apropie cat mai mult de ea. - tipuri de erori: - erori sistematice: afecteaza exactitatea rezultatului - erori aleatoare (intamplatoare): afecteaza exactitatea dar si precizia rezultatelor * exactitatea: apropierea valorii numerice determinata experimental de valoarea adevarata => eroarea absoluta !!! mai este si eroarea relativa !!! * precizia: cand rezultatele pot fi reproduse * abaterea: devierea rezultatelor obtinute de la o valoare medie => precizia determinarilor !!! imprastierea rezultatelor fata de medie este mica + media este apropiata de valoarea reala => eroarea determinarii e mica => exactitate + precizie buna !!!
2. Distributii de frcventa
* Repartizarea datelor calitative i a celor cantitative (numerice) dintr-o populaie statistic sau un eantion se poate efectua dup frecvena de apariie a caracteristicilor lor => structura colectivitatii * distributiile de frecventa: efectueaza o descriere calitativa + cantitativa a observatiilor (masuratorilor) + numarul de aparitii ale unui rezultat al masuratorii respective (frecventa absoluta) * frecventa relativa = frecventa absoluta/numarul total al observatiilor * intervalele de variatie: folosite pentru datele cantitative (numerice) continue -reguli de construire a intervalelor: - numarul de intervale = indicat sub 15 - limitele fiecarei clase sa se potriveasca cu gradul de acuratete (precizie, exactitate) al masuratorilor. - de preferat intervale cu lungime egala (mai convenabile, faciliteaza prelucrarile ulterioare) - intervalele sa fie mutual exclusive (sa nu li se suprapuna capetele) * distributii de frecventa: - homograde (cu o singura scara de comparatie in sistemul cartezian genul diagramelor)
* poligonul de frecventa: se formeaza prin ordonatelor care trec prin mijlocul intervalelor de clasa
unirea
* din distributia de frecventa => - tendinta centrala (media) - mediana - forma distributiei - variabilitatea din interiorul distributiei * Curba de distributie normala a frecventei = frecventa cu care revine acelasi rezultat in mai multe determinari succesive
!!! Distana BD sau BC (0-1 sau 0+1) reprezint convenional o unitate denumit abatere standard i notat cu (sigma) * Caracteristicile distributiilor de frecventa
1. indicatorii tendintei centrale 2. indicatori ai imprastierii sau dispersiei datelor => parametrii statistici (daca elementele sunt obtinute in urma unui studiu populational) => parametrii statistici (daca elementele sunt obtinute in urma analizei unui esantion) *d.p.d.v. al tendintei centrale, distributiile de frecventa sunt caracterizate prin: - medie - mod (dominanta) - mediana **media: reprezinta tendinta centrala a unei distributii **dominanta: reprezinta valoarea cea mai frecventa a unei distributii, care se confunda, de fapt, cu varful poligonului de frecventa **mediana: corespunde valorii care se gaseste la punctul care imparte seria statisticii in doua grupuri egale *Forma curbei de frecventa -simetrica -asimetrica: - pozitiva - negativa *Distributii anormale (non-Gaussiene)
- lipsa de omogenitate => distributii anormale - capatarea formei literei U => luarea in calcul a valorii minime !!! Distributia binomiala: prezinta interes mai ales in studiul fenomenelor ereditatii !!! Distributia Poisson: prezinta interes mai ales in studiul unor efecte ale compusilor radioactivi si in radiochimie !!! distributii non-Gaussiene => teste de semnificatie neparametrice (testul Wilcoxon, testul U-Man Whitney, etc.)
- media aritmetica - mediana - modul (valoarea care apare cel mai des) *indicatori ai dispersiei (imprastierii) datelor in jurul unei valori medii - variantza (dispersia) - abaterea standard - coeficientul de variatie - asimetria (skewness) - aplatizarea (kurtosis) - amplitudinea - amplitudinea relativa !!! frecventa a clasei !!!
3.1 Medii
- media aritmetica simpla - media aritmetica ponderata - media arbitrara
= numarul marimilor independente folosite in experimentarea respectiva. - factorul de corectie t : - depinde de numarul gradelor de libertate - valuarea lui t scade cu cat creste numarul observatiilor, deci cu cat e mai mare numarul gradelor de libertate
* Distribuia Gaussian (normal) joac un rol central n analiza statistic datorit unei legiti matematice cunoscute ca Teorema Limitei Centrale (Central Limit Theorem) => afirmare daca esantioanele sunt destul de mari => functioneaza chiar si daca distributia nu e gaussiana * Teste de concordanta: - Testul de concordan Kolmogorov-Smirnov - Testul de concordan AndersonDarling - Testul de concordan Chi-Square - Testul de normalitate Shapiro-Wilk -- Testul de concordan Kolmogorov-Smirnov - Ipoteza nul, H0 => Datele studiate urmeaz distribuia specificat (n cazul nostru distribuia Gaussian) - Ipoteza alternativ, H1 => Datele studiate NU urmeaz distribuia specificat (n cazul nostru distribuia Gaussian) - Ipoteza H0 este respins dac Dcalculat are o valoare mai mare dect o valoare critic obinut din tabele
valoare a lui P<0,05 determin respingerea ipotezei nule i acceptarea ipotezei alternative Ha. * dependenta/independenta esantioanelor studiate (date pereche/nepereche) * statistica parametrica/neparametrica : - daca rezultatele se incadreaza intr-o distributie normala => testul t student daca rezultatele nu se incadreaza intr-o distributie normala => testul Wilcoxon, respectiv testul U Mann-Whitney.
neparametrice.
*rezultatele ce se obtin nu depind de natura repartitiei variabilei aleatoare studiate * verificarea unei ipoteze nu este legata de parametrul unei anumite repartitii
** Testul Wilcoxon : - pentru datele pereche ** Testul Mann Whitney U : - pentru datele nepereche (esantioane independente) - p<0.05 => nesemnificativ statistic
6. Corelatie si regresie
* corelatie = asociere intre doua variabile studiate * variabile: - y = dependenta - x = independenta * regresie liniara : - implica estimarea celei mai potrivite linii drepte care sa reliefeze asocierea * coeficientul de corelatie (r) : - masoara gradul de asociere a variabilelor - este o masura a asocierii liniare a celor doua variabile - ia valori intre -1....0....+1 - daca r=0 => nu exista nici o corelatie intre cele doua variabile - daca r=+1 => corelatie pozitiva perfecta => exista o corelatie intre cele doua variabile => o valoare mare la prima variabila impune o valoare mare si la cea de-a doua variabila - daca r=-1 => dependenta inversa perfecta => o valoare mare la prima variabila impune o valoare mica la cea de-a doua variabila - daca r e cuprins intre -1 si 0 sau o si +1 => valoarea lui r ne da taria dependentei celor doua variabile - |0 < r < 0,19| - asociere foarte slab |0,20 < r < 0,39| - asociere slab |0,40 < r < 0,59| - asociere moderat |0,60 < r < 0,79| - asociere puternic |0,80 < r < 1| - asociere foarte puternic ** pasi: * reprezentarea grafica:
- pe axa x masuratori legate de variabila independenta - pe axa y masuratori legate de variabila dependenta * analiza graficului * calcularea coeficientului de corelatie * Coeficientul de determinare - cuantifica cat din varianta variabilei dependente se datoreaza variabilei independente = r2 (r la patrat) - ia valori de la o la 1 (0<r2<1) * Ecuatia de regresie - termenul de regresie semnific faptul c o anumit valoare a variabilei Y este o funcie de X, cu alte cuvinte se modific odat cu modificarea valorii lui X, conform unei anumite ecuaii mai mult sau mai puin complexe - regresie liniara = ecuatia dreptei - Ecuaia de regresie ne arat ct de mult se schimb valoarea variabilei Y n raport cu o anumit schimbare a variabile X i poate fi folosit pentru a trasa o aa-numit linie de regresie, n interiorul unei diagrame scatter-plot, iar cel mai simplu caz este cazul n care aceast linie este o linie dreapt, caz n care se folosete termenul de regresie liniar - directia de inclinare a regresiei depinde de corelatie (pozitiva sau negativa)
- primul punct este interceptul (dat de valoarea lui ) - ultimul punct este panta (dat de valoarea lui ) (mai e numit si coeficient de regresie)
folosita pentru: - permite estimarea probabilitatii sau riscului de inbolnavire la un anumit moment dat -da o imagine asupra severitatii bolii o incidenta = indicator a cazurilor noi dintr-o anumita boala ce au aparut in populatia studiata de-a lungul unei perioade de timp o incidenta cumulativa = proportia de indivizi ce sau imbolnavit intr-o perioada specificata de timp o rata de incidenta = masura ce da informatii chiar daca respectivele cazuri sunt urmarite pe perioade de timp inegale o tabelele de contigenta de tip 2x2 sunt folosite pentru calculul indicatorilor ai asocierii factorului de risc boala (ilustreaza frecventa bolii, frecventa expunerii, si asocierea dintre expunearea la factorul de risc si boala) o riscul relative : - servete la msurarea magnitudinii asocierii ntre incidena bolii studiate i factorul de risc cercetat - reprezint n fapt un raport dintre rata incidenei persoanelor expuse i rata incidentei in randul celor neexpusi la factorul de risc - folositor n cercetrile legate de etiologia unor boli Interpretarea valorilor riscului relativ: - Riscul relativ poate avea, teoretic vorbind, valori ntre 0 i infinit - RR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i boal; practic incidena(rata incidenei) este identic ntre cele dou grupuri (expui, respectiv neexpui la factorul de ric) RR> 1 = Exist o asociere pozitiv ntre expunere (factorul de risc) i boal RR< 1 = Exist o asociere negativ ntre expunere (factorul de risc) i boal sau, n unele cazuri putem spune c expunerea la factorul respectiv are chiar un efect protector fa de boal o Singura modalitate de msurarea a asocierii expunere (factor de risc)-boal disponibil n cazul studiilor de tip Case-Control
o Rata de ans (Odds Ratio OR) Raportul dintre rata (ansa) expunerii in rndul celor bolnavi i rata (ansa) expunerii n rndul celor sntoi Interpretarea valorilor ratei de ans (OR): - Rata de ans (OR) poate avea, teoretic vorbind, valori ntre 0 i infinit OR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i boal; OR> 1 : Expunerea reprezint un factor de risc n cazul bolii respective (crete riscul apariiei bolii) OR< 1 : Expunerea reprezint un factor protector n cazul bolii respective(scade riscul apariiei bolii)