Documente Academic
Documente Profesional
Documente Cultură
Distribuția normală!
Formă de clopot
Distribuția normală!
Înălțimea (g)
Densitate de frecvență relativă
Distribuția normală
Media = 3384 g
Varianța = 201164 g2
SD = 449 g
Media = 162.2 cm
Varianța = 49.7 cm2
SD = 7.1 cm
Înălțimea (g)
Densitate de frecvență relativă
Distribuția normală
Media = 3384 g
Varianța = 201164 g2
SD = 449 g
Media = 162.2 cm
Varianța = 49.7 cm2
SD = 7.1 cm
Înălțimea (g)
Distribuția normală
Distribuția normală şi nu este doar o distribuție ci o
întreagă familie de distribuții!
Un anumit membru al acestei familii este definit prin
două numere numite parametri.
Parametrul este un termen matematic adică un număr
care defineşte un membru al unei anumite clase.
Parametrii distribuției normale sunt media () şi
varianța (2).
Cele două numere identifică membrul familiei
distribuției normale.
Distribuția normală
Parametrii distribuției normale sunt media şi varianța.
Cele două numere identifică membrul familiei distribuției
normale. Membrul familiei cu
media () = 0 și
Densitate de frecvență
varianța (2) = 1
se numește
relativă
distribuția normală
standard.
Variabilă normală
Distribuția normală
Parametrii distribuției normale sunt media şi varianța.
Cele două numere identifică membrul familiei
distribuției normale.
Distribuțiile sunt
Densitate de frecvență
aceleași în termenii
relativă
Variabilă normală
Distribuția normală
Distribuția normală este importantă din două motive:
1. Multe variabile naturale sunt foarte apropiate sau
destul de apropiate de această distribuție ceea ce
ne permite utilizarea în analiza lor a metodelor
statistice care cer distribuția normală.
2. Chiar şi atunci când avem o variabilă care nu
urmează o distribuție normală, dacă am extrage mai
multe eşantioane de observații, mediile calculate în
aceste eșantioane urmează o distribuție normală
(teorema limită centrală).
Distribuția normală
Nu există nici o formulă simplă care să lege variabila de aria
de sub curbă.
Astfel nu putem găsi o formulă pentru a calcula frecvența
între două valori alese ale variabilei şi nici valoarea în cazul
în care s-ar depăşi un anumit procent de observații.
Au dezvoltat mai multe metode numerice de calcul pentru
aceasta cu o precizie acceptabilă folosite în obținerea de
tabele extinse de valorile distribuției normale.
Software-ul statistic (și nu numai!) are implementate
metodele numerice de calcul a frecvențelor pentru
distribuția normală dar și pentru alte distribuții cunoscute.
Distribuția normală
Valori importante din tabela distribuției normale:
1. Estimăm că 68% din observații se află în intervalul de o
abatere standard de o parte și de alta a mediei
2. Estimăm că 95% din observații să află în intervalul de
1.96 abateri standard de o parte și de alta a mediei
3. Estimăm că 99.7% din observații să află în intervalul de
3 abateri standard de o parte și de alta a mediei
Regula celor 3 !
Aceste afirmații sunt adevărate pentru orice distribuție
normală indiferent de medie, varianță sau abatere
standard.
Eșantionare
Cele mai multe date de cercetare provin de la subiecți pe
care îi vedem ca formând un eșantion prelevat dintr-o
populație mai mare.
Eșantioanele ne spun ceva referitor la populația din care
sunt extrase.
Exemplu:
Mostră de sânge (eșantion) pentru estimarea concentrația de
glucoză.
O picătură de sânge reprezință sângele din întregul corp.
Obținem trei valori ale măsurătorilor: 6.0, 5.9, şi 5.8.
Care dintre acestea este corectă?
Răspuns: nici una - valorile sunt toate estimări pentru aceeaşi
cantitate si nu ştim dacă vreuna dintre ele este cea adevărată!
Eșantionare
Cele mai multe date de cercetare provin de la subiecți pe
care îi vedem ca formând un eșantion prelevat dintr-o
populație mai mare.
Eșantioanele ne spun ceva referitor la populația din care
sunt extrase.
Exemplu:
Trei studii pentru compararea bandajul de compresie multistrat
elastic cu cel inelastic pentru ulcer venos .
Se obțin următoarele diferențe: 13%, 25% şi 20% la pacienți cu
vindecare completă în favoarea bandajului elastic (Fletcher et al,
1997)
Toate estimările în avantajul bandajului elastic!
Există o variabilitate aleatorie naturală între eșantioane!
Fletcher A, Nicky Cullum N, Sheldon TA. (1997) A systematic review of compression treatment for venous leg ulcers. British
Medical Journal 315, 576-580.
Eșantionare
Media=(1+2+3+4+5+6)/6
Media=3.5
SD=[(1-3.5)2+(2-3.5)2 +
+(3-3.5)2] +(4-3.5)2 +
+(5-3.5)2]/6=1.71
Proporția aruncărilor
Media=3.5 SD=1.71 Media=3.5 SD=1.21
Media scorurilor obținute prin aruncarea unui singur zar Media scorurilor obținute prin aruncarea a două zaruri
Media scorurilor obținute prin aruncarea a patru zaruri Media scorurilor obținute prin aruncarea a șase zaruri
Distribuții de eșantionare
Observații (generale):
1. Media distribuției este întotdeauna acelaşi și anume
3.5. Când am facut mai multe observații şi am calculat
media lor am obținut aceeaşi medie ca în cazul
distribuției unei observații simple.
2. Distribuțiile au variabilitate mult mai mică când
numărul de zaruri simultan aruncate creşte. Avem mult
mai multe puține proporții de aruncări producătoare de
medii apropiate de 1.0 sau 6.0 şi abaterile standard
devin din ce în ce mai mici.
3. Forma distribuțiilor se schimbă când numărul de zaruri
aruncate simultan crește. Ea tinde să devină similară
curbei distribuției normale.
Distribuții de eșantionare
Distribuțiile avînd suprapuse curbe care fac parte din familia
distribuției normale cu aceeaşi medie iar abaterea standard este
cea calculată pentru distribuția zarurilor.
Media=3.5 SD=1.71 Media=3.5 SD=1.21
Proporția aruncărilor
Proporția aruncărilor
Media scorurilor obținute prin aruncarea unui singur zar Media scorurilor obținute prin aruncarea a două zaruri
Media scorurilor obținute prin aruncarea a patru zaruri Media scorurilor obținute prin aruncarea a șase zaruri
Distribuții de eșantionare
Pentru aproape toate observațiile pe care le putem face, dacă se
consideră un eșantion format din câteva observații și se
calculează media acestora, indiferent de distribuția populației
din care a fost extras eșantionul:
1. Mediile acestor eșantioane au o distribuție care are aceeași
medie ca media populației din care au fost extrase.
2. Distribuția mediilor acestor eșantioane are o abatere
standard mai mică decât abaterea standard a populației din
care au fost extrase, și cu cât eșantioanele au dimensiune
mai mare cu atât abaterea standard ale mediilor
eșantioanelor va fi mai mică.
3. Forma distribuției mediilor eșantioanelor se apropie de
forma distribuției normale când dimensiunea eșantioanelor
crește.
Orice statistică calculată pentru un eșantion, precum media,
proporția, mediana sau abaterea standard, are o distribuție de
eșantionare.
Eroarea standard
Eroarea standard se folosește pentru a descrie cât de
bună este o anumită estimație.
Eroarea standard provine din distribuția de
eșantionare.
Abaterea standard a distribuției de eşantionare ne
arată cât de bună este statistica calculată pe eșantionul
studiat ca o estimare a valorii reale din populație.
Această abatere standard este cunoscută sub numele
de eroare standard a estimării.
Prin urmare, eroarea standard a mediei valorilor
obținute prin aruncarea a şase zaruri simultan este de
0.70.
Eroarea standard
Oamenii fac adesea confuzie între termenii de "eroare
standard" şi "abatere standard".
Acest lucru nu este surprinzător: o eroare standard este
un fel de abatere standard!
Vom folosi termenul de "abatere standard" atunci când
vorbim despre distribuția unui eşantion sau a unei
populații.
Vom folosi termenul de "eroare standard" atunci când
vorbim despre o estimație calculată pe baza datelor
dintr-un eșantion (abatere standard a unei statistici).
Eroarea standard
În exemplu referitor la zaruri, cunoaștem cu exactitate ce
distribuția are variabila originală deoarece provine de la un
dispozitiv de randomizare foarte simplu (zarul).
În cele mai multe situații practice acest lucru nu este cunoscut.
Studiul bandajelor elastice versus cele inelastice:
Diferența între cele două procente de ulcere complet vindecate
este de de 13% .
Aceasta este o estimare a diferenței în populația de pacienți cu
ulcer venos.
Care este eroarea sa standard?
În grupul cu bandaj elastic s-au vindecat 31 din 49 de pacienți iar
în grupul cu bandaj inelastic 26 din 52.
Cunoaștem din punct de vedere teoretic din ce familie de
distribuții ar putea face parte diferența. În acest caz, aceasta este
aproximativ distribuția normală.
Eroarea standard
În exemplu referitor la zaruri, cunoaștem cu exactitate ce
distribuția are variabila originală deoarece provine de la un
dispozitiv de randomizare foarte simplu (zarul).
În cele mai multe situații practice acest lucru nu este cunoscut.
Studiul bandajelor elastice versus cele inelastice:
Diferența între cele două procente de ulcere complet vindecate
este de de 13% .
Aceasta este o estimare a diferenței în populația de pacienți cu
ulcer venos.
Care este eroarea sa standard?
În grupul cu bandaj elastic s-au vindecat 31 din 49 de pacienți iar
în grupul cu bandaj inelastic 26 din 52.
Cunoaștem din punct de vedere teoretic din ce familie de
distribuții ar putea face parte diferența. În acest caz, distribuția
este aproximativ normală.
Eroarea standard
Studiul bandajelor elastice versus cele inelastice:
Întrebarea este: de care membru al familiei de distribuții
normale depinde proporția de pacienți din întreaga
populație care ar putea vindeca dacă folosesc bandaje
elastice şi proporția de pacienți din întreaga populatie care
s-ar putea vindeca dacă folosesc bandaje inelastice?
Acest lucru nu este cunoscut şi nu există nici o modalitate
prin care să aflăm.
Cu toate acestea, acestea se pot estima din date folosind
procentele obținute în eşantioane și anume 63% (31/49) şi
50% (26/52).
Vom calcula eroarea standard considerând cazul în care
procentele necunoscute populației ar fi, de fapt, egale cu
cele obținute în eșantioane.
Eroarea standard
Studiul bandajelor elastice versus cele inelastice:
Vom calcula eroarea standard considerând cazul în care
procentele necunoscute populației ar fi, de fapt, egale cu
cele obținute în eșantioane.
Această estimație a erorii standard poate fi folosită pentru a
evalua precizia sau estimația diferenței.
Eroare standard estimată "eroare standard“ ??
Pentru diferența între cele două procente cu ulcere
vindecate care a fost de 13 (63-50) eroarea standard este de
10%.
Ceea ce ne poate induce în eroare este faptul că atunci când
se extrag mai multe eșantioane dintr-o populație se obține
mai mult de o eroare standard referitoare la valoarea din
populație!
Eroarea standard
Eroarea standard a unei estimații ne spune cum pot fi
obținute estimațiile variabilei în cazul am extrage alte
eșantioane din populație într-un mod similar cu eșantionul
nostru.
Adesea lucrările de cercetare includ intervalele de
încredere şi valorile p care derivate din utilizarea erorilor
standard.
Erorile standard estimate pot fi găsite pentru multe dintre
statisticile calculate pentru datele observate şi sunt folosite
pentru a face estimări referitoare la populația din care
eșantionul a fost extras.
Notație: ”estimație SE”
Exemplu: Studiul bandajelor elastice versus cele inelastice
diferența = 13% 10%
Intervale de încredere
Intervale de încredere sunt un alt mod de a vedea cât
de apropiate sunt estimările din eșantioane față de la
cantitatea care se dorește a se estima.
Unele (dar nu toate!) intervale de încredere sunt
calculate cu ajutorul erorii standard.
Intervale de încredere sunt numite de ”estimări de tip
interval”, deoarece se estimează o limită inferioară și
una superioară între care sperăm să se afle valoarea
reală.
O estimare care este un singur număr (de exemplu
diferența observată într-un studiu) este numită
estimare punctuală.
Intervale de încredere
Nu este posibil să se calculeze estimări utile de tip
interval care să conțină întotdeauna valoarea
necunoscută din populație!
Există întotdeauna o probabilitate foarte mică ca un
eşantion să fie foarte extrem şi să conțină o mulțime de
observații fie foarte mici sau foarte mari, sau să avem
două grupuri care diferă foarte mult înainte și după ce
tratamentul este aplicat.
Deci vom calcula un interval în așa fel încât cele mai
multe intervale care se pot calcula să conțină valoarea
reală din populația (ceea ce dorim să estimăm).
Intervale de încredere
Vom calcula un interval de încredere: o serie de valori
obținute pe baza datelor din eșantion astfel că o
anumită proporție din intervalele pe care le putem
calcula pe baza datelor din eșantioane similare vor
conține valoarea din populația reală.
Să considerăm un interval de 95% încredere calculat pe
baza datelor din eșantion, astfel 95% din intervale
calculate pe baza datelor din eșantioane similare vor
conține valoarea reală din populația.
Intervale de încredere
De exemplu, pentru studiul referitor la bandajul pentru
ulcerul venos avem o valoarea estimată pentru diferență
de 13% şi o eroare standard de 10%.
Distribuția de eşantionaj este de aproximativ normală cu
medie egală cu valoarea necunoscută din populație pentru
diferență şi abaterea standard egală cu eroarea standard,
estimată a fi de 10.
Ştim că 95% din observațiile din cadrul unei distribuții
normale se află în intervalul de 1.96 x abaterea standard
de o parte și de alta a mediei (regula celor 3).
Prin urmare 95% din eșantioanele posibile vor estima o
valoare pentru diferență apropiată de valoarea necunoscută
a mediei din populație în limitele a 1.96 x 10%.
Intervale de încredere
Dacă am estima că valoarea necunoscută a populației
ar fi între valoarea observată în eșantion minus 1.96 x
eroarea standard şi valoarea observată în eșantion plus
1.96 x eroarea standard, intervalul obținut ar include
valoarea reală din populația pentru 95% din
eșantioanele posibile.
Astfel, intervalul de 95% încredere este
de la 13 - 1.96 x 10 = -7% la 13 + 1.96 x 10 =33%.
Prin urmare, se estimează că diferența reală în
populația se află între -7% şi +33%.
Intervale de încredere
Studiul ulcerului venos: estimații pentru celelalte
eșantioane cu intervalele de 95% încredere:
Diferența între procentele
50%
42%
de vindecați
33%
25%
20%
13%
9%
-7%
-10%
Numărul studiului
Lățimea intervalului de încredere depinde de cât de multe
observații au fost făcute şi după cum se observă al treilea
studiu a fost mai mic decât celelalte.
Intervale de încredere
Studiul ulcerului venos: estimații pentru celelalte
eșantioane cu intervalele de 95% încredere:
Diferența între procentele
50%
42%
de vindecați
33%
25%
20%
13%
9%
-7%
-10%
Numărul studiului
Aceste intervale de încredere se suprapun toate, deci sunt
destul de consistente astfel că valoare reală necunoscută și
s-ar putea afla în toate acestea.
Intervale de încredere
Intervale de încredere nu includ întotdeauna valoarea
reală a populației!
Dacă 95% din intervale de 95% încredere o includ
rezultă că există 5% care nu o includ.
În practică, nu putem spune dacă intervalul de
încredere calculat de noi este unul din cele 95% sau din
cele 5%.
Simulare pe calculator a studiului
referitor la bandaje
Dimensiunile eșantioanelor cele din studiu sunt 49 și 52 de
pacienți pentru grupurile cu bandaj elastic şi respectiv inelastic
şi s-a presupus că în întreaga populație de pacienți procentul de
pacienți cu vindecare totală va fi de 57% în grupul cu bandaj
elastic şi 37 % în grupul cu bandaj inelastic.
Diferența între procentele de vindecați
6 intervale 2 intervale
în afară! în afară!
Interval de 90% încredere Diferența între procentele de vindecați Interval de 50% încredere
8 intervale
în afară!
52
Internet şi World Wide Web
• Internet (net )-1964, 1969 ARPAnet
Internet = "interconnection of computer networks"
- rețea de rețele (calculatoare , cabluri, routers),
informațiile se transmit prin protocoale (diverse)
• WWW (web) - 1989, 1992
- mod de accesare a informației prin internet (software)
– colecție de pagini HTML (cea mai mare bibliotecă
electronică), protocol: HTTP
53
Internet şi World Wide Web
Noțiuni:
A naviga pe Internet
Site web
A accesa informația
Fișier resursă
Comunicare:
- Stratul de rețea (protocolul IP)
- Stratul de transport (protocolul TCP)
- Stratul aplicațiilor (protocoale HTTP, FTP, SMTP)
Port
Firewall
Viruși
54
A naviga pe Internet:
- calculator
- serviciile unui furnizor de servicii Internet
(Internet Service Provider),
- soft de navigare (Internet Explorer) -
permite vizualizarea documentelor din
Web, obţinerea altor documente,
interacţionarea cu alte programe etc.
55
Site web:
- calculator a cărui memorie conţine
documente organizate sub formă de pagini
Web,
- program (server Web) care permite
trimiterea documentelor solicitate spre
utilizatorii Internetului.
56
Pt a accesa informația :
- fie indică localizatorul uniform de resursă
(Uniform Resource Locator = URL) al
informaţiei dorite,
- fie selectează un hipertext sau o zonă
fierbinte (hot zone) a unei imagini din
pagina Web curentă.
URL: secvență de caractere standardizată, folosită pentru denumirea,
localizarea și identificarea unor resurse de pe Internet.
Schema: <protocol>://<nume_DNS>/<cale_si_nume_local>
Ex: http://umf.ro/index.php/ro/prezentare.html
57
Pt găsirea unui Fișier resursă:
- localizarea fişierului (calculatorul în memoria
căruia este depus, drumul de acces şi
denumirea fişierului)
- modul de comunicare cu calculatorul care
„găzduieşte” fişierul (protocol acceptat în
Internet: HTTP, FTP sau altele).
Un URL înglobează toate aceste date.
ULR: secvență de caractere standardizată, folosită pentru denumirea,
localizarea și identificarea unor resurse de pe Internet.
Schema: <protocol>://<nume_DNS>/<cale_si_nume_local>
Ex: http://umf.ro/index.php/ro/prezentare.html
58
Comunicare:
- stratului de reţea (protocolul IP) - acesta alege
calea de transmisie a datelor, „informează”
dispozitivele intermediare (rutere) cum să prelucreze
pachetele de date, generează eventualele mesaje
de eroare.
Router = dispozitiv de dirijare a pachetelor de date, care
efectuează următoarele operaţiuni:
1)deschide fiecare pachet de date
2)citește adresa de destinaţie;
3)stabilește ruta optimă de urmat,
4)trimite pachetul mai departe, spre destinatar.
59
Comunicare:
- stratul de transport (la emiţător - fragmentarea
mesajului în segmente de dimensiuni relativ mici,
conforme cu cerinţele stratului de reţea; gazda
receptoare -reasamblarea mesajului din fragmentele
primite) - protocolul TCP (Transport Control Protocol).
- stratul aplicaţiilor (legăturile între diversele aplicaţii
ce implementează serviciile utile: poşta electronică,
transferul de fişiere, informarea, videoconferinţe etc) -
protocoalele TCP/IP pentru transmiterea/ recepţionarea mesajelor (IP
conţine atât adresa destinatarului, cât şi adresa expeditorului, TCP
conţine numărul portului spre care trebuie dirijat pentru a „ajunge” la
aplicaţia dorită ) HTTP (transferul documentelor în Web), SMTP
(serviciului de poştă electronică) şi FTP (transferul de fişiere între
diverse sisteme de calcul).
60
Port:
- cale de acces „soft” între calculator şi
Internet, identificată printr-un număr şi
având de obicei un scop precis.
Exemplu:
- portul 21 -programele ce implementează FTP
- portul 80 (8080) – portul unde se „aşteaptă” cererile de
către serverele web.
- portul 110 - primirea mesajelor e-mail
61
Firewall:
- conţinut hard (ruter plasat „în faţa”
calculatorului (sau reţelei locale) cu rolul de
examinare prealabilă a pachetelor de date
primite şi de interzicere a trecerii pentru
pachetele care fie solicită servicii incorecte,
fie vin de la adrese suspecte)
- conținut soft (programe de protecţie preiau şi
analizează pachetele de date ce urmează a fi
transmise către anumite porturi)
62
Virușii:
- programe care, prin ataşarea de programe
(aplicaţii) veritabile, la execuţia acestuia
pot efectua diverse acţiuni distructive
asupra calculatorului.
Astfel de programe se pot transmite prin orice
fişiere care pot conţine instrucţiuni (Word – în
care au fost create macroinstrucţiuni de
editare, imagini JPEG –algoritmul de
decomprimare).
63