Documente Academic
Documente Profesional
Documente Cultură
Capitolul1 Rez
Capitolul1 Rez
rezumat
Curs introductiv n
STATISTIC i PROBABILITI
Capitolul 1:
Cum definim si de ce studiem Statistica ?
Textul original:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
Donald B. Macnaughton. The Introductory Statistics Course: The Entity-Property-Relationship Approach.
http://www.matstat.com/teach/eprt0130.pdf
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice.
www.sjsu.edu/faculty/gerstman/StatPrimer
Traducere si adaptare: dr. Camelia F. Voinea
Versiune-rezumat 1.5, 2009-2010
Contents:
1.1. Notiuni de baza. Entitati
1.2. Ce este Statistica?
1.3. Masurarea
1.4. Colectarea Datelor
Entitatile pot fi definite ca unitati fundamentale ale realitatii umane obisnuite, pentru ca – inconstient
– oamenii considera fiecare lucru din realitate ca fiind o entitate, ceea ce le simplifica semnificativ
gandirea intrucat permite privirea si tratarea – la nivelul cel mai de baza – a oricarui lucru in acelasi
fel .
Lumea externa. Atunci cand gandirea se desfasoara in termeni de entitati, este bine sa consideram si
conceptul de “lume exterioara” care poate fi definita dupa cum urmeaza:
Pagina 1
Introducere in STATISTICA si PROBABILITATI
rezumat
Oamenii grupeaza entitatile in tipuri sau populatii. Gruparea entitatilor in tipuri simplifica lucrurile
deoarece toate entitatile de un anumit tip au mai multe proprietati in comun.
In statistica si cercetarea empirica multimea tuturor entitatilor de un anumit tip este denumita
populatia entitatilor de acel tip. De exemplu, un web site de pe Internet este o entitate (de tip
electronic sau obiect-computerizat), iar multimea tuturor web site-urilor de pe Internet formeaza
populatia de web site-uri.
Valori ale proprietatilor. Pentru orice entitate particulara, fiecare dintre proprietatile sale are
asociata o valoare. De obicei, raportam aceste valori in numere, in cuvinte din limbajul natural sau in
simboluri. De exemplu, exprimata intr-un numar, valoarea inaltimii mele este de 156.5 centimetri ,
exprimata intr-un cuvant, inaltimea mea este „mignona“, iar intr-un simbol – grupa mea sanguina este
„A II“. Se poate spune ca stim sau experimentam o entitate pe baza cunostintelor sau a experientei
despre proprietatile sale si despre valorilor acestora.
Variatii in valorile proprietatilor. In general, valorile proprietatilor unei entitati variaza. Valorile
variaza aproape intotdeauna de la o entitate la alta si variaza de asemenea si pentru o singura entitate
individuala in timp. De exemplu, inaltimea unei persoane variaza de la o persoana la alta si inaltimea
unei persoane particulare variaza in timp.
Masuri ale valorilor unei proprietati. Una dintre operatiile-cheie ale cercetarii empirice este de a
determina valorile unor proprietati selectate ale unei entitati aflate in studiu. Pentru a determina
valoarea unei proprietati a unei entitati, cercetatorii aplica un instrument de masura adecvat asupra
acelei proprietati. Daca instrumentul face masuratori corecte, el va furniza o estimatie a valorii
proprietatii acelei entitatii la momentul masurarii. Instrumentele de masurare sunt importante pentru ca
toate concluziile din cercetarea empirica se bazeaza direct pe estimarile valorilor unor proprietati
obtinute de la instrumente de masurare.
1.1.3. Variabil
Pagina 2
Introducere in STATISTICA si PROBABILITATI
rezumat
Cercetarea empirica utilizeaza instrumente de masura pentru a determina estimari ale valorilor
proprietatilor unor entitati. Cand astfel de estimari sunt studiate in mod formal, statisticienii si
cercetatorii empirici se refera la ele ca „variabile“, de unde putem sa dam o definitie a variabilei ca
fiind o reprezentare formala a proprietatii unei entitati.
Definitia trebuie sa mai precizeze concepte fundamentale care sunt asociate variabilelor:
conceptul de „valoare“ a unei variabile,
conceptul de „variatie“ in valorile unei variabile
conceptul de „masurare“ a valorilor unei variabile,
conceptul de „timp“ al masurarii valorilor unei variabile.
Completat cu aceste concepte asociate, conceptul de „variabila“ se apropie suficient de semnificatia
sa statistica.
Date si tabele de date. Conceptele de „entitate“, „proprietate“ si „variabila“ conduc direct spre
conceptul de „date“ care pot fi definite dupa cum urmeaza:
Datele sunt valori masurate ale uneia sau mai multor variabile
(proprietati) pentru una sau mai multe entitati.
Toate proiectele de cercetare empirica genereaza date. Datele (brute) dintr-un proiect de cercetare sunt
invariabil organizate in tabele: fiecare linie din tabel este asociata unei entitati din tipul studiat; fiecare
coloana este asociata cu o proprietate diferita a entitatii, lucru reflectat de valorile variabilelor asociate
cu fiecare coloana; fiecare celula aflata la intersectia unei linii cu o coloana din tabel contine valoarea
(la momentul masurarii) a variabilei asociate cu coloana pentru entitatea asociata cu linia. Tabelul de
date este o inregistrare completa a ceea ce a fost observat intr-un proiect de cercetare empirica si este
central extragerii unor concluzii rezonabile din proiectul respectiv.
Predictie si control. Un important scop al cercetarii empirice este de a descoperi cum se pot
prognoza si controla (cu maximum de acuratete) valorile variabilelor (proprietatilor) pentru anumite
entitati de interes.
Pagina 3
Introducere in STATISTICA si PROBABILITATI
rezumat
Predictia si controlul in cercetarea empirica se bazeaza pe o idee foarte simpla: in relatia dintre
variabile, una dintre variabile (numita variabila de raspuns) “depinde” de una sau mai multe alte
variabile (numite variabile de predictie). Observam ca pentru a caracteriza informal o relatie intre
variabile am introdus conceptul de “dependenta”. Dependenta se manifesta in cazul relatiei dintre
variabile in felul urmator: cand valorile variabilei predictor variaza in entitatea aflata in studiu, variatia
valorilor variabilei de raspuns urmareste aceasta variatie a variabilei predictor proportional sau “in
pasi” sincroni cu aceasta variatie.
Populatie si esantion. Relatia dintre variabile nu este studiata in cercetarea empirica in fiecare entitate
dintr-o populatie de entitati, pentru ca ar fi imposibil sau prohibitiv de costisitor, ci intr-un subset al
populatiei numit esantion. Generalizarea pe care o permite studiul relatiei dintre variabilele alese se
face studiind aceasta relatie in tabelele de date pentru entitatile din esantionul selectat. Generalizarea
permite predictia cu acuratete si controlul valorilor proprietatii asociate cu variabila de raspuns in
situatii noi pentru orice entitate din populatia respectiva.
Acuratetea predictiei. Predictia si controlul realizate pe baza relatiei dintre variabile nu este in
general de o acuratete perfecta: exista o “marja de eroare” acceptata, dar cu toate acestea exista
demonstratii matematice ale faptului ca acuratetea este de cel mai inalt grad posibil date fiind
informatiile cu care s-a operat.
Terminologie. Conceptul de “relatie” este denumit in mai multe feluri: “asociatie”, “dependenta”.
Exista o terminologie specifica si pentru variabilele aflate in relatie: o variabila de raspuns mai este
denumita “variabila dependenta”, iar o variabila-predictor mai este denumita sau “variabila
independenta”.
Pagina 4
Introducere in STATISTICA si PROBABILITATI
rezumat
Definitia Statisticii ca domeniu de studiu. Paradigma EPR introduce cateva concepte fundamentale
pentru intelegerea domeniului statisticii in principal de catre studentii in stiinte umaniste care nu au un
background aprofundat in domeniul stiintelor pozitive. Aceste concepte sunt:
1. entitati
2. proprietati ale entitatilor
3. variabile ca reprezentari formale ale proprietatilor unor entitati
4. predictia si controlul valorilor variabilelor ca unul dintre scopurile fundamentale ale cercetarii
empirice
5. relatia dintre variabile ca o cheie a predictiei si controlului
6. tehnicile statistice pentru studiul relatiilor dintre variabile in cercetarea empirica ca un mijloc de
predictie de acuratete si control
Putem incerca sa introducem o defnitie a domeniului statisticii prin prisma conceptelor si termenilor
studiati mai sus:
Statistica este un set de tehnici generale optimale care ajuta cercetatorii din
cercetarea empirica sa studieze variabilele si relatiile dintre variabile in
entitatile dintr-un esantion, in principal ca un mijloc de predictie (cu
acuratete) si control al valorilor variabilelor (proprietatilor) entitatilor
dintr-o populatie.
Statistica este mai mult decat utilizarea unor tehnici de calcul; este un servant al tuturor stiintelor, un
mijloc de a invata din date si un mod de a colecta, organiza si interpreta informatia. Statistica nu
inseamna pur si simplu asezarea numerelor in formule. Sarcina statisticianului este de a combina
investigatia si judecata asupra unor datelor. Statistica mai poate fi privita si ca un exercitiu de
masurare cu scopul de a cuantifica cantitati si relatii cu cat mai mare acuratete. Se stie ca masurarorile
statistice nu sunt nicidata perfecte, fiind afectate de diferite grade de erori aleatorii sau sistematice.
Scopul nostru este de a minimiza si cuantifica astfel de erori, iar sarcina aceasta nu este simpla.
Definitie:
Statistica este stiinta colectarii, descrierii si interpretarii datelor.
Statistica are doua sub-domenii relevante pentru abordarea din acest curs introductiv:
Statistica Descriptiva: colectare, prezentare, si descriere a esantioanelor de date.
Statistica Inferentiala: luarea deciziilor despre o populatie data.
1.3. Masurarea
Masurarea reprezinta felul in care obtinem informatiile asupra carora executam operatiile statistice.
Datele sunt colectate ca unitati de observatie. Astfel de observatii pot fi facute la orice nivel de la
individual pana la agregate foarte largi.
Pagina 5
Introducere in STATISTICA si PROBABILITATI
rezumat
Indiferent de unitatile de observatie utilizate intr-un studiu, masuratorile sunt inregistrate in formulare
de colectarea datelor. Datele de pe fiecare formular reprezinta o observatie (sau un „caz“) si fiecare
intrebare sau camp din formular reprezinta o variabila. Mai jos se prezinta un exemplu de astfel de
formular:
• Nominala sau “nume”. Exemple de variabile nominale in tabelul dat este SEX (masculin sau
feminin). Variabilele nominale sa mai numesc calitative sau categoriale.
• Ordinala sau “categorii ordonate dupa ranguri”.
Tabele de Date
Odata colectate, datele sunt organizate pentru a forma un tabel de date. In mod tipic fiecare linie
dintr-un tabel de date contine date dintr-o singura observatie; fiecare coloana contine o variabila;
fiecare celula contine o valoare specifica.
Calitatea Datelor
Pentru a adresa calitatea datelor trebuie sa facem distinctie intre:
• Erori de masurare: diferente intre „raspunsuri adevarate“ si ceea ce apare in colectia de date, si
• Erori de procesare: erori care apar pe durata manevrarii datelor.
Esantion
Cadru de esantionare: o lista a elementelor ce apartin unei populatii din care este extras esantionul.
Proiectarea esantionului: procesul de selectare a elementelor esantionului din cadrul de esantionare.
Esantioane de judecata: Esantioane selectate pe baza calitatii de a fi „tipice“. Sunt selectate
elementele reprezentative dintr-o populatie. Validitatea rezultatelor obtinute dintr-un esantion de
judecata reflecta valabilitatea judecatii celui care a efectuat selectia.
Esantioane de probabilitate: Esantioane in care elementele care urmeaza sa fie selectate sunt alese
pe baza de probabilitate. Fiecare element din populatie are o anumita probabilitate de a fi selectat ca
parte a esnationului.
Esantioane Random: Un esantion selectat in asa fel incat fiecare element din populatie are o
probabilitate egala de a fi ales. Echivalent, toate esantioanele de marime n au o sansa egala de a fi
selectate. Esantioanele aleatorii sunt obtinute fie prin esantionarea cu inlocuire dintr-o populatie
finita, fie prin esantionarea fara inlocuire dintr-o populatie infinita.
Esantion Sistematic: Un esantion in care este selectat fiecare al n-lea element al cadrului de
esantionare, incepand de la primul element care este ales random din primele n elemente.
Esantion Random Stratificat: un esantion obtinut prin stratificarea cadrului de esantionare si apoi
prin selectarea unui numar fix de elemente din fiecare strat printr-o tehnica de esantionare random
simpla.
Esantion Proportional (sau „Cota“): un esantion obtinut prin stratificarea cadrului de esantionare si
apoi prin selectia din fiecare strat a unui numar de elemente proportional cu marimea fiecarui strat (sau
prin cotare) printr-o tehnica de esantionare random simpla.
Esantion Cluster: un esantion obtinut prin stratificarea cadrului de esantionare si apoi prin selectarea
unora sau tuturor elementelor din unele straturi, dar nu din toate.
Metode de esantionare:
Pagina 6
Introducere in STATISTICA si PROBABILITATI
rezumat
1. Esantion pe baze conventionale: esantion selectat de la elemente ale unei populatii usor accesibile.
2. Esantion pe baza de voluntariat: esantion colectat din acele elemente ale unei populatii care alege
sa contribuie din proprie initiativa cu informatia necesara.
Pagina 7