Sunteți pe pagina 1din 7

Introducere in STATISTICA si PROBABILITATI

rezumat

Curs introductiv n
STATISTIC i PROBABILITI

Capitolul 1:
Cum definim si de ce studiem Statistica ?
Textul original:
Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761
Donald B. Macnaughton. The Introductory Statistics Course: The Entity-Property-Relationship Approach.
http://www.matstat.com/teach/eprt0130.pdf
B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice.
www.sjsu.edu/faculty/gerstman/StatPrimer
Traducere si adaptare: dr. Camelia F. Voinea
Versiune-rezumat 1.5, 2009-2010

Contents:
1.1. Notiuni de baza. Entitati
1.2. Ce este Statistica?
1.3. Masurarea
1.4. Colectarea Datelor

1.1. Notiuni de baza. Entitati


Putem sa observam ca oamenii gandesc, de obicei, despre “lucruri” pe care vom conveni in cele ce
urmeaza sa le numim cu un termen generic si suficient de semnificativ “entitati”. Exista diferite tipuri
de entitati, dintre care cele mai comune sunt:
 Organisme biologice (oameni, animale, plante)
 Obiecte fizice ne-animate
 Locatii fizice
 Actiuni si evenimente
 Idei sau emotii
 Organizatii sociale (guvern, scoala, companie de afaceri, etc.)
 Entitati stiintifice (unde in fizica, motivatii in psihologie, multimi de elemente, functii sau
vectori in matematica, etc.)

Entitatile pot fi definite ca unitati fundamentale ale realitatii umane obisnuite, pentru ca – inconstient
– oamenii considera fiecare lucru din realitate ca fiind o entitate, ceea ce le simplifica semnificativ
gandirea intrucat permite privirea si tratarea – la nivelul cel mai de baza – a oricarui lucru in acelasi
fel .

Lumea externa. Atunci cand gandirea se desfasoara in termeni de entitati, este bine sa consideram si
conceptul de “lume exterioara” care poate fi definita dupa cum urmeaza:

Pagina 1
Introducere in STATISTICA si PROBABILITATI
rezumat

Lumea exterioara reprezinta ceea ce exista “in


afara noastra” – atunci cand reprezentam in mintea
noastra tot ceea ce percepem prin simturile noastre.

Oamenii grupeaza entitatile in tipuri sau populatii. Gruparea entitatilor in tipuri simplifica lucrurile
deoarece toate entitatile de un anumit tip au mai multe proprietati in comun.

In statistica si cercetarea empirica multimea tuturor entitatilor de un anumit tip este denumita
populatia entitatilor de acel tip. De exemplu, un web site de pe Internet este o entitate (de tip
electronic sau obiect-computerizat), iar multimea tuturor web site-urilor de pe Internet formeaza
populatia de web site-uri.

1.1.2. Proprietati ale entitatilor


Fiecare entitate are un set de proprietati sau atribute. De exemplu, toti oamenii au mii de proprietati,
dintre care putem alege, ca exemplu, „inaltimea“ sau „grupa saguina“.

Valori ale proprietatilor. Pentru orice entitate particulara, fiecare dintre proprietatile sale are
asociata o valoare. De obicei, raportam aceste valori in numere, in cuvinte din limbajul natural sau in
simboluri. De exemplu, exprimata intr-un numar, valoarea inaltimii mele este de 156.5 centimetri ,
exprimata intr-un cuvant, inaltimea mea este „mignona“, iar intr-un simbol – grupa mea sanguina este
„A II“. Se poate spune ca stim sau experimentam o entitate pe baza cunostintelor sau a experientei
despre proprietatile sale si despre valorilor acestora.

Variatii in valorile proprietatilor. In general, valorile proprietatilor unei entitati variaza. Valorile
variaza aproape intotdeauna de la o entitate la alta si variaza de asemenea si pentru o singura entitate
individuala in timp. De exemplu, inaltimea unei persoane variaza de la o persoana la alta si inaltimea
unei persoane particulare variaza in timp.

Masuri ale valorilor unei proprietati. Una dintre operatiile-cheie ale cercetarii empirice este de a
determina valorile unor proprietati selectate ale unei entitati aflate in studiu. Pentru a determina
valoarea unei proprietati a unei entitati, cercetatorii aplica un instrument de masura adecvat asupra
acelei proprietati. Daca instrumentul face masuratori corecte, el va furniza o estimatie a valorii
proprietatii acelei entitatii la momentul masurarii. Instrumentele de masurare sunt importante pentru ca
toate concluziile din cercetarea empirica se bazeaza direct pe estimarile valorilor unor proprietati
obtinute de la instrumente de masurare.

Valoarea „adevarata“ a proprietatii unei entitati. Deoarece un instrument de masurare poate, in


general, sa furnizeze numai o estimatie a valorii unei proprietati pe care o masoara, acest lucru ne
conduce la intrebarea: care este valoarea „adevarata“ a proprietatii unei entitati ? Cercetarea empirica
vede, de obicei, valoarea adevarata a unei proprietati in termenii unui acord comun asupra unui
standard de masurare pentru ca asta faciliteaza comunicarea si intelegerea. De exemplu, cercetatorii in
domeniul fizicii vad valorile adevarate ale proprietatilor entitatilor pe care le studiaza in termenii
standardelor si definitiilor date de Biroul International pentru Masuri si Greutati (BIPM).

1.1.3. Variabil

Pagina 2
Introducere in STATISTICA si PROBABILITATI
rezumat

Cercetarea empirica utilizeaza instrumente de masura pentru a determina estimari ale valorilor
proprietatilor unor entitati. Cand astfel de estimari sunt studiate in mod formal, statisticienii si
cercetatorii empirici se refera la ele ca „variabile“, de unde putem sa dam o definitie a variabilei ca
fiind o reprezentare formala a proprietatii unei entitati.
Definitia trebuie sa mai precizeze concepte fundamentale care sunt asociate variabilelor:
 conceptul de „valoare“ a unei variabile,
 conceptul de „variatie“ in valorile unei variabile
 conceptul de „masurare“ a valorilor unei variabile,
 conceptul de „timp“ al masurarii valorilor unei variabile.
Completat cu aceste concepte asociate, conceptul de „variabila“ se apropie suficient de semnificatia
sa statistica.

Valorile variabilelor. Ca si proprietatile, variabilele au valori. Si ca si valorile proprietatilor, valorile


variabilelor variaza. Timpul joaca un rol clar in ceea ce priveste valoarea unei variabile: in statistica si
cercetarea empirica, valoarea unei variabile pentru o entitate este vazuta ca o estimare a valorii
adevarate a proprietatii asociate acelei entitati la un moment particular de timp.

Date si tabele de date. Conceptele de „entitate“, „proprietate“ si „variabila“ conduc direct spre
conceptul de „date“ care pot fi definite dupa cum urmeaza:

Datele sunt valori masurate ale uneia sau mai multor variabile
(proprietati) pentru una sau mai multe entitati.

Toate proiectele de cercetare empirica genereaza date. Datele (brute) dintr-un proiect de cercetare sunt
invariabil organizate in tabele: fiecare linie din tabel este asociata unei entitati din tipul studiat; fiecare
coloana este asociata cu o proprietate diferita a entitatii, lucru reflectat de valorile variabilelor asociate
cu fiecare coloana; fiecare celula aflata la intersectia unei linii cu o coloana din tabel contine valoarea
(la momentul masurarii) a variabilei asociate cu coloana pentru entitatea asociata cu linia. Tabelul de
date este o inregistrare completa a ceea ce a fost observat intr-un proiect de cercetare empirica si este
central extragerii unor concluzii rezonabile din proiectul respectiv.

1.1.4. Unul dintre scopurile cercetarii empirice: predictia


si controlul valorilor variabilelor
Una dintre ideile centrale in definirea cercetarii empirice este aceea de „a trage concluzii pe baza
datelor“. De ce ar avea cercetarea empirica acest scop ?

Predictie si control. Un important scop al cercetarii empirice este de a descoperi cum se pot
prognoza si controla (cu maximum de acuratete) valorile variabilelor (proprietatilor) pentru anumite
entitati de interes.

Unde plaseaza cercetarea empirica predictia si controlul valorilor variabilelor ?


Cunostintele si metodele de predictie si control al variabilelor sunt aplicate populatiilor de entitati
pentru ca aceasta abordare ne da posibilitatea de maxima generalizare a acestei abilitati si de obtinere a
unui grad maximizat de utilitate al acestor cunostinte si metodologii de predictie si control. Astfel,
daca includem conceptul de “populatie” putem spune ca:

Unul dintre scopurile fundamentale ale cercetarii

Pagina 3
Introducere in STATISTICA si PROBABILITATI
rezumat

empirice este de a descoperi cum sa prognozeze si sa


controleze (cu maxima acuratete) valorile variabilelor
(proprietatilor) in populatii de entitati.

1.1.5 Relatiile dintre variabile – o cheie a predictiei si


controlului
Conceptul de relatie intre variabile.
Dat fiind scopul predictiei si controlului valorilor variabilelor, o intrebare cheie ar fi: cum putem
prezice si controla valorile variabilelor ? – Raspunsul principal este:

Putem prezice si controla valorile


variabilelor pe baza studiului relatiilor
dintre variabile.

Predictia si controlul in cercetarea empirica se bazeaza pe o idee foarte simpla: in relatia dintre
variabile, una dintre variabile (numita variabila de raspuns) “depinde” de una sau mai multe alte
variabile (numite variabile de predictie). Observam ca pentru a caracteriza informal o relatie intre
variabile am introdus conceptul de “dependenta”. Dependenta se manifesta in cazul relatiei dintre
variabile in felul urmator: cand valorile variabilei predictor variaza in entitatea aflata in studiu, variatia
valorilor variabilei de raspuns urmareste aceasta variatie a variabilei predictor proportional sau “in
pasi” sincroni cu aceasta variatie.

Populatie si esantion. Relatia dintre variabile nu este studiata in cercetarea empirica in fiecare entitate
dintr-o populatie de entitati, pentru ca ar fi imposibil sau prohibitiv de costisitor, ci intr-un subset al
populatiei numit esantion. Generalizarea pe care o permite studiul relatiei dintre variabilele alese se
face studiind aceasta relatie in tabelele de date pentru entitatile din esantionul selectat. Generalizarea
permite predictia cu acuratete si controlul valorilor proprietatii asociate cu variabila de raspuns in
situatii noi pentru orice entitate din populatia respectiva.

Acuratetea predictiei. Predictia si controlul realizate pe baza relatiei dintre variabile nu este in
general de o acuratete perfecta: exista o “marja de eroare” acceptata, dar cu toate acestea exista
demonstratii matematice ale faptului ca acuratetea este de cel mai inalt grad posibil date fiind
informatiile cu care s-a operat.

Terminologie. Conceptul de “relatie” este denumit in mai multe feluri: “asociatie”, “dependenta”.
Exista o terminologie specifica si pentru variabilele aflate in relatie: o variabila de raspuns mai este
denumita “variabila dependenta”, iar o variabila-predictor mai este denumita sau “variabila
independenta”.

1.2. Ce este Statistica?


Metodele statistice pot realiza urmatoarele patru grupuri de tehnici pentru a ajuta cercetarea empirica
sa studieze relatiile dintre variabile:
 tehnici pentru detectarea relatiilor dintre variabile
 tehnici pentru ilustrarea relatiilor dintre variabile
 tehnici pentru predictia si controlul valorilor variabilelor pe baza relatiilor dintre variabile, si

Pagina 4
Introducere in STATISTICA si PROBABILITATI
rezumat

 tehnici pentru studiul variabilelor si a relatiilor intre variabile.

Definitia Statisticii ca domeniu de studiu. Paradigma EPR introduce cateva concepte fundamentale
pentru intelegerea domeniului statisticii in principal de catre studentii in stiinte umaniste care nu au un
background aprofundat in domeniul stiintelor pozitive. Aceste concepte sunt:
1. entitati
2. proprietati ale entitatilor
3. variabile ca reprezentari formale ale proprietatilor unor entitati
4. predictia si controlul valorilor variabilelor ca unul dintre scopurile fundamentale ale cercetarii
empirice
5. relatia dintre variabile ca o cheie a predictiei si controlului
6. tehnicile statistice pentru studiul relatiilor dintre variabile in cercetarea empirica ca un mijloc de
predictie de acuratete si control

Putem incerca sa introducem o defnitie a domeniului statisticii prin prisma conceptelor si termenilor
studiati mai sus:

Statistica este un set de tehnici generale optimale care ajuta cercetatorii din
cercetarea empirica sa studieze variabilele si relatiile dintre variabile in
entitatile dintr-un esantion, in principal ca un mijloc de predictie (cu
acuratete) si control al valorilor variabilelor (proprietatilor) entitatilor
dintr-o populatie.

Statistica este mai mult decat utilizarea unor tehnici de calcul; este un servant al tuturor stiintelor, un
mijloc de a invata din date si un mod de a colecta, organiza si interpreta informatia. Statistica nu
inseamna pur si simplu asezarea numerelor in formule. Sarcina statisticianului este de a combina
investigatia si judecata asupra unor datelor. Statistica mai poate fi privita si ca un exercitiu de
masurare cu scopul de a cuantifica cantitati si relatii cu cat mai mare acuratete. Se stie ca masurarorile
statistice nu sunt nicidata perfecte, fiind afectate de diferite grade de erori aleatorii sau sistematice.
Scopul nostru este de a minimiza si cuantifica astfel de erori, iar sarcina aceasta nu este simpla.

Definitie:
Statistica este stiinta colectarii, descrierii si interpretarii datelor.

Statistica are doua sub-domenii relevante pentru abordarea din acest curs introductiv:
Statistica Descriptiva: colectare, prezentare, si descriere a esantioanelor de date.
Statistica Inferentiala: luarea deciziilor despre o populatie data.

1.3. Masurarea
Masurarea reprezinta felul in care obtinem informatiile asupra carora executam operatiile statistice.

Datele sunt colectate ca unitati de observatie. Astfel de observatii pot fi facute la orice nivel de la
individual pana la agregate foarte largi.

O variabila este o proprietate a unitatii de observatie. De exemplu, VARSTA poate fi inregiatrata


intr-o unitate individuala de analiza. In contrast, un studiu care utilizeaza unitate de analiza la nivel de
agregat poate inregistra VARSTA medie a fiecarei regiuni masurate.

Pagina 5
Introducere in STATISTICA si PROBABILITATI
rezumat

Indiferent de unitatile de observatie utilizate intr-un studiu, masuratorile sunt inregistrate in formulare
de colectarea datelor. Datele de pe fiecare formular reprezinta o observatie (sau un „caz“) si fiecare
intrebare sau camp din formular reprezinta o variabila. Mai jos se prezinta un exemplu de astfel de
formular:

• Nominala sau “nume”. Exemple de variabile nominale in tabelul dat este SEX (masculin sau
feminin). Variabilele nominale sa mai numesc calitative sau categoriale.
• Ordinala sau “categorii ordonate dupa ranguri”.

Tabele de Date
Odata colectate, datele sunt organizate pentru a forma un tabel de date. In mod tipic fiecare linie
dintr-un tabel de date contine date dintr-o singura observatie; fiecare coloana contine o variabila;
fiecare celula contine o valoare specifica.

Calitatea Datelor
Pentru a adresa calitatea datelor trebuie sa facem distinctie intre:
• Erori de masurare: diferente intre „raspunsuri adevarate“ si ceea ce apare in colectia de date, si
• Erori de procesare: erori care apar pe durata manevrarii datelor.

Esantion

Cadru de esantionare: o lista a elementelor ce apartin unei populatii din care este extras esantionul.
Proiectarea esantionului: procesul de selectare a elementelor esantionului din cadrul de esantionare.
Esantioane de judecata: Esantioane selectate pe baza calitatii de a fi „tipice“. Sunt selectate
elementele reprezentative dintr-o populatie. Validitatea rezultatelor obtinute dintr-un esantion de
judecata reflecta valabilitatea judecatii celui care a efectuat selectia.
Esantioane de probabilitate: Esantioane in care elementele care urmeaza sa fie selectate sunt alese
pe baza de probabilitate. Fiecare element din populatie are o anumita probabilitate de a fi selectat ca
parte a esnationului.
Esantioane Random: Un esantion selectat in asa fel incat fiecare element din populatie are o
probabilitate egala de a fi ales. Echivalent, toate esantioanele de marime n au o sansa egala de a fi
selectate. Esantioanele aleatorii sunt obtinute fie prin esantionarea cu inlocuire dintr-o populatie
finita, fie prin esantionarea fara inlocuire dintr-o populatie infinita.
Esantion Sistematic: Un esantion in care este selectat fiecare al n-lea element al cadrului de
esantionare, incepand de la primul element care este ales random din primele n elemente.
Esantion Random Stratificat: un esantion obtinut prin stratificarea cadrului de esantionare si apoi
prin selectarea unui numar fix de elemente din fiecare strat printr-o tehnica de esantionare random
simpla.
Esantion Proportional (sau „Cota“): un esantion obtinut prin stratificarea cadrului de esantionare si
apoi prin selectia din fiecare strat a unui numar de elemente proportional cu marimea fiecarui strat (sau
prin cotare) printr-o tehnica de esantionare random simpla.
Esantion Cluster: un esantion obtinut prin stratificarea cadrului de esantionare si apoi prin selectarea
unora sau tuturor elementelor din unele straturi, dar nu din toate.

1.4. Colectarea Datelor


Prima problema a unui statistician este cum sa obtina datele ? Obtinerea unor date reprezentative si de
buna calitate este un proces fundamental in statistica, deoarece interpretarile si inferentele se fac pe
baza statisticilor obtinute pe baza datelor colectate, iar aceste interpretari si inferente sunt atat de bune
cat sunt de bune si datele utilizate.

Metode de esantionare:

Pagina 6
Introducere in STATISTICA si PROBABILITATI
rezumat

1. Esantion pe baze conventionale: esantion selectat de la elemente ale unei populatii usor accesibile.
2. Esantion pe baza de voluntariat: esantion colectat din acele elemente ale unei populatii care alege
sa contribuie din proprie initiativa cu informatia necesara.

Procese de colectare date


1. Se defineste obiectivul experimentului sau observatiei.
2. Se defineste variabila si populatia de interes.
3. Se definesc schemele pentru colectarea datelor si masurarea datelor. Asta include: procedurile de
esantionare, dimensiunea esantionului si dispozitivele de masurare a datelor (chestionar, scala,
etc.)
4. Se determina tehnicile cele mai potrivite pentru analiza datelor inferentiale sau descriptive.

Metode utilizate pentru colectarea datelor


Experiment: investigatorul controleaza sau modifica mediul si observa efectul asupra variabilelor
aflate in studiu.
Observare (Survey): datele sunt obtinute prin esantionarea unei populatii de interes dar investigatorul
nu modifica ambientul.
Recensamant (Census): o observatie 100%. Fiecare element al populatiei este listat. Utilizat foarte
rar: dificil de realizat, consumator de timp si costisitor.

Pagina 7

S-ar putea să vă placă și