Sunteți pe pagina 1din 7

Introducere in STATISTICA si PROBABILITATI rezumat

Curs introductiv in STATISTICA si PROBABILITATI

Capitolul 1: Cum definim si de ce studiem Statistica ?


Textul cursului (tradus si adaptat) din: Elementary Statistics, Johnson/Kuby ITP Publishers ISBN 0534356761 Donald B. Macnaughton. The Introductory Statistics Course: The Entity-Property-Relationship Approach. http://www.matstat.com/teach/eprt0130.pdf B. Burt Gerstman, StatPrimer: Statistics for Public Health Practice. www.sjsu.edu/faculty/gerstman/StatPrimer Versiune-rezumat 1.3, 2008

1. Notiuni de baza 1.1 Entitati


Putem sa observam ca oamenii gandesc, de obicei, despre lucruri pe care vom conveni in cele ce urmeaza sa le numim cu un termen generic si suficient de semnificativ entitati. Exista diferite tipuri de entitati, dintre care cele mai comune sunt: Organisme biologice (oameni, animale, plante) Obiecte fizice ne-animate Locatii fizice Actiuni si evenimente Idei sau emotii Organizatii sociale (guvern, scoala, companie de afaceri, etc.) Entitati stiintifice (unde in fizica, motivatii in psihologie, multimi de elemente, functii sau vectori in matematica, etc.) Entitatile pot fi definite ca unitati fundamentale ale realitatii umane obisnuite, pentru ca inconstient oamenii considera fiecare lucru din realitate ca fiind o entitate, ceea ce le simplifica semnificativ gandirea intrucat permite privirea si tratarea la nivelul cel mai de baza a oricarui lucru in acelasi fel . Lumea externa. Atunci cand gandirea se desfasoara in termeni de entitati, este bine sa consideram si conceptul de lume exterioara care poate fi definita dupa cum urmeaza:

Pagina 1

Introducere in STATISTICA si PROBABILITATI rezumat

Lumea exterioara reprezinta ceea ce exista in afara noastra atunci cand reprezentam in mintea noastra tot ceea ce percepem prin simturile noastre. Oamenii grupeaza entitatile in tipuri sau populatii. Gruparea entitatilor in tipuri simplifica lucrurile deoarece toate entitatile de un anumit tip au mai multe proprietati in comun. In statistica si cercetarea empirica multimea tuturor entitatilor de un anumit tip este denumita populatia entitatilor de acel tip. De exemplu, un web site de pe Internet este o entitate (de tip electronic sau obiect-computerizat), iar multimea tuturor web site-urilor de pe Internet formeaza populatia de web site-uri.

1.1.2. Proprietati ale entitatilor


Fiecare entitate are un set de proprietati sau atribute. De exemplu, toti oamenii au mii de proprietati, dintre care putem alege, ca exemplu, inaltimea sau grupa saguina. Valori ale proprietatilor. Pentru orice entitate particulara, fiecare dintre proprietatile sale are asociata o valoare. De obicei, raportam aceste valori in numere, in cuvinte din limbajul natural sau in simboluri. De exemplu, exprimata intr-un numar, valoarea inaltimii mele este de 156.5 centimetri , exprimata intr-un cuvant, inaltimea mea este mignona, iar intr-un simbol grupa mea sanguina este A II. Se poate spune ca stim sau experimentam o entitate pe baza cunostintelor sau a experientei despre proprietatile sale si despre valorilor acestora. Variatii in valorile proprietatilor. In general, valorile proprietatilor unei entitati variaza. Valorile variaza aproape intotdeauna de la o entitate la alta si variaza de asemenea si pentru o singura entitate individuala in timp. De exemplu, inaltimea unei persoane variaza de la o persoana la alta si inaltimea unei persoane particulare variaza in timp. Masuri ale valorilor unei proprietati. Una dintre operatiile-cheie ale cercetarii empirice este de a determina valorile unor proprietati selectate ale unei entitati aflate in studiu. Pentru a determina valoarea unei proprietati a unei entitati, cercetatorii aplica un instrument de masura adecvat asupra acelei proprietati. Daca instrumentul face masuratori corecte, el va furniza o estimatie a valorii proprietatii acelei entitatii la momentul masurarii. Instrumentele de masurare sunt importante pentru ca toate concluziile din cercetarea empirica se bazeaza direct pe estimarile valorilor unor proprietati obtinute de la instrumente de masurare. Valoarea adevarata a proprietatii unei entitati. Deoarece un instrument de masurare poate, in general, sa furnizeze numai o estimatie a valorii unei proprietati pe care o masoara, acest lucru ne conduce la intrebarea: care este valoarea adevarata a proprietatii unei entitati ? Cercetarea empirica vede, de obicei, valoarea adevarata a unei proprietati in termenii unui acord comun asupra unui standard de masurare pentru ca asta faciliteaza comunicarea si intelegerea. De exemplu, cercetatorii in domeniul fizicii vad valorile adevarate ale proprietatilor entitatilor pe care le studiaza in termenii standardelor si definitiilor date de Biroul International pentru Masuri si Greutati (BIPM).

1.1.3. Variabile
Cercetarea empirica utilizeaza instrumente de masura pentru a determina estimari ale valorilor proprietatilor unor entitati. Cand astfel de estimari sunt studiate in mod formal, statisticienii si
Pagina 2

Introducere in STATISTICA si PROBABILITATI rezumat

cercetatorii empirici se refera la ele ca variabile, de unde putem sa dam o definitie a variabilei ca fiind o reprezentare formala a proprietatii unei entitati. Definitia trebuie sa mai precizeze concepte fundamentale care sunt asociate variabilelor: conceptul de valoare a unei variabile, conceptul de variatie in valorile unei variabile conceptul de masurare a valorilor unei variabile, conceptul de timp al masurarii valorilor unei variabile. Completat cu aceste concepte asociate, conceptul de variabila se apropie suficient de semnificatia sa statistica. Valorile variabilelor. Ca si proprietatile, variabilele au valori. Si ca si valorile proprietatilor, valorile variabilelor variaza. Timpul joaca un rol clar in ceea ce priveste valoarea unei variabile: in statistica si cercetarea empirica, valoarea unei variabile pentru o entitate este vazuta ca o estimare a valorii adevarate a proprietatii asociate acelei entitati la un moment particular de timp. Date si tabele de date. Conceptele de entitate, proprietate si variabila conduc direct spre conceptul de date care pot fi definite dupa cum urmeaza: Datele sunt valori masurate ale uneia sau mai multor variabile (proprietati) pentru una sau mai multe entitati. Toate proiectele de cercetare empirica genereaza date. Datele (brute) dintr-un proiect de cercetare sunt invariabil organizate in tabele: fiecare linie din tabel este asociata unei entitati din tipul studiat; fiecare coloana este asociata cu o proprietate diferita a entitatii, lucru reflectat de valorile variabilelor asociate cu fiecare coloana; fiecare celula aflata la intersectia unei linii cu o coloana din tabel contine valoarea (la momentul masurarii) a variabilei asociate cu coloana pentru entitatea asociata cu linia. Tabelul de date este o inregistrare completa a ceea ce a fost observat intr-un proiect de cercetare empirica si este central extragerii unor concluzii rezonabile din proiectul respectiv.

1.1.4. Unul dintre scopurile cercetarii empirice: predictia si controlul valorilor variabilelor
Una dintre ideile centrale in definirea cercetarii empirice este aceea de a trage concluzii pe baza datelor. De ce ar avea cercetarea empirica acest scop ? Predictie si control. Un important scop al cercetarii empirice este de a descoperi cum se pot prognoza si controla (cu maximum de acuratete) valorile variabilelor (proprietatilor) pentru anumite entitati de interes. Unde plaseaza cercetarea empirica predictia si controlul valorilor variabilelor ? Cunostintele si metodele de predictie si control al variabilelor sunt aplicate populatiilor de entitati pentru ca aceasta abordare ne da posibilitatea de maxima generalizare a acestei abilitati si de obtinere a unui grad maximizat de utilitate al acestor cunostinte si metodologii de predictie si control. Astfel, daca includem conceptul de populatie putem spune ca: unul dintre scopurile fundamentale ale cercetarii empirice este de a descoperi cum sa prognozeze si sa controleze (cu maxima acuratete) valorile variabilelor (proprietatilor) in populatii de entitati.

Pagina 3

Introducere in STATISTICA si PROBABILITATI rezumat

1.1.5 Relatiile dintre variabile o cheie a predictiei si controlului


Conceptul de relatie intre variabile. Dat fiind scopul predictiei si controlului valorilor variabilelor, o intrebare cheie ar fi: cum putem prezice si controla valorile variabilelor ? Raspunsul principal este: Putem prezice si controla valorile variabilelor pe baza studiului relatiilor dintre variabile. Predictia si controlul in cercetarea empirica se bazeaza pe o idee foarte simpla: in relatia dintre variabile, una dintre variabile (numita variabila de raspuns) depinde de una sau mai multe alte variabile (numite variabile de predictie). Observam ca pentru a caracteriza informal o relatie intre variabile am introdus conceptul de dependenta. Dependenta se manifesta in cazul relatiei dintre variabile in felul urmator: cand valorile variabilei predictor variaza in entitatea aflata in studiu, variatia valorilor variabilei de raspuns urmareste aceasta variatie a variabilei predictor proportional sau in pasi sincroni cu aceasta variatie. Populatie si esantion. Relatia dintre variabile nu este studiata in cercetarea empirica in fiecare entitate dintr-o populatie de entitati, pentru ca ar fi imposibil sau prohibitiv de costisitor, ci intr-un subset al populatiei numit esantion. Generalizarea pe care o permite studiul relatiei dintre variabilele alese se face studiind aceasta relatie in tabelele de date pentru entitatile din esantionul selectat. Generalizarea permite predictia cu acuratete si controlul valorilor proprietatii asociate cu variabila de raspuns in situatii noi pentru orice entitate din populatia respectiva. Acuratetea predictiei. Predictia si controlul realizate pe baza relatiei dintre variabile nu este in general de o acuratete perfecta: exista o marja de eroare acceptata, dar cu toate acestea exista demonstratii matematice ale faptului ca acuratetea este de cel mai inalt grad posibil date fiind informatiile cu care s-a operat. Terminologie. Conceptul de relatie este denumit in mai multe feluri: asociatie, dependenta. Exista o terminologie specifica si pentru variabilele aflate in relatie: o variabila de raspuns mai este denumita variabila dependenta, iar o variabila-predictor mai este denumita sau variabila independenta.

1.2. Ce este Statistica?


Metodele statistice pot realiza urmatoarele patru grupuri de tehnici pentru a ajuta cercetarea empirica sa studieze relatiile dintre variabile: tehnici pentru detectarea relatiilor dintre variabile

tehnici pentru ilustrarea relatiilor dintre variabile tehnici pentru predictia si controlul valorilor variabilelor pe baza relatiilor dintre variabile, si tehnici pentru studiul variabilelor si a relatiilor intre variabile.

Definitia Statisticii ca domeniu de studiu. Paradigma EPR introduce cateva concepte fundamentale pentru intelegerea domeniului statisticii in principal de catre studentii in stiinte umaniste care nu au un background aprofundat in domeniul stiintelor pozitive. Aceste concepte sunt: 1. entitati 2. proprietati ale entitatilor
Pagina 4

Introducere in STATISTICA si PROBABILITATI rezumat

3. variabile ca reprezentari formale ale proprietatilor unor entitati 4. predictia si controlul valorilor variabilelor ca unul dintre scopurile fundamentale ale cercetarii empirice 5. relatia dintre variabile ca o cheie a predictiei si controlului 6. tehnicile statistice pentru studiul relatiilor dintre variabile in cercetarea empirica ca un mijloc de predictie de acuratete si control Putem incerca sa introducem o defnitie a domeniului statisticii prin prisma conceptelor si termenilor studiati mai sus: Statistica este un set de tehnici generale optimale care ajuta cercetatorii din cercetarea empirica sa studieze variabilele si relatiile dintre variabile in entitatile dintr-un esantion, in principal ca un mijloc de predictie (cu acuratete) si control al valorilor variabilelor (proprietatilor) entitatilor dintr-o populatie. Statistica este mai mult decat utilizarea unor tehnici de calcul; este un servant al tuturor stiintelor, un mijloc de a invata din date si un mod de a colecta, organiza si interpreta informatia. Statistica nu inseamna pur si simplu asezarea numerelor in formule. Sarcina statisticianului este de a combina investigatia si judecata asupra unor datelor. Statistica mai poate fi privita si ca un exercitiu de masurare cu scopul de a cuantifica cantitati si relatii cu cat mai mare acuratete. Se stie ca masurarorile statistice nu sunt nicidata perfecte, fiind afectate de diferite grade de erori aleatorii sau sistematice. Scopul nostru este de a minimiza si cuantifica astfel de erori, iar sarcina aceasta nu este simpla. Definitie: Statistica este stiinta colectarii, descrierii si interpretarii datelor. Statistica are doua sub-domenii relevante pentru abordarea din acest curs introductiv: Statistica Descriptiva: colectare, prezentare, si descriere a esantioanelor de date. Statistica Inferentiala: luarea deciziilor despre o populatie data.

1.3. Masurarea
Masurarea reprezinta felul in care obtinem informatiile asupra carora executam operatiile statistice. Datele sunt colectate ca unitati de observatie. Astfel de observatii pot fi facute la orice nivel de la individual pana la agregate foarte largi. O variabila este o proprietate a unitatii de observatie. De exemplu, VARSTA poate fi inregiatrata intr-o unitate individuala de analiza. In contrast, un studiu care utilizeaza unitate de analiza la nivel de agregat poate inregistra VARSTA medie a fiecarei regiuni masurate. Indiferent de unitatile de observatie utilizate intr-un studiu, masuratorile sunt inregistrate in formulare de colectarea datelor. Datele de pe fiecare formular reprezinta o observatie (sau un caz) si fiecare intrebare sau camp din formular reprezinta o variabila. Mai jos se prezinta un exemplu de astfel de formular:

Nominala sau nume. Exemple de variabile nominale in tabelul dat este SEX (masculin sau feminin). Variabilele nominale sa mai numesc calitative sau categoriale. Ordinala sau categorii ordonate dupa ranguri.

Pagina 5

Introducere in STATISTICA si PROBABILITATI rezumat

Tabele de Date Odata colectate, datele sunt organizate pentru a forma un tabel de date. In mod tipic fiecare linie dintr-un tabel de date contine date dintr-o singura observatie; fiecare coloana contine o variabila; fiecare celula contine o valoare specifica. Calitatea Datelor Pentru a adresa calitatea datelor trebuie sa facem distinctie intre: Erori de masurare: diferente intre raspunsuri adevarate si ceea ce apare in colectia de date, si Erori de procesare: erori care apar pe durata manevrarii datelor. Esantion Cadru de esantionare: o lista a elementelor ce apartin unei populatii din care este extras esantionul. Proiectarea esantionului: procesul de selectare a elementelor esantionului din cadrul de esantionare. Esantioane de judecata: Esantioane selectate pe baza calitatii de a fi tipice. Sunt selectate elementele reprezentative dintr-o populatie. Validitatea rezultatelor obtinute dintr-un esantion de judecata reflecta valabilitatea judecatii celui care a efectuat selectia. Esantioane de probabilitate: Esantioane in care elementele care urmeaza sa fie selectate sunt alese pe baza de probabilitate. Fiecare element din populatie are o anumita probabilitate de a fi selectat ca parte a esnationului. Esantioane Random: Un esantion selectat in asa fel incat fiecare element din populatie are o probabilitate egala de a fi ales. Echivalent, toate esantioanele de marime n au o sansa egala de a fi selectate. Esantioanele aleatorii sunt obtinute fie prin esantionarea cu inlocuire dintr-o populatie finita, fie prin esantionarea fara inlocuire dintr-o populatie infinita. Esantion Sistematic: Un esantion in care este selectat fiecare al n-lea element al cadrului de esantionare, incepand de la primul element care este ales random din primele n elemente. Esantion Random Stratificat: un esantion obtinut prin stratificarea cadrului de esantionare si apoi prin selectarea unui numar fix de elemente din fiecare strat printr-o tehnica de esantionare random simpla. Esantion Proportional (sau Cota): un esantion obtinut prin stratificarea cadrului de esantionare si apoi prin selectia din fiecare strat a unui numar de elemente proportional cu marimea fiecarui strat (sau prin cotare) printr-o tehnica de esantionare random simpla. Esantion Cluster: un esantion obtinut prin stratificarea cadrului de esantionare si apoi prin selectarea unora sau tuturor elementelor din unele straturi, dar nu din toate.

3.2. Colectarea Datelor


Prima problema a unui statistician este cum sa obtina datele ? Obtinerea unor date reprezentative si de buna calitate este un proces fundamental in statistica, deoarece interpretarile si inferentele se fac pe baza statisticilor obtinute pe baza datelor colectate, iar aceste interpretari si inferente sunt atat de bune cat sunt de bune si datele utilizate. Metode de esantionare: 1. Esantion pe baze conventionale: esantion selectat de la elemente ale unei populatii usor accesibile. 2. Esantion pe baza de voluntariat: esantion colectat din acele elemente ale unei populatii care alege sa contribuie din proprie initiativa cu informatia necesara. Procese de colectare date 1. Se defineste obiectivul experimentului sau observatiei. 2. Se defineste variabila si populatia de interes.

Pagina 6

Introducere in STATISTICA si PROBABILITATI rezumat

3. Se definesc schemele pentru colectarea datelor si masurarea datelor. Asta include: procedurile de esantionare, dimensiunea esantionului si dispozitivele de masurare a datelor (chestionar, scala, etc.) 4. Se determina tehnicile cele mai potrivite pentru analiza datelor inferentiale sau descriptive. Metode utilizate pentru colectarea datelor Experiment: investigatorul controleaza sau modifica mediul si observa efectul asupra variabilelor aflate in studiu. Observare (Survey): datele sunt obtinute prin esantionarea unei populatii de interes dar investigatorul nu modifica ambientul. Recensamant (Census): o observatie 100%. Fiecare element al populatiei este listat. Utilizat foarte rar: dificil de realizat, consumator de timp si costisitor.

Pagina 7

S-ar putea să vă placă și