Documente Academic
Documente Profesional
Documente Cultură
Bazele statisticii
Cu exemple în SAS ® și Excel
Capitolul 1 – Partea I
Părți din Copyright © 2016 SAS Institute Inc., Cary, NC, USA. All rights
reserved. Reprodus cu permisiunea SAS Institute Inc., Cary, NC, USA.
SAS Institute Inc. nu garantează în nici un fel aceste materiale și este
exonerat de orice răspundere.
Structura cursului
• Introducere: Ce este statistica?
• De ce e nevoie de statistică?
• Noțiuni de bază utilizate în studiul fenomenelor de masă
• Terminologie SAS de bază
• Notații fundamentale
• Probabilitatea în viață și în statistică
• DE CE și CUM construim un studiu statistic
• Statistica descriptivă
• Gruparea, clasificarea și vizualizarea datelor statistice
• Indicatori statistici descriptivi: frecvența, media, mediana,
dispersia (varianța), coeficientul de variație, de asimetrie etc.
• Inferența statistică: testarea ipotezelor
• Legături între fenomene: corelația
• Explicarea fenomenelor: modele ANOVA cu unul și doi
factori; modelul de regresie liniară simplă
2
1
1. Noțiuni introductive
1. Noțiuni introductive
2
Obiective
• Să trecem în revistă cele mai uzuale accepțiuni
și definiții ale statisticii
• Să înțelegem de ce e nevoie de statistică
• Să vedem cine produce statistici
• Să aflăm cum vedeți voi statistica
• Să vedem care sunt principalele căi de obținere
a datelor statistice
• Să aflăm ce înseamnă statistică descriptivă și
inferențială
• Să trecem în revistă etapele unei cercetări
statistice
5
Accepțiuni, definiții
• Statistica este utilizată în diverse discipline,
științifice și non-științifice, pentru luarea de
decizii și formularea de concluzii bazate pe date
(factuale).
• Există mai multe accepțiuni
• Colectare de cifre, care sunt prelucrate într-o
manieră simplă (totaluri, medii, proporții) și
prezentate, de asemenea, într-o formă ușor de
înțeles și de interpretat
• Viziune îngustă, încă prezentă în mentalitatea socială
• Știința datelor (DATA SCIENCE): colectarea,
clasificarea, sumarizarea, organizarea, interpretarea
și analiza informației numerice.
3
Definiții
• “Ştiinţa colectării şi analizării datelor în scopul
formulării de concluzii şi luării deciziilor”
• Tamhane, Ajit C., and Dorothy D. Dunlop. Statistics
and Data Analysis from Elementary to Intermediate.
Prentice Hall, 2000, pp. 1.
• “Știința care studiază în expresie numerică
fenomenele și procesele din natură, tehnică și
societate”
• Pavel Wagner Bazele statisticii, Ed. Universitatii Titu
Maiorescu, Bucuresti, 2005, pp. 1
• “Statistica este știința învățării din date și de
măsurare, de control și de comunicare a
incertitudinii”
• The American Statistical Association (ASA)
Statistics is a meta-discipline in
that it thinks about how to think
about turning data into real-
world insights
Christopher J. Wild, Jessica M. Utts,
Nicholas J. Horton
International Handbook of Research
in Statistics Education
Springer International Hanbooks of
Education, 2018
4
De ce e nevoie de statistică pentru voi?
• Depinde de ceea ce doriți să deveniți
• Un cercetător profesionist (un producător de
studii statistice)
• Să interpretați rezultate statistice pentru alții
(un utilizator profesional de statistici)
• Sau pur și simplu aveți nevoie să înțelegeți cum
să utilizați datele și cum să interpretați
informația statistică în viața de zi cu zi
• Pentru ca cineva (voi sau alții) să ia decizii
informate, bazate pe dovezi (nu pe
impresii, nu pe păreri)
9
De ce e nevoie de statistică?
• În afaceri, un antreprenor (manager) trebuie să
știe care produse se vând cel mai bine, care
reprezentant de vânzări este mai productiv,
care sunt clienții cei mai profitabili
• În mediul financiar, o bancă trebuie să știe care
este riscul ca un client să nu își poată plăti
ratele și dobânzile la credit
• În industria farmaceutică, o companie trebuie
să știe daca un medicament are efectele
pozitive scontate asupra pacienților care au o
anumită afecțiune medicală
10
10
5
Cum rezolvăm problema? (1)
• În afaceri, antreprenorul (managerul)
apelează la un analist de date (statistician)
care analizează cantitățile de produse
vândute, costurile, profitul, vânzările
reprezentanților de vânzări, cantitățile
cumpărate de clienți, comportamentul lor
înainte și după campanii de marketing
11
11
12
12
6
Cum rezolvăm problema? (3)
• În industria farmaceutică, compania
apelează la un consultant care, pe baza unui
eșantion de pacienți de test și unul de
control, testează dacă medicamentul are sau
nu efectele pozitive scontate. Pe baza
rezultatelor testului (experimentului)
recomandă dacă medicamentul are un efect
semnificativ poate să fie sau nu scos pe
piață.
13
13
14
14
7
Cine se ocupă de “statistici”?
• Instituții publice
• Oficii naționale de statistică (www.insse.ro)
• Băncile centrale
• EUROSTAT
• OECD
• Companii private
• Bursa Română de Mărfuri
• COFACE
• Companii bancare, de asigurări, de
telecomunicații
15
15
16
16
8
Metode de obținere a datelor statistice
• Prin observare directă (așa-numitele ”studii”
sau cercetări)
• Experimente
• Studii observaționale
• Prin observări indirecte: datele există deja
colectate într-un sistem și sunt disponibile
pentru prelucrare și analiză (date din
sistemele proprii ale firmelor; surse publice;
surse private)
17
17
18
18
9
Analiza descriptivă
• Sunt utilizate metode numerice și grafice
pentru a vizualiza tipare de ‘comportament’,
prin prezentarea datelor agregate într-o
maniera potrivită pentru înțelegerea
fenomenului observat și luarea unei decizii.
• Agregarea sub forma de valori ‘de mijloc’,
extreme, măsuri de variație
• Prezentare sub formă de tabele și grafice
19
19
Analiza inferențială
• De cele mai multe ori, un analist de date are
la dispoziție observațiile dintr-un eșantion
• Eșantionul oferă numai o parte din datele ce
caracterizează o întreagă populație
• Putem să ne încredem în statisticile calculate (ce
precizie și corectitudine au)?
• Metodele inferențiale permit calcularea de
statistici pe baza cărora putem trage
concluzii de generalizare la nivelul întregii
populații de referință
20
20
10
Etapele cercetării statistice
• De ce este necesar să definim un set de
etape ale unei cercetări statistice?
• Respectăm o metodă riguroasă de proiectare și
punere în practică a unor operațiuni (studiu
statistic)
• Singura cale de obținere a rezultatelor așteptate
• de calitate
• credibile
• replicabile
21
21
22
22
11
GSBPM
23
23
1. Noțiuni introductive
24
24
12
Obiective
• Să trecem în revistă principalele noțiuni de
statistică
• Să înțelegem de ce e nevoie să le cunoaștem
și să stăpânim terminologia
25
25
• Parametru
• Estimator
• Frecvență
• Indicator statistic
26
26
13
Populație (colectivitate statistică)
• Setul omogen al entităților de aceeași
natură supuse observării statistice
• Are caracter obiectiv, concret și finit (sau
infinit)
• Bine definită în timp și spațiu
• Exemple:
• Totalitatea studenților (din universitate,
facultate, specializare, an, grupa etc.)
• Totalitatea persoanelor din populația unei țări,
regiuni, localitate etc.
• Totalitatea firmelor active la sfârșitul unui an…
27
27
Eșantion
• O parte a populației statistice de referință
• Selectat conform unor metode bine
fundamentate teoretic (teoria sondajelor)
• Aleator nu înseamnă întâmplător
• Estimațiile pe baza eșantionului
caracterizează întreaga populație statistică
• Exemple:
• O selecție de studenți, persoane, întreprinderi
28
28
14
Unitatea statistică/unitatea de observare
29
29
Variabila statistică
• Caracteristică, proprietate, atribut al unității
de observare supuse investigării și măsurării
• Variabilele sunt clasificate în funcție de
diferite criterii
• Sunt strâns legate de tipul datelor colectate
și al scalelor de măsurare
• Exemple: vârsta, salariul, cifra de afaceri,
valoarea vânzărilor, nota de apreciere
(acord-dezacord) a unor afirmații
30
30
15
Categorii de variabile statistice
• Principala categorizare: după modul de
exprimare:
• Cantitative (numerice);
• Calitative (nenumerice, de tip ”text”)
• După conținut:
• De timp; de spațiu; atributive (timp & spațiu)
• După natura variației:
• Numerice: discrete, continue
• După modul de manifestare:
• Alternative; dihotomice (binare)
• După modul de obținere a datelor:
• Primare; derivate
31
31
Scale de măsurare
Variabilele cantitative Variabilele calitative
(numerice): (nenumerice) :
• Discrete: numărul copiilor; • Nominale:
numărul de salariați • genul, mediul de rezidență,
• Continue: greutate, stare civilă, profesie
înălțime, venituri (salariu, • Ordinale:
cifra de afaceri) • ierarhia hotelurilor, nivelul de
• Interval: unitatea de interval educație, atitudini, note
are aceeași reprezentare
• Indexul competitivității, • Scala Likert: total de acord; de
dezvoltarea umana acord; neutru; dezacord; total
• Raport – are în plus originea dezacord (scala psihometrică)
“0”.
• Scala temperaturilor Kelvin
• viteza, preț, venit
32
32
16
Observația statistică
• Este formată din valorile colectate pentru
toate variabilele supuse observării pentru o
unitate statistică
• Observațiile (valorile variabilelor colectate
pentru fiecare unitate statistică) sunt
stocate în fișiere electronice sub formă
tabelară (rectangulară)
• n observații x j variabile
33
33
Parametru:
• Parametrul este valoarea numerică care
descrie o anumită caracteristică (variabilă) a
populației statistice (ex.: populația care se
află sub pragul sărăciei; cifra de afaceri a
întreprinderilor dintr-un anumit sector
economic)
• Exprimat ca valoare totală, medie, proporție
pe baza datelor colectate din întreaga
populație
34
34
17
Estimator:
• O funcție numerică a unei variabile din
eșantion pentru a estima un parametru al
populației
• Este exprimat ca valoare totală, medie sau
proporție pe baza datelor din eșantion
• Exemple: valoarea totală, medie, abaterea
medie pătratică), proporția unei categorii de
populație în total
• Valorile parametrilor (din populația totală)
nu le vom putea cunoaște aproape niciodată
– din acest motiv apelăm la ESTIMAȚIE
35
35
Frecvența statistică
• Frecvențe absolute: numărul de apariții ale
unei modalități ale unei variabile
• Variabila: venit
• Modalități: sub 1500 lei/luna, între 1500 și 2000 , între
2000 și 5000, peste 5000 etc.
• Frecvențe: Câte persoane au un venit sub 1500 de
lei/luna, între 1500 și 2000 etc;
• Frecvențe relative: proporția aparițiilor unei
anumite modalități în numărul total de
apariții ale tuturor modalităților
• X% dintre persoane au un venit de sub 1500 lei/luna
36
36
18
Indicator statistic
• Expresia numerică a unei măsurători
statistice asupra unui fenomen
• Nu orice “statistică” este indicator:
Indicatorul trebuie conceptualizat și definit
în timp și spațiu; are nevoie de un punct de
referință pentru a putea fi interpretat și
pentru a servii comparațiilor și deciziilor
• Are o parte numerică și una conceptuală
• Poate fi asociat cu indicatorii de
performanță (în legătură cu ținte și obiective
fixate)
37
37
Indicator statistic
• Exemple de non-indicatori
• Valori fără indicarea unei unități de măsură sau
fără o asociere cu înțeles concret
• Prețurile au crescut cu 2% (care prețuri? Față de ce
perioadă sau moment în timp?)
• Exemple de indicatori (contextualizați)
• În luna ianuarie a acestui an, indicele prețurilor de
consum a crescut cu 2% față de aceeași lună a anului
anterior
38
38
19
• Întrebări?
• La seminar:
• Crearea conturilor individuale pe platforma SAS
OnDemand for Academics
39
39
20