Sunteți pe pagina 1din 30

CURS 1

Obiectivele disciplinei
1.Dezvoltarea deprinderilor de aplicare a metodelor statistice in vederea fundamentarii deciziei de afaceri in
marketing
2.Utilizarea pachetelor software specializate în prelucrarea si analiza datelor statistice
Definire
 Statistica este ştiinţa care, prin propriul instrumentar, permite descrierea şi modelarea fenomenelor
complexe, de tip stocastic aleator , intamplator
 Statistica, ca orice ştiinţă, deţine propriile tehnici de investigare, aplicate în următorii paşi:
 Obţinerea datelor
 Organizarea şi prezentarea datelor
 Analiza datelor
 Realizarea inferenţei (extinderea rezultatelor, realizarea previziunilor, luarea deciziilor).
Concepte de bază
1.Populaţia statistică (colecti vitatea generală) generală)= mulţime a elemente lor de acelaşi tip, caracterizate de
trăsături esenţiale comune şi care fac parte dintr un grup ce urmează a fi studiat.
Precizări
 Termenul de populaţie se referă la o mulţime de obiecte, persoane, firme, opinii, proiecte etc.
 O populaţie statistică este, în general, finită , prin delimitarea sa în timp, spaţiu şi ca formă
organizatorică.
 Unele populaţii finite sunt atât de numeroase încât pot fi considerate infinite.
 Observarea elementelor unei populaţii, cu excepţia unor situaţii riguros argumentate, se face prin
intermediul cercetărilor parţiale pe bază de eşantion reprezentativ .
2.Eşantionul (colectivitate de selecţie, colectivitate parţială) submulţimea de elemente selectate dintr o populaţie
statistică care deţine aceleaşi trăsături esenţiale ce caracterizează populaţia statistică din care a fost extras.
3.Unitatea statistică elementul din populaţia statistică care deţine un nivel/valoare pentru fiecare caracteristică
observată în cadrul cercetării statistice.
4.Variabila/caracteristica statistică trăsătura, însuşirea comună tuturor elementelor unei populaţii ce
înregistrează valori variante distincte pentru fiecare unitate statistică
Tipologia variabilelor statistice determină utilizarea unor metode, tehnici diferite de analiză.
Pentru alegerea metodei adecvate este necesară clasificarea variabilelor în funcţie de următoarele criterii:
a) Modul de exprimare
b) Numărul variantelor înregistrate
c) Dimensiunea în care sunt definite
d) Relaţia de cauzalitate

i. Modul de exprimare ce împarte variabilele în două categorii:


A. Variabile nenumerice sau calitative ce descriu prin cuvinte o anumită trăsătură;
Exemple

Variabile nenumerice Variabile numerice

 tipul de cultura un eşantion de loturi agricole,  profitul unor firme,


 nivelul ultimelor studii absolvite de un grup de  productia medie la hectar pentru un eşantion de
persoane, loturi agricole,
 genul persoanei,  numărul de angajaţi permanenţi ai unei
 domeniul de activitate al unor firme etc. societăţi agricole,
 valoarea vânzărilor lunare,
 media la examenul de bacalaureat etc.

A. Variabile numerice sau cantitative ce ce descriu prin cifre o anumită trăsătură şi reprezintă rezultatul unui
proces de numărare sau măsurare;
Variabile numerice pot fi cu variaţie discontinuă (variabilă discretă) sau cu cu variaţie continuă (variabilă
continuă):
Exemple

Variabile numerice discrete Variabile numerice continue

 numărul membrilor unei familii,  profitul unor firme,


 numărul contractelor incheiate anual de un  valoarea facturilor emise lunar de o firmă,
eşantion de firme dintr-un domeniu de  media la examenul de bacalaureat,
activitate,  greutatea unei persoane,
 numărul angajaţilor pentru un eşantion de firme  cifra de afaceri a unei firme,
etc.  rata şomajului la nivel de judeţ,
 înălţimea unei persoane etc.

Numărul variantelor înregistrate, ce împarte variabilele în două clase:


A. Variabile binare, alternative, numite şi variabile dummy în literatura de specialitate. Aceste variabile pot
avea două variante de răspuns după modelul adevărat/fals din logică.
B. Variabile nealternative ce pot înregistra mai mult de două variante/valori.
Exemple

Variabile alternative Variabile nealternative

 genul persoanei (masculin/feminin),  profitul unor firme,


 mediul de rezidenţă (urban/rural),  valoarea facturilor emise lunar de o anumită
 starea civilă (căsătorit/necăsătorit) firmă,
 media la examenul de bacalaureat,
 greutatea unei persoane,
 cifra de afaceri a unei firme,
 rata şomajului la nivel de judeţ,
 înălţimea unei persoane etc.
Orice caracteristică nealternativă poate fi transformată într-una alternativă, printr-un proces de dihotomizare:
salariul mai mic de 4500 lei/mai mare de 4500 lei.

Dimensiunea în care sunt definite clasifică variabilele astfel:


A. Variabile de timp ce iau în considerare dimensiunea temporală;
B. Variabile de spaţiu ce iau în considerare dimensiunea teritorială;
C. Variabile atributive ce se referă la un atribut, altul decât timpul sau spaţiul.
Exemple

Variabile de timp Variabile de spaţiu Variabile atributive

 anul înfiinţării unor firme,  judeţul de reşedinţă al unor  numărul salariatilor unei
 durata necesară pentru persoane, firme,
prestarea unui serviciu etc.  zona de amplasare a unor  genul persoanei,
magazine  profesia unei persoane,
 cifra de afaceri a unor agenţi
economici etc.

Relaţia de cauzalitate clasifică variabilele în două categorii:


A. Variabile independente/cauzale/factoriale/exogene utilizate în modele pentru a explica variaţiile,
modificările valorilor altor variabile considerate a fi influenţate de acestea.
B. Variabile dependente/efect/endogene utilizate în modele deoarece prezintă un anumit interes,
observat şi măsurat pentru a evalua efectele unei variabile independente.
Numărul, tipul şi maniera de înregistrare a valorilor variabilelor statistice generează complexitatea datelor
statistice.
Metodele de organizare, prelucrare şi analiză a datelor statistice depind atât de nivelul de scalare utilizat pentru
fiecare variabilă, cât şi de complexitatea datelor.
Într-un sens larg, toate datele statistice sunt „măsurate” sau transpuse pe o scală de măsurare, într-o formă sau
alta. Măsurarea presupune, în anumite cazuri, asocierea unor numere variantelor/ valorilor variabilei de interes,
în concordanţă cu regulile prestabilite. Indicatorii statistici calculaţi pentru o variabilă depind de nivelul de
scalare utilizat.
În practică se utilizează trei niveluri de măsurare sunt utilizate (de la cea mai slabă la cea mai
puternică):
1. Scala nominală
2. Scala ordinală
3. Scala de raport.
Prelucrarea datelor statistice se va face în mod distinct, în funcţie de gradul de „rafinament” al scalei.
1.Scala nominală (nominal, în engl.), numită şi scala denumirilor sau categoriilor reprezintă cea mai
simplă formă de măsurare. Ea clasifică unităţile statistice în grupe ai căror membri diferă după caracteristica
nenumerică, fără să implice existenţa unei gradări sau distanţe între grupe.
Acest nivel de măsurare, specific variabilelor nenumerice, este un mod de clasificare şi nu unul de aranjare de-a
lungul unei axe. Numerele ataşate observaţiilor reprezintă eticheta categoriei respective, fiind atribuite fiecărei
categorii doar pentru a identifica unităţi similare din interiorul unei categorii şi pentru a diferenţia aceste unităţi
similare de elementele unei alte categorii diferite.
2. Scala ordinală (ordinal, în engl.) este utilizată, ca şi scala nominală, pentru măsurarea variabilelor
de tip nenumeric (calitativ) ale căror variante de răspuns pot fi, de această dată, ordonate. Unităţile pot fi
înşiruite una relativ cu cealaltă şi se poate realiza, astfel, o ierarhizare, dar distanţa între numerele acordate nu
este obligatoriu egală. Numerele pe scala ordinală nu reprezintă intervale egale pe scala de măsurare.
3. Scala de raport (scale, în engl.) sau proporţională se utilizează pentru măsurarea variabilelor
numerice, fiind scala care permite ca afirmaţiile făcute pe baza operaţiilor de adunare, diferenţă, multiplicare sau
divizare să aibă sens.
Exemple

Scala nominală Scala ordinală Scala de raport

 ocupaţia persoanelor  nivelul studiilor persoanelor  greutatea (în kg),


 genul persoanelor, (primare, gimnaziale, liceale,  vârsta (în ani),
 statutul marital, universtare),  salariul (în lei, EUR) etc.
 marca autoturismului etc.  nivelul de cunoaştere al unei
limbi străine (începător,
mediu, avansat,
experimentat) etc.

CURS 2 (partea I) : Metode de obtinere datelor statistice


Surse de date statistice
Sursele de date statistice se pot clasifica în : surse primare şi surse secundare de date.
o Dacă datele statistice sunt obţinute direct prin organizarea unei observări statistice (totale sau parţiale),
atunci persoana sau instituţia care a realizat o astfel de observare este o sursă primară de date statistice.
o Dacă datele sunt deja prelucrate în tabele şi grafice (în scopuri publice sau private) şi publicate de
persoane sau instituţii specializate, ele vor fi surse secundare de date.
Datele primare sunt obţinute prin observări totale sau parţiale
o Dacă înregistrarea valorilor caracteristicilor urmărite se face pentru toate unităţile din colectivitatea
statistica (de ex. recensământul vorbim de observare totală.
o Dacă înregistrarea valorilor caracteristicilor urmărite se face de la o parte a colectivităţii statistice vorbim
de observări parţiale , (de ex. sondajul statistic).
Indiferent de amploarea observ ă rii (totale sau parţiale) culegerea datelor se poate face prin:
1.Observări curente(înregistrare permanentă, de ex. evenimentele demografice: natalitate, mortalitateetc.)
2.Observări periodice(datele se înregistrează la intervale de timp precizate)
3.Observări directe(datele sunt înregistrate de către operator sau cercetător direct de la unităţile statistice)
4.Observări indirecte(datele se înregistrează din diverse surse care au consemnat anterior fenomenul studiat,
de ex. documentele contabile)

Etapele cercetării statistice sunt:


 OBSERVAREA STATISTICĂ - etapă în care se obţin date de la unităţile colectivităţii studiate, pentru
toate caracteristicile urmărite;
 PRELUCRAREA STATISTICĂ - etapă în care datele obţinute sunt agregate/sistematizate şi sunt calculaţi
indicatorii statistici adecvaţi tipului de date şi tipului de analiză solicitat;
 ANALIZA ŞI INTERPRETAREA REZULTATELOR - etapă în care sunt verificate ipotezele de lucru,
sunt formulate concluziile şi fundamentate procesele decizionale.
Observarea statistică reprezintă acţiunea de obţinere, de la unităţile statistice, a valorilor referitoare
la caracteristicile/variabilele urmărite, după criterii riguros stabilite.
Observarea trebuie să îndeplinească anumite condiţii: de cantitate (volum) şi calitate
 satisfacerea condiţiei de cantitatepresupune obţinerea, în timpul stabilit, a tuturor datelor necesare pentru
efectuarea studiului statistic;
 satisfacerea condiţiei de calitatepresupune asigurarea conţinutului veridic al datelor culese, în vederea
obţinerii unor rezultate cât mai exacte, afectate de erori cât mai mici.
Planul observării statistice cuprinde:
1.scopul observării
2.delimitarea colectivităţii şi unităţii de observare
3.stabilirea caracteristicilor ce vor fi înregistrate
4.alegerea formularelor de înregistrare
5.delimitarea timpului şi locului observării
6.stabilirea măsurilor organizatorice.

1.Scopul observăriise formulează în momentul declanşării procesului cercetării şi depinde de scopul general al
investigaţiei statistice.
2.Delimitarea colectivităţii şi unităţilor de observare–depinde de modul de utilizare a metodelor de
observare.
-constă în localizarea în timp, spaţiu şi dpvd organizatoric a colectivităţii studiate
-alegerea unităţii de observareîn conformitate cu scopul urmărit şi modul de organizare a colectivităţii.
3.Stabilirea caracteristicilorce urmează a fi înregistrate formează programul observării şi reprezintă partea cea
mai importantă a planului observării.
Selectarea variabilelor din programul observării se va realiza astfel încât să permită studierea sub aspectele de
interes, a fenomenului analizat, evitându-se redundanţa de informaţii.
4.Formularele de înregistrare reprezintă suportul material pe care se vor înregistra datele culese. Pot fi de
două tipuri: fişă sau listă.
Fişa este un formular individual, completat de către o singură unitate de observare.
Listaeste un formular colectiv, completat cu date pentru mai multe unităţi de observare.
5.Timpul observăriiindică două aspecte:
 timpul la care se referă datele(poate fi un singur moment, numit „moment critic” sau un interval de timp,
în funcţie de tipul fenomenului analizat (static sau dinamic))
 timpul când se efectuează înregistrarea datelor(este, de regulă, un interval, cu o dată limită precisă)
6.Măsurile organizatoricecuprind toate elementele care asigură buna organizare şi desfăşurare a observării
statistice.

Sondajul sau selecţia statistică este o metodă de observare statistică parţială frecvent utilizată.
Avantaje ale utilizării sondajului statistic:
 Costuri materiale şi umane reduse
 Programul cercetării este amplu
 sondajul statistic devine absolut necesar când prin cercetarea statistică se distrug unităţile statistice
supuse analizei, ca de pildă în controlul statistic al calităţii producţiei
 sondajul statistic poate fi utilizat pentru verificarea programului unei observări totale şi pentru verificarea
şi testarea unei ipoteze statistice
Sondajul statistic implică un grad de incertitudine referitor la cunoaşterea situaţiei din colectivitatea generală.
Folosirea selecţiei aleatoare (eşantionarea probabilistă), în care fiecare unitate statistică din colectivitatea
generală are şansa calculabilă şi diferită de zero să fie selecţionată în eşantion permite calcularea mărimii erorii
şi stabilirea prealabilă a acestei mărimi.
Sondajele pot fi repetate sau nerepetate , după cum există posibilitatea revenirii unei unităţi în eşantionul din
care a fost extrasa.
Pentru populaţiile de volum foarte mare, considerate populaţii infinite, deosebirea dintre sondajul repetat şi
sondajul nerepetat dispare.

1. Procedeul „urnei cu bile”


 Dacă selecţia se face cu revenire eşantionul se numeşte eşantion aleator repetat.
La fiecare extragere, probabilitatea ca o unitate să fie extrasă este 1/N, iar după ultima extragere, în baza de
seleţie rămân N unităţi statistice. Numărul eşantioanelor distincte, de volum n, ce pot fi extrase în sondajul cu
revenire este N n
 Dacă selecţia se face fără revenire eşantionul se numeşte eşantion aleator nerepetat.
După extragerea primei unităţi în baza de selecţie rămân (N-1) unităţi, după a doua extragere (N-2) unităţi, astfel
încât după ultima extragere, în urnă rămân N-n unităţi statistice.
n
Numărul eşantioanelor distincte, de volum n, ce pot fi extrase în sondajul aleator simplu fără revenire este C N .

Procedeul mecanic de selecţie a eşantionului presupune prelevarea unităţilor din colectivitatea generală după
un interval predeterminat, denumit frecvent pas de numărare aplicat bazei de sondaj.
N
Pasul de numărare se calculează după formula k = de exemplu, pentru a selecta 50 de unităţi dintr o
n
colectivitate generală de 1000 unităţi, se va alege tot a 20 a unitate).
Asigurarea caracterului aleator al eşantionului este dependentă de caracterul întâmplător al includerii unităţilor
colectivităţii generale în baza de sondaj, după un criteriu ce nu are legătură cu cercetarea efectuată.
Numărul iniţial de la care se începe citirea se alege aleator între 1 şi k după care se selectează tot a k-a unitate,
până la completarea eşantionului de n unităţi statistice.

Orice măsurare statistică conţine erori


Eroarea = diferenţa dintre rezultatul obţinut prin înregistrare şi mărimea reală a caracteristicilor observate.
Erorile pot fi de înregistrare şi de calcul
Clasificarea erorilor:
1.Erori de observare statistică
2.Erori de prelucrare
3.Erori de reprezentativitate
4.Erori de modelare

Erorile de observare sunt:


1.Erori sistematice
2.Erori întâmplătoare
3.Erori grosiere (greşeli)

1.Erori sistematice
-rezultă din acţiunea unui factor ce determină devierea variabileistudiate întotdeauna în acelaşi sens
-sursede astfel de erori: încălcarea regulilor de delimitare a colectivităţii, a unităţii statistice, de construire a
chestionarelor, de selecţie a eşantionului
-distorsiunile pot fi introduse de răspunsuri incorecte ale persoanelor anchetate din motive psihologice,
economice etc.(de ex. dorinţa de a face impresie, de a răspunde pe placul anchetatorului sau de a ascunde
anumite aspecte -întrebări cu incidenţă fiscală sau ce implică interese economice)
2.Erori întâmplătoare
-se produc în ambele sensurişi diferă ca mărime
-influenţele lor se compensezăreciproc pe total şi nu afectează rezultatele
-sunt generate de cauze obiective şi nu pot fi evitate ci doar minimizate

3.Erori grosiere
-sunt cauzate de lipsa de experienţă, incompetenţă etc.
-trebuie depistate şi eliminate

Concluzii:
Orice măsurare statistică implică erori
Ceea ce interesează este ordinul de mărime al erorii pentru a se cunoaşte între ce limite de
acceptabilitate se găseşte afirmaţia unei investigaţii statistice
Erorile generate în procesul de observare statistică pot fi determinate

CURS 2 (partea a-II a ): Prezentarea şi reprezentarea datelor statistice


Principiile clasificării şi grupării
 Agregarea/s istematizarea datelor se realizează prin clasificare (vb. nenumerice ) şi grupare (vb.
numerice )
 Sistematizarea = împărţirea datelor în grupe omogene , după unul sau mai multe criterii .
 Criteriul de grupare este dat de variabila statistică
 Grupările sunt simple sau combinate în funcţie de numărul criteriilor utilizate
Gruparea datelor trebuie să se facă după principiile:
a) omogenităţii
b) unicităţii
c) universalităţii
Grupele constituite trebuie să fie deci exhaustive şi mutual exclusive.
Rezultatul grupării datelor îl reprezintă seria de distribuţie de frecvenţe.

Clasificarea = împărţirea unităţilor în categoriile variabilei nenumerice


Prin numărarea unităţilor statistice ce se încadrează în fiecare clasă se stabileşte frecvenţa clasei
Dacă variabila este măsurată pe scala nominală ordinea claselor o alege cercetătorul.

Sistematizarea datelor privind muzeele, în anul 2007, în România, în funcţie de tipul acestora:
Dacă datele se referă la variabile măsurate pe scala ordinală, clasele vor respecta criteriul de ordine:
Sistematizarea datelor privind clasamentul general la competiţiile internaţionale oficiale pentru Federaţia
Română de Atletism, în anul 2006

Reprezentarea grafică a seriilor de distribuţie de frecvenţe pentru variabile nenumerice

Reprezentarea grafică a seriilor de distribuţie de frecvenţe pentru variabile nenumerice


Sistematizarea datelor numerice
Gruparea reprezintă sistematizarea datelor după o variabilă numerică
A. Dacă variabila este discretă şi cu un număr redus de valori distincte (max 10 sistematizarea datelor se face
prin gruparea pe variante obţinându se o serie de distribuţie de frecvenţe pe variante
Frecvenţa grupelor se stabileşte prin numărarea unităţilor care iau aceeaşi valoare
Gruparea a 50 de manageri ai unor firme de IT, în funcţie de numărul de deplasări în străinătate, în interes de
serviciu, în luna mai 2007:

O serie de distribuţie de frecvenţe pentru o variabilă discretă poate fi prezentată şi sub următoarea formă:

Reprezentarea grafică a unei serii de distribuţie de frecvenţe alcătuită după o variabilă numerică discretă cu
număr redus de valori distincte este poligonul frecvenţelor:
B. Dacă variabila numerică este discretă şi are un număr mare de valori distincte sau este continuă
sistematizarea presupune gruparea pe intervale de variaţie
Se obţine o serie de distribuţie de frecvenţe pe intervale
o Intervalul de variaţie reprezintă un şir de valori ale variabilei delimitat prin limita inferioară şi limita
superioară
o Intervalele de variaţie pot fi de mărime egală sau neegală
o Pentru gruparea pe intervale de variaţie se recomandă utilizarea unui număr moderat de grupe (5 15
grupe).
o Numărul intervalelor depinde de numărul unităţilor statistice. Un număr mare de date necesită un număr
mai mare de intervale de grupare.

Alcătuirea intervalelor de variaţie


a. Determinarea numărului de intervale
Pentru alegerea numărului de intervale (r) se poate utiliza relaţia:

unde n reprezintă volumul colectivităţii.


b. Stabilirea mărimii intervalului (h) de variaţie

c. Sabilirea intervalelor
Punctul de plecare în alcătuirea intervalelor de grupare se alege, convenabil, 0 sau un număr întreg mai mic sau
egal decât xmin.
Frecvenţa fiecărui interval ni (numită frecvenţă absolută) se obţine prin numărarea unităţilor care se încadrează
în fiecare grupă.
Exemplu: Tabelul statistic ce se obţine prin gruparea datelor pe intervale de variaţie este:

Reprezentarea grafică a seriilor de distribuţie de frecvenţe pe intervale


 O serie de distribuţie de frecvenţe pe intervale de variaţie se reprezintă grafic cu ajutorul histogramei şi a
poligonului frecvenţelor .
 Histograma se construieşte prin ridicarea unor dreptunghiuri, fiecare dreptunghi fiind de lăţime egală cu
mărimea intervalului de grupare şi de înălţime egală cu frecvenţa intervalului

Distribuţia normală - perfect simetrică, în forma clopotului lui Gauss Laplace este foarte rar întâlnită în
practică, fiind de fapt o distribuţie teoretică de referinţă în analiza statistică .
În cele mai multe cazuri, distribuţiile de frecvenţe empirice au tendinţă de normalitate, dar un anumit grad de
asimetrie

Distribuţia în formă de J este o distribuţie profund asimetrică, în care frecvenţa maximă se întâlneşte în primul
ori în ultimul interval, pentru ca apoi frecvenţele să descrească spre zero

Distribuţia în formă de U este o distribuţie cu frecvenţe maxime în ambele intervale extreme de variaţie şi cu
frecvenţă minimă în jurul intervalului central
Este firesc, aşadar, ca analiza statistică să înceapă cu vizualizarea , pe cale grafică , a tendinţei de distribuţie a
valorilor în colectivitatea cercetată.

Seria de distribuţie de frecvenţe pe intervale


În cazul seriilor de distribuţie de frecvenţe pe intervale se mai determină:
1. Centrul de interval = valoarea situată la jumătatea distanţei dintre limitele intervalului şi este considerat
reprezentativ pentru datele din interiorul intervalului:

2. Frecvenţa absolută cumulată crescător a unei grupe (Fci) = nr. unităţilor statistice care au valoarea
variabilei mai mică sau egală cu limita superioară a intervalului

3. Frecvenţa relativă cumulată crescător a unei grupe (*ciF) = procentul unităţilor statistice care au valoarea
variabilei mai mică sau egală cu limita superioară a grupei:

4. Frecvenţe absolute şi relative cumulate descrescător = nr. sau procentul unităţilor statistice care au
valoarea variabilei mai mare sau egală cu limita inferioară a intervalului

Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra tendinţei de distribuţie a valorilor
în colectivitate, asupra normalităţii, simetriei ori asimetriei repartiţiei de frecvenţe.
CURS 3: Masuri statistice descriptive pentru date univariate
1. Masurarea tendintei centrale
Pentru o variabil ă numerică , folosind indicatorii statistici , putem analiza trei proprietăţi majore:
1.Tendinţa centrală
2.Variabilitatea
3.Forma distribuţiei
Indicatorii tendinţei centrale = indicatori sintetici cu ajutorul cărora urmărim să exprimăm printr o singură
valoare ceea este tipic , esenţial , stabil într o serie de date numerice.

Măsurarea tendinţei centrale - Indicatorii fundamentali ai tendinţei centrale sunt:


1.media aritmetică ( x )
2.mediana (Me)
3.modul (Mo)

1.Media aritmetică (average, mean, în engl.)


-este indicatorul cel mai utilizat pentru caracterizarea tendinţei centrale a datelor numerice
-reprezintă valoarea care, înlocuind toţi termenii unei serii, nu modifică suma acestora
-se calculează ca suma valorilor raportată la numărul lor.

Formula de calcul a mediei este:


- pentru eşantion – estimator

- pentru colectivitatea generală – parametru

Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care valorile/centrele intervalelor de
variaţie apar cu frecvenţele ni , se determină media ca medie aritmetică ponderată:
Particularităţi în calculul mediei
1. Dacă toate nivelurile variabilei sunt egale (cu o constantă) atunci media este egală cu constanta, adică: dacă
x1 = x2 = ... = xn = a, atunci x = a.
2. Media poate fi sau nu egală cu o valoare individuală înregistrată şi are unitatea de măsură a variabilei
studiate.
3. Media se poate determina şi dacă se cunoaşte doar suma valorilor şi numărul de unităţi din colectivitate (dacă
se cunosc veniturile totale ale unei familii şi numărul de persoane se poate calcula venitul mediu pe o persoană
din familie).
4. Media se situează întotdeauna între valoarea minimă (xmin) şi valoarea maximă (xmax) a variabilei
5. Media poate fi determinată şi prin utilizarea frecvenţelor relative:

6. Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au calculat mediile parţiale ( x j), j
= 1 , m, atunci media întregii serii poate fi calculată ca o medie aritmetică ponderată din mediile parţiale

unde nj reprezintă volumul seriei componente j(j = 1 , m)

2.Mediana (median, în engl.) reprezintă valoarea din mijlocul unei serii de date ordonate.
-este un indicator mediu de poziţiecare face parte din categoria cuantilelor
-medianaesteun indicator al tendinţei centrale, fiind situată în centrul seriei
-50% dintre valori sunt situate la stânga medianei, iar 50% la dreapta medianei
-ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea lor efectivă (nu este afectată de prezenţa
valorilor extreme).
Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe axa absciselor a punctului de
intersecţie dintre cele două curbe ale frecvenţelor cumulate (crescător şi descrescător).
Pentru a determina mediana seintroduce noţiunea de ranguri, adică numere de ordine asociate
observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n)
Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.

Dacă seria are un număr parde termeni atunci mediana se calculează ca media aritmetică a celor doi termeni
situaţi în mijlocul seriei ordonate.
Dacă seria are un număr imparde termeni atunci mediana reprezintă termenul din mijlocul seriei ordonate.
MEDIANA
- Pentru o repartiţie de frecvenţe pe intervale de variaţie mediana se va încadra în intervalul median
- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât locul media nei
- Mediana se va estima ca fiind mijlocul intervalului median
Mediana poate fi determinată şi pentru variabilele nenumerice măsurate pe scala ordinală .
Pentru o variabilă nenumerică , determinarea medianei este mai uşoară dacă datele sunt sistematizate.
Se parcurg următorii paşi :
-calcularea frecvenţelor cumulate crescător, (Fci)
-determinarea locului medianei cu formula (n+1)/2
-determinarea Me ca fiind valoarea (varianta) corespunzătoare primei frecvenţe cumulate mai mare decât
(n+1)/2

În cazul datelor privind clasamentul general la competiţiile internaţionale oficiale pentru Federaţia Română de
Atletism, în anul 2006, mediana se determină astfel:

Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce înseamnă că jumătate dintre cei 129 de sportivi
situaţi în primele şase locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel spus, jumătate
dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V şi VI.

Indicatori ai poziţiei relative cuantilele


 Cuantilele(percentile, în engl.) reprezintă niveluri ale variabilei care caracterizează poziţia relativă a
unui nivel individual în setul de date
 Cuantileleauaceeaşi unitate de măsură ca şi caracteristica studiată
 Cuantilele realizează o divizare a distribuţiei într-un număr de „k” părţi egale
 Cuantilelepot fi folosite pentru a analiza forma distribuţiei
În caracterizarea unui set de date, cele mai uzuale cuantile sunt:
 Cuantila de ordin 2( mediana)
 Cuantilele de ordin 4(cuartile, notate Q1, Q2, Q3, care împart seria în patru părţi egale, delimitând câte
25% din observaţii, Q2=Me)
 Cuantilele de ordin 10(decile, notate D1, ...., D9 şi care delimitează câte 10% din observaţii, D5 = Me)
 Cuantilele de ordin 100(centile, care delimitează câte 1% din observaţii)
Cuantilele de ordin mai mare decât 2 se folosesc în cazul seturilor de date de volum mare ( n ≥ 30 )

3.Modul (Mo, modeîn engl.)reprezintă valoarea cel mai des întâlnită într-o serie de date(valoarea care are cea
mai mare frecvenţă de apariţie)
- Valoarea modalăse poate determina pentru orice tip de variabilă(nenumerică sau numerică), indiferent
de scala de măsurare.
- Moduleste singurul indicatorce poate fi determinat pentru variabilele măsurate pe scala nominală.
- Grafic, într-o histogramăori poligon al frecvenţelor, modul reprezintă valoarea de pe abscisă,
corespunzătoare vârfului reprezentării.
- serie de date statistice poate să aibă una sau mai multe valori modale.
O distribuţie cu un singur mod se numeşte unimodală ( a), o distribuţie este bimodală (b) dacă are două valori
dominante şi multimodală (c) dacă are mai mult de două valori modale.

I.Determinarea modului pentru o variabilă nenumerică


Considerăm exemplul referitor la distribuţia muzeelor după tipul acestora:

II. Determinarea modului pentru ovariabilă numerică


a) Serie simplă (date nesistematizate)
Pentru o serie numerică de forma {30, 32, 40, 35, 32, 37, 34, 32, 35, 41}, Mo = 32, deoarece valoarea 32 apare
de cele mai multe ori.
Dacă toate valorile apar cu aceeaşi frecvenţă spunem că seria nu are mod.
b) Serie de distribuţie de frecvenţe (date sistematizate)
Dacă datele sunt sistematizate pe intervale de variaţiemodul se determină, prin interpolare astfel:
1. Se identifică intervalul modal (intervalul cu frecvenţa maximă)
2. Se calculează modulca fiind mijlocul intervalului modal

Analiza comparativă a indicatorilor tendinţei centrale


Pentru a obţine o imagine completă asupra unui fenomen economico-social se determină şi analizeză atât
cei trei indicatori ai tendinţei centrale, cât şi relaţia dintre ei.
Media poate fi utilizată când setul de date este (cel puţin aproximativ) normal distribuitşi, în acest caz,
este cel mai potrivit indicator pentru a caracteriza tendinţa centrală.
Media este indicatorul care va fi utilizat cel mai des deoarece răspunde cel mai bine scopului inferenţei
statistice.
Media este mai stabilă şi mai puţin sensibilă la fluctuaţiile de selecţie decît mediana
Media poate fi supusă cu uşurinţă calculelor algebrice, spre deosebire de mediană

 Modul poate fi calculat pentru orice set de date univariate


 Modul poate fi afectat de modalitatea de construire a intervalelor, pentru date numericegrupate.

 Mediana poate fi calculată pentru orice tip de date, cu excepţia celor nominale (care nu pot fi ordonate).
 Mediana este indicată atunci când:
-datele sunt profund asimetrice
-există valori extreme
-datele sunt măsurate pe scala ordinală

Cei trei indicatori medii (de calcul şi de poziţie) oferă, informaţii pertinente privind forma distribuţieiîntr-o serie
de date statistice:
a) pentru o distribuţie simetrică, media, mediana şi modul coincid (a).
b) dacă distribuţia este cu tendinţă de normalitate, dar asimetrică spre dreapta, adică spre valori mari (cu
coada mai lungă a distribuţiei spre valorile mari), atunci x > Me > Mo (b);
c) dacă distribuţia este cu tendinţă de normalitate, dar asimetrică spre stânga, adică spre valori mici (cu
coada mai lungă a distribuţiei spre valorile mici), atunci x < Me < Mo (c).

CURS 5: INDICATORI MEDII DE POZIŢIE CUANTILE


Cuantilele(percentile, în engl.) = valori ale variabilei utilizate pentru caracterizarea poziţiei relative a unui nivel
individual în setul de date.
Cuantilele pot fi utilizate în cazul variabilelor măsurate pe scalele ordinalăşi de raport şi realizează o divizare a
distribuţiei într-un număr de „k” părţi egale.
Cele mai uzuale cuantile sunt:
 Cuantila de ordin 2 ( mediana
 Cuantilele de ordin 4 cuartile, notate Q 1 , Q 2 = Me, Q 3, care împart seria în patru părţi egale,
delimitând câte 25% din observaţii.
 Cuartilele se determină în cazul seriilor cu asimetrie redusă.
- Cuantilele de ordin 10 (decile, notate D1, ...., D9 şi care delimitează câte 10% din observaţii, D5 = Me)
- Cuantilele de ordin 100 (centile, care delimitează câte 1% din observaţii).
Centila cu rangul 25 este cuartila 1 (P25 = Q1).
Centila cu rangul 50 coincide cu: cuartila 2, mediana, decila 5 (P50 = Q2 = Me = D5).
Centila cu rangul 75 este egală cu cuartila 3 (P75 = Q3).
Centilele se determină în cazul seriilor cu asimetrie pronunţată.
Functii EXCEL
 MODE pentru determinarea valorii modale, adică cea mai mică dintre valorile cu frecvenţa maximă;
 MEDIAN pentru determinarea valorii medianei;
 AVERAGE pentru determinarea mediei.
Funcţia QUARTILE ce are drept argumente setul de date şi numărul cuartilei dorite (valori între 0 şi 4) se obţin
valorile:

Diagrama Box-Plot
Principalii indicatori medii de poziţie pot rezuma grafic (diagrama Box-Plot), pe de o parte tendinţa centrală,
variabilitate datelor şi forma distribuţiei variabilei studiate, iar pe de altă parte valorile extreme şi cele aberante.
Indicatorii utilizaţi pentru construirea diagramei Box-Plot sunt:
- valoarea minimă xmin (denumită şi centila 0);
- cuartila inferioară Q1 (delimitează cele mai mici 25% din valori);
- mediana Me (delimitează 50% din valori);
- cuartila superioară Q3 (delimitează cele mai mari 25% din valori);
- valoarea maximă xmax (denumită şi centila 100).

În cadrul diagramei Box-Plot, cutia este delimitată de cuartilele Q1 şi Q3 şi cuprinde 50% dintre valorile
variabilei, situate în centrul distribuţiei.
Linia din interiorul cutiei reprezintă valoarea mediană, iar liniile inferioară, respectiv superioară sunt date de
valorile extreme ale seriei (xmin şi xmax).
Diagrama Boxplot este utilă şi pentru identificarea valorilor extreme şi a celor aberante (outliers, în engl.).
Valorile extreme ale setului de date sunt fixate la o limită maximă egală cu 1,5*lungimea cutiei (lungimea cutiei
este Q3-Q1).
Valorile aberante (de tip outlier) sunt considerate toate observaţiile situate la stânga sau la dreapta valorilor
extreme (dacă este cazul) şi reprezentate în diagramă.

VARIABILITATEA
 Variabilitatea poate fi caracterizată atât prin intermediul indicatorilor simpli cât şi a celor sintetici.
 Indicatorii simpli ai variabilităţii măsoară împrăştierea valorilor individuale ale seriei, una faţă de alta
sau faţă de o anumită valoare tipică.
 Indicatorii sintetici ai variabilităţii cuantifică, într-o singură expresie, împrăştierea tuturor valorilor din
seria de date în raport cu o anumită valoare tipică.

Indicatorii simpli ai variabilităţii


1. Amplitudinea absolută a variaţiei - Ax, (range, în engl.) se calculează ca diferenţă dintre valoarea maximă şi
valoarea minimă a variabilei X:
Ax = xmax — xmin
 Ax are unitatea de măsură a variabilei.
 Ax descrie ecartul maxim al valorilor pe scală.
 Ax se foloseşte în construirea intervalelor de variaţie şi a graficelor.
 Ax este sensibilă la valorile extreme şi nu ţine cont de distribuţia celorlalte valori din serie.
 Ax nu este un indicator adecvat pentru a descrie împrăştierea datelor din serie.

1.1Abaterea individuală (di) măsoară împrăştierea fiecărei valori faţă de nivelul mediu al variabilei X:
d i=¿ x −¿ ¿ x sau d i = ( x i - x )*ni
i

 Abaterile di au unitatea de măsură a variabilei;


 Abaterile di sunt pozitive, negative sau egale cu zero;
 Valorile mari ale abaterile di arată o variabilitate ridicată;
 Valorile mici ale abaterile di arată că valorile variabilei sunt concentrate în jurul mediei;
 Abaterile di se compensează reciproc, suma lor fiind nulă:

Indicatori sintetici ai variabilităţii


1. Abaterea medie liniară (d ) se determină ca medie aritmetică a abaterilor individuale, considerate în valoare
absolută:

 d se exprimă în unitatea de măsură a variabilei;


 d arată cu cât se abat, în medie, valorile individuale de la media lor ;
 d nu poate fi utilizată în calcule algebrice;
 d acordă aceeaşi importanţă atât abaterilor mici cât şi abaterilor mari ale valorilor de la media lor,
însă variabilitatea datelor este afectată, în mod deosebit, de abaterile mari de la medie.
2. Dispersia (variance, în engl.) se determină ca medie aritmetică a pătratelor abaterilor individuale.

ESTIMATOR PARAMETRU
(Dispersia variabilei în eşantion, sample variance, (Dispersia variabilei în populaţia statistică)
în engl.)

În cazul datelor sistematizate dispersia se determină astfel:

Dispersia este cel mai utilizat indicator pentru analiza variabilităţii datelor datorită proprietăţilor
sale algebrice;
Dispersia acordă o importanţă mai mare abaterilor individuale mari (prin calcularea pătratului
abaterilor), sintetizând astfel mai fidel variabilitatea datelor;
Dispersia are o unitate de măsură dificil de interpretat (prin determinarea pătratelor abaterilor
individuale sunt ridicate la pătrat şi unităţile de măsură ale variabilei)
În cazul eşantioanelor de volum mare ( n ≥ 30 ) putem lua în calcul următoarea aproximare ( n -
1 ) ≅ n, dispersia în eşantion fiind:
Dispersia se poate determina şi prin metoda momentelor (dispersia este momentul centrat de
ordinul 2 şi se calculează ca diferenţă dintre momentul iniţial de ordinul 2 şi pătratul
momentului iniţial de ordinul 1):

 Abaterea standard (numită şi abatere medie pătratică) este cel mai utilizat indicator de caracterizare a
împrăştierii datelor, fiind un parametru al repartiţiei normale;
 Între indicatorii variabilităţi abatere medie liniară (d ) şi abatere standard (s) există următoarea relaţie:

 Abaterea standard are unitatea de măsură a variabilei;


 În dezvoltarea teoriei statistice, majoritatea modelelor tradiţionale sunt bazate pe distribuţii descrise de
media aritmetică şi abaterea standard;
 În analizele financiare abaterea standard este considerată o măsură a „riscului”: Exemplu: Considerând
două proiecte de investiţii, A şi B, pentru care profiturile medii sunt aproximativ egale, iar deviaţia
standard a proiectului A este de 3000 Eur şi deviaţia standard a proiectului B este de aproximativ 7000
Eur, atunci investiţia prudentă (cu un risc mai redus) este investiţia cu deviaţia standard mai mică, adică
investiţia A.

3. Abaterea/deviaţia standard (standard deviation, în engl.) reprezintă rădăcina pătrată a dispersiei.


Abaterea standard determinată la nivelul eşantionului (sample standard deviation, în engl.) – estimator este:

Abaterea standard a variabilei în populaţia statistică – parametru este:

4. Coeficientul de variaţie ( v ) reprezintă expresia relativă a variabilităţii, fiind calculat ca raport între abaterea
standard şi medie:
S
v= * 100
x
 Indicatorii sintetici ai variabilităţii, exprimaţi în mărimi absolute, nu permit realizarea comparaţiilor
între serii statistice, din perspectiva variabilităţii/omogenităţii datelor;
 Exprimarea în mărime relativă a variabilităţii, prin intermediul coeficientului de variaţie, face posibilă
compararea seriilor statistice din punctul de vedere al variabilităţii;
 Omogenitatea ridicată a datelor este asigurată de valori mici ale coeficientului de variaţie;
 Dacă două serii statistice au coeficienţi de variaţie diferiţi, seria care are coeficientul de variaţie mai mic
este mai omogenă;
 Seriile pentru care v ≤ 30-35% sunt considerate omogene (cu variabilitate redusă), cu medii
reprezentative care caracterizează corect tendinţa centrală a seriei.
Coeficientul de variaţie nu se poate calcula dacă media este nulă ( x = 0), iar pentru valori ale mediei apropiate
de zero, valoarea coeficientului de variaţie poate să fie lipsită de semnificaţie.

Regula empirică a lui Cebâşev


Abaterea standard oferă informaţii privind modul de distribuţie şi de împrăştiere a valorilor într-o serie de
distribuţie de frecvenţe aproximativ normală.

Amplitudinea absolută a variaţiei într-o distribuţie aproximativ normala poate fi:

Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţie.
CURS 6
1. Media şi dispersia variabilei alternative
2. Indicatorii formei distributiei
3. Regula empirică a lui Cebâșev
4. Standardizarea variabilelor. Scorurile Z

1. Media şi dispersia variabilei alternative


1. Media variabilei alternative
Media variabilei alternative este proporţia răspunsurilor afirmative (care posedă caracteristica studiată), în
totalul unităţilor statistice.
Dacă sistematizăm datele pentru o variabilă alternativă şi acordăm, convenţional, valorile numerice 1 şi 0 celor
două variante de răspuns (afirmativ şi negativ), media aritmetică determinată va fi ponderea răspunsurilor
afirmative în total:

2. Dispersia unei variabile de tip alternativ


Pentru o variabilă de tip alternativ dispersia este:

Dispersia (împrăştierea) maximă pentru o variabilă alternativă este egală cu 0,25, înregistrată atunci când
ponderea răspunsurilor afirmative este egală cu cea a răspunsurilor negative (𝑓=1−𝑓=0,5).
2. Indicatori ai formei distribuţiei
Analiza unui set de date univariate numerice nu este completă fără a face aprecieri asupra formei distribuţiei. Se
studiază astfel modul în care valorile individuale ale variabilei sunt concentrate/deplasate comparativ cu valorile
tipice ale distribuţieie (tendinţa centrală).
Distribuţiile empirice se raportează, de regulă, la distribuţia normală teoretică şi se doreşte analiza a două
aspecte:
▪ Măsura în care distribuţia se abate de la forma perfectă de simetrie a valorilor în jurul tendinţei
centrale, analizându-se în acest caz oblicitatea sau asimetria;
▪ Măsura în care valorile variabilei sunt mai împrăştiate sau mai concentrate în raport cu tendinţa
centrală (distribuţia este mai aplatizată sau mai alungită în raport cu distribuţia normală teoretică),
analizându-se în acest caz boltirea sau aplatizarea.

Asimetria (skewness, în engl.) unei serii de distribuţie de frecvenţe poate fi evidenţiată vizual prin reprezentarea
grafică - histogramă sau poligonul frecvenţelor.
Relaţia existentă între valorile indicatorilor tendinţei centrale permite, de asemenea, formularea unor aprecieri
asupra oblicităţii distribuţiei.

Pentru aprecierea intensităţii şi a sensului oblicităţii unei variabile în eşantionul studiat se utilizează o serie de
indicatori/coeficienţi (notaţi CAS) specifici, absoluţi şi relativi, bazaţi pe relaţia dintre indicatorii tendinţei
centrale, dintre indicatorii medii de poziţie, precum şi pe indicatori ai variabilităţii:

coeficient ce are la bază relaţia existentă între indicatorii tendinţei centrale în cazul distribuţiilor moderat
asimetrice: 𝑥 − 𝑀𝑜 ≅ 3(𝑥 − 𝑀𝑒)
Atât semnul, cât şi valoarea indicatorilor oferă informaţii privind dezechilibrul distribuţiei:
 Dacă CAS ¿ 0 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie
predomină valorile mici;
 Dacă CAS ¿ 0 , avem asimetrie negativă, coada distribuţiei este mai alungită la stânga, în serie
predomină valorile mari;
 Dacă CAS = 0 , avem serie perfect simetrică;
 Dacă CAS → 0, |CAS| ≤ 0,3 seria este moderat asimetrică;
 Dacă |CAS| ¿ 1 seria este profund asimetrică, distribuţia empirică diferă semnificativ de distribuţia
normală şi se recomandă tranformarea datelor (se logaritmează valorile variabilei, obţinându-se astfel o
distribuţie cu tendinţă de normalitate).

În EXCEL se utilizează funcţia SKEW pentru determinarea coeficientului de asimetrie în eşantion.


Boltirea/aplatizarea distribuţiei (kurtosis, în engl.) exprimă înălţimea curbei în raport cu distribuţia normală
teoretică. Întâlnim, astfel distribuţii leptocurtice/ascuţite şi distribuţii platicurtice/aplatizate:

Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei observaţii în jurul unei
valori centrale şi se determină, pe eşantion, cu formula:

 Dacă, CBA ¿ 0 avem distribuţie leptocurtică, valorile varibilei fiind concentrate în jurul indicatorilor
tendinţei centrale
 Dacă, CBA ¿ 0 avem distribuţii platicurtice valorile varibilei fiind dispersate în raport cu indicatorii
tendinţei centrale
 Dacă, CBA = 0 avem distribuţie mezocurtică, adică distribuţia normală.
În EXCEL se utilizează funcţia KURT pentru determinarea coeficientului de boltire (CBA) în eşantion.
3. Regula empirică a lui Cebâşev
Indicatorii tendinţei centrale şi ai variabilităţii oferă informaţii privind forma distribuţiei variabilei studiate.
Media şi abaterea standard permit identificarea anumitor intervale de valori şi determinarea proporţiei cazurilor
care se încadrează în aceste intervale.
Regula empirică lui Cebâşev, evidenţiată în cazul distribuţiilor cu tendinţă de normalitate (moderat asimetrice),
afirmă că:
- aproximativ 68% din valori se situează în intervalul 𝜇 ± 𝜎, adică la cel mult o abatere standard faţă
de medie (𝜇 − 𝜎, 𝜇 + 𝜎);
- aproximativ 95% din valori se situează în intervalul 𝜇 ± 2𝜎, adică la cel mult două abateri standard
faţă de medie (𝜇 − 2𝜎, 𝜇 + 2𝜎);
- aproximativ 99,8% din valori se situează în intervalul𝜇 ± 3𝜎, adică la cel mult trei abateri standard
faţă de medie(𝜇 − 3𝜎, 𝜇 + 3𝜎).
4. Standardizarea variabilelor numerice. Scorurile z
Obiectivul analizelor economico-sociale este, pe de o parte, de a pune în evidenţă relaţiile dintre diferite
variabile, iar pe de altă parte, de a realiza predicţii privind evoluţia lor în interdependenţă.
Pentru a putea compara variabile cu unităţi de măsură diferite se procedează la o transformare a datelor, operaţie
numită standardizarea variabilelor (calcularea scorurilor z).
Scorul z reprezintă o modalitate de a exprima semnificaţia unei anumite valori dintr-o serie de date prin
raportare la parametrii distribuţiei (medie şi abatere standard).
Scorul z se determină prin scăderea mediei din fiecare valoare şi împărţirea rezultatului la abaterea standard,
obţinându-se astfel distanţa dintre o anumită valoare şi medie, în unităţi ale abaterii standard:
- scorul z pentru o observaţie xi din eşantion: 𝑧𝑖= (𝑥𝑖−𝑥̄)/s
- scorul z pentru o observaţie xi din populaţia statistică: 𝑧𝑖= (𝑥𝑖−𝜇)/𝜎
Se obţine astfel o nouă variabilă, numită variabilă standardizată, care are media valorilor egală cu zero şi
dispersia egală cu unu.
Astfel, dacă pentru o anumită unitate statistică, scorul z are semnul ”-” înseamnă că individul respectiv
înregistrează o performanţă sub medie, iar dacă scorul z are semnul „+” atunci individul are o performanţă peste
medie.
Analiza grafică a regulii empirice a lui Cebâşev, într-o distribuţie aproximativ normală, atât pe baza
valorilor iniţiale ale variabilei, cât şi a valorilor standardizate permite formularea următoarelor concluzii:
 aproximativ 68% dintre observaţii au scorul z cuprins între -1 şi 1.
 aproximativ 95% dintre observaţii au scorul z cuprins între -2 şi 2.
 aproximativ 99,8% dintre observaţii au scorul z cuprins între -3 şi 3.

Amplitudinea absolută a variaţiei într-o distribuţie aproximativ normală este de patru ori mai mare decât
abaterea standard:
Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţiei.

Amplitudinea absolută a variaţiei într-o distribuţie aproximativ normală poate fi:

Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţiei.

S-ar putea să vă placă și