Documente Academic
Documente Profesional
Documente Cultură
Obiectivele disciplinei
1.Dezvoltarea deprinderilor de aplicare a metodelor statistice in vederea fundamentarii deciziei de afaceri in
marketing
2.Utilizarea pachetelor software specializate în prelucrarea si analiza datelor statistice
Definire
Statistica este ştiinţa care, prin propriul instrumentar, permite descrierea şi modelarea fenomenelor
complexe, de tip stocastic aleator , intamplator
Statistica, ca orice ştiinţă, deţine propriile tehnici de investigare, aplicate în următorii paşi:
Obţinerea datelor
Organizarea şi prezentarea datelor
Analiza datelor
Realizarea inferenţei (extinderea rezultatelor, realizarea previziunilor, luarea deciziilor).
Concepte de bază
1.Populaţia statistică (colecti vitatea generală) generală)= mulţime a elemente lor de acelaşi tip, caracterizate de
trăsături esenţiale comune şi care fac parte dintr un grup ce urmează a fi studiat.
Precizări
Termenul de populaţie se referă la o mulţime de obiecte, persoane, firme, opinii, proiecte etc.
O populaţie statistică este, în general, finită , prin delimitarea sa în timp, spaţiu şi ca formă
organizatorică.
Unele populaţii finite sunt atât de numeroase încât pot fi considerate infinite.
Observarea elementelor unei populaţii, cu excepţia unor situaţii riguros argumentate, se face prin
intermediul cercetărilor parţiale pe bază de eşantion reprezentativ .
2.Eşantionul (colectivitate de selecţie, colectivitate parţială) submulţimea de elemente selectate dintr o populaţie
statistică care deţine aceleaşi trăsături esenţiale ce caracterizează populaţia statistică din care a fost extras.
3.Unitatea statistică elementul din populaţia statistică care deţine un nivel/valoare pentru fiecare caracteristică
observată în cadrul cercetării statistice.
4.Variabila/caracteristica statistică trăsătura, însuşirea comună tuturor elementelor unei populaţii ce
înregistrează valori variante distincte pentru fiecare unitate statistică
Tipologia variabilelor statistice determină utilizarea unor metode, tehnici diferite de analiză.
Pentru alegerea metodei adecvate este necesară clasificarea variabilelor în funcţie de următoarele criterii:
a) Modul de exprimare
b) Numărul variantelor înregistrate
c) Dimensiunea în care sunt definite
d) Relaţia de cauzalitate
A. Variabile numerice sau cantitative ce ce descriu prin cifre o anumită trăsătură şi reprezintă rezultatul unui
proces de numărare sau măsurare;
Variabile numerice pot fi cu variaţie discontinuă (variabilă discretă) sau cu cu variaţie continuă (variabilă
continuă):
Exemple
anul înfiinţării unor firme, judeţul de reşedinţă al unor numărul salariatilor unei
durata necesară pentru persoane, firme,
prestarea unui serviciu etc. zona de amplasare a unor genul persoanei,
magazine profesia unei persoane,
cifra de afaceri a unor agenţi
economici etc.
1.Scopul observăriise formulează în momentul declanşării procesului cercetării şi depinde de scopul general al
investigaţiei statistice.
2.Delimitarea colectivităţii şi unităţilor de observare–depinde de modul de utilizare a metodelor de
observare.
-constă în localizarea în timp, spaţiu şi dpvd organizatoric a colectivităţii studiate
-alegerea unităţii de observareîn conformitate cu scopul urmărit şi modul de organizare a colectivităţii.
3.Stabilirea caracteristicilorce urmează a fi înregistrate formează programul observării şi reprezintă partea cea
mai importantă a planului observării.
Selectarea variabilelor din programul observării se va realiza astfel încât să permită studierea sub aspectele de
interes, a fenomenului analizat, evitându-se redundanţa de informaţii.
4.Formularele de înregistrare reprezintă suportul material pe care se vor înregistra datele culese. Pot fi de
două tipuri: fişă sau listă.
Fişa este un formular individual, completat de către o singură unitate de observare.
Listaeste un formular colectiv, completat cu date pentru mai multe unităţi de observare.
5.Timpul observăriiindică două aspecte:
timpul la care se referă datele(poate fi un singur moment, numit „moment critic” sau un interval de timp,
în funcţie de tipul fenomenului analizat (static sau dinamic))
timpul când se efectuează înregistrarea datelor(este, de regulă, un interval, cu o dată limită precisă)
6.Măsurile organizatoricecuprind toate elementele care asigură buna organizare şi desfăşurare a observării
statistice.
Sondajul sau selecţia statistică este o metodă de observare statistică parţială frecvent utilizată.
Avantaje ale utilizării sondajului statistic:
Costuri materiale şi umane reduse
Programul cercetării este amplu
sondajul statistic devine absolut necesar când prin cercetarea statistică se distrug unităţile statistice
supuse analizei, ca de pildă în controlul statistic al calităţii producţiei
sondajul statistic poate fi utilizat pentru verificarea programului unei observări totale şi pentru verificarea
şi testarea unei ipoteze statistice
Sondajul statistic implică un grad de incertitudine referitor la cunoaşterea situaţiei din colectivitatea generală.
Folosirea selecţiei aleatoare (eşantionarea probabilistă), în care fiecare unitate statistică din colectivitatea
generală are şansa calculabilă şi diferită de zero să fie selecţionată în eşantion permite calcularea mărimii erorii
şi stabilirea prealabilă a acestei mărimi.
Sondajele pot fi repetate sau nerepetate , după cum există posibilitatea revenirii unei unităţi în eşantionul din
care a fost extrasa.
Pentru populaţiile de volum foarte mare, considerate populaţii infinite, deosebirea dintre sondajul repetat şi
sondajul nerepetat dispare.
Procedeul mecanic de selecţie a eşantionului presupune prelevarea unităţilor din colectivitatea generală după
un interval predeterminat, denumit frecvent pas de numărare aplicat bazei de sondaj.
N
Pasul de numărare se calculează după formula k = de exemplu, pentru a selecta 50 de unităţi dintr o
n
colectivitate generală de 1000 unităţi, se va alege tot a 20 a unitate).
Asigurarea caracterului aleator al eşantionului este dependentă de caracterul întâmplător al includerii unităţilor
colectivităţii generale în baza de sondaj, după un criteriu ce nu are legătură cu cercetarea efectuată.
Numărul iniţial de la care se începe citirea se alege aleator între 1 şi k după care se selectează tot a k-a unitate,
până la completarea eşantionului de n unităţi statistice.
1.Erori sistematice
-rezultă din acţiunea unui factor ce determină devierea variabileistudiate întotdeauna în acelaşi sens
-sursede astfel de erori: încălcarea regulilor de delimitare a colectivităţii, a unităţii statistice, de construire a
chestionarelor, de selecţie a eşantionului
-distorsiunile pot fi introduse de răspunsuri incorecte ale persoanelor anchetate din motive psihologice,
economice etc.(de ex. dorinţa de a face impresie, de a răspunde pe placul anchetatorului sau de a ascunde
anumite aspecte -întrebări cu incidenţă fiscală sau ce implică interese economice)
2.Erori întâmplătoare
-se produc în ambele sensurişi diferă ca mărime
-influenţele lor se compensezăreciproc pe total şi nu afectează rezultatele
-sunt generate de cauze obiective şi nu pot fi evitate ci doar minimizate
3.Erori grosiere
-sunt cauzate de lipsa de experienţă, incompetenţă etc.
-trebuie depistate şi eliminate
Concluzii:
Orice măsurare statistică implică erori
Ceea ce interesează este ordinul de mărime al erorii pentru a se cunoaşte între ce limite de
acceptabilitate se găseşte afirmaţia unei investigaţii statistice
Erorile generate în procesul de observare statistică pot fi determinate
Sistematizarea datelor privind muzeele, în anul 2007, în România, în funcţie de tipul acestora:
Dacă datele se referă la variabile măsurate pe scala ordinală, clasele vor respecta criteriul de ordine:
Sistematizarea datelor privind clasamentul general la competiţiile internaţionale oficiale pentru Federaţia
Română de Atletism, în anul 2006
O serie de distribuţie de frecvenţe pentru o variabilă discretă poate fi prezentată şi sub următoarea formă:
Reprezentarea grafică a unei serii de distribuţie de frecvenţe alcătuită după o variabilă numerică discretă cu
număr redus de valori distincte este poligonul frecvenţelor:
B. Dacă variabila numerică este discretă şi are un număr mare de valori distincte sau este continuă
sistematizarea presupune gruparea pe intervale de variaţie
Se obţine o serie de distribuţie de frecvenţe pe intervale
o Intervalul de variaţie reprezintă un şir de valori ale variabilei delimitat prin limita inferioară şi limita
superioară
o Intervalele de variaţie pot fi de mărime egală sau neegală
o Pentru gruparea pe intervale de variaţie se recomandă utilizarea unui număr moderat de grupe (5 15
grupe).
o Numărul intervalelor depinde de numărul unităţilor statistice. Un număr mare de date necesită un număr
mai mare de intervale de grupare.
c. Sabilirea intervalelor
Punctul de plecare în alcătuirea intervalelor de grupare se alege, convenabil, 0 sau un număr întreg mai mic sau
egal decât xmin.
Frecvenţa fiecărui interval ni (numită frecvenţă absolută) se obţine prin numărarea unităţilor care se încadrează
în fiecare grupă.
Exemplu: Tabelul statistic ce se obţine prin gruparea datelor pe intervale de variaţie este:
Distribuţia normală - perfect simetrică, în forma clopotului lui Gauss Laplace este foarte rar întâlnită în
practică, fiind de fapt o distribuţie teoretică de referinţă în analiza statistică .
În cele mai multe cazuri, distribuţiile de frecvenţe empirice au tendinţă de normalitate, dar un anumit grad de
asimetrie
Distribuţia în formă de J este o distribuţie profund asimetrică, în care frecvenţa maximă se întâlneşte în primul
ori în ultimul interval, pentru ca apoi frecvenţele să descrească spre zero
Distribuţia în formă de U este o distribuţie cu frecvenţe maxime în ambele intervale extreme de variaţie şi cu
frecvenţă minimă în jurul intervalului central
Este firesc, aşadar, ca analiza statistică să înceapă cu vizualizarea , pe cale grafică , a tendinţei de distribuţie a
valorilor în colectivitatea cercetată.
2. Frecvenţa absolută cumulată crescător a unei grupe (Fci) = nr. unităţilor statistice care au valoarea
variabilei mai mică sau egală cu limita superioară a intervalului
3. Frecvenţa relativă cumulată crescător a unei grupe (*ciF) = procentul unităţilor statistice care au valoarea
variabilei mai mică sau egală cu limita superioară a grupei:
4. Frecvenţe absolute şi relative cumulate descrescător = nr. sau procentul unităţilor statistice care au
valoarea variabilei mai mare sau egală cu limita inferioară a intervalului
Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra tendinţei de distribuţie a valorilor
în colectivitate, asupra normalităţii, simetriei ori asimetriei repartiţiei de frecvenţe.
CURS 3: Masuri statistice descriptive pentru date univariate
1. Masurarea tendintei centrale
Pentru o variabil ă numerică , folosind indicatorii statistici , putem analiza trei proprietăţi majore:
1.Tendinţa centrală
2.Variabilitatea
3.Forma distribuţiei
Indicatorii tendinţei centrale = indicatori sintetici cu ajutorul cărora urmărim să exprimăm printr o singură
valoare ceea este tipic , esenţial , stabil într o serie de date numerice.
Dacă datele au fost sistematizate într-o serie de distribuţie de frecvenţe, în care valorile/centrele intervalelor de
variaţie apar cu frecvenţele ni , se determină media ca medie aritmetică ponderată:
Particularităţi în calculul mediei
1. Dacă toate nivelurile variabilei sunt egale (cu o constantă) atunci media este egală cu constanta, adică: dacă
x1 = x2 = ... = xn = a, atunci x = a.
2. Media poate fi sau nu egală cu o valoare individuală înregistrată şi are unitatea de măsură a variabilei
studiate.
3. Media se poate determina şi dacă se cunoaşte doar suma valorilor şi numărul de unităţi din colectivitate (dacă
se cunosc veniturile totale ale unei familii şi numărul de persoane se poate calcula venitul mediu pe o persoană
din familie).
4. Media se situează întotdeauna între valoarea minimă (xmin) şi valoarea maximă (xmax) a variabilei
5. Media poate fi determinată şi prin utilizarea frecvenţelor relative:
6. Dacă o serie statistică este alcătuită din m serii componente, pentru care s-au calculat mediile parţiale ( x j), j
= 1 , m, atunci media întregii serii poate fi calculată ca o medie aritmetică ponderată din mediile parţiale
2.Mediana (median, în engl.) reprezintă valoarea din mijlocul unei serii de date ordonate.
-este un indicator mediu de poziţiecare face parte din categoria cuantilelor
-medianaesteun indicator al tendinţei centrale, fiind situată în centrul seriei
-50% dintre valori sunt situate la stânga medianei, iar 50% la dreapta medianei
-ia în consideraţie doar poziţia observaţiilor în serie, nu şi mărimea lor efectivă (nu este afectată de prezenţa
valorilor extreme).
Mediana se poate determina pe cale grafică. Ea reprezintă proiecţia pe axa absciselor a punctului de
intersecţie dintre cele două curbe ale frecvenţelor cumulate (crescător şi descrescător).
Pentru a determina mediana seintroduce noţiunea de ranguri, adică numere de ordine asociate
observaţiilor, de la cea mai mică (cu rangul 1), până la cea mai mare (rangul n)
Rangul (locul ) medianei va fi, atunci, (n+1)/2, deci rangul unităţii din mijlocul seriei.
Dacă seria are un număr parde termeni atunci mediana se calculează ca media aritmetică a celor doi termeni
situaţi în mijlocul seriei ordonate.
Dacă seria are un număr imparde termeni atunci mediana reprezintă termenul din mijlocul seriei ordonate.
MEDIANA
- Pentru o repartiţie de frecvenţe pe intervale de variaţie mediana se va încadra în intervalul median
- Intervalul median este primul interval cu frecvenţa cumulată mai mare decât locul media nei
- Mediana se va estima ca fiind mijlocul intervalului median
Mediana poate fi determinată şi pentru variabilele nenumerice măsurate pe scala ordinală .
Pentru o variabilă nenumerică , determinarea medianei este mai uşoară dacă datele sunt sistematizate.
Se parcurg următorii paşi :
-calcularea frecvenţelor cumulate crescător, (Fci)
-determinarea locului medianei cu formula (n+1)/2
-determinarea Me ca fiind valoarea (varianta) corespunzătoare primei frecvenţe cumulate mai mare decât
(n+1)/2
În cazul datelor privind clasamentul general la competiţiile internaţionale oficiale pentru Federaţia Română de
Atletism, în anul 2006, mediana se determină astfel:
Loc Me = 130/2 = 65, iar valoarea mediană este locul II, ceea ce înseamnă că jumătate dintre cei 129 de sportivi
situaţi în primele şase locuri la competiţiile internaţionale, au ocupat locurile I şi II, sau, astfel spus, jumătate
dintre cei 129 de sportivi s-au clasat pe locurile III, IV, V şi VI.
3.Modul (Mo, modeîn engl.)reprezintă valoarea cel mai des întâlnită într-o serie de date(valoarea care are cea
mai mare frecvenţă de apariţie)
- Valoarea modalăse poate determina pentru orice tip de variabilă(nenumerică sau numerică), indiferent
de scala de măsurare.
- Moduleste singurul indicatorce poate fi determinat pentru variabilele măsurate pe scala nominală.
- Grafic, într-o histogramăori poligon al frecvenţelor, modul reprezintă valoarea de pe abscisă,
corespunzătoare vârfului reprezentării.
- serie de date statistice poate să aibă una sau mai multe valori modale.
O distribuţie cu un singur mod se numeşte unimodală ( a), o distribuţie este bimodală (b) dacă are două valori
dominante şi multimodală (c) dacă are mai mult de două valori modale.
Mediana poate fi calculată pentru orice tip de date, cu excepţia celor nominale (care nu pot fi ordonate).
Mediana este indicată atunci când:
-datele sunt profund asimetrice
-există valori extreme
-datele sunt măsurate pe scala ordinală
Cei trei indicatori medii (de calcul şi de poziţie) oferă, informaţii pertinente privind forma distribuţieiîntr-o serie
de date statistice:
a) pentru o distribuţie simetrică, media, mediana şi modul coincid (a).
b) dacă distribuţia este cu tendinţă de normalitate, dar asimetrică spre dreapta, adică spre valori mari (cu
coada mai lungă a distribuţiei spre valorile mari), atunci x > Me > Mo (b);
c) dacă distribuţia este cu tendinţă de normalitate, dar asimetrică spre stânga, adică spre valori mici (cu
coada mai lungă a distribuţiei spre valorile mici), atunci x < Me < Mo (c).
Diagrama Box-Plot
Principalii indicatori medii de poziţie pot rezuma grafic (diagrama Box-Plot), pe de o parte tendinţa centrală,
variabilitate datelor şi forma distribuţiei variabilei studiate, iar pe de altă parte valorile extreme şi cele aberante.
Indicatorii utilizaţi pentru construirea diagramei Box-Plot sunt:
- valoarea minimă xmin (denumită şi centila 0);
- cuartila inferioară Q1 (delimitează cele mai mici 25% din valori);
- mediana Me (delimitează 50% din valori);
- cuartila superioară Q3 (delimitează cele mai mari 25% din valori);
- valoarea maximă xmax (denumită şi centila 100).
În cadrul diagramei Box-Plot, cutia este delimitată de cuartilele Q1 şi Q3 şi cuprinde 50% dintre valorile
variabilei, situate în centrul distribuţiei.
Linia din interiorul cutiei reprezintă valoarea mediană, iar liniile inferioară, respectiv superioară sunt date de
valorile extreme ale seriei (xmin şi xmax).
Diagrama Boxplot este utilă şi pentru identificarea valorilor extreme şi a celor aberante (outliers, în engl.).
Valorile extreme ale setului de date sunt fixate la o limită maximă egală cu 1,5*lungimea cutiei (lungimea cutiei
este Q3-Q1).
Valorile aberante (de tip outlier) sunt considerate toate observaţiile situate la stânga sau la dreapta valorilor
extreme (dacă este cazul) şi reprezentate în diagramă.
VARIABILITATEA
Variabilitatea poate fi caracterizată atât prin intermediul indicatorilor simpli cât şi a celor sintetici.
Indicatorii simpli ai variabilităţii măsoară împrăştierea valorilor individuale ale seriei, una faţă de alta
sau faţă de o anumită valoare tipică.
Indicatorii sintetici ai variabilităţii cuantifică, într-o singură expresie, împrăştierea tuturor valorilor din
seria de date în raport cu o anumită valoare tipică.
1.1Abaterea individuală (di) măsoară împrăştierea fiecărei valori faţă de nivelul mediu al variabilei X:
d i=¿ x −¿ ¿ x sau d i = ( x i - x )*ni
i
ESTIMATOR PARAMETRU
(Dispersia variabilei în eşantion, sample variance, (Dispersia variabilei în populaţia statistică)
în engl.)
Dispersia este cel mai utilizat indicator pentru analiza variabilităţii datelor datorită proprietăţilor
sale algebrice;
Dispersia acordă o importanţă mai mare abaterilor individuale mari (prin calcularea pătratului
abaterilor), sintetizând astfel mai fidel variabilitatea datelor;
Dispersia are o unitate de măsură dificil de interpretat (prin determinarea pătratelor abaterilor
individuale sunt ridicate la pătrat şi unităţile de măsură ale variabilei)
În cazul eşantioanelor de volum mare ( n ≥ 30 ) putem lua în calcul următoarea aproximare ( n -
1 ) ≅ n, dispersia în eşantion fiind:
Dispersia se poate determina şi prin metoda momentelor (dispersia este momentul centrat de
ordinul 2 şi se calculează ca diferenţă dintre momentul iniţial de ordinul 2 şi pătratul
momentului iniţial de ordinul 1):
Abaterea standard (numită şi abatere medie pătratică) este cel mai utilizat indicator de caracterizare a
împrăştierii datelor, fiind un parametru al repartiţiei normale;
Între indicatorii variabilităţi abatere medie liniară (d ) şi abatere standard (s) există următoarea relaţie:
4. Coeficientul de variaţie ( v ) reprezintă expresia relativă a variabilităţii, fiind calculat ca raport între abaterea
standard şi medie:
S
v= * 100
x
Indicatorii sintetici ai variabilităţii, exprimaţi în mărimi absolute, nu permit realizarea comparaţiilor
între serii statistice, din perspectiva variabilităţii/omogenităţii datelor;
Exprimarea în mărime relativă a variabilităţii, prin intermediul coeficientului de variaţie, face posibilă
compararea seriilor statistice din punctul de vedere al variabilităţii;
Omogenitatea ridicată a datelor este asigurată de valori mici ale coeficientului de variaţie;
Dacă două serii statistice au coeficienţi de variaţie diferiţi, seria care are coeficientul de variaţie mai mic
este mai omogenă;
Seriile pentru care v ≤ 30-35% sunt considerate omogene (cu variabilitate redusă), cu medii
reprezentative care caracterizează corect tendinţa centrală a seriei.
Coeficientul de variaţie nu se poate calcula dacă media este nulă ( x = 0), iar pentru valori ale mediei apropiate
de zero, valoarea coeficientului de variaţie poate să fie lipsită de semnificaţie.
Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţie.
CURS 6
1. Media şi dispersia variabilei alternative
2. Indicatorii formei distributiei
3. Regula empirică a lui Cebâșev
4. Standardizarea variabilelor. Scorurile Z
Dispersia (împrăştierea) maximă pentru o variabilă alternativă este egală cu 0,25, înregistrată atunci când
ponderea răspunsurilor afirmative este egală cu cea a răspunsurilor negative (𝑓=1−𝑓=0,5).
2. Indicatori ai formei distribuţiei
Analiza unui set de date univariate numerice nu este completă fără a face aprecieri asupra formei distribuţiei. Se
studiază astfel modul în care valorile individuale ale variabilei sunt concentrate/deplasate comparativ cu valorile
tipice ale distribuţieie (tendinţa centrală).
Distribuţiile empirice se raportează, de regulă, la distribuţia normală teoretică şi se doreşte analiza a două
aspecte:
▪ Măsura în care distribuţia se abate de la forma perfectă de simetrie a valorilor în jurul tendinţei
centrale, analizându-se în acest caz oblicitatea sau asimetria;
▪ Măsura în care valorile variabilei sunt mai împrăştiate sau mai concentrate în raport cu tendinţa
centrală (distribuţia este mai aplatizată sau mai alungită în raport cu distribuţia normală teoretică),
analizându-se în acest caz boltirea sau aplatizarea.
Asimetria (skewness, în engl.) unei serii de distribuţie de frecvenţe poate fi evidenţiată vizual prin reprezentarea
grafică - histogramă sau poligonul frecvenţelor.
Relaţia existentă între valorile indicatorilor tendinţei centrale permite, de asemenea, formularea unor aprecieri
asupra oblicităţii distribuţiei.
Pentru aprecierea intensităţii şi a sensului oblicităţii unei variabile în eşantionul studiat se utilizează o serie de
indicatori/coeficienţi (notaţi CAS) specifici, absoluţi şi relativi, bazaţi pe relaţia dintre indicatorii tendinţei
centrale, dintre indicatorii medii de poziţie, precum şi pe indicatori ai variabilităţii:
coeficient ce are la bază relaţia existentă între indicatorii tendinţei centrale în cazul distribuţiilor moderat
asimetrice: 𝑥 − 𝑀𝑜 ≅ 3(𝑥 − 𝑀𝑒)
Atât semnul, cât şi valoarea indicatorilor oferă informaţii privind dezechilibrul distribuţiei:
Dacă CAS ¿ 0 , avem asimetrie pozitivă, coada distribuţiei este mai alungită la dreapta, în serie
predomină valorile mici;
Dacă CAS ¿ 0 , avem asimetrie negativă, coada distribuţiei este mai alungită la stânga, în serie
predomină valorile mari;
Dacă CAS = 0 , avem serie perfect simetrică;
Dacă CAS → 0, |CAS| ≤ 0,3 seria este moderat asimetrică;
Dacă |CAS| ¿ 1 seria este profund asimetrică, distribuţia empirică diferă semnificativ de distribuţia
normală şi se recomandă tranformarea datelor (se logaritmează valorile variabilei, obţinându-se astfel o
distribuţie cu tendinţă de normalitate).
Coeficientul de boltire sau aplatizare (kurtosis) este o măsură a împrăştierii fiecărei observaţii în jurul unei
valori centrale şi se determină, pe eşantion, cu formula:
Dacă, CBA ¿ 0 avem distribuţie leptocurtică, valorile varibilei fiind concentrate în jurul indicatorilor
tendinţei centrale
Dacă, CBA ¿ 0 avem distribuţii platicurtice valorile varibilei fiind dispersate în raport cu indicatorii
tendinţei centrale
Dacă, CBA = 0 avem distribuţie mezocurtică, adică distribuţia normală.
În EXCEL se utilizează funcţia KURT pentru determinarea coeficientului de boltire (CBA) în eşantion.
3. Regula empirică a lui Cebâşev
Indicatorii tendinţei centrale şi ai variabilităţii oferă informaţii privind forma distribuţiei variabilei studiate.
Media şi abaterea standard permit identificarea anumitor intervale de valori şi determinarea proporţiei cazurilor
care se încadrează în aceste intervale.
Regula empirică lui Cebâşev, evidenţiată în cazul distribuţiilor cu tendinţă de normalitate (moderat asimetrice),
afirmă că:
- aproximativ 68% din valori se situează în intervalul 𝜇 ± 𝜎, adică la cel mult o abatere standard faţă
de medie (𝜇 − 𝜎, 𝜇 + 𝜎);
- aproximativ 95% din valori se situează în intervalul 𝜇 ± 2𝜎, adică la cel mult două abateri standard
faţă de medie (𝜇 − 2𝜎, 𝜇 + 2𝜎);
- aproximativ 99,8% din valori se situează în intervalul𝜇 ± 3𝜎, adică la cel mult trei abateri standard
faţă de medie(𝜇 − 3𝜎, 𝜇 + 3𝜎).
4. Standardizarea variabilelor numerice. Scorurile z
Obiectivul analizelor economico-sociale este, pe de o parte, de a pune în evidenţă relaţiile dintre diferite
variabile, iar pe de altă parte, de a realiza predicţii privind evoluţia lor în interdependenţă.
Pentru a putea compara variabile cu unităţi de măsură diferite se procedează la o transformare a datelor, operaţie
numită standardizarea variabilelor (calcularea scorurilor z).
Scorul z reprezintă o modalitate de a exprima semnificaţia unei anumite valori dintr-o serie de date prin
raportare la parametrii distribuţiei (medie şi abatere standard).
Scorul z se determină prin scăderea mediei din fiecare valoare şi împărţirea rezultatului la abaterea standard,
obţinându-se astfel distanţa dintre o anumită valoare şi medie, în unităţi ale abaterii standard:
- scorul z pentru o observaţie xi din eşantion: 𝑧𝑖= (𝑥𝑖−𝑥̄)/s
- scorul z pentru o observaţie xi din populaţia statistică: 𝑧𝑖= (𝑥𝑖−𝜇)/𝜎
Se obţine astfel o nouă variabilă, numită variabilă standardizată, care are media valorilor egală cu zero şi
dispersia egală cu unu.
Astfel, dacă pentru o anumită unitate statistică, scorul z are semnul ”-” înseamnă că individul respectiv
înregistrează o performanţă sub medie, iar dacă scorul z are semnul „+” atunci individul are o performanţă peste
medie.
Analiza grafică a regulii empirice a lui Cebâşev, într-o distribuţie aproximativ normală, atât pe baza
valorilor iniţiale ale variabilei, cât şi a valorilor standardizate permite formularea următoarelor concluzii:
aproximativ 68% dintre observaţii au scorul z cuprins între -1 şi 1.
aproximativ 95% dintre observaţii au scorul z cuprins între -2 şi 2.
aproximativ 99,8% dintre observaţii au scorul z cuprins între -3 şi 3.
Amplitudinea absolută a variaţiei într-o distribuţie aproximativ normală este de patru ori mai mare decât
abaterea standard:
Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţiei.
Se poate estima aşadar, relativ uşor, în cazul unei distribuţii aproximativ normale, valoarea abaterii
standard/dispersiei dacă se cunoaşte amplitudinea absolută a variaţiei.