Sunteți pe pagina 1din 12

STATISTICA DESCRIPTIVĂ

IntroduceŃi următoarele date de la adressa www.insse.ro :

După ce introduceŃi conŃinutul unei celule, validaŃi acest fapt cu [Enter] sau [Tab].

2.Pentru a edita conŃinutul unei celule folosiŃi tasta [F2] sau dublu click.

Pentru formatarea celulelor selectaŃi domeniul dorit. AlegeŃi din meniu


comanda Format - Cells - Alignment şi selectaŃi opŃiunea Center din
caseta derulantă pentru aliniere în centrul celulei, selectaŃi opŃiunea
Merge text pentru reuniunea mai multor celule, selectaŃi opŃiunea
Wrap text pentru spargerea textului pe mai multe rânduri.(de ex.
Celula B1)

:
4. Pentru formatare selectaŃi domeniul dorit. AlegeŃi din meniu comanda
Format - Cells - Border şi selectaŃi tipul de linie dorită pentru
încadrarea celulei sau domeniului selectat, apoi apăsaŃi butonul
pentru tipul de încadrare dorită.

3. Pentru a calcula numărul total de cauze în celula B17: se face clic pe B17 şi se
introduce formula =SUM(B2:B16) sau se face clic pe butonul Σ
4.Pentru calculul frecvenŃelor relative în celulele C2:C16: se înscrie în C2 formula pentru
anul 1990=B2/$B$17 , în care B2 – referinŃă relativă=nr. cauze 1990 iar $B$17 – referinŃă
absolută=total general nr.cauze

Pentru calcularea formulei şi în pentru ceilalŃi ani fie prindem cursorul de umplere şi tragem
în josul coloanei pănă la C16 sau executăm operaŃia Fill astfel: selectăm domeniul de la
C3 la C16; din meniul Edit alegem opŃiunea Fill Down.
Tot domeniul selectat se va completa cu formula calculată în celula C2. ReferinŃa relativă
B2 va varia de la B2 la B16, iar referinŃa absolută $B$17 va rămâne neschimbată

4. Pentru ca frecvenŃele relative să fie exprimate în procente selectăm domeniul după


care din meniul Format—Format cells—Number—Percentage
Pentru a micşora numărul de zecimale apăsaŃi pe butonul

5.Pentru a obŃine evoluŃia temporală a numărului de cauze soluŃionate se urmează operaŃiile:

• Se selectează domeniul C1:C16


• Se alege din meniul Insert—Chart după care se urmează paşii din Chart Wizard
Pentru calcularea parametrilor statisticii descriptive Excel oferă mai multe moduri: prin
calcularea funcŃiilor, un mod simplu şi mai rapid: pachetul de calcule statistice Data Analysis
Tool oferit de Excel – opŃiunea Descriptive Statistics, tabelul pivot pentru calculul
statisticilor descriptive pe subgrupuri de date. Se pot calcula următorii parametrii: sumă,
medie aritmetică, modul, minim, maxim, deviaŃie standard, variaŃie, eroare standard, kurtosis,
skewness, interval de confidenŃă, al k-lea element mai mic sau mai mare, talia, şi intervalul.
ToŃi aceşti parametrii se pot calcula pentru una sau mai multe variabile.

Vom rezolva această problemă cu ajutorul componentei Data Analysis – Descriptive


Statistics:

1. Pentru a folosi pachetul Data Analysis el trebuie instalat. Pentru aceasta verificaŃi
dacă nu a fost instalat deja: deschideŃi meniul Tools. Dacă opŃiunea Data Analysis
este prezentă, atunci se trece la pasul următor. Dacă opŃiunea Data Analysis nu este
prezentă, atunci din meniul Tools se alege opŃiunea Add-Ins. Va apărea o fereastră
asemănătoare celei de mai jos în care se va bifa prima opŃiune Analysis ToolPak.
ApăsaŃi butonul Ok.
2. AlegeŃi opŃiunea Data Analysis din meniul Tools. Din fereastra de dialog care apare
selectăm Descriptive Statistics. Clic pe OK.

3. După apăsarea butonului OK pe ecran va apărea următoarea fereastră de dialog:

Urmează o descriere a câmpurilor ferestrei de dialog de mai sus:


4. Input Range: IntroduceŃi referinŃele domeniului unde se găseşte variabila pentru care
dorim să calculăm parametrii statisticii descriptive. În cazul nostru B1:B16. Pentru
introducere executaŃi click în câmpul Input Range, apoi click în celula B1 şi executaŃi
o selecŃie până în celula B16.
5. Grouped by: se va selecta Columns dacă fiecare variabilă este introdusă într-o
coloană sau Rows dacă fiecare variabilă este introdusă într-o linie. În cazul nostru
vom bifa Columns.
6. Labels in first row. Antetul de coloană sau linie poate să fie selectat sau poate lipsi.
Dacă selectăm şi antetul de coloană, atunci în pagina de rezultate va apărea acel
antet, adică numele variabilei. In acest caz trebuie să bifăm Labels in first row. Dacă
nu bifăm funcŃia va întoarce eroarea: “Input range contents non numeric data”,
deoarece se consideră şi antetul de coloană ca fiind una dintre valorile variabilei. In
cazul în care nu selectăm antetul de coloană, ar trebui să nu bifăm nici Labels in first
row. Dacă bifăm Labels in first row atunci prima valoare a variabilei va fi luată drept
antet de coloană şi rezultatele vor fi greşite. In cazul nostru selectăm labels in first
row.
7. OpŃiunile Output se referă la locul amplasării tabelului de frecvenŃă. Dacă vom
selecta opŃiunea New Worksheet Ply,tabelul de frecvenŃă va fi afişat la o pagină
nouă al cărei nume trebuie introdus în câmpul New Worksheet Ply. Output Range
este pentru cazul în care dorim ca rezultatul să fie afişat pe aceeaşi pagină cu
tabelul începând cu o anumită celulă care trebuie introdusă în câmpul Output
Range.( în cazul nostru C1)New Woorkbook se bifează în cazul în care dorim ca
rezultatul să fie afişat într-un alt fişier.

Cel puŃin una dintre următoarele opŃiuni trebuie selectate.

8. Summary statistics se bifează pentru ca să se calculeze statisticile principale.


9. Confidence Level for Mean se bifează pentru a se calcula şi semi- lungimea
intervalului de încredere pentru media populaŃiei. Nivelul de confidenŃă implicit este
95%, se poate schimba cu un alt număr de la 1 la 99,9.
10. Kth Largest întoarce numărul al k-lea mai mic decât numărul cel mai mare. K este o
constantă care se introduce în câmpul corespunzător. Clic pe Kth Largest.
IntroduceŃi numărul 2 în câmpul Kth Largest.
11. Kth Smallest întoarce numărul al k-lea mai mare decât numărul cel mai mic. K este o
constantă care se introduce în câmpul corespunzător. Poate fi diferit de K de la
punctul 10. Clic pe Kth Smallest. IntroduceŃi numărul 2 în câmpul Kth Smallest.
12. Click OK.

13. Interpretarea rezultatelor

• Mean – În medie s-au soluŃionat 458 de cauze. de către un judecător

S
ES =
• Standard Error – Eroarea standard calculată după formula: n , unde S este
deviaŃia standard şi n numărul de observaŃii.

• Median – Mediana este o valoare a seriei astfel încât jumătate dintre observaŃii
au valori mai mici (sau egale) şi cealaltă jumătate au valori mai mari (sau egale).
Dacă n este impar, atunci mediana este dată prin formula:
X n +1
Me = 2 .

Dacă n este par, atunci mediana este dată prin formula:

Xn + Xn
+1
2 2

Me = 2 .

• Mode – Modulul este valoarea care are cea mai mare frecvenŃă din serie. In
cazul modulului o situaŃie care apare este cea în care seria nu are modul, adică
toate valorile apar o singură dată. Atunci va fi afişată valoarea #N/A. O altă
situaŃie posibilă este ca seria să fie bimodală sau trimodală. Atunci va fi afişată
numai prima valoare în ordinea apariŃiei lor în cadrul seriei. In acest caz pentru
determinarea tuturor valorilor modulului se poate face un tabel de frecvenŃă.

• Standard Deviation – DeviaŃia standard sau Abaterea standard S = s 2 . Unde s2


este variatia.

∑(X i − X )2
s2 = i =1

• Sample Variance – VariaŃia este calculată după formula: n ,


X i , i = 1, n
unde n este talia seriei, seria de date, în cazul nostru ,numărul de cauze
soluŃionate şi X este media aritmetică a seriei.

• Kurtosis – Excesul sau Boltirea măsoară înălŃimea aplatizării sau boltirii unei
distribuŃii în comparaŃie cu o distribuŃie normală. Această măsură este definită
prin:

1 n
⋅ ∑ (X i − X )4
n i =1
−3
α4 = S4 .

Excesul α4 este zero pentru o serie de date având o distribuŃie normală, este
pozitiv pentru o serie de date având forma mai înaltă decât cea a unei distribuŃii
normale (cu media X şi variaŃia S2) şi este negativ pentru o serie de date a cărei
formă este mai coborâtă decât cea a unei distribuŃii normale. In cazul nostru
valoarea -0,669 a boltirii indică o curbă puŃin mai aplatizată decât curba
normală.

• Skewness – Asimetria măsoară abaterea de la aspectul simetric şi direcŃia


asimetriei (pozitivă sau negativă) faŃă de curba normală. Este calculată cu
formula:
n

∑ [( X i − X ) / S ]3
α3 = i =1

Asimetria este 0 pentru o serie de date având o distribuŃie normală, este pozitivă
pentru o serie de date asimetrică spre stânga (seria are mai multe valori mai
mici), este negativă pentru o serie de date asimetrică spre dreapta (seria are mai
multe valori mai mari). In cazul nostru asimetria este 0,198, deci este puŃin
deplasată la dreapta faŃă de curba normală.

• Range – Intervalul este Maximul-Minimul. Maximul este 678, iar minmul este 390
Range=678-390=288

• Minimum – Minimul valoarea cea mai mică din serie.

• Maximum – Maximul valoarea cea mai mare din serie.

∑X i
X i , i = 1, n
• Sum – Suma sau Totalul valorilor seriei: i =1 , unde seria de date.

• Count – Numărul de observaŃii n=15.

• Largest(2) - Numărul al k-lea mai mic decât numărul cel mai mare.

• Smallest(2) - Numărul al k-lea mai mare decât numărul cel mai mic.

• Confidence Level (95,0%) – întoarce o valoare cu ajutorul căreia se poate


construi intervalul de confidenŃă de 95% pentru media populaŃiei. Această
valoare este 42.23 intervalul este =[ X -42.23, X +42.23] = [], unde X este media
aritmetică a eşantionului. Fie m media populaŃiei situată în acest interval. Media
oricărui eşantion al acestei populaŃii este mai departe de m ca X cu o
probabilitate mai mare decât alpha. Alpha în cazul nostru este 5%. Presupunem
că utilizăm X , deviaŃia standard standard şi talia pentru a construi un test cu un
prag de semnificaŃie alpha în ipoteza că media populaŃiei este m. Nu vom
respinge ipoteza dacă m este în intervalul de confidenŃă şi vom respinge ipoteza
dacă m nu este în intervalul de confidenŃă. Dacă alpha este 0,95 trebuie să
calculăm aria de sub curba normală. Această valoare este 1,96. Intervalul de
[ X − tcrit ES , X + tcrit ES ]
confidenŃă este: , unde X este media aritmetică, iar ES este
tcrit ES
eroarea standard, iar t critic este 1,96. Valoarea întoarsă de program este .
Se poate calcula şi cu funcŃia CONFIDENCE.