Documente Academic
Documente Profesional
Documente Cultură
1. Prezentarea i descrierea statistic a unui eantion observant dup 5 variabile ............................... 2 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 2. Crearea bazei de date ............................................................................................................. 3 Indicatorii tendintei central .................................................................................................... 5 Indicatorii dispersiei ................................................................................................................ 6 Indicatorii distributiei .............................................................................................................. 8 Curba frecventelor .................................................................................................................. 9 Diagrama Box-Plot .................................................................................................................. 9
Estimarea prin interval de incredere a parametrilor unei populatii ............................................. 10 2.1. 2.2. Estimarea statistica prin interval de incredere a unei medii ................................................ 10 Estimarea statistica prin interval de incredere a unei proportii ........................................... 12
3.
Testarea ipotezelor prin valoarea parametrilor si a diferentelor dintre parametric .................... 14 3.1. 3.2. 3.3. 3.4. Testarea egalitatii unei mediei cu o valoare specificata ...................................................... 14 Testarea egalitatii mediilor a doua esantioane independente ............................................. 15 Testarea a doua variabile numerice...................................................................................... 16 Testarea mai multor medii.................................................................................................... 17
4.
Analiza legaturilor statistice .......................................................................................................... 19 4.1. 4.2. 4.3. Analiza de asociere dintre doua variabile categoriale .......................................................... 19 Analiza corelatiei ................................................................................................................... 20 Analiza de regresie ................................................................................................................ 21
5. Prognoza unui fenomen. Analiza trendului. Analiza variatiei sezoniere ........ Error! Bookmark not defined.
Obiectivul proiectului se refera la analiza si descrierea statistica a unei distributii bivariate folosind indicatori ai tendintei centrale, indicatori ai dispersiei si indicatori ai formei precum si o parte a statisticii inferentiale folosind estimarea si testarea unor parametri si analiza statistica a legaturilor dintre variabile (ANOVA, Analiza de corelatie si regresie) Obiectivul urmarit in acest proiect este prezentarea informatiei statistice operative a distributiei firmelor din domeniul industriei prelucratoare in functie de cifra de afaceri, numarul de angajati si productia vanduta precum si precizarea obiectului de activitate al fiecarei firme. Altfel spus, voi verifica existenta relatiei intre 2 variabile categoriale (obiectul de avtivitate si macroregiunea) si 3 variabile numerice (cifra de afaceri, numarul de angajati si productia vanduta). Cifra de afaceri este considerata un indicator de volum de importanta esentiala, deoarece ea arata nivelul activitatii productive a unitatii, modul de utilizare a potentialului tehnico-productiv si modul de comercializare a produselor realizate, respectiv a serviciilor prestate. O crestere a volumului cifrei de afaceri atrage n consecinta premisa cresterii profitului n perspectiva viitoare. Datele ce urmeaza a fi studiate sunt extrase din Bursa de Valori Bucuresti. Cercetarea se realizeaza in anul 2010, fiind cercetate 35 de firme din industria prelucratoare avand ca obiecte de activitate: fabricarea produselor textile, fabricarea articolelor de imbracaminte si fabricarea articolelor de voiaj si marochinarie. Cifra de afaceri are in principiu urmatoarea structura: Venituri din activitatea de baza; Venituri din alte activitati care pot fi atat industrial, cat si de comercializare; Venituri din prestari de servicii.
1.1.
distributii statistice. Distributia bivariata pe care o voi analiza o voi obtine prin gruparea statistica dupa doua caracteristici. Pentru analiza urmarita au fost luate in calcul urmatoarele variabile: Variabile categoriale: Obiectul de activitate si macroregiunea Variabile numerice: Numarul mediu de salariati, productia vanduta si cifra de afaceri
Nr. crt
Denumire firma
Productia vanduta
Cifra de afaceri
Arcvia Minerva SA
Fabricarea articolelor de imbracaminte Fabricarea articolelor de imbracaminte Fabricarea articolelor de imbracaminte Fabricarea aricolelor de voiaj si marochinarie
vest
153.324
19.528.079
Bomatex SA
nord-est
132.93
132.93
Braiconf SA
sud-est
1.119
26.688.031
35.002.064
Bucovina SA
nord-est
153
20.170.828
20.460.464
Bucovina Tex SA
nord-est
85
1.978.894
1.978.894
Comixt SA
sud
61
1.601.373
4.845.262
Confectii SA
nord-est
413
12.084.945
12.330.630
Conted SA
nord-est
497
17.149.441
17.170.244
Ducatex SA
sud
100
10.876.356
10.876.356
10
Favil SA
sud-vest
68
2.225.456
2.493.168
11
Flacara SA
nord-vest
304
11.140.135
11.763.707
12
Flaros SA
sud
12
3.628.633
3.642.291
13
Iasitex SA
nord-est
421
57.594.971
60.009.979
14
Iason SA
centru
169
6.059.830
6.141.081
15
Indor SA
nord-est
129
11.321.125
11.321.125
16
Jatex SA
nord-est
210
6.118.741
6.239.971
17
Lux Periam SA
Fabricarea articolelor de imbracaminte Fabricarea produselor textile Fabricarea aricolelor de voiaj si marochinarie
vest
18
636.44
636.44
18
Matasea Romana SA
centru
87
6.476.410
6.497.928
19
Pantera SA
vest
295.781
295.781
20
Pantex SA
centru
179
6.335.926
8.124.969
21
Pim SA
centru
66
7.984.429
7.992.577
22
Romanofir SA
centru
160
7.017.338
7.081.017
23
Silvana SA
nord-vest
192
11.719.906
15.457.664
24
Simat SA
Fabricarea produselor
4
centru
31
997.139
997.139
textile 25 Siretul Pascani S.A. 26 Sitex Dumbrava SA 27 Stofe SA Fabricarea produselor textile 28 Tarnava SA Fabricarea articolelor de imbracaminte 29 Tesatoriile Reunite SA 30 Textila Oltul SA 31 Transilana SA 32 Tricotaje SA 33 Ucr SA Fabricarea produselor textile Fabricarea produselor textile Fabricarea produselor textile Fabricarea articolelor de imbracaminte Fabricarea aricolelor de voiaj si marochinarie 34 Utt SA Fabricarea produselor textile 35 Vastex SA Fabricarea produselor textile nord-est 451 22.209.829 28.680.118 vest 168 12.204.293 13.078.499 sud 2 49.186 70.581 vest 581 4.369.836 4.461.989 centru 167 22.606.655 22.690.504 centru 429 21.102.433 21.179.896 sud 45 2.330.492 2.434.175 centru 318 7.729.585 8.593.202 nord-est 66 4.032.494 4.658.225 Fabricarea produselor textile centru 10 207.422 259.935 Fabricarea produselor textile nord-est 333 7.596.563 8.136.555
1.2.
Media; Mediana;
5
Analizand datele obtinute putem afirma urmatoarele: Media: In medie,o firma din domeniul industriei prelucratoare obtine anual o cifra de afaceri in valoare de 10.991.161,23 RON; Mediana: 50% dintre firme obtin anual o cifra de afaceri de pana la 7.992.577 RON, iar celelalte 50% dintre firme obtin anual o cifra de afaceri cu peste 7.992.577 RON; Modul: La nivelul esantionului considerat, cele mai multe firme au o cifra de afaceri anuala in valoare de 63.644 RON; Quartila 1: 25% dintre firme au o cifra de afaceri anuala de pana la 24.931.168 RON si 75% dintre firme au o cifra de afaceri anuala de peste 24.931.168 RON; Quartila 2: 50% dintre firme obtin anual o cifra de afaceri de pana la 7.992.577 RON, iar celelalte 50% dintre firme obtin anual o cifra de afaceri cu peste 7.992.577 RON; Quartila 3: 75% dintre firme au o cifra de afaceri anuala de pana la 15.457.664 RON si 25% dintre firme au o cifra de afaceri anuala de peste 15.457.664 RON
1.3.
Indicatorii dispersiei
Dispersia reprezinta fenomenul de imprastiere a valorilor individuale x, ale unei
variabile X, fata de nivelul lor mediu. In cazul variabilelor numerice (tip scala), parametrii dispersiei sunt: amplititudinea variatiei, varianta, abatarea medie patratica, abatarea medie liniara, coeficientul de varatie.
Demersul in SPSS presupune parcurgerea urmatorilor pasi: Meniul Analyze, optiunea Descriptive Statistics, comanda Frequencies. In fereastra Frequencies, se alege Statistics: Dispersion (Variance, Standard Deviation, Minimum, Maximum)
Analizand datele obtinute putem afirma urmatoarele: Abatarea medie patratica: Cifra de afaceri a unei firme se abate in plus sau in minus de la cifra de afaceri medie cu 12.078.609,249 RON; Intervalul mediu de variatie: ( S) 68,27% dintre firme au o cifra de afaceri anuala
cuprinsa intre (-1087442,019; 23069770,479); Varianta: Acest indicator sintetic al dispersiei are mai mult o semnificatie de calcul;
Amplititudinea: Intre cifra de afaceri maxima si cea minima exista o diferenta de 5.9946.335 RON; Minimum si Maximum ne reda care este nivelul maxim respective nivelul minim al cifrei de afaceri intalnit in cadrul esantionului studiat. Coeficientul de variatie: v = * 100 = 109,89%. Acest coefficient de variatie ne arata cu cate procente se abate nivelul cifrei de afaceri in plus sau in minus de la media acesteia. Acest coeficient luand o valoare de 109,89%, ne permite sa evaluam aceasta colectivitate ca fiind neomogena sau eterogena, iar media nu este reprezentativa. 1.4.
Indicatorii distributiei
Pentru aprecierea formei unei distributii, se folosesc: Coeficientul de asimetrie; Coeficientul de boltire sau aplatizare
Coeficientul de asimetrie ia valoarea 2,314, ceea ce indica o distributie care difera semnificativ fata de o distributie normal, distributie simetrica. Coeficientul de boltire ia valoarea 7,193, ceea ce indica o grupare mai puternica a valorilor in jurul valorilor centrale, curba este mai boltita decat o distributie normala, avand o distributie leptocurtica.
1.5.
Curba frecventelor
Interpretare: Se observa ca pe ansamblu, esantionul are o distributie dupa cifra de afaceri asimetrica la dreapta, predominand o valoarea a cifrei de afaceri cuprinsa intre 0 si 10.000.000 RON
1.6.
Diagrama Box-Plot
Diagrama Box-Plot este folosita pentru prezentarea unei distributii dupa o variabila
numerica, chiar atunci cand numarul datelor de care dispunem este mic. Constructia sa presupune ordonarea datelor si impartirea lor in 4 grupe, fiecare grupa reprezentand 25% din distributie. Sunt marcate astfel 5 valori ale variabilei, si anume: valoarea minima si valoarea maxima, fara outlieri, quartila1, quartile 3 si mediana.
Interpretare: Avand in vedere ca diferenta dintre mediana si quartila 1 este mai mica decat diferenta dintre quartile 3 si mediana, aceasta diagram ne indica o distributie cu asimetrie la dreapta.
2.
eantion, la nivelul populaiei din care este extras, adic se afl valoarea unui parametru al unei populaii pe baza datelor nregistrate la nivelul unui eantion extras din aceasta. Estimarea poate fi punctual sau prin interval de ncredere. n acest caz se va estima prin interval de ncredere.
2.1.
Pentru baza de date analizat se va calcula media cifrei de afaceri ntr-o perioad de un an de zile i intervalul de ncredere corespunztor. Pentru aceasta se parcurge demersul: meniul Analyze Descriptives Statistics Explore. Se stabilete nivelul de ncredere de 95%, i apoi de 99%.
Interpretare: Putem afirma cu o probabilitate de 95% c media cifrei de afaceri este cuprins ntre 6842013,78 i 15140308,68. Se obin urmtoarele reyultate pentru intervalul de ncredere de 99%:
11
Interpretare: Putem afirma cu o probabilitate de 99% c media cifrei de afaceri este cuprins ntre 5420714,13 si 16561608,32.
2.2.
intervalului de ncredere presupune efectuarea mai multor operaii, i anume: calculul estimaiei proporiei, prin demersul: Analyze Descriptive Statistics Frequencies . Dup selectarea variabilei se bifeaz Display frequency tables; se afl valoarea variabilei Z pentru intervalul de ncredere considerat. Pentru un nivel dencredere de 95%, Z = 1.96; pentru un nivel de ncredere de 99%, Z = 2.55; se calculeaz eroarea standard iar n este volumul eantionului; se calculeaz limitele intervalului folosind formula , respectiv , unde este abaterea standard,
Urmnd aceiai pasi se va estima proportia produselor de voiaj i marochinrie din totalul produselor.
12
Interpretare: Se poate observa c ponderea produselor de voiaj si marochinarie este de 20% din totalul produselor. Calculul erorii: : pentru f = 20%, nlocuind n formula prezentat mai sus se obine valoarea 0.004. Calculul limitelor intervalului de ncredere: Pentru z = 1.96 , se obine:
Interpretare: Ne putem atepta, cu o ncredere de 95%, ca procentul produselor de voiaj si marochinarie din totalul cifrei de afaceri sa fie cuprins intre 19,31% si 20,78%. Pentru z = 2,55 , se obine:
Interpretare: Ne putem atepta, cu o ncredere de 99%, ca procentul produselor de voiaj si marochinarie din totalul cifrei de afaceri sa fie cuprins intre 18,98% si 21,02%.
13
Testarea mediei cu o valoare fixa se realizeaza utilizand procedeul One-Sample T Test. Acest lucru presupune parcurgerea demersului: Analyze Compare Means One-Sample T Test. Se va analiza daca valoarea medie a cifrei de afaceri a unei firme difera sau nu de 10.000.000 RON .
One-Sample Statistics
N cifradeafaceri 35
Mean 10991161.23
One-Sample Test
cifradeafaceri
0.485
34
0.630
991161.229
-3157986.22 5140308.68
Interpretare: Valoarea medie observat este de 10.991.161,23 RON; valoarea specificat este 10.000.000RON; diferena dintre valoarea medie observat i cea ipotetic este de 10.991.161,23RON. Avnd n vedere c valoarea Sig. , se accepta ipoteza ceea ce inseamna ca media cifrei de afaceri nu difera semnificativ de 10.000.000 RON. ,
3.2.
imbracaminte si fabricarea articolelor de voiaj si marochinarie din care au fost extrase esantioanele observate, exista diferente semnificative. Se garanteaza rezultatul cu o probabilitate de 95%. Pasii pe care i-am urmat pentru efectuarea testarii sunt urmatorii: Formularea ipotezelor statistice: ( intre cele doua valori nu exista diferente semnificative) ( intre cele doua valori exista diferente semnificative) Alegerea testului statistic: Testul Student Consideram riscul =0,05 Stabilirea deciziilor: Daca sig, sau Daca sig<, sau
15
In acest caz testul t = 0,604, cu 19 grade de libertate si o probabilitate Sig.=0.553 (mai mare decat 0,05), si ne arata ca pentru mediile celor 2 domenii de activitate (10264954,36 si 7808453,57) nu se poate trage concluzia ca difera semnificativ. La aceeasi constatare ajungem si prin observarea intervalului de incredere [6062393;+10975394,684] pentru diferenta dintre cele doua valori. Intervalul contine 0, ca urmare nu se poate trage concluzia ca diferenta dintre valorile medii ale celor doua domenii de activitate este semnificativa.
3.3.
de puncte:
16
Analizand norul de puncte din figura de mai sus, arata ca intre cele doua variabile considerate (cifra de afaceri si productia vanduta) exista o legatura liniara, directa, relativ stransa. In functie de valoarea raportului de determinatie ( R Sq Linear=0,91) putem afirma ca 91% din variatia cifrei de afaceri este explicata prin variatia productiei vanduta.
3.4.
care poate fi utilizat n analiza variaiei unei variabile n raport cu factorii de influen. Principiul de baz: variaia total este descompus n suma variaiei dintre grupe i avariaiei din interiorul grupelor. Pentru o distribuie bivariat cu variabile de natur diferit, o variabil nominal i una exprimat cantitativ se poate aplica analiza variaiei prin ANOVA.
17
Procedeul ANOVA msoar impactul valorilor unor variabile nominale asupra dispersiei valorilor unei variabile cantitative. Variabilele utilizate n cadrul analizei ANOVA sunt: cifra de afaceri (variabila numerica) i domeniul de activitate (variabila categoriala). n SPSS, am ales opiunea One-Way ANOVA din comanda Compare Means a meniului Analyze. Pasii pe care i-am urmat pentru efectuarea testarii sunt urmatorii: Formularea ipotezelor statistice: (subdomeniile de activitate nu influenteaza semnificativ variatia cifrei de afaceri) cel putin mediile cifrei de afaceri a doua domenii de activitate sunt diferite intre ele Alegerea testului Pentru verificarea ipotezei Fisher Regula de decizie: Daca Daca , atunci se respinge ipoteza nula. , atunci se accepta ipoteza nula. , in ANOVA se foloseste statistica test F raportul
Una dintre restrictiile aplicarii ANOVA o constituie homoscedasticitatea, adica se presupune ca variatiile grupelor sunt egale. Aceasta ipoteza o verificam cu ajutorul testului Levene-test of Homogeneity of Variances
18
Interpretare: Valoarea Sig. (testul Levene) egala cu 0,230 este mai mare decat 0,05, sugerand ca variantele pentru cele trei domenii sunt egale. In aceste conditii se respecta restrictia de homoscedasticitate, putandu-se aplica ANOVA.
Interpretare: in tabelul ANOVA sunt prezentate: statistica test F, valoarea Sig., precum si elementele de calcul pentru statistica test F. In exemplul considerat, statistica test F, se poate garanta cu o probabilitate de 95 % ca factorul de grupare Domeniul de activitate nu are o influenta semnificativa asupra cifrei de afaceri.
Consideram cele doua variabile categoriale ca fiind: X: macroregiunea: centru, nord-est, nord-vest, sud, sud-est, sud-vest, vest. Y: domeniul de activitate: Fabricarea articolelor de imbracaminte, Fabricarea aricolelor de voiaj si marochinarie, Fabricarea produselor textile. Pasii in SPSS: Analyze Descriptive statistics crosstabs
19
Interpretare: Conform testului chi-patrat Sig.-ul este mai mare decat , ceea ce semnifica acceptarea ipotezei sunt independente. 4.2. , indicand faptul ca variabilele macroregiunea si demeniul de activitate
Analiza corelatiei
Analiza de corelaie presupune msurarea gradului de intensitate a legturii dintre
variabilele numerice, precum i testarea semnificaiei legturii. Acest lucru se realizeaz urmnd paii: Analyze Correlate Bivariate Folosim analiza de corelatie pentru a studia intensitatea legaturii dintre cifra de afaceri si productia vanduta. Vom exprima in continuare corelatia prin coeficientul de corelatie Pearson. n cazul celor dou variabile numerice studiate (cifra de afaceri siproductia vanduta) se obine urmtorul output:
Interpretare: Se observ c s-a obinut un coeficient de corelaie Pearson egal cu 0.954, ceea ce nseamn c ntre cele dou variabile exist o corelaie directa, valoarea coeficientului fiind apropiata de unu.
20
4.3.
Analiza de regresie
Analiza de regresie presupune aproximarea modelului de regresie, estimarea i
testarea parametrilor modelului de regresie. ntre cele dou variabile numerice se poate stabili o legtur liniar dat prin ecuaia de regresie liniar simpl, care are forma: Y i= + xi+ i n care: Y variabila dependent (cifra de afaceri) X variabila independent (numarul mediu de salariati) variabila aleatorie eroare sau reziduala Estimarea parametrilor modelului de regresie presupune parcurgerea demersului: Analyze Regession Linear, prin care se deschide fereastra de dialog Linear Regession. Urmnd paii necesari, n output se analizeaz Model Summary, ANOVA, Coefficients. Tabelul Model Summary prezint valoarea coeficientului de corelaie R, valoarea raportului de determinaie eroarea standard a estimaiei.
Model Summary(b)
Error the
Estimate 9822155.4 78
a Predictors: (Constant), numarmediudesalariati b Dependent Variable: cifradeafaceri Interpretare: Valoarea lui R este 0,598, ceea ce indic faptul c ntre cele dou variabile exist o legtur direct. Valoarea lui este 0.358, ceea ce indic faptul c 35,8% din variaia cifrei de afaceri este explicat prin variaia numarului de salariati . Aceasta este o valoare destul de mic, ceea ce nseamn c modelul ales nu explic foarte bine legtura dintre variabile. Tabelul Regression ANOVA prezint rezultatele analizei varianei variabilei dependente sub influena factorului de regresie i a factorului reziduu. Prezint informaii
21
asupra sumei ptratelor abaterilor variabilei dependente, gradele de libertate, estimaiile varianelor datorate celor dousurse de variaie, raportul F iSig
Interpretare: Aici ne sunt prezentate informatii despre suma patratelor abaterilor variabilei dependente (Sum of Square), gradele de libertate (df), estimatiile datorate celor doua surse de variatie, adica regresie si reziduu (Mean Square), statistica testului F si valoarea nivelului de semnificatie Sig. Deoarece testul F ia o valoare de 18,416 iar valoarea nivelului de semnificatie Sig=0.00, corespunzatoare statistici F este mica, atunci cifra de afaceri explica variatia numarului de salariati si invers. In exemplul considerat, valoarea Sig. pentru F este mai mica decat 0,05, deci relatia liniara dintre cele doua variabile considerate este semnificativa. Un tabel important in analiza regresiei il reprezina cel al coeficientilor. Aceasta arata cu cat se modifica variabila cifra de afaceri in functie de modificarea variabilei numarul mediu al salariatilor precum si daca modificarea este semnificativa, prin valoarea lui Sig. In acest tabel avem prezentati coeficientii nestandardizati ai modelului de regresie estimat, erorile standard ale acestora, coeficientii de regresie standardizati cu erorile standard corespunzatoare, precum si valorile statisticii t si valorile Sig corespunzatoare.
22
Testarea parametrilor modelului de regresie se face cu ajutorul testului t, pentru a se afla care este probabilitatea ca fiecare parametru sa fie nul: : =0 Pentru exemplul dat valoarea Sig este egala cu 0,000 este mai mica decat 0,05, aratand ca (panta dreptei de regresie) corespunde unei legaturi semnificative intre cele doua variabile. Ecuatia dreptei de regresie va fi:
Interpretare: La cresterea cu un angajat a dimensiunii firmei, cifra de afaceri creste in medie cu 317151,41 RON.
23