Documente Academic
Documente Profesional
Documente Cultură
SUPORT CURS
INFORMATIC JURIDIC
SUPORT DE CURS
Anul IV
Semestrul II
2014-2015
Cuprins
prin identificarea,
Fenomene colective: (generale) sau de mas spre deosebire de cele tipice, sunt fenomene
complexe, atipice, rezultate din aciunea combinat i reperat a unui numr mare de
factori de influen.
Fenomenelecolective, prin definiie, se caracterizeaz prin mai multe elemente specifice:
1. nu se pot reproduce identic aproape niciodat:
fenomene sociale , fenomene biologice, unele fenomene anorganice (meteorologie) ;
exemple: variaia preului petrolului, rate de schimb, variaia incidenei unei boli etc Astfel ,
pentru ca, din punct de vedere statistic, esena lor s fie pus n eviden este nevoie de un
numr mare de cazuri individuale. De exemplu, pentru formarea preului petrolului este
necesar un numr mare de productori i consumatori;
a. cauze foarte numeroase i foarte variate ;
b. caracterul esenial al variabilitii efectului unei cauze asupra manifestrii
fenomenului, adic o aceeai cauz ,adesea de minim importan, poate avea
cnd un efect neglijabil , cnd un efect de preponderen capital ;acest fapt d
fenomenelor colective nfiarea ntmplrii ,a hazardului ;
2. fenomenele de mas prin definiie - se caracterizeaz prin variabilitate. Variabilitatea
este un concept cheie n statistic. Indivizii n aparen asemntori prezint, de fapt,
numeroase trsturi distinctive.Astfel de diferene, mai mult sau mai puin
3
1. Populaie
Populaie sau colectivitate statistic este o colecie de obiecte (entiti elementare,
indivizi), posednd toate o anumit caracteristic comun i care sunt supuse unui studiu
statistic( reprezint totalitatea elementelor de aceeai natur, care au trsturi eseniale
comune )
Colectivitatea statistic (sau populaia statistic) este o noiune fundamental a statisticii i
reprezint principala form sub care se delimiteaz i se definesc fenomenele
colective.Colectivitatea statistic este ntlnit i sub denumirea de populaie statistic sau
pur i simplu populaie.
Ea desemneaz totalitatea elementelor de aceeai natur care sunt supuse studiului statistic.
Aceasta nseamn c o mulime de elemente formeaz o colectivitate statistic numai dac au
aceeai natur, sunt asemntoare sau sunt omogene din punctul de vedere al anumitor
criterii. Populaiile pot fi finite sau infinite; concrete sau abstracte
Colectivitatea statistic se prezint ntr-o varietate de forme. Din acest motiv, una din
problemele eseniale ale unei cercetri statistice o reprezint delimitarea colectivitii
statistice n timp i spaiu, din punctul de vedere al coninutului i al formei de organizare.
n funcie de natura unitilor, colectivitile statistice sunt alctuite dintr-un ansamblu de:
persoane (populaia Romniei la recensmntul din 2011),
obiecte (parcul de maini din unitile de turism din Romnia la o anumit dat),
evenimente (cstoriile n cursul unei perioade; intrrile n contul unei societi
comerciale ntr-un trimestru etc.),
idei sau opinii (opiniile consumatorilor despre calitatea unor tipuri de mobil, maini de
uz casnic etc.).
De exemplu, dac dorim s studiem problema neparticiprii colare, atunci populaia va
consta din totalitatea copiilor de vrst colar din Romnia. Dac ns obiectul studiului este
gradul de poluare a localitailor urbane, atunci populaia va consta din toate oraele
Romniei. n statistic aadar, cnd ne referim la populaie avem n vedere mulimea
unitailor de analiz, indiferent ce reprezint acestea (coli, orae,ntreprinderi, ri, oameni
sau chiar procese, fenomene i aciuni).
Aceste exemple pun n eviden faptul c n statistic colectivitile statistice pot fi privite:
static (cnd exprim o stare, un nivel la un moment dat ) i
dinamic (cnd exprim un proces sau o devenire n timp).
8
Unitile colectivitii statistice sunt purttoare de informaii sau sunt subiectele logice ale
informaiei statistice deoarece asupra lor se efectueaz nemijlocit observarea. Unitile
colectivitii statistice exist la un moment dat. Unitile colectivitilor dinamice
desemneaz evenimente, procese sau fluxuri i se produc n decursul timpului, se refer la
perioada sau intervalul de timp n care se produc evenimente statistice.
Unitile statistice sunt simple i complexe.
Unitile simple reprezint elementele constitutive specifice naturii fenomenelor (de
exemplu, persoana fizic, angajatul, produsul etc.) i care formeaz aceeai
colectivitate.
Unitile complexe sunt formate din mai multe uniti simple, organizate n funcie de
criterii social-economice (de exemplu, ara,familie, echipa de lucru, grupe de studeni,
unitatea economic etc.). inteligenta unui student, poate fi exprimat printr-un
ansamblu de variabile.
2. Caracteristica statistic
Caracteristica statistic sau atributul variabil: desemneaz nsuirea, proprietatea,
trstura comun unitilor unei colectiviti statistice, reinut n programul statistic pentru a
fi nregistrat i care capt accepiuni sau valori diferite de la o unitate la alta sau de la un
grup de uniti la altul.
Exemple de caracteristici statistice pot fi: vrsta, greutatea, sexul, culoarea ochilor,numrul
de infraciuni , statutul matrimonial, naionalitatea, ocupaia, cifra de afaceri, nivelul
extrasului de cont etc.
Caracteristicile statistice se mai numesc variabile statistice sau variabile aleatoare ,
deoarece au proprietatea de a-i modifica valoarea n timp i spaiu de la o unitate la alta.
Asadar, o caracteristica studiata (de exemplu gradul de corupie ) ar putea fi reprezentat,
direct sau indirect, prin mai multe variabile statistice
Caracteristicile (variabilele) statistice pot fi clasificate n funcie de diferite criterii
a) n funcie de variaia manifestat de caracteristici acestea pot fi cu variaie continu sau
cu variaie discret (discontinu).
9 Variabila discret ia numai valori ntregi (numrul persoanelor dintr-o familie,
numrul de cauze soluionate de un judector , numrul de piese rebut dintr-un lot;
numrul de turiti la o staiune de turism montan etc.).
9 Variabila continu poate lua orice valoare ntr-un interval finit sau infinit. ,adic ,
ntre dou valori succesive ale variabilei pot exista o infinitate de valori
(greutatea,tonajul unui vas,cifra de afaceri).
Datele discrete sunt rspunsuri numerice care apar n urma unui proces de
numrare, n timp ce datele continue sunt rspunsuri numerice care apar n urma
unui proces de msurare.
b) Nivelul de msurare al variabilelor este un alt criteriu de clasificare a acestora,
. Putem distinge ntre patru niveluri de msurare (nominal, ordinal, de interval i de raport),
n funcie de trei criterii:
posibilitatea de a ordona valorile variabilei,
egalitatea intervalelor dintre valorile variabilei (sau altfel spus existena unei uniti de
msur),
existena unei "origini" a variabilei sau, cu alte cuvinte, a unui "zero absolut".
1. Nivelul de msurare nominal (de clasificare ) presupune clasificarea valorilor
posibile ale caracteristicii n categorii care trebuie s fie distincte, mutual exclusive
i exhaustive.
Acest tip de variabile (respectiv scalele folosite n msurare) indic numai faptul c
exist o diferen calitativ ntre categoriile studiate, nu i magnitudinea acestei
diferene. La limit, putem privi aceste variabile ca pe nite tipologii. Cteva
exemple de variabile msurate la nivel nominal sunt:
statutul
ocupaional
al
indivizilor
(agricultor,
salariat,
mic
Valorile acestui tip de variabile nu pot fi ordonate, sau cu alte cuvinte nu exist o
ierarhie (dect eventual conform unor criterii extrinseci) i n consecin problema
"distanei" sau a intervalelor dintre valori nici nu poate fi pus.
Numerele sunt atribuite observaiilor pentru a face doar judeci despre identiti sau
diferenieri de categorie. Cu ajutorul scalei nominale numerele repartizate unor
observaii servesc drept numele lor. Numerele sunt atribuite fiecrei categorii doar
pentru a identifica uniti similare din interiorul unei categorii i pentru a diferenia
aceste uniti similare de elementele unei alte categorii diferite.
Se face, astfel, o difereniere de specie, dar nu i de grad.
10
nivel, cel nominal nu sunt permise nici ordonarea, nici operaii aritmetice (adunarea/scderea
,nmulirea/mprirea.) La nivelul ordinal este permis numai ordonarea, la cel de interval
sunt permise n plus i operaiile de adunare/scdere, iar la ultimul nivel, cel de raport sunt
permise toate operaiile.
n funcie de nivelul de msurare, vom vorbi despre variabile msurate la nivel nominal,
variabile msurate la nivel ordinal etc., sau, mai pe scurt, variabile nominale,
ordinale, de interval i de raport.
c) n funcie de modul de exprimare
9
9
caracteristici alternative (binare sau dihotomice), acelea care pot lua doar
dou variante de rspuns, dup modelul adevrat/fals din logic: sex (M/F),
stagiul militar (efectuat/neefectuat), starea civil (cstorit/necstorit);
3. Eantionul
Eantionul este o submulime a populaiei analizate.
Cu ct este mai numeroas o colectivitate, cu att devine mai dificil cercetarea tuturor
elementelor ei.. Soluia poate s fie, atunci, s extragem o subcolectivitate din colectivitatea
general (numit i colectivitate parial, eantion sau colectivitate de selecie).
Extragerea unui eantion din populaie este util i chiar necesar n condiiile n care
resursele (financiare, de timp etc.) de care dispun iniiatorii studiului nu sunt suficiente pentru
a asigura investigarea ntregii populaii.
Eantionul reprezint un subset de elemente selectate aleatoriu dintr-o colectivitate
statistic.
n felul acesta, se vor estima parametrii colectivitii totale pe baza rezultatelor obinute n
colectivitatea de selecie, iar ceea ce a fost determinat ca fiind tipic, esenial i caracteristic n
eantion, se presupune c ar fi fost gsit dac s-ar fi cercetat colectivitatea general.
Soliditatea acestei presupuneri depinde de modul cum a fost extras eantionul, iar de
acurateea acestui proces depinde succesul demersului statistic. Reprezentativitatea
12
eantionului este, aadar, aspectul crucial al oricrui proces de cercetare pe baz de sondaj
statistic.
Exemplu :Dac s-ar dori s se studieze problema srciei n Romnia.
n absena unui eantion, trebuie investigate peste 7 milioane de gospodrii, ceea ce ar duce la
costuri financiare mari i la o extindere a timpului rezervat culegerii de informaii. n acelai
timp, un subset din populaia analizat, extras conform unei scheme de eantionare riguroase,
poate furniza toat informaia necesar la un nivel de acuratee foarte ridicat.
Ratiunea eantionarii este limpede: prin efectuarea de studii asupra unei pari relativ mici
din populatie s strngem suficient informatie care sa ne permita sa inferam la nivelul
ntregii populaii asupra caracteristicilor studiate. Statistica
datelor obinute din grupuri mici de indivizi s extindem rezultatele la populatii mari.
Numarul indivizilor din esantionul ales este numit volumul eantionului si este notat de
obicei, atunci cnd ne referim la un esantion potential (esantionul nu a fost
precizat) prin litera n.
Eantionare subiectiv (exemple: selecia rocilor, pacieni pentru tratamente diferite)
Un eantion simplu aleator este aadar selectat astfel nct:
fiecare unitate statistic are o probabilitate egal de a fi aleas n eantion i
unitile sunt alese independent, fr legtur una cu cealalt.
Extragerea ntmpltoare a unitilor i alctuirea eantioanelor aleatoare se poate realiza prin
unul din urmtoarele procedee de selecie:
1.
Procedeul urnei cu bile (procedeul loteriei), este un procedeu de selecie aleatoare care
poate fi realizat n varianta cu revenire sau fr revenire.
Se stabilete un cadru de identificare, astfel nct fiecare unitate din colectivitatea general
este numerotat de la 1 la N. Numerele sunt notate pe cartonae, bileele sau bile iar acestea
sunt amestecate atent. Se extrage apoi, la ntmplare, un cartona (bil) iar numrul citit
identific unitatea ce este considerat ca fcnd parte din eantion. Pentru aceast unitate se
nregistreaz toate caracteristicile ce fac parte din programul cercetrii.
n continuare, n varianta cu revenire (sondaj repetat), cartonaul (bila) este reintrodus n
urn, se repet amestecarea iar extragerea se repet pn cnd se obine eantionul de volum
n.
n varianta sondajului fr revenire (sondaj nerepetat), cartonaul
(bila) nu este
reintrodus n urn, ceea ce nseamn c o unitate statistic, o dat extras n eantion nu mai
are anse s mai reintre n colectivitatea de origine i s fie extras din nou.
13
2.
5.
4. Observaiile
Observaiile
Valorile nregistrate de aceeai caracteristic la unitile colectivitii statistice (populaie sau
eantion ) se numesc observaii.
Varianta/valoarea reprezint nivelul concret pe care l poate lua o variabil la
nivelul unei uniti sau grup de uniti statistice.
Frecvena de apariie a unei variante/valori reprezint numrul de apariii al acestei
variante/valori n colectivitate.
Datele statistice reprezint caracterizarea numeric obinut de statistic n legtur
cu unitile, grupele sau colectivitatea studiat.Datele statistice sunt mrimi
concrete, rezultate din studiile efectuate prin numrare, msurare sau calcul
statistic. Ele pot fi primare, prelucrate, publicate sau stocate n baze sau bnci de
date. Mesajul datelor statistice este informaia statistic.
14
15
Numarul K deintervale este ales n strns dependen de problema studiat. Un numr prea
mic de intervale are dezavantajul c ascunde particularitile grupelor; din contra, un numr
mare de intervale face dificil reprezentarea grafic a rezultatelor.i deducerea modelului
probabilistic se face eronat
. Pentru structurarea colectivitii, pentru evidenierea grupelor (straturilor) tipice din
colectivitate, se pot forma grupri pe intervale egale de variaie sau pe intervale neegale.
Gruparea datelor pe intervale de variaie necesit stabilirea numrului
k de
s nu fie nici prea mare, dar nici prea mic. Cert este faptul c numrul de grupe (k) trebuie s
fie direct proporional cu amplitudinea variaiei.
h=A/k
n literatura de specialitate se recomand, n ipoteza repartiiei aproximativ normale a
unitilor colectivitii dup caracteristica urmrit, utilizarea relaiei lui Sturges pentru
determinarea mrimii intervalelor de variaie.
Serii statistice
Seriile statistice reprezint o alt modalitate de prezentare a datelor. Rezultatul sistematizrii
datelor prin grupare/clasificare se constituie sub forma seriilor statistice.
Seria statistic este prezentarea ordonat a datelor referitoare la manifestrile unui fenomen
colectiv sub forma a dou iruri de date: unul privete variabila i modul cum a fost sistematizat,
iar al doilea frecvena de apariie sau nivelul unei variabile n raport cu primul ir.
Anul
Infraciuni
2002
2003
2004
2005
2006
22.998
la
regimul
circulaiei
Nord
dezvoltare
Est
Sud
Est
Sud
Muntenia
Sud
Vest
Oltenia
18
Vest
Nord
Vest
Centru
Bucureti Ilfov
Persoane
12115
condamnate
7735
7075
6715
5343
7375
6200
4147
definitiv
www.insse.ro
3. Serii de distribuie de frecvene pentru o variabil atributiv
n forma cea mai general o serie statistic cu o singur caracteristic x se prezint astfel:
x1 x2 ... x r. xn
n1 n2 ... nr.. nn
Unde: x1, x2, ..., xn sunt variante nregistrate pentru caracteristica x
economice
75076
74339
Infractiuni
de
alta
natura
82222
www.politiaromana.ro
Seriile de distribuie de frecvene alctuite dup o variabil cantitativ (numeric), poart numele
de distribuii heterograde.
Seriile de distribuie de frecvene alctuite dup o variabil calitativ (nenumeric) poart numele
de distribuii homograde.
FRECVEN
Frecvena unei observaii n eantion:este numrul de apariii ale acelei observaii (valori)
n eantion.
Frecvena relativ a unei observaii n eantion: raportul dintre numrul de apariii ale
observaiei n eantion i numrul total de observaii(dimensiunea eantionului)
Distribuia frecvenelor
a) Distribuia frecvenelor ( pentru un atribut variabil discret): mulimea tuturor
observaiilor distincte, mpreun cu frecvenele lor relative n eantion.
fumat
Intens
Rar
Nu
Frecvena absolut
7149
2818
6563
16500
Frecvena relativ
0.433
0.170
0.397
1.00
Total
Distribuia frecvenelor unui atribut variabil continuu: mulimea claselor interval mpreun
cu frecvena fiecreia.
Numar
mijlocul
frecvente
frecvente
relative
cumulate
0.5
0.03
1.5
0.14
2.5
0.24
12
3.5
0.10
15
4.5
0.14
19
5.5
0.10
22
6.5
0.07
24
7.5
0.03
25
8.5
0.03
26
9.5
0.07
28
10
10.5
0.03
29
29
1.00
total
Frecvena
Histograme:
X axa valorilor;
0.25
0.20
0.15
frecvente relative
0.10
0.05
0.00
0
10
nr.am inari
Figura 2. Histograma
0.25
0.20
histograma
0.15
poligonul frecventelor
0.10
0.05
0.00
0.5
1.5
2.5
3.5
4.5
5.5
6.5
7.5
8.5
9.5 10.5
nr aminari
Frecvene cumulate (ogiva): suma frecvenelor valorilor mai mici dect o valoare
dat
se aplic n special pentru variabile continue.
21
30
25
20
frecvente cumulate
15
10
5
0
0
nr aminari
Figura 4. Ogiva
22
10
2004
2005
2006
2007
2008
75.076
70.344
82.359
122.903
124.815
74.339
56.492
59.85
56.356
55.871
82.222
81.403
90.45
102.198
108.645
1.006
961
1.077
1.305
1.344
Infraciuni
judiciare
Infraciuni
economice
Infraciuni
de
alt natur
volumul
criminalitatii
=infraciuni la
100.000
locuitori
http://www.politiaromana.ro/infractiuni_2002_2008.htm
Prin selectarea celui mai eficient tip de diagram datele vor deveni mai clare, mai puternice i
mai informative. Microsoft Office Excel ofer o varietate larg de tipuri de diagrame i de
metode simple pentru selectarea i examinarea acestora.
1. Diagrama Coloan
O diagram Coloan compar direct valorile
ncepei prin selectarea datelor pe care le reprezentai pe diagram, precum i titlurile
coloanelor i ale rndurilor. Apoi, pentru a deschide Expert diagram, facei clic pe butonul
Expert diagram
Cnd se deschide expertul, avei selectat tipul de diagram Coloan. O diagram Coloan
este un tip de diagram bun pentru compararea direct a valorilor. Cnd selectai un tip de
diagram, este bine s o meninei simpl, astfel nct mesajul redat s fie clar.
23
120
100
Infraciuni judiciare
80
Infraciuni economice
60
40
20
0
2004
2005
2006
2007
2008
anii
numar infractiuni
120
100
2004
2005
80
2006
60
2007
40
2008
20
0
Infraciuni judiciare
Infraciuni economice
Pentru a modifica din Coloan n Coloan stratificat, facei clic cu butonul din dreapta al
mousului pe bordura diagramei pentru a o selecta, apoi facei clic pe Tip de diagram din
meniul de comenzi rapide. (Alegem diagrama din figura 5)Se va deschide caseta de dialog
Tip de diagram n care este selectat tipul de diagram Coloan. n partea dreapt a casetei
de dialog, selectai din diferitele forme de diagrame Coloan prezentate n zona Subtip de
diagram. Tipul de diagram se modific atunci cnd facei clic pe un subtip, apoi pe OK.
Compararea anilor dupa total infractiuni/an
350
numar infractiuni
300
250
Infraciuni de alt natur
200
Infraciuni economice
150
Infraciuni judiciare
100
50
0
2004
2005
2006
2007
2008
numar infractiuni
100%
80%
Infraciuni de alt natur
60%
Infraciuni economice
40%
Infraciuni judiciare
20%
0%
2004
2005
2006
2007
25
2008
Diagrama de aici este o diagram Coloan stratificat 100%, care afieaz participrile sub
form de procente.
Utilizarea subtipului Coloan stratificat sau a subtipului de baz Coloan grupat depinde de
mesajul pe care dorii s-l clarificai; probabil c le-ai utiliza pe ambele. Fr s modificai
diagrama, avei posibilitatea s ncercai caseta de dialog Tip de diagram pentru a vedea
modul n care vor arta datele n diferite tipuri i subtipuri de diagrame. Selectai un tip i
examinai-l executnd clic i meninnd apsat butonul Apsai i inei apsat pt.
vizualizare eantion. Cnd tii exact ceea ce dorii, apsnd pe OK facei modificarea.
de pe bara
Infraciuni judiciare
31%
33%
Infraciuni
economice
Infraciuni de alt
natur
36%
26
4. Diagram Linie
O diagram linie compar datele n timp
Diagrama linie este un tip de diagram corespunztor pentru prezentarea modificrilor i a
tendinelor n timp. Pentru aceasta, facei clic cu butonul din dreapta al mousului pe bordura
diagramei pentru a o selecta, apoi facei clic pe Tip de diagram din meniul de comenzi
rapide. Dup deschiderea casetei de dialog Tip de diagram, selectai o Diagram linie din
lista Tip de diagram.
Compararea anilor dupa evolutia fiecarui tip de infractiune
140
numar infractiuni
120
100
Infraciuni judiciare
80
Infraciuni economice
60
40
20
0
2004
2005
2006
2007
2008
infractiuni la 100000
locuitori
volumul criminalitatii
=infraciuni la 100.000
locuitori
2004
2005
2006
2007
2008
2009
anii
28
Prin puncte doar cu marcaje Acest tip de diagram compar perechi de valori.
Utilizai o diagram prin puncte fr linii cnd avei date ntr-o anumit ordine.
Prin puncte cu linii fine i prin puncte cu linii fine i marcaje Acest tip de
diagram poate fi afiat cu sau fr o curb fin care conecteaz punctele de
date. Aceste linii pot fi afiate cu sau fr marcaje. Utilizai diagrama prin
puncte fr marcaje dac exist multe puncte de date.
Prin puncte cu linii drepte i prin puncte cu linii drepte i marcaje Acest tip
de diagram poate fi afiat cu sau fr linii drepte care conecteaz punctele de
date. Aceste linii pot fi afiate cu sau fr marcaje.
numar infractiuni
120
100
Infraciuni judiciare
80
Infraciuni economice
60
40
20
0
2004
2005
2006
2007
29
2008
Uneori diferitele seturi de date dintr-o diagram combinaie sunt att de diferite nct necesit
ceva mai mult clarificare. Chiar dac sunt afiate diferit, nu avei posibilitatea s vedei
valorile mai mici.
numar infractiuni
1.6
120
1.4
100
1.2
1
80
Infraciuni judiciare
Infraciuni economice
0.8
60
0.6
40
0.4
20
0.2
0
2004
2005
2006
2007
2008
volumul criminalitatii
=infraciuni la 100.000
locuitori
Aceast problem se poate rezolva prin adugarea unei alte axe a diagramei, secundar. Prin
reprezentarea valorilor criminalitii pe propria ax se uureaz nelegerea Diagramei linie,
Pentru a crea o ax secundar, trebuie s selectai tipul de diagram pentru care dorii axa,
apoi trebuie s efectuai cteva selecii n caseta de dialog Formatare serie de date.
30
5. Diagramele radar
Datele care sunt aranjate n coloane sau rnduri ntr-o foaie de lucru pot fi reprezentate ntr-o
diagram radar. Diagramele radar compar valorile agregate ale unui numr de serii de date
care indica evolutia in timp Diagramele de structur radial au numai o serie de date.
volumul criminalitatii =infraciuni la 100.000 locuitori
2004
1.4
1.2
1
0.8
0.6
2008
2005
0.4
0.2
0
2007
volumul criminalitatii
=infraciuni la 100.000
locuitori
2006
Radar plin ntr-o diagram radar plin, suprafaa acoperit de o serie de date
este umplut cu o culoare.
6. Diagramele zon
Datele care sunt aranjate n coloane sau rnduri pot fi reprezentate ntr-o diagram zon.
Diagramele zon accentueaz magnitudinea schimbrii n timp i pot fi utilizate pentru a
atrage atenia asupra valorii totale n funcie de o tendin. De exemplu, datele care reprezint
profitul n timp pot fi reprezentate ntr-o diagram zon pentru a accentua profitul total.
Afind suma valorilor reprezentate, o diagram zon arat i relaia prilor cu ntregul.
Diagramele zon au urmtoarele subtipuri de diagrame:
Zon i zon n 3-D Diagramele zon afieaz tendina valorilor n timp sau n
categorii. O diagram zon n 3-D afieaz n acelai mod dar prezint zonele n
31
format 3-D. Pentru a prezenta datele n format 3-D, care utilizeaz trei axe
(axele orizontal, vertical i adncime) ce pot fi modificate, ar trebui s utilizai
subtipul de diagram zon 3-D.
Infraciuni
judiciare
50
Infraciuni
economice
Infraciuni de
alt natur
100
2004
2005
2006
2007
nr.infractiuni
150
0
2008
anii
nr.infractiuni
80%
60%
40%
20%
0%
2004
2005
2006
2007
anii
32
2008
(1)
33
v1.v2 ...vm
n1.n2 ...nm
(2)
Unde ni, (i=1, m) reprezint frecvena apariiei (numrul de apariii) valorii vi, iar n reprezint
numrul valorilor din irul iniial (1) i se numete frecven absolut a valorii v. Valoare m
reprezint numrul de clase.
Raportul fj =nj/n dintre frecvena absolut i numrul total de probe se numete
frecven relativ. Se observ c
x=
x1 + x2 + ... + xn 1 n
= xi
n
n i =1
34
x=
n1v1 + n2 v2 + ... + nn vn 1 n
= ni vi
n
n i =1
care se mai numete medie aritmetic ponderat. Numrul care arat de cte ori se repet
fiecare valoare (nj) este "ponderea" valorii respective.
Observaia 1. Media aritmetic are dezavantajul c este sensibil la valori extreme,
iar dac termenii sunt prea "mprtiai", tinde s devin o valoare nereprezentativ. Media
aritmetic este o valoare lipsit de coninut dac elementele sunt deosebite din punct de
vedere calitativ, caz n care este mai util s se fac medii pariale pentru fiecare tip de
colectivitate.
Observaia 2. Dac avem mai multe medii, fiecare referindu-se la o anumit
Media geometric este mai puin sensibil la valorile extreme dect celelalte medii,
deci se ntrebuineaz cnd dorim s atenum divergenele mari dintr-o serie de determinri
cu frecvene egale, fiind dup o expresie "cea mai exact medie". Se utilizeaz cnd valorile
au o evoluie (de cretere sau scdere) permanent, nentrerupt, sau o raie din ce n ce mai
mare, termenii fiind legai ntre ei printr-o relaie de produs. De asemenea se mai
ntrebuineaz cnd vrem s dm o importan mai mare termenilor mai mici, n valoare
absolut, sau cnd diferenele ntre termeni sunt foarte mari. Are dezavantajul c nu se poate
ntrebuina cnd avem valori nule sau negative.
Definiia 2. Dac x1, x2,..., xn sunt n valori, media geometric se definete prin
M g = n x1 x2 ...xn
lg M g =
1 n
lg xi
n i =1
35
variaiile relative. De asemenea media geometric poate fi folositoare pentru calculul unor
rapoarte.
Media ptratica se ntrebuineaz cnd valorile prezint creteri din ce n ce mai
mari. Ea constituie modelul matematic pentru abaterea medie ptratic. Media este sensibil
la valori extreme, din care cauz este ntotdeauna mai mare dect celelalte medii. Are
avantajul c se poate aplica i n cazul valorilor nule sau negative (care prin ridicare la ptrat
devin pozitive). Se ntrebuinzeaz cnd dm importan valorilor mari.
Definiia 3. Media ptratic este definit prin formula:
x patr , s =
1 n 2
xi
n i =1
x patr , p =
1 n
ni vi2
n i =1
Media Armonic
Definiia 4. Media armonic este valoarea invers a mediei aritmetice ale valorilor
inverse datelor de observaie:
Mh =
n
n
x
i =1
36
Exprim caracterul sintetic al unor valori ce se afl n raport invers. Se utilizeaz cnd
frecvenele sunt egale. Pentru o repartiie de frecven, media armonic se folosete rar. Se
utilizeaz cu predilecie n economie.
Media glisant numit i "medie mobil", se utilizeaz n cazul n care irul valorilor
prezint fluctuaii mari, brute i e greu de apreciat tendina (trendul). Se presupune c media
glisant corespunde mijlocului intervalului sintetic. Calculul se face mediind 3 sau 5 valori
alturate.
Definiia 5. Media glisant pentru 3, respectiv 5 valori alturate sunt date de formulele
xglis ,3 =
xi 1 + xi + xi +1
3
xglis ,5 =
xi 2 + xi 1 + xi + xi +1 + xi + 2
5
Mediana
Definiia 6. Mediana este elementul dintr-un ir de date statistice care ar mpri intervalul n
dou grupe egale ca numr, dup ce acestea au fost ordonate dup mrimea lor. Dac seria
are 2n+1 elemente, atunci mediana este elementul n+1, iar dac are 2n elemente mediana este
media aritmetic a celor doi termeni din mijloc.
37
Aa
100
x
Abaterile individuale absolute (di) se calculeaz ca diferena ntre fiecare valoare i media
aritmetic:
di = xi - x , i = 1,...,n
Abaterile individuale relative (dr) se calculeaz ca raportul dintre abaterile individuale
di
x
100 , i = 1,...,n
Gradul de variaie al unei caracteristici depinde de toate abaterile variantelor
nregistrate i de frecvena lor de apariie i prin urmare indicatorii simpli ai variaiei nu pot
exprima ntreaga variaie a unei populaii statistice. De aceea a fost necesar introducerea
indicatorilor sintetici ai variaiei.
d =
| x x |
i =1
(x
i =1
x)2
Acest indicator este mai concludent dect abaterea medie liniar. Prin ridicarea la ptrat se d
o importan mai mare abaterilor mari n valoare absolut, acestea influennd ntr-o msura
mai mare gradul de variaie al variabilelor analizate.
n literatura de specialitate se apreciaz ca pentru o serie de distribuie normal
abaterea medie liniar este egal cu 4/5 din valoarea abaterii medii ptratice.
Abaterea medie ptratic este un indicator de baz, care se folosete la analiza
variaiei, la estimarea erorilor de selecie n calculul de corelaie.
La fel ca abaterea medie liniar, abaterea medie ptratic se exprim n unitatea de
masur a variabilei a crei variaie o caracterizeaz. Prin urmare cei doi indicatori nu se pot
folosi pentru compararea gradului de variaie i n aceasta situaie se recurge la un alt
indicator de variaie: coeficientul de variaie.
100
Semnificaie. Cu ct valoarea lui v este mai aproape de zero cu att variaia este mai slab,
colectivitatea este mai omogen, media avnd un grad ridicat de reprezentativitate. Cu ct
39
valoarea lui v este mai mare cu att variaia este mai intens, colectivitatea este mai
eterogen, iar media are un nivel de semnificaie sczut.
Se apreciaz c la un coeficient de peste 35-40%, media nu mai este reprezentativ i
datele trebuie separate n serii de componente, pe grupe, n funcie de variaia unei alte
caracteristici de grupare.
Se poate afirma c acest indicator poate fi folosit ca un test n aplicarea metodei
gruprii. Dac media aritmetic este aproape de zero, coeficientul de variaie nu are
semnificaie.
2 =
2
1
xi x .
40
Aparent cele ase distribuii de frecven sunt foarte diferite. Cele din partea dreapt
(b, d, i f) sunt similare dintr-un singur punct de vedere, anume ele sunt asimetrice, vrful
este plasat n stnga sau dreapta mediei. Spunem c avem o distribuie distorsionat sau
asimetric (skewed). Cele din stnga (a, c, e) au un grad mic de distorsiune (asimetrie). n
toate cazurile vrful este n apropierea mediei. Toate acestea sunt distribuite simetric.
Pe de alt parte cele dou distribuii de pe fiecare rnd pot fi considerate similare, n sensul c
au un anumit grad de ascuire sau kurtosis. Cele din primul rnd sunt foarte ascuite; ele au
aceleai grad de kurtosis. Cele din al doilea rnd au ascuimea mai moderat, iar cele din al
treilea rnd sunt relative plate.
41
Exemplu in Excel :
Dup ce introducei coninutul unei celule, validai acest fapt cu [Enter] sau [Tab].
2.Pentru a edita coninutul unei celule folosii tasta [F2] sau dublu click.
Pentru formatarea celulelor selectai domeniul dorit. Alegei din meniu comanda
Format - Cells - Alignment i selectai opiunea Center din caseta derulant
pentru aliniere n centrul celulei, selectai opiunea Merge text pentru
reuniunea mai multor celule, selectai opiunea Wrap text pentru spargerea
textului pe mai multe rnduri.(de ex. Celula B1)
42
4. Pentru formatare selectai domeniul dorit. Alegei din meniu comanda Format
- Cells - Border i selectai tipul de linie dorit pentru ncadrarea celulei sau
domeniului selectat, apoi apsai butonul pentru tipul de ncadrare dorit.
3. Pentru a calcula numrul total de cauze n celula B17: se face clic pe B17 i se
introduce formula =SUM(B2:B16) sau se face clic pe butonul
43
44
Tot domeniul selectat se va completa cu formula calculat n celula C2. Referina relativ
B2 va varia de la B2 la B16, iar referina absolut $B$17 va rmne neschimbat
4. Pentru ca frecvenele relative s fie exprimate n procente selectm domeniul dup
care din meniul FormatFormat cellsNumberPercentage
45
Se alege din meniul InsertChart dup care se urmeaz paii din Chart Wizard
46
Pentru calcularea parametrilor statisticii descriptive Excel ofer mai multe moduri:
prin calcularea funciilor, un mod simplu i mai rapid: pachetul de calcule statistice
Data Analysis Tool oferit de Excel opiunea Descriptive Statistics, tabelul pivot
pentru calculul statisticilor descriptive pe subgrupuri de date. Se pot calcula urmtorii
parametrii: sum, medie aritmetic, modul, minim, maxim, deviaie standard, variaie,
eroare standard, kurtosis, skewness, interval de confiden, al k-lea element mai mic
sau mai mare, talia, i intervalul. Toi aceti parametrii se pot calcula pentru una sau
mai multe variabile.
Vom rezolva aceast problem cu ajutorul componentei Data Analysis Descriptive
Statistics:
1. Pentru a folosi pachetul Data Analysis el trebuie instalat. Pentru aceasta verificai
dac nu a fost instalat deja: deschidei meniul Tools. Dac opiunea Data Analysis
este prezent, atunci se trece la pasul urmtor. Dac opiunea Data Analysis nu este
prezent, atunci din meniul Tools se alege opiunea Add-Ins. Va aprea o fereastr
asemntoare celei de mai jos n care se va bifa prima opiune Analysis ToolPak.
Apsai butonul Ok.
47
2. Alegei opiunea Data Analysis din meniul Tools. Din fereastra de dialog care apare
selectm Descriptive Statistics. Clic pe OK.
48
4. Input Range: Introducei referinele domeniului unde se gsete variabila pentru care
dorim s calculm parametrii statisticii descriptive. n cazul nostru B1:B16. Pentru
introducere executai click n cmpul Input Range, apoi click n celula B1 i
executai o selecie pn n celula B16.
5. Grouped by: se va selecta Columns dac fiecare variabil este introdus ntr-o
coloan sau Rows dac fiecare variabil este introdus ntr-o linie. n cazul nostru
vom bifa Columns.
6. Labels in first row. Antetul de coloan sau linie poate s fie selectat sau poate lipsi.
Dac selectm i antetul de coloan, atunci n pagina de rezultate va aprea acel antet,
adic numele variabilei. In acest caz trebuie s bifm Labels in first row. Dac nu
bifm funcia va ntoarce eroarea: Input range contents non numeric data, deoarece
se consider i antetul de coloan ca fiind una dintre valorile variabilei. In cazul n
care nu selectm antetul de coloan, ar trebui s nu bifm nici Labels in first row.
Dac bifm Labels in first row atunci prima valoare a variabilei va fi luat drept
antet de coloan i rezultatele vor fi greite. In cazul nostru selectm labels in first
row.
7. Opiunile Output se refer la locul amplasrii tabelului de frecven. Dac vom
selecta opiunea New Worksheet Ply,tabelul de frecven va fi afiat la o pagin
nou al crei nume trebuie introdus n cmpul New Worksheet Ply. Output Range
este pentru cazul n care dorim ca rezultatul s fie afiat pe aceeai pagin cu tabelul
ncepnd cu o anumit celul care trebuie introdus n cmpul Output Range.( n
49
ES =
Standard Error Eroarea standard calculat dup formula:
S
n , unde S
Median Mediana este o valoare a seriei astfel nct jumtate dintre observaii
au valori mai mici (sau egale) i cealalt jumtate au valori mai mari (sau egale).
Dac n este impar, atunci mediana este dat prin formula:
Me =
X n +1
2
Xn + Xn
2
Me =
+1
Mode Modulul este valoarea care are cea mai mare frecven din serie. In
cazul modulului o situaie care apare este cea n care seria nu are modul, adic
toate valorile apar o singur dat. Atunci va fi afiat valoarea #N/A. O alt
situaie posibil este ca seria s fie bimodal sau trimodal. Atunci va fi afiat
numai prima valoare n ordinea apariiei lor n cadrul seriei. In acest caz pentru
determinarea tuturor valorilor modulului se poate face un tabel de frecven.
s 2 . Unde
s2 este variatia.
n
s2 =
(X
i =1
X )2
Kurtosis Excesul sau Boltirea msoar nlimea aplatizrii sau boltirii unei
distribuii n comparaie cu o distribuie normal. Aceast msur este definit
prin:
51
1 n
(X i X )4
n i =1
3
S4
.
4=
Excesul
pozitiv pentru o serie de date avnd forma mai nalt dect cea a unei distribuii
normale (cu media X i variaia S2) i este negativ pentru o serie de date a crei
form este mai cobort dect cea a unei distribuii normale. In cazul nostru
valoarea -0,669 a boltirii indic o curb puin mai aplatizat dect curba normal.
3 =
[( X
i =1
X ) / S ]3
n
Asimetria este 0 pentru o serie de date avnd o distribuie normal, este pozitiv
pentru o serie de date asimetric spre stnga (seria are mai multe valori mai mici),
este negativ pentru o serie de date asimetric spre dreapta (seria are mai multe
valori mai mari). In cazul nostru asimetria este 0,198, deci este puin deplasat la
dreapta fa de curba normal.
Range Intervalul este Maximul-Minimul. Maximul este 678, iar minmul este
390 Range=678-390=288
X
i =1
, unde
X i , i = 1, n seria de date.
53
tcrit ES
. Se poate
mbrac ntotdeauna forma enunrii unei legturi fie ntre manifestrile a dou sau mai
multor fenomene, fie ntre prezena i absena anumitor caractere Spunem, de exemplu, c
electricitile de sens contrar se atrag, iar cele de acelai sens se resping, c temperatura
descrete odat cu creterea altitudinii, c infracionalitatea crete dac scade nivelul de trai
Acestea sunt legi cunoscute. Prima este o lege rigid, se verific, prin urmare, aplicat
oricrui caz. Celelalte sunt legi stochastice..
Forma sub care am enunat legea stochastic de mai sus const numai n
existena legturii dintre fenomene i prin aceasta suntem privai de cunoaterea unui element
destul de interesant n aceast direcie: gradul de asociaie ntre cele dou fenomene sau
caractere.
cauzal.
b) Relaia de interdependen, Y depinde de X i X depinde de Y. n acest caz
modificarea unei variabile provoac modificarea celei de-a doua variabile, iar modificarea
acesteia din urm are influen asupra primei variabile.
c) Relaia de tranziie, X se transform parial sau total n Y i invers.
d) Corelaia statistic sau covariana. Pentru X exist ntotdeauna Y i invers. Este o
relaie reciproc dintre dou variabile, dintre care una n mod logic apeleaz la alta i pe baza
analizei datelor experimentale se poate pune n eviden o asociere ntre ele.
e) Relaia stochastic; dac se realizeaz X atunci cu o anumit probabilitate se
realizeaz i Y, sau invers.
Datorit caracterului complex al fenomenelor i datorit multitudinii de factori
eseniali i ntmpltori care intervin, aceste legturi se manifest sub form de tendin; ele
pot fi identificate n condiiile aciunii legii numerelor mari, n colectivitile de volum
ridicat.
O problem important n cadrul analizei seriilor interdependente o reprezint
ele. De exemplu, n ultimii ani n Romnia cresc simultan att rata srciei, ct i nzestrarea
populaiei cu telefoane mobile. Alteori explicaia tendinei de asociere a celor dou variabile
este dat de existena unei cauze comune. De exemplu, creterea simultan i semnificativ a
vnzrilor la pulovere de ln i la medicamente antigripale are aceeai cauz: venirea iernii.
Analiza calitativ a datelor statistice rezolv probleme de acest tip.
55
1. SERIILE INTERDEPENDENTE
1.1. Tipuri de legturi
Analiza seriilor interdependente urmrete
1. verificarea existenei i
a) funcionale (deterministe) i
b) stochastice (statistice).
a) Funcionale: y = f (x).
Fenomenul cauz x determin n mod univoc fenomenul efect y, astfel nct
unei valori a variabilei x i corespunde o valoare unic a variabilei y..
eseniali i
56
Variaia fenomenului y poate fi analizat n funcie de unul sau mai muli factori de influen
(x1, x2,... , xn), dar ntotdeauna va rmne o variaie neexplicat, determinat de factorii
nenregistrai.
n cazul n care se identific i se analizeaz factorii de influen eseniali, componenta
aleatoare, care sintetizeaz aciunea factorilor ntmpltori, va avea o pondere redus i nu va
influena semnificativ veridicitatea rezultatelor.
Legturile stochastice sunt specifice fenomenelor din societate i economie.
Extrema diversitate a legturilor stochastice impune sistematizarea lor dup mai multe
criterii.
Dup numrul caracteristicilor analizate, legturile stochastice pot fi simple sau multiple.
a) Legturi directe exist atunci cnd modificarea ntr-un anumit sens (cretere sau scdere) a
fenomenului cauz x determin modificarea n acelai sens a fenomenului
efect y.
De exemplu, legtura dintre numrul salariailor i volumul produciei,
dintre mrimea creditului i masa dobnzii, dintre costul unitar i costul
total etc.
b) Legturile inverse exist atunci cnd modificarea ntr-un anumit sens a lui x determin o
modificare n sens contrar a lui y. De exemplu, legtura dintre profitul
unitar i costul unitar de producie, dintre impozitul pe profit i profitul
net, dintre mrimea dividentelor i profitul reinvestit etc.
Dup forma matematic a legturilor, acestea pot fi liniare sau neliniare.
a) Liniare: legtura se realizeaz dup ecuaia dreptei.
b) Neliniare: exponeniale, hiperbolice, parabolice, logaritmice.
Forma legturii este, de regul, vizibil pe grafic. Atunci cnd legtura grafic nu este clar,
se poate continua analiza pe variantele sugerate de grafic folosind metode analitice i folosind
anumite criterii pentru a alege varianta cea mai bun.
Dup momentul producerii lor deosebim legturi sincrone i asincrone.
a) Sincrone - modificarea lui x determin modificarea imediat a lui y. De exemplu, creterea
veniturilor populaiei determin mrirea imediat a cererii de consum, creterea
produciei se obine concomitent cu creterea cheltuielilor etc.
b) Asincrone - fenomenul x determin variaia fenomenului efect y dup o perioad de timp.
De exemplu, legtura dintre investiii i creterea produciei sau legtura dintre
rata dobnzii i volumul masei monetare.
58
2. Corelaia statistic
Eficiena aplicrii metodei corelaiei depinde de punerea (enunarea) corect a
problemei n studiu precum i de aplicarea corect a statisticii matematice.
Caracterul complex al dependenei statistice pune pe primul plan problema
identificrii existenei legturilor. Calculul indicatorilor de corelaie este admis cu condiia
stabilirii anticipate a unei legturi cauzale reale ntre fenomenele cercetate. Statistica nu poate
s rezolve o astfel de problem fr ajutorul tiinei din domeniul creia face parte fenomenul
studiat. Cu alte cuvinte, specialistul din domeniul respectiv trebuie s cunoasc temeinic
noiunile analizei statistice implicate pentru a da o interpretare corect a rezultatelor. Pentru a
asigura deducii suficient de ntemeiate, este necesar includerea n cercetare, dac este
posibil, a tuturor factorilor cu aciune esenial.
La fenomenele simple, unde cauzele acioneaz separat, relaia dintre fenomenul-efect
i fenomenul-cauz se reprezint sub forma:
y=f(x)
59
Fenomenul y este generat de aciunea comun a factorilor x1 ,x2 ,.., xn (cauze), din care
lum ns n calcul numai o parte.
S admitem c am luat n calcul factorul x1. ntrebarea care se pune este urmtoarea:
n ce condiii indicatorii corelaiei obinui exprim msura real a influenei variabilei x1
asupra variabilei y? Numai cu condiia ca factorul x1 s fie hotrtor n determinarea lui y,
ceilali fiind nesemnificativi. n cazul n care fenomenul este sub aciunea unui complex de
factori eseniali i aceasta este situaia obinuit, pentru a exprima influena i gradul de
intensitate a legturilor n raport cu un singur factor trebuie s eliminm influena celorlai.
S considerm o colectivitate statistic caracterizat prin mrimile X i Y. Efectund
o serie de determinri experimentale (sau observaii) asupra acestei colectiviti, putem
ntocmi tabela datelor respective:
X | x1, x2 , ..., xn
Y | y1 , y2 , ..., yn
Repartiia empiric a celor dou variabile se poate afia grafic, ntr-un sistem de axe XOY,
unde vom reprezenta punctele de coordonate xi i yi. Un ansamblu de astfel de puncte se
numete cmp de corelaie, tabel de corelaie sau nor statistic.
n Excel, acest lucru se poate face utiliznd diagrama XY prin puncte(XY-scatter)
Analiza vizual a organizrii i formei norului de puncte obinut poate oferi indicii
importante asupra relaiei dintre variabile.
Datele de sondaj vor susine ipoteza asocierii ntre variabile dac forma norului de puncte
se apropie de o curb funcional.
Cele dou caracteristici sunt independente. ntr-un caz particular, dependena
corelaionar se poate transforma ntr-o dependen funcional, dar cu un anumit grad de
certitudine. Apare problema de stabili cantitativ (numeric) n ce msur dependena
corelaional se apropie sau se deprteaz de dependena funcional.
n foarte multe cazuri, din observarea fenomenelor naturale sau a proceselor sociale, fr a
cunoate natura exact a acestora i nici cauzele prin care este pus n eviden o anumit
caracteristic, se pot trage concluzii foarte importante prin examinarea corelaiei dintre aceste
trsturi i alte evenimente. n acest mod se poate aprecia existena unei relaii statistice ntre
dou sau mai multe variabile, adic, n astfel de cazuri se vorbete despre corelaii dintre
mrimile care indic o dependen reciproc.
Corelaia este o metod statistic de determinare a relaiei dintre dou variabile existente.
Regresia este o metod statistic utilizat pentru a descrie natura relaiei dintre variabiledaca
este pozitiv ,liniar sau neliniar
60
Distribuie liniar
Distribuie neliniar
Dac punctele Mi(xi ,yi) nu arat o dependen funcional strict, dar exist o tendin ca
valorile lui Y s depind de cele ale lui X , dei nu n mod riguros, ntre mrimile X i Y
exist o corelaie Aceasta poate s fie liniar sau neliniar
Distribuie aleatoare
Distribuie grupat
Dac punctele Mi(xi ,yi) sunt distribuite de-a lungul unei fii, care n general, urmeaz o
curb determinat, spunem c ntre mrimile respective exist o dependen funcional. n
cazul cnd ntre X i Y nu exist nici un fel de dependen, cmpul de distribuie se va
prezenta asemntor cu acela artat n figurile de mai sus.
Fiind date dou variabile X i Y, se pune problema dac ntre cele dou variabile, respectiv
ntre fenomenele descrise de acestea, exist o anumit dependen numit i corelaie. O
prim concluzie se poate obine reprezentnd grafic ntr-un sistem de coordonate XY, cele
dou iruri de date observate pentru cele dou variabile. Dac punctele graficului se mprtie
pe toat suprafaa fr a urma o anumit regul, atunci vom spune c cele dou variabile nu
sunt corelate. Dac n schimb punctele descriu o anumit curb, numita i curb de regresie,
atunci vom spune c exist corelaie i ea este cu att mai intens, cu ct domeniul pe care se
ntind punctele este mai ngust. Mai mult, dac punctele se aeaz pe o curb care poate fi
aproximat de o curb clasic (dreapt, parabol, exponenial, etc.) atunci vom spune c
61
legtura dintre cele dou variabile este una liniar sau parabolic sau exponenial, etc. i
vom folosi ecuaia acelei curbe clasice pentru prognoz.
Exemplu:
anii
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
productia
chimica
259
274
275
248
301
284
267
270
310
314
316
317
volumul
emisiilor de
gaze
769.75
732.58
702.34
682.04
648.38
614.57
600.43
583.63
565.42
552.28
533.93
521.32
emisiile de gaze
Poluarea in U.E.
900
800
700
600
500
400
300
200
100
0
240
260
280
300
productia chimica
62
320
y = ax2 + bx + c ,
y = aebx + c ,
y = a + h sin( t + )
Parametrii a0, a1,..., an nu se pot determina exact pe baza valorilor empirice y1,
y2,...,yn ale funciei, deoarece acestea din urm conin erori aleatoare. Este vorba de obinerea
Formularea problemei
Dac toate msurtorile valorilor funciei sunt y1, y2,...,yn
atunci estimaiile
parametrilor a0, a1,..., an se determin din condiia ca suma ptratelor abaterilor valorilor
msurate yk de la cele calculate f(xk; a0, a1,..., an), adic expresia
n
S = [ yk f ( xk ; a0 , a1 ,..., an )]2
k =1
s ia valoarea minim.
Aflarea valorilor parametrilor a0, a1,..., an, care conduc la cea mai mic valoare a
funciei
s = s (a0 , a1 ,..., an )
revine la rezolvarea sistemului de ecuaii
S
S
S
= 0,
= 0 ,,
=0
a0
a1
an
Dac formula empiric depinde liniar de parametrii necunoscui atunci sistemul de mai sus va
fi de asemenea liniar.
63
3. Dreapta de regresie.
n cazul cel mai simplu se studiaz numai dou variabile X, Y i se dorete gsirea
dependenei:
Y = aX + b
n ipoteza c X este cauza i Y este efectul.
n urma celor n probe se cunosc datele (xi ,yi), i=1,..., n i trebuie s determinm
coeficienii a i b astfel nct suma
n
S (a, b) = (axi + b yi ) 2
i =1
a=
c xy
2
x
y c xy
y
=
rxy
x x y x
b = y ax
cxy = x y x y
se numete corelaia variabilelor X i Y.
cov( x, y ) = M ( x y ) M (x ) M ( y )
N
M (x y ) =
x y
i =1
N
se numete covarian.
rxy = cxy /x y
Sintaxa funciei :
CORREL (X,Y)= coeficientul de corelaie
-parametrii de intrare reprezint doi vectori de aceeai dimensiune care conin
valorile celor dou variabile pentru care dorim s calculm coeficientul de corelaie.
64
Interpretare:
Valorile coeficientului de corelaie sunt n intervalul [ 1,1] .
Dac r = 0 ntre cele dou variabile nu exist corelaie.
Dac r = 1, corelaia ntre cele dou variabile este maxim i direct.
Dac r = -1, corelaia ntre cele dou variabile este maxim i invers.
Cu ct avem o valoare mai apropiat de 1 sau -1 cu att corelaia e mai puternic
(direct pentru valori pozitive i invers pentru valori negative), cu ct avem o valoare
apropiat de 0 corelaia este mai slab.
n ambele cazuri (r=-1, sau 1) , sintagma "tendina de a fi asociat" este un alt mod de
a spune c variabilitatea lui X tinde s fie asociat cu variabilitate n Y, i vice-versa, sau, pe
scurt, c X i Y au tendina de a varia mpreun.
4. Coeficient de determinare
r2
coeficient de determinare
Dac reprezentm variaia lui X ,respectiv Y prin suprafaa a dou cercuri (suprafaa
cercului reprezinta 100% din variaia fie a lui X sau Y). n caz de corelaie zero nu exist nici
o tendin pentru X i Y pentru a co-varia; i, prin urmare, dup cum este ilustrat ,avem dou
cercuri separate n partea de sus;
65
corelaia nu este zero,atunci cele dou cercuri se suprapun( o parte din variabilitatea lui X
este explicat de variabilitatea lui Y). i anume r 2 (care reprezint procentul din variaia lui
y determinat de variaia lui x )
reprezint 74% din variaia lui Y ( Yeste cuplat n variabilitate cuX, i invers), precum i
faptul c 26% din variaia lui Y este fr nici o legtur cu variabilitatea lui X, la fel ca din
variaia de X este fr nici o legtur cu variabilitate n Y.( zonele de ne-suprapunere
reprezint 26% ) Aceasta zon de ne-suprapunere sau poriune de dezacord, ntre X iY se
numete variaie rezidual = 1- r 2 .
Dar faptul c relaiile de cauzalitate ntre variabile pot produce corelaii nu implic faptul c o
relaie de cauzalitate se afl n spatele fiecrui exemplu de coresponden.
66
Yy=
y
rxy ( X x )
x
Dreapta de regresie
X x=
x
rxy (Y y )
y
Se observ c cele dou drepte de regresie coincid dac i numai dac rxy2 = 1 .
Observaii.
1. Trebuie s facem observaia c, indiferent de gradul de mprtiere al punctelor,
ntotdeauna se poate gsi o dreapt de regresie, dar n cazul unei dispersii mari aceasta devine
inutil. De aceea un studiu preliminar a distribuiei punctelor n plan sau spaiu se impune cu
necesitate.
2. Coeficientul de corelaie este o mrime foarte important n cadrul regresiei liniare.
El msoar gradul de dependen liniar ntre cauz i efect i are o valoare cuprins ntre 1
i 1. Apropierea de 1 implic o dependen liniar puternic ntre mrimi, iar apropierea de
zero indic o lips a corelatiei. Valorile negative semnific o corelaie invers.
67
EXEMPLU :
emisiile de gaze
Poluarea in U.E.
900
800
700
600
500
400
300
200
100
0
240
y = -2.3086x + 1289.4
R2 = 0.4801
260
280
300
productia chimica
68
320
25
20
30
10
69
Bibliografie
Virgil VOINEAGU, .Constantin MITRUT, Alexandru Isaic MANIU, Statistic, Editura
ASE,Bucuresti, 2008.
Emilia TITAN, Simona GHITA, Cristina TRANDAS, Statistic economic.
Elisabeta JABA, Statistica ediia a treia, Editura economic 2002;
Patrick BLATNER, Microsoft EXCEL 2002, Editura TEORA 2003.
www.ac.tuiasi.ro/ro/library/pdf/Introducere.pdf
http://www.ac.tuiasi.ro/ro/library/IS_Book/IS_cap11.pdf
http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=116&idb
70
71
72