Sunteți pe pagina 1din 38

UNIVERSITATEA DIN PITETI

FACULTATEA DE ELECTRONIC, COMUNICAII I CALCULATOARE


SPECILIZAREA: REELE I SOFTWARE PENTRU TELECOMUNICAII














STATISTICA I PRELUCRAREA DATELOR
EXPERIMENTALE



LUCRRI DE LABORATOR


















.L. DR. ING. CORINA SVULESCU




























2012















LUCRARE DE LABORATOR NR. 1

SISTEMATIZAREA I PRELUCRAREA DATELOR EXEPERIMENTALE

Breviar teoretic

De multe ori, n analiza statistic dispunem de o mas de informaii diverse, greu de
cuprins i asimilat. Pentru a deveni utile, informaiile culese necesit prelucrarea i aducerea lor
ntr-o form ct mai concis, dar care s reflecte ct mai fidel realitatea.
Alegerea celei mai bune metode de analiz trebuie s in seama de tipul datelor culese, de
felul n care au fost sistematizate acestea, precum i de adresantul studiului (mediul academic,
mediul de afaceri, publicul larg consumator etc.) i de scopul final al cercetrii (la ce folosesc
rezultatele). Astfel, pentru a putea observa tendina de evoluie a fenomenului cercetat, legturile
dintre variabilele analizate etc., dup culegerea informaiilor statistice, este necesar
sistematizarea acestora sub form de serii de date i, ulterior, prelucrarea acestora sub form de
indicatori.
Sistematizarea datelor statistice presupune urmtoarele etape:
centralizarea (colectarea) datelor observrii;
clasificarea datelor nregistrate;
gruparea datelor n funcie de una sau mai multe caracteristici;
prezentarea rezultatelor sistematizrii sub form de serii, tabele i/sau grafice statistice.
Clasificarea este operaia de separare a mulimii datelor colectate pe subcolectiviti n
funcie de caracteristicile cuprinse n programul observrii. Astfel, dac au fost nregistrate valorile
specifice a apte caracteristici unele numerice, cantitative, altele nominative/calitative clasifi-
carea presupune izolarea a apte subcolectiviti de date, cte una pentru fiecare variabil
observat.
Clasificarea datelor observrii se face, de regul, automat, prin atribuirea cte unui cod
distinctiv valorilor ce aparin fiecrei caracteristici. Rezultatul clasificrii este o list care enumer
n partea stng (subiectul tabelului) elementele colectivitii observate, iar n fiecare coloan se
afl valorile specifice cte unei caracteristici.
Gruparea statistic este procedeul de comprimare (restrngere) a volumului datelor dup
o caracteristic numeric (cantitativ) sau nominativ (calitativ). nsuirea care st la baza
mpririi colectivitii n grupe omogene poart numele de caracteristic/variabil de grupare.
Gruparea datelor trebuie s porneasc de la o atent analiz a fenomenului/procesului
cercetat. Selectarea variabilei/variabilelor dup care se va realiza gruparea depinde att de natura
lor, de relaia dintre caracteristicile observate, ct i de scopul cercetrii.
Gruparea n funcie de o caracteristic numeric ncepe, de regul, cu observarea
numrului de valori (variante) distincte ale caracteristicii de grupare n cadrul colectivitii
cercetate. Dac valorile distincte nu sunt prea numeroase (cel mult 1012 valori diferite),
cercettorul poate decide gruparea pe variante, adic separarea unitilor colectivitii pe
subcolectiviti, n funcie de varianta specific.

De exemplu, gruparea studenilor dintr-un amfiteatru n funcie de nota obinut la un test conduce la
obinerea a (cel mult) zece subcolectiviti deoarece, oficial, notele acordate sunt valori ntregi de la 1 la 10. n
realitatea empiric, unele note (variante) pot lipsi, ntruct nici un student din acel amfiteatru n-a obinut, s zicem,
nota 1 sau 2. Deci, numrul real de grupe va fi 8, corespunztor notelor (variantelor) observate n colectivitate: de la
3 la 10.

Dac cercettorul apreciaz c numrul variantelor distincte este prea mare pentru a putea
face aprecieri pertinente asupra colectivitii cercetate, se trece la gruparea pe intervale omogene
de variaie.
ntr-o grup omogen, unitile care o compun sunt de acelai fel, aparin aceluiai tip
calitativ, prezentnd variaii reduse, datorate de regul, factorilor ntmpltori.
Intervalul de grupare, numit i interval de variaie este alctuit dintr-un grup omogen de
variante, desprit de restul colectivitii prin limita inferioar i limita superioar a grupei.
Intervalele de grupare pot fi:
intervale egale sau intervale neegale;
intervale deschise (cu una dintre limite nedefinit) sau intervale inchise (cu ambele limite
clar precizate);
Gruparea datelor pe intervale egale dup o singur variabil presupune parcurgerea
urmtoarelor etape:
Calculul amplitudinii variaiei, ca diferen ntre valoarea maxim (x
max
) i, respectiv,
valoarea minim (x
min
) nregistrat de variabila analizat:
A
x
=x
max
x
min
[1.1]
Stabilirea numrului de grupe/intervale (r). El trebuie s fie, pe de o parte, suficient de mare,
pentru a nu se pierde prea mult din diversitatea informaiilor culese i a nu se restrnge astfel
posibilitile de analiz, iar pe de alt parte suficient de mic, pentru a permite o analiz rapid, dar
coerent, n care fiecare interval de grupare s cuprind un numr destul de mare de nregistrri.
De regul, numrul de grupe/intervale folosit n analize este cuprins ntre 5 i 15 grupe.
Determinarea mrimii (k) fiecrui interval de grupare:
r
x x
r
A
k
min max

= = [1.2]
unde: A =amplitudinea absolut a variaiei; r = numrul de grupe/intervale de variaie.
De obicei, n analize se procedeaz la rotunjirea mrimii intervalului, astfel nct s permit
o prezentare ct mai sugestiv a datelor, precum i o prelucrare numeric lesnicioas.

Obs. Deoarece n calculele statistice va fi utilizat centrul (mijlocul) intervalulu, se recomand s se
stabileasc intervalele astfel nct centrele lor s fie valori pe ct posibil ntregi, sau avnd un numr ct mai mic de
zecimale, pentru a nu afecta calitatea determinrilor prin eventuale rotunjiri.

Mrimea intervalului de grupare se mai poate determina i dup formula lui H. A. Sturges:
.
log 322 , 3 1
min max
n
x x
k


[1.3]
Dup ce se afl mrimea i numrul intervalelor de grupare, se trece la stabilirea limitelor
fiecrei grupe, pornind de la valoarea minim a caracteristicii nregistrate (x
min
). La ea se adaug,
pentru fiecare din cele (r) intervale n parte, mrimea grupei/intervalului (k).

Trebuie avut n vedere faptul c, n anumite situaii, exist limite inferioare/superioare obiectiv determinate
ale variabilei analizate, ce nu trebuie ignorate. De exemplu, nota obinut de un student la un examen nu poate fi mai
mare de 10. Depirea acestei limite n procesul gruprii implic fie refacerea gruprii (eventual constituirea
intervalelor de la valoarea maxim admis i scznd din aceasta, n mod succesiv, mrimea intervalului de grupare
pn se ajunge la x
min
), fie scrierea ultimului interval ca un interval deschis.

Dup constituirea intervalelor de grupare, se determin numrul de valori ale caracteristicii
analizate cuprins n fiecare din cele (r) intervale de grupare (frecvenele absolute). Se recomand
ca fiecare interval de grupare s cuprind un numr de nregistrri omogene pentru a realiza o
caracterizare ct mai corect a fenomenului analizat.
Dac n urma gruprii, una sau mai multe grupe rmn vide, este necesar refacerea
gruprii pe un numr diferit de intervale, sau, eventual, pe acelai numr de intervale, dar
pornind de la o alt limit inferioar a primului interval de grupare, glisnd cu cel mult din
mrimea intervalului de grupare fie n sus, fie n jos, pn ce vidul de uniti dispare.
O alt soluie const n gruparea pe intervale neegale (gruparea tipologic). Ea se poate
realiza fie pornind de la intervalele egale stabilite anterior i regruparea acestora pentru a diminua
fluctuaia excesiv a frecvenelor de la o grup la alta, sau pentru a acoperi una sau mai multe
grupe vide (fr uniti), fie pe baza particularitilor caracteristicii cercetate, a necesitilor
analizei.
Principii de grupare:
s urmreasc omogenitatea elementelor cuprinse n fiecare grup;
s asigure completitudinea cuprinderii elementelor colectivitii n grupele constituite;
s verifice unicitatea ncadrrii fiecrui element n cte o grup;
s genereze, dac este cazul, organizarea ierarhic a grupelor, astfel nct prin mrirea
gradului de generalitate a formelor de manifestare, s se poat agrega clasele inferioare n grupe,
grupele n capitole, capitolele n seciuni ale unui nomenclator.

Desfurarea lucrrii

O anchet ntreprins n rndul a 60 de facultati, permite urmtoarea nregistrare cu privire
la numrul de absolventi din anul 2010:

267 268 270 285 286 290 292 296 285 288
296 299 325 346 261 252 270 262 255 248
272 170 165 275 172 240 181 185 250 252
197 280 192 181 284 195 197 282 187 194
215 217 196 198 225 220 230 211 227 231
233 220 225 228 233 234 217 236 245 248

Se cere:
a) S se identifice nivelul minim i maxim al numrului de absolventi n cele 60 de facultati
observate;
b) S se grupeze cele 60 facultati pe 6 intervale egale de variaie a numrului de absolventi i
s se reprezinte grafic repartiia de frecvene obinut;
c) S se propun o grupare pe intervale neegale de variaie a numrului de absolventi, pornind
de la analiza tipologic a unitilor nregistrate i s se reprezinte grafic repartiia de
frecvene obinut;
d) S se precizeze care este cea mai fidel prezentare pe intervale de grupare a colectivitii
observate.


Plan de rezolvare:

a) Se identific cea mai mic i cea mai mare valoare din setul de date prezentat.
Se calculeaz amplitudinea variaiei
A=x
max
- x
min


b) Varianta de rezolvare 1
Numrul de grupe este k = 6, iar mrimea intervalului (l) se determin potrivit relaiei:
k
x x
l
min max

=
n tabelul 1.1.1., primul interval de grupare are limita inferioar egal chiar cu x
min
. n
schimb, ultimul interval de grupare rmne deschis la limita superioar pentru a putea permite
cuprinderea facultatii cu 346 absolventi. n ultima coloan a tabelului sunt semnalate centrele
intervalelor de grupare, care se obin ca medie aritmetic simpl a limitelor inferioare i superioare
ale fiecrei grupe.



Tabel 1.1.1.
Intervale de variaie
a numrului de
absolventi
Numr de facultati
) (
j
n
Centrul intervalului
de grupare
) (
j
x
165 195
*

195 225
225 255
255 285
285 315
315 i peste
Total 60
*Limita superioar nu este inclus n interval
Reprezentarea grafic este o histogram sau un poligon de frecvene: pe axa absciselor se
msoar cele ase intervale de grupare, iar pe axa ordonatelor frecvena specific fiecrei grupe.
Pentru o reprezentare grafic expresiv, se recomand ca lungimea segmentului aferent frecvenei
maxime nregistrate (in exemplul nostru n
max
= 17) s fie aproximativ egal cu lungimea
segmentului folosit pentru reprezentarea celor ase grupe pe axa absciselor .
b) Varianta de rezolvare 2
Prin aplicarea formulei lui H.D. Sturges pentru estimarea mrimii (l) a intervalelor de
grupare rezult valoarea pentru cele N = 60 facultati observate:
N
x x
l
lg 322 , 3 1
min max
+

=
Avnd n vedere c variabila observat este numrul de absolventi i c aceast variabil nu
admite subdiviziuni, se va analiza posibilitatea gruprii facultatilor pe intervale de cte 25
absolventi, prima grup urmnd s cuprind toate unitile cu absolventide pn la 175 persoane.
Observaie: Formula lui H.D. Sturges ofer o soluionare optimal a cerinei de grupare pe
intervale egale numai n cazul unei distribuii quasi-continue a unitilor observate ntre x
min
i
x
max.

Tabel 1.1.2.
Intervale de variaie a
numrului de
absolventi
Numr de facultati ) (
j
n
Centrul intervalului de
grupare
) (
j
x
Sub 175
*

175 200
200 225
225 250
250 275
275 300
300 325
325 i peste
Total 60
*Limita superioar nu este inclus n interval

n gruparea realizat se pot remarca intervale care nu cuprind nici un element al setului de
date sau pot exista fluctuaii prea mari ntre valorile inregistrate n intervalele de grupare. Pentru a
elimina astfel de neajunsuri, exist dou alternative:
reluarea procesului de grupare a datelor observrii tot pe intervale de variaie a numrului
de absolventi de 25 de persoane, dar, se gliseaz fie n sus (de exemplu, primul interval s cuprind
societile cu pn la 180 absolventi, al doilea interval s fie de la 180 la 205 absolventi etc), fie n
jos (de exemplu, prima grup s fie pn la 170 absolventi etc.).
se procedeaz la regrupare, unind dou cte dou intervalele de variaie a numrului de
absolventi ai facultatilor.
Mai jos se prezint dou variante de regrupare a facultatilor observate, intervalele fiind de
cte 50 absolventi (vezi tabelele 1.1.3 i 1.1.4):
Tabel 1.1.3. Tabel 1.1.4


c) Din variantele de grupare pe intervale egale deja prezentate, se remarc faptul c
majoritatea facultatilor observate se ncadreaz ntre 200 i 300 absolventi.
n acest context, se avanseaz urmtoarea grupare pe intervale neegale de variaie a
numrului de absolventi:
Intervale de
variaie a
numrului
de absolventi
Numr de
facultati
) (
j
n

Centrul
intervalului
de grupare
) (
j
x
Intervale de
variaie a
numrului
de absolventi
Numr de
facultati
) (
j
n
Centrul
intervalului
de grupare
) (
j
x
Sub 175
*

175 225
225 275
275 325
325 i peste

Sub 200
*

200 250
250 300
300 i peste


Total Total

*
Din felul n care sunt definite intervalele
marginale de grupare, rezult c limita
inferioar este inclus n fiecare interval.

*Limita superioar nu este inclus n
interval
Tabelul 1.1.5.
Intervale de
variaie a
numrului de
absolventi
Numr de facultati
) (
j
n
Mrimea
intervalului de
grupare
) (
j
k
Centrul
intervalului de
grupare
) (
j
x
sub 180

180 199
200 239
240 279
280 299
300 350
Total 60
- Primul interval (deschis) se consider a avea aceeai mrime ca i intervalul vecin
(20 de absolveni)

Reprezentarea grafic se realizeaz tot sub forma de histogram. innd cont de faptul c
fiecare grup este ilustrat sub forma unui dreptunghi care are o latur egal cu mrimea
intervalului de grupare (k
j
), iar cealalt cu numrul (n
j
) de elemente din grup, trebuie respectat
proporionalitatea dintre suprafeele dreptunghiurilor.
Astfel, atunci cnd grupa este de 2 sau 2,5 ori mai mare, frecvena observat se
micoreaz de acelai numr de ori. Numai aa se realizeaz o reprezentare corect a repartiiei
de frecvene pe intervale neegale de grupare.

d) Se pornete de la observarea numrului total de absolventi n cele 60 de facultati
nregistrate:

=
=
60
1
14481
i
i
x absolventi.
Acea grupare care se abate cel mai puin (n plus sau minus) de la aceast sum
este considerat c denatureaz cel mai puin specificul colectivitii analizate.
Datele fiind grupate, frecvena (n
j
) specific fiecrei grupe (j) se nmulete cu
centrul (x
j
) grupei pentru a calcula


j
j j
n x .

Cerinele lucrrii

Utiliznd algoritmul de soluionare prezentat in desfurarea lucrrii, s se rezolve
urmtoarea problem:


irul urmtor de date reprezint punctajele obinute de 40 de candidai la admiterea n
nvmntul superior la Universitatea din Piteti n anul 2007: 44; 14; 31; 56; 78; 29; 63; 79; 76;
53; 77; 35; 73; 78; 57; 26; 47; 60; 77; 16; 78; 62; 60; 62; 78; 68; 58; 67; 75; 80; 60; 50; 75; 72; 64;
73; 40; 72; 57; 74.
Observaie: punctajul maxim obtenabil n 2007 a fost de 80.

Se cere:
a) S se observe punctajele maxim i minim nregistrate n aceast set de date.
b) S se grupeze candidaii dup rezultatele obinute n cinci grupe egale.
c) S se reprezinte grafic repartiia obinut.
d) S se calculeze mrimile relative prin care se caracterizeaz structura setului de date n
funcie de performana nregistrat de candidai, precum i proporia ntre grupele
constituite.



















































LUCRARE DE LABORATOR NR. 2

ANALIZA STATISTICA A SERIILOR DE REPARTIIE (DE
DISTRIBUIE)

Breviar teoretic

Seria de repartiie, seria de distribuie sau seria de frecvene este rezultatul gruprii
elementelor unui set de date n funcie de variantele sau intervalele de variaie ale unei
caracteristici atributive cantitative sau calitative.
Reprezentarea grafic a unor astfel de serii se face, n funcie de natura datelor i de
obiectivul urmrit prin: histogram , poligon de frecven, diagram cu benzi, diagram de
structur, curb de concentrare, curba frecvenelor cumulate, ogiv.












Fig. 2.1. Trsturile unei serii de repartiie

Pentru a prelucra i valorifica integral informaiile cuprinse ntr-o serie de repartiie, este
important s se in seama de trsturile unei astfel de serii de date:
- independena termenilor seriei poate fi neleas n sensul c fiecare valoare este specific
unui element al setului de date i nu depinde de valoarea nregistrat la celelalte elemente;
- omogenitatea termenilor const n aceea c toate variantele au o esen comun, o aceeai
determinare comun, cauzat de factori hotrtori, care genereaz nsui setul de date cercetat;
- variabilitatea termenilor seriei cauzat de faptul c, pe lng factorii hotrtori, eseniali,
acioneaz i factori ntmpltori, accidentali care fac ca manifestarea individual s fie divers,
distinct de alte manifestri;
Dac se folosete o singur caracteristic de grupare, seria de repartiie se numete
unicriterial sau unidimensional.
Dac se folosete o caracteristic de grupare numeric, seria de repartiie se numete i serie
de variaie.
O caracteristic de grupare calitativ (nenumeric) conduce la alctuirea unei serii de
repartiie numit serie de atribute sau serie nominativ. Un caz particular al seriilor nenumerice l
reprezint variabila alternativ. Ea reprezint doar dou stri sau variante, care se elimin reci-
proc.
Dac se folosesc concomitent mai multe caracteristici de grupare atributive, rezult o serie
de repartiie multicriterial sau multidimensional.

Analiza statistic a seriilor de repartiie se realizez cu dou categorii de indicatori:

Termenii unei serii
de repartiie se
caracterizeaz prin:
Independen
Omogenitate
Variabilitate
Concentrare/mprtiere
- Indicatorii care descriu frecvenele de apariie ale unitilor de acelai fel. Indicatorii de
frecven pot fi folosii pentru toate categoriile de serii de repartiie, indiferent care ar fi natura sau
numrul caracteristicilor dup care se face gruparea elementelor colectivitii.
- Indicatorii care exprim (numeric) diferite aspecte ale valorilor caracteristicii se pot
calcula numai pentru seriile de variaie, constituite n funcie de una sau mai multe variabile
numerice.


Indicatorii unei serii de repartiie constituite n funcie de o variabil numeric

Indicatorii de analiz a frecvenelor

Frecvenele absolute (n
i
) reprezint numrul de elemente cuprinse ntr-o grup.
Frecvenele relative (n
i
*
) sunt cote pri, greuti specifice ale unei variante sau grup de
variante, n totalul setului de date;

=
i
i
i
n
n
n
*


unde: m i , 1 = , m = numrul de variante distincte sau numrul de grupe (intervale de grupare a
variantelor).

Frecvenele cumulate. n procesul analizei, se cumuleaz treptat, fie frecvenele absolute,
fie cele relative, n sensul cresctor i/sau n sensul descresctor al valorilor caracteristicii
cercetate.
Aceast cumulare servete la exprimarea nivelului de concentrare n cadrul setului de date
i la determinarea indicatorilor tendinei centrale.

Indicatorii de analiz a valorilor caracteristicii de grupare

Din cea de a doua categorie de indicatori folosii pentru analiza unei repartiii de frecvene
alctuite n funcie de o variabil numeric, fac parte:
indicatorii tendinei centrale;
indicatorii variaiei i ai asimetriei.

Indicatorii tendinei centrale exprim printr-un numr ceea ce este comun, tipic, esenial
pentru elementele colectivitii cercetate.

Dac seria de date statistice este organizat pe variante distincte:

Media aritmetic este acea valoare abstract care, nlocuind toate variantele unei colectiviti
(toi termenii seriei), nu modific suma acestora.

=
= + + +
n
i
i n
x x x x
1
2 1
.......
Mediana (Me) reprezint valoarea mijlocie a unei serii de date aranjate cresctor sau
descresctor. Cu alte cuvinte, fa de valoarea median, jumtate din observaii au valori mai mici
sau egale cu mediana, iar jumtate au valori mai mari sau egale cu mediana.
Utilizarea medianei ca o expresie a tendinei centrale este recomandat mai ales atunci cnd
seria conine valori extreme, valoarea medie nemaifiind, n acest caz, reprezentativ.

Modul sau dominanta unei variabile reprezint valoarea care nregistreaz cea mai mare
frecven de apariie.

ntr-o serie organizat pe intervale de grupare:
Media aritmetic a unei repartiii de frecvene se estimeaz pe baza relaiei:

=
i
i i
n
n x
x
unde m i , 1 = , iar m reprezint numrul de intervale de grupare constituite.
Valoarea median (mijlocie) a seriei este acea variant care o mparte n dou pri egale.
Locul medianei se stabilete prin relaia:
2
1 +
=
n
Me Loc .
ntr-o serie organizat pe intervale de grupare, dup aflarea locului medianei se procedeaz la
identificarea intervalului ce conine mediana. Adunnd treptat frecvenele ajungem la un numr
mai mare sau egal cu cel al locului medianei. Astfel rezult intervalul care conine mediana.
Mediana (Me) se estimeaz cu urmtoarea relaie de interpolare:

Me
Me Me
n
np n
k x Me

+
+ =
) 1 ( 5 , 0
0
,
n care: x
0
= limita inferioar a intervalului ce conine mediana;
k
Me
= mrimea intervalului median;
0,5 (n +1) =locul medianei;
Enp
Me
= suma frecvenelor pn la intervalul ce conine mediana;
n
Me
= frecvena intervalului ce conine mediana.

Modul sau dominanta este varianta cu frecvena cea mai mare.
ntr-o serie organizat pe intervale de grupare, valoarea modal se afl, tot prin interpolare, n
intervalul cu frecvena cea mai mare. Nu este obligatoriu ca intervalul modal s coincid cu cel
care conine mediana.
Modul (Mo) se estimeaz dup relaia de interpolare n intervalul modal:
2 1
1
0
A + A
A
+ =
Mo
k x Mo
n care: x
0
= limita inferioar a intervalului modal;
k
Mo
= mrimea acestui interval;
A
1
= diferena dintre frecvena modal i frecvena intervalului imediat anterior;
A
2
= diferena dintre frecvena modal i frecvena intervalului imediat urmtor.
ntr-o serie perfect simetric:
Mo Me x = = .
De cele mai multe ori, seriile empirice nu sunt perfect simetrice, astfel c se va identifica
una din urmtoarele situaii:
- o serie n care x <Me <Mo numit i serie cu asimetrie de dreapta;
- serie n care Mo <Me <x numit i serie cu asimetrie de stnga.

Indicatorii variaiei i asimetriei. n funcie de numrul de variante luate n calcul i dup
rolul ndeplinit n analiza variaiei, distingem:
- indicatori simpli ai variaiei;
- indicatori sintetici ai variaiei.

Indicatorii simpli ai variaiei:
Abaterea fiecrei variante sau a fiecrui centru de interval de grupare (x
i
) de la medie x ,
exprimat n mrimi absolute
x x d
i i
=
sau mrimi relative:
100
%

=
x
x x
d
i
i
.
Aceti indicatori nu caracterizeaz variaia n cadrul colectivitii, ci poziia fiecrui termen
al seriei (x
i
) fa de medie.
Amplitudinea variaiei exprim mrimea cmpului de mprtiere n jurul mediei. Se
exprim n mrime absolut:
min max
x x A =
i n mrime relativ:
100
min max %

=
x
x x
A .
n general, se apreciaz c o amplitudine a variaiei care se situeaz sub 100%, este specific
unor colectiviti omogene. Pe msur ce aceasta se ndeprteaz de 100%, colectivitatea este din
ce n ce mai eterogen, iar media ei mai puin semnificativ.
Observaie: Dac informaiile sunt nc prezentate sub forma seriei de repartiie organizate
pe intervale de grupare, iar primul sau/i ultimul interval rmne deschis pentru a cuprinde toate
elementele observate, atunci amplitudinea absolut a variaiei se estimeaz cu ajutorul centrelor
intervalelor de grupare marginale (chiar dac cercettorul este contient de faptul c, astfel, o parte
din cmpul de mprtiere a variantelor ramne n afara analizei).
Indicatorii sintetici ai variaiei iau n calcul toate centrele de grupare x
i
pentru a exprima
intensitatea mprtierii n jurul mediei.
n funcie de gradul de abstractizare i de relaia de calcul, distingem patru indicatori
sintetici:
- abaterea medie liniar ( d );
- dispersia (o
2
);
- abaterea standard numit i abatere medie ptratic (o);
- coeficientul de variaie (v).

Dispersia poate fi definit ca medie aritmetic a ptratelor abaterilor de la media
colectivitii. Este o mrime abstract, adimensional ce nu servete direct analizei variaiei.


=
i
i i
n
n x x
2
2
) (

Abaterea standard sau abaterea medie ptratic este, aa cum i spune i numele, o
medie ptratic a abaterilor de la x estimat.
2
=
Ca medie ptratic, ntotdeauna, d > > o medie aritmetic a abaterilor.
Coeficientul de variaie este indicatorul sintetic care exprim ntr-o form abstract
intensitatea variaiei. Se calculeaz astfel:
100 =
x
v


Coeficientul de variaie se definete n domeniul numerelor pozitive. Din statistica
experimental s-a preluat aprecierea urmtoare: dac v este pn n 35%, se consider c
intensitatea variaiei este redus, colectivitatea este omogen i n consecin media este
reprezentativ. Cu ct se depete pragul de 35%, cu att intensitatea variaiei crete, iar colec-
tivitatea este mai eterogen. n aceste condiii, media tinde s fie o mrime nereprezentativ.
Forma variaiei n jurul mediei se exprim statistic prin mai muli indicatori ai asimetriei,
boltirii, excesului repartiiei de frecvene etc. Cea mai simpl modalitate de descriere acceptabil,
chiar dac incomplet a formei variaiei este observarea diferenei ntre medie i mod care se
numete asimetrie:
0 s = Mo x as
- Dac Mo x = atunci exist simetrie perfect;
- Dac Mo x > atunci exist asimetrie pozitiv sau de stnga;
- Dac Mo x < atunci exist asimetrie negativ sau de dreapta.

Desfurarea lucrrii

Se testeaza performanta a 65 de calculatoare, prin masurarea timpului de executie al
aceluiasi job de calcul si se inregistreaza valorile abtinute in tabelul de mai jos.

90,9 93,2 72,4 91,7 93,2 67,4 75,0 83,3 75,0 90,2 99,2
95,5 76,1 78,8 97,0 65,2 77,8 86,4 87,1 76,1 86,4 96,2
70,5 83,3 91,7 93,9 91,7 84,1 85,6 87,9 89,4 85,6 84,1
92,4 88,6 92,4 97,7 7,9 95,5 87,1 91,7 96,2 92,4 86,4
89,4 92,4 93,2 88,6 87,1 97,0 96,2 86,1 90,9 87,9 98,5
62,8 87,9 80,3 76,5 81,8 88,6 83,3 81,8 98,5 100,0
Se cere descrierea acestui eantion prin indicatori specifici seriilor de distribuie de
frecvene.

Rezolvarea 1
Gruparea calculatoarelor pe variante distincte de timp reduce (comprim) seria de date
observate ale celor 65 calculatoare la 34 de variante distincte, cu urmtoarele frecvene:
Tabel 2.1.
Varianta cu frecvena Varianta cu frecvena Varianta cu frecvena
62,8 81,8 91,7
65,2 83,3 92,4
67,4 84,1 93,2
70,5 85,6 93,9
72,4 86,1 95,5
75,0 86,4 96,2
76,1 87,1 97,0
76,5 87,9 97,7
77,8 88,6 98,5
78,8 89,4 99,2
80,3 90,2 100,0
90,9

Aceasta este o serie de distribuie de frecvene pe variante ale caracteristicii timpul de
executie msurate, seria putnd fi caracterizat prin indicatori ai tendinei centrale, indicatori ai
variaiei i asimetriei.


Indicatorii tendinei centrale sunt:
- Media:
i
i i
n
n x
x
E
E
=
Locul medianei: ;
2
1 + E
=
i
n
locMe
- Mediana este a 33-a variant n seria ordonat cresctor.
Deci, Me =
Pentru a afla modul se va observa frecvena maxim nregistrat.

Indicatorii variaiei:
- Amplitudinea absolut a variaiei:
min max
x x A =
- Amplitudinea relativ a variaiei:
100
%
=
x
A
A
- Dispersia caracteristicii n jurul mediei:
i
i i
n
n x x
E
E
=
2
2
) (

- Abaterea medie ptratic (abaterea standard):
2
=

- Coeficientul de variaie:
100 =
x
v


Observaie:
n prima variant de rezolvarea a problemei, rezultatele sunt determinri exacte, pe baza
variantelor distincte ale caracteristicii observate.

Rezolvarea 2. Dac variantele se grupeaz pe intervale egale de cte 5 sec, atunci toi
indicatorii ce descriu seria sunt estimri ale determinrilor obinute la Rezolvarea 1.
Tabel 2.2.
Intervale de
variaie a
timpului de
executie (sec)
Numr
calculatoare
fiecare grup
(n
i
)
Centre ale
intervalelor de
grupare
(x
i
)
x
i
n
i

Pn la 65
65,1 70,0
70,1 75,0
75,1 80,0
80,1 85,0
85,1 90,0
90,1 95,0
95,1 100,0
Total 65 ---

Indicatorii tendinei centrale:
- Media estimat pe baza centrelor intervalelor de grupare este:

i
i i
n
n x
x
E
E
=
-

Mediana:
Me
f
F
i
n
Me
k
Me
x Me
+ E
+ =
) 1 ( 5 , 0

unde F este suma frecvenelor pn la intervalul care conine mediana.


- Modulul: se va observa care este intervalul care are frecvena maxim (cuprinde cele mai
multe elemente ale colectivitii). Prin interpolare rezult modul:
2 1
1
A + A
A
+ =
Mo
k
Mo
x Mo

Indicatorii variaiei:
- Amplitudinea absolut a variaiei estimat pe baza centrelor intervalelor de grupare:
- Amplitudinea relativ a variaiei:

Cerinele lucrrii

Utiliznd algoritmul de soluionare prezentat in desfurarea lucrrii, s se rezolve
urmtoarea problem:

La verificarea calitii produciei unei fabrici de becuri se constat urmtoarea repartiie a
loturilor n funcie de numrul de produse defecte identificate la fiecare lot controlat:

Numr produse
defecte n lot
(buci)
Numr
loturi
(n
i
)
pn la 3 54
4 6 74
7 9 41
10 12 20
13 15 11
Total 200
Se cere:
a) S se determine numrul mediu de produse defecte/lot.
b) S se calculeze i comenteze dispersia, abaterea standard i coeficientul de variaie n jurul
mediei.
c) S se precizeze dac media colectivitii este reprezentativ pentru cele 200 loturi
controlate. Motivai opiunea fcut.












































LUCRARE DE LABORATOR NR. 3


TESTE DE SEMNIFICAIE


Breviar teoretic
Pe lnga studiul asocierii dintre variabile, tehnicile statistice pot fi utilizate si pentru
determinarea diferentelor dintre grupuri. Aceste medode se utilizeaza frecvent n analiza datelor n
cercetarile experimentale.
Tehnicile parametrice ne permit sa evaluam efectele unei variabile independente
(manipulate de cercetator) sau categoriale (vrsta, sex, etc) asupra unei variabile dependente n
situatia n care se va lucra cu una sau doua grupe de subiecti. Cu ajutorul acestor teste statistice se
ridica problema daca diferentele constatate ntre grupele de subiecti sunt datorate interventiei
cercetatorului (variabilei independente), caracteristicilor variabilei categoriale sau dimpotriva,
ntmplarii.
Exista trei tipuri de tehnici principale care vor fi discutate n acest capitol:
- Tehnici care privesc diferenta dintre un esantion si media setului de date din care acesta
face parte - "the one simple t Test";
- Tehnici care privesc diferenta dintre doua grupe independente de subiecti "the t test for
independent samples";
- Tehnici care privesc diferenta dintre doua grupe dependente de subiecti "the t test for
correlated samples".
Tehnicile t si z pentru un esantion.
n acest caz dorim sa aflam daca un esantion de date difera de un set de date mai mare.
Exemplu:
Sa presupunem ca un test de empatie a fost administrat pe o populatie mare de elevi abia
intrati la liceu (N=1000), iar media obtinuta pe ntreagul set de date testat a fost de 76.
Cnd s-a efectuat acelasi test pe o clasa de elevi de n=32 subiecti, s-a obtinut media de 81
si o estimare a abaterii standard de 9(s).
Se pune problema daca elevii din aceasta clasa au un nivel de empatie diferit de media
specifica pentru clasa a IX-a.
Pentru solutionarea acestei probleme exista doua teste statistice adecvate, si anume testele
z si t.
Vom utiliza testul z daca:
- se cunoaste abaterea standard a variabilei dependente la nivelul populatiei;
- daca numarul de date cuprinse n esantionul comparativ este suficient de mare (de regula
peste 30 de date).
n situatia n care una din cele doua conditii nu sunt ndeplinite, utilizam testul t pentru un
esantion.
n problema de fata se observa ca nu putem aplica testul z desi avem un esantion
comparativ destul de mare n=32 (mai mare decat 30) deoarece nu se cunoaste abaterea standard a
setului din care face parte esantionul.
Ca urmare, calculam testul t care valideaza sau infirma ipoteza nula potrivit careia, nu
exista nici o diferenta ntre media (m) obtinuta pe esantion de subiecti (n=32) si media (m )
obtinuta pe populatia din care a fost extras esantionul.
Matematic, ipoteza nula si cea de lucru (alternativa) se formuleaza astfel:
Ho: M =m
H1a: M >m <M
H1b: M >m ori M <m
n cazul H1a ipoteza alternativa specifica ca exista o diferenta ntre cele doua medii fara a
arata directia acestei diferente. n acest caz avem de a face cu un test t bilateral (two-tailed test).
n cazul H1b ipoteza alternativa specifica directia diferentei ntre cele doua medii - o medie
este mai mica (mare) dect cealalta datorita unor considerente teoretice. Aceasta situatie necesita
un test t unilateral (one-tailed).
Cele doua tipuri de test t utilizeaza aceeasi formula, specificul unilateral vs. bilateral
influentnd doar valorile comparative prezente n tabelul lui t.
Formula lui t este:

Unde: M este media esantionului
este media setului de date din care face parte esantionul;

M
EE este eroarea standard a mediei esantionului;

Unde: s este estimarea abaterii standard a esantionului (s=9); n este volumul (marimea)
esantionului (n=32)
nlocuind datele problemei prezentate n formula lui t data mai sus obtinem:

Urmatorul pas care trebuie facut dupa calcularea lui t este de a compara valoarea obtinuta
cu cea corespunzatoare n tabelul lui t. Daca valoarea calculata este mai mare dect cea din tabel
ipoteza nula este respinsa. Pentru aceasta sunt necesari trei pasi:
a. Stabilirea gradelor de libertate. Numarul de grade de libertate notate cu df se obtine din
numarul de date cuprinse n esantionul de comparatie, asupra caruia se opereaza cu o corectie de
deviere. Calcularea gradelor de libertate pentru acesta situatie se face astfel: df =n-1. Pentru
exemplul dat avem 31 df (32-1) grade de libertate.
b. Al doilea pas intermediar este alegerea tipului de situatie a lui t, ntre t unilateral sau t
bilateral. Aceasta alegere se face dependent de cunostintele teoretice implicate n problema. Daca
avem motive sa credem datorita unor caracteristici speciale ca media esantionului comparativ este
mai mare (sau mai mica) dect media setului de date din care face parte esantionul vom utiliza
valorile testului t unilateral din tabel. Daca consideram ca cele doua medii difera semnificativ, fara
a putea anticipa ca una ar fi mai mare dect cealalta dintr-o perspectiva teoretica exprimata n
ipoteza de lucru vom utiliza valorile lui t bilateral din tabelul lui t. n exemplul dat nu exista nici o
premisa care sa ne ndreptateasca sa consideram ca una din medii este mai mare dect cealalta, de
aceea vom consulta valorile lui t bilateral.
c. Stabilirea pragului de semnificatie p. Practica statistica considera necesara stabilirea unui
nivel de ncredere de maxim 0,05(.05).
Revenind la problema data, urmeaza sa consultam tabelul lui t pentru a compara valoarea
obtinuta de noi t=3,14 cu valoarea prezentata n tabel pentru 31 df (grade de libertate) pentru t
bilateral la un prag de semnificatie de p .05.
Deoarece n tabel nu sunt prezentate valorile lui t pentru 31 df, ne uitam la valoarea cea mai
apropiata, dar anterioara acestor grade de libertate. Astfel, la 30 df, valoarea lui t bilateral pentru
un p <.05 este 2,042.
Se poate observa ca valoarea obtinuta de noi t=3,14 este mai mare dect valoarea din tabel
t=2,042, situatie care se interpreteaza astfel: ipoteza nula este respinsa, ca urmare rezultatele
obtinute nu pot fi puse n totalitate pe seama ntmplarii, deci exista o diferenta semnificativa din
punct de vedere statistic n ce priveste diferenta dintre cele doua medii.
Rezultatul obtinut se noteaza matematic astfel:
t(31)=3,14, p <.05.
Verificarea ipotezelor raspunde la ntrebarea daca esantionul extras are caracteristici
diferite fata de setul de date specificat n ipoteza nula. Daca obtinem o diferenta semnificativa
statistic ne putem pune o ntrebare suplimentara: Ct de mare este aceasta diferenta? Pentru aceasta
se calculeaza marimea efectului propus de Cohen si notat cu d.
Indexul marimii efectului pentru testul t n cazul de fata este dependent de datele oferite n
problema:
a) Daca se cunoaste abaterea standard a setului de date, iar esantionul comparativ este sub
30 de date (testul t), vom utiliza urmatoarea formula:

Unde: M este media esantionului supus comparatiei;
este media setului de date n ce priveste variabila urmarita;
o este abaterea standard a variabilei de interes la nivelul setului de date.
Daca nu se cunoaste abaterea standard a setului de date, iar esantionul de comparatie are
sub 30 de subiecti (testul t) -cazul problemei data exemplu- avem o formula apropiata de calcul a
marimii efectului:

Unde: M si au aceeasi semnificatie;
s reprezinta estimarea abaterii standard a variabilei de interes la nivelul populatiei pornind d
la grupul comparativ (n problema data s=9 ).
Putem calcula marimea efectului nlocuind datele problemei prezentate.

Interpretarea acestei valori obtinute se face prin raportarea ei la conventia propusa de
Cohen si adoptata de cercetatori:
Efect mic d=.20;
Efect mediu d=.50;
Efect mare d=.80
Marimea efectului obtinuta de noi a fost de .55 ceea ce nseamna ca am obtinut o valoare
medie. Revenind la ntrebare: Ct de mare este aceasta diferenta? Putem afirma ca diferenta
statistica are o valoare medie.
Valoarea lui d are o importanta deosebita n determinarea puterii experimentului si n
calcularea marimii esantionului necesar pentru a da credibilitate cercetarii efectuate.


Calcularea testului z necesita utilizarea formulei:

Unde: M este media esantionului comparat;
este media setului de date;
EE este eroarea standard a mediei setului de date.

Unde: o (sigma) este abaterea standard a setului de date; N este volumul esantionului comparat.
Sa presupunem ca n problema anterioara pe lnga media ( =76) obtinuta la proba de
empatie la nivelul setului de date era specificata si abaterea standard (o =8).

n acest caz, se aplica testul z pentru ca stim valoarea abaterii standard a setului de date, iar
volumul esantionului de comparatie n era peste 30 subiecti (n=32).
Interpretarea valorii lui z obtinute se face raportnd aceasta valoare la valorile standardizate
ale lui z. Spre deosebire de testul t, care necesita consultarea tabelului t n vederea admiterii sau
respingerii ipotezei nule, n cazul testului z, valoarea obtinuta se confrunta cu patru valori
standardizate:
Testul bilateral: z =1,96 pentru un p < .05
z =2,58 pentru un p < .01
Testul unilateral: z =1,65 pentru un p < .05
z =2,33 pentru un p < .01
n cazul de fata am obtinut un z =3,53, valoare superioara celor prezentate mai sus. Acest
fapt nseamna ca ipoteza nula este respinsa, existnd o diferenta semnificativa ntre mediile celor
doua grupe de subiecti care nu poate fi datorata n ntregime ntmplarii.
Si n acest caz poate fi calculata marimea efectului, formula fiind asemanatoare cu prima cu
exceptia nlocuirii abaterii standard a esantionului comparat (s) cu abaterea standard a setului de
date (o ).

Interpretarea lui d se face asemanator cu modelul explicat anterior. Putem trage concluzia
ca rezultatul obtinut, d=0,62, nseamna un efect de valoare medie.


Testele t si z pentru doua esantioane independente

Testele t si z aplicate anterior pentru a determina daca un esantion difera de o populatie nu
se aplica prea frecvent. Mai des sunt utilizate testele z si t pentru esantioane independente pentru a
determina daca mediile a doua esantioane difera semnificativ.
- Daca n1 < 30 (numarul de subiecti din prima grupa) si n2 < 30 (numarul de subiecti din a
doua grupa) se aplica testul t.
- Daca n1 > 30 si n2 > 30 se aplica testul z.
n ce priveste diferentierea ntre testele independente si dependente, aceasta se face n
functie de natura esantionului cuprins n experiment. Apar doua situatii:
- Daca cele doua esantioane sunt alese la ntmplare pe baza situatiei lor naturale (ex. Doua
clase paralele, doua grupe de vrsta etc) se utilizeaza testele independente.
- Daca cele doua esantioane sunt n relatie unul cu celalalt prin interventia
experimentatorului se utilizeaza testele dependente.

Testul t independent

Unde:
2 1
,M M reprezinta mediile celor doua esantioane;
2 1
M M
EE

reprezinta eroarea
standard a diferentei dintre cele doua medii.

Unde:
2
1
s reprezinta dispersia primului grup (abaterea standard la patrat);
2
2
s reprezinta dispersia
celui de-al doilea grup;
1
n - numarul de subiecti din primul grup;
2
n - numarul de subiecti din al
doilea grup.







Daca
1
n este egal
2
n :

Daca
1
n este diferit de
2
n :


Dupa calcularea lui t independent va trebui sa comparam valoarea obtinuta cu valoarea data
n tabelul lui t. Pentru aceasta sunt necesari pasii intermediari descrisi n cazul lui t pentru un
esantion:
- Calcularea gradelor de libertate pentru testul t independent se face astfel: df =(n1 +n2) 2
- Alegerea tipului de situatie a lui t, adica avem un test t unilateral sau bilateral. n acest caz
se utilizeaza testul t independent bilateral.
- Stabilirea valorii lui t conform pragului de semnificatie ales. Practica statistica considera
necesara stabilirea unui nivel de ncredere de maximum 0,05(.05).

Testul z pentru esantioane independente
n situatia n care 30 ; 30
2 1
> > n n pentru doua esantioane independente aplicam testul z.
Formula de calcul este:

Dupa cum se observa formula de calcul a lui z n aceasta situatie este identica cu cea a lui t
independent pentru n1 =n2. Spre deosebire de testul t independent, testul z are aceeasi formula si
n cazul n care n1 = n2.
Rezultatul obtinut este comparat cu cele doua valori standardizate z (1,96 pentru p < .05,
respectiv 2,58 pentru p < .01 pentru testul bilateral, respectiv cu 1,65 pentru p < .05, respectiv 2,33
pentru p < .01 pentru testul unilateral). Algoritmul rezolvarii problemelor care necesita testul z este
asemanator cu cel prezentat n cazul lui z pentru un esantion.
OBSERVATII: Se observa ca formula pentru testul z este identica cu cea a testului t
independent pentru esantioane egale. De altfel, tendinta ultimilor ani este de a nlocui testul z cu
testul t.












Desfasurarea lucrarii

Problema nr. 1

O problem de matematic a fost implementat n cteva limbaje de programare, utiliznd
numai calcule simple. S-au msurat timpii necesari executrii acestor sarcini (set de date martor).
S-a optimizat rezolvarea aceleiai probleme prin utilizarea funciilor recursive i s-au msurat, din
nou, timpii de execuie pentru toate limbajele de programare (set de date de test).
Utiliznd testul T, s se analizeze semnificaia progresului obinut prin utilizarea funciilor
recursive.


Set date martor Set date de test
3 2
4,5 4
5 5
6 3,5
7,5 7
11,5 10,5
8 6
8 8
4 1,5
6,5 4
=
1
n 10 elemente =
2
n 10 elemente


Algoritm de rezolvare
Ipoteza nul din punct de vedere al mediei, cele dou seturi de date nu difer
semnificativ.

1. Calculam mediile si dispersiile celor doua iruri de date:
2 2
; ; ;
t m t m
x x
2. Calculam valoarea parametrului de test:
2
2
1
2
n n
x x
t
t m
t m
calc

=
3. Determinam valoarea tabelata a parametrului t, prin intersecia coloanei corespunztoare
nivelului de ncredere 005 , 0 = , cu linia corespunztoare numrului gradelor de libertate
1 = n l

4. Decizia

Daca
tabelat calc
t t > - resping ipoteza nul i consider c cele doua iruri de date difer
semnificativ, atunci cnd elementul de comparaie este media acestora, deci optimizarea
avut n vedere aduce un progres semnificativ pentru datele avute n vedere.
Daca
tabelat calc
t t < - accept ipoteza nul i consider c cele doua iruri de date nu difer
semnificativ, atunci cnd elementul de comparaie este media acestora, deci optimizarea
avut n vedere nu aduce un progres semnificativ pentru datele avute n vedere (este
nesemnificativ).




Problema nr. 2

Dintr-un lot de cartue de imprimant s-a extras aleator un eantion de 10 buci i se
msoar timpul necesar imprimrii unei pagini cu aceste cartuse (set de date martor). Din acelai
lot, se extrag alte 8 cartue de imprimant, care, dup ce sunt epuizate, sunt rencrcate cu
cerneal. Se msoar timpul necesar imprimrii unei pagini, dup aceasta rencrcare (set de date
de test).
Utiliznd testul T, s se analizeze n ce msur cea de-a dou ncrcare a cartuelor de
imprimant influeneaz timpul de imprimare.


Set date martor Set date de test
3,24 5,14
6,32 7,92
5,49 8,49
1,98 10
3,04 11,02
7,01 9,49
5,49 7,62
6,53 8,69
2,98
6,18
=
1
n 10 elemente =
2
n 8 elemente


Algoritm de rezolvare
Ipoteza nul din punct de vedere al mediei, cele dou seturi de date nu difer
semnificativ.

5. Calculam mediile si dispersiile celor doua iruri de date:
2 2
; ; ;
t m t m
x x

6. Calculam valoarea parametrului de test:
2
2
1
2
n
s
n
s
x x
t
p p
t m
calc

= unde
2
) 1 ( ) 1 (
2 1
2
2
2
1 2
+
+
=
n n
n n
s
t m
p


7. Determinam valoarea tabelata a parametrului t, prin intersecia coloanei corespunztoare
nivelului de ncredere 005 , 0 = , cu linia corespunztoare numrului gradelor de libertate
2
2 1
+ = n n l

8. Decizia

Daca
tabelat calc
t t > - resping ipoteza nul i consider c cele doua iruri de date difer
semnificativ, atunci cnd elementul de comparaie este media acestora, deci optimizarea
avut n vedere aduce un progres semnificativ pentru datele avute n vedere.
Daca
tabelat calc
t t < - accept ipoteza nul i consider c cele doua iruri de date nu difer
semnificativ, atunci cnd elementul de comparaie este media acestora, deci optimizarea
avut n vedere nu aduce un progres semnificativ pentru datele avute n vedere (este
nesemnificativ).


Cerinele lucrrii

Utiliznd algoritmul de soluionare prezentat in desfurarea lucrrii, s se rezolve
urmtoarea problem:
Un cercetator doreste sa studieze influenta metodelor de invatare asupra unui grup de
studenti. Este selectat un grup de 12 studenti carora li se cere sa rezolve o amunita problema si este
consemnat timpul necesar fiecaruia. Dupa acest moment, studentii sunt pregatiti intens la
disciplina respectiva si sunt reevaluate rezultatele dupa 1 luna.
Sa se determine in ce masura pregatire studentilor a adus un progres semnificativ in ceea ce
priveste timpul de rezolvare a problemelor.


Student Pre Post
1 21 15
2 18 13
3 15 16
4 11 13
5 24 13
6 23 12
7 17 11
8 19 10
9 19 15
10 17 17
11 20 14
12 15 16

LUCRARE DE LABORATOR NR. 4
ELEMENTE DE SONDAJ STATISTIC

Breviar teoretic

Sondajul este o form a cercetrii statistice realizat pe baza unei pri reprezentative din
setul de date (colectivitatea general) studiat. El presupune urmtoarele etape consecutive:
1) extragerea unui eantion reprezentativ din setul de date (eantionarea) i analizarea
acestuia in detaliu (observarea eantionului);
2) descrierea statistic a eantionului prin indicatori specifici fiecrei caracteristici
nregistrate n cadrul programului de observare (obinerea estimatorilor);
3) extinderea rezultatelor obinute la nivel de eantion asupra intregului set de date (inferen-
a statistic).

Dup scopul urmrit, sondajul statistic poate fi:
- sondaj descriptiv ntreprins n vederea estimrii parametrilor ce caracterizeaz un set de
date;
- sondaj analitic realizat pentru verificarea (testarea) unor ipoteze statistice.
Realizarea sondajului are rost numai dac volumul eantionului (n) este mult mai mic dect
volumul colectivitii generale (N) din care a fost extras.
Eantionul (mostra, proba, colectivitatea de selecie) este o submulime a a setului de date,
astfel extras (obinut) nct s reprezinte principalele trsturi ale intregului set de date.
Setul de date este format din totalitatea elementelor (simple sau complexe) a cror mulime
formeaz fenomenul/procesul supus analizei. Deoarece din ntreaga populaie se extrage un numr
de elemente, ea se mai numete i baz de sondaj.
O clasificare a procedeelor de sondaj n funcie de mai multe criterii, ajut cercettorul s
fac alegerea just pentru obinerea unui eantion reprezentativ:
Dup volumul eantionului, distingem:
sondaje de volum mare, care presupun alctuirea de eantioane de cel puin 120 de elemente
simple sau complexe;
sondaje de volum mic, n care eantionul cuprinde mai puin de 30 de elemente.
Dup algoritmul folosit la extragerea eantionului, putem deosebi:
sondaje strict aleatoare (ntmpltoare);
sondaje dirijate;
sondaje mixte.
Dup numrul de etape succesive urmate n organizarea eantionrii, observm:
sondaje simple (o singur etap pentru extragerea eantionului);
sondaje n trepte sau multistadiale/multifazice (dou sau mai multe etape).

Indicatorii principalelor tipuri de sondaj

Diferena dintre media eantionului i media colectivitii generale se numete eroare de
reprezentativitate. Ea este generat fie de cauze sistematice (voite sau ntmpltoare) care duc la
alctuirea unui eantion dup criterii subiective, fie de abateri aleatoare la nregistrarea datelor
despre unitile care alctuiesc eantionul.
Dac se iau n considerare toate eantioanele de un anumit volum n, obinute prin acelai
procedeu de extragere, se constat c mediile acestor eantioane ( x
i
) se distribuie normal fa de
valoarea pe care o are media colectivitii generale ( x
0
). Eantioanele avnd media identic egal
cu x
0
sunt cele mai frecvente.
Eroarea medie de reprezentativitate este abaterea medie ptratic a tuturor mediilor de
eantionare fa de x
0
. Pentru a putea calcula aceast eroare medie de reprezentativitate
(
x
pentru variabila numeric i
w
pentru variabila alternativ) ar trebui s dispunem de toate
mediile eantioanelor posibile i de frecvenele lor de apariie. Atunci:


=
i
i i
x
f
f x x ) (
2
0
[4.1]
De obicei nu se cunoate dect un singur eantion. Se poate face ns calculul anticipat al lui

x
, pornind de la relaia dintre dispersia colectivitii generale (o
2
0
), ptratul erorii medii de
reprezentativitate
2
x
i volumul eantionului (n).
n cazul seleciei simple repetate aceast relaie, pentru variabila numeric, este:
n
x
=
2 2
0
[4.2]
ceea ce nseamn c:
n
x
2
0

= , [4.3]
adic eroarea medie de reprezentativitate este direct proporional cu dispersia colectivitii
generale i invers proporional cu volumul eantionului.

Dac nu se cunoate
2
0
,

se accept c dispersia unicului eantion cunoscut o
2
ofer o
informaie satisfctoare asupra mprtierii elementelor colectivitii, dac eantionul este
convenabil de mare. Totui se face o corecie cu 1, adic:
1
2

=
n
x

. [4.4]
Dac se folosete o variabil alternativ, eroarea medie de reprezentativitate se stabilete
potrivit acelorai relaii. Atunci cnd se cunoate dispersia colectivitii generale, eroarea medie de
reprezentativitate a unui eantion extras simplu aleator repetat este:
n
p p
w
) 1 (
= [4.5]
iar, dac nu se cunoate dect dispersia eantionului, atunci:

1
) 1 (

=
n
w w
w
[4.6]
Aceste relaii sunt valabile pentru sondajul simplu repetat, precum i pentru selecia
mecanic.
Dac se practic sondajul simplu nerepetat, eantioanele sunt mai reprezentative dect n
cazul sondajului repetat. De aceea, se introduce un coeficient de corecie
N
n
1 n estimarea
erorii medii de reprezentativitate.
Astfel, eroarea medie de reprezentativitate a unei variabile numerice [4.4] devine n cazul
sondajului simplu aleator nerepetat:
|
.
|

\
|

=
N
n
n
x
1
1
2

, [4.4]
iar pentru o variabil alternativ, relaia [4.6] se rescrie astfel:
|
.
|

\
|

=
N
n
n
w w
w
1
1
) 1 (
[4.6]
n practica economic nu intereseaz, de obicei, eroarea medie de reprezentativitate a
eantionului, ci abaterea maxim sau eroarea limit ce poate apare ca diferen ntre media unui
eantion (estimator) i media colectivitii generale (parametru) la estimarea acestuia cu o anumit
probabilitate.
Deoarece eroarea limit este diferena dintre x i x
0
,

ne folosim de proprietile repartiiei
normale pentru a asocia diverse mrimi ale erorii cu probalilitile aferente msurate ca (sub)
multipli ai abaterii standard a mediilor de eantionare fa de x
0
.
Eroarea limit se calculeaz astfel:
- pentru variabil numeric:
x x
z = A [4.7]
- pentru variabila alternativ:
w w
z = A [4.8]
Exist tabele ale repartiiei normale care exprim relaia dintre argumentul z sau t i funcia
de probabilitatea (z) sau (t) corespunztoare (Vezi Anexa 1).
Estimarea parametrilor colectivitii generale

Necunoscnd parametrii colectivitii generale, dar tiind, pentru fiecare din variabilele
cuprinse n programul cercetrii, att media eantionului ( x sau w), ct i eroarea limit (
x
A sau
w
), rezult c, pentru o variabil numeric:
( )
x
x x A e
0
, [4.9]
iar pentru o variabil alternativ:
( )
w
w p A e [4.10]
cu probabilitatea corespunztoare mrimii erorii limit.

Determinarea volumului necesar al eantionului

Deseori, cercettorul se ntreab, din motive de costuri i de raionalitate a efortului, ct de mare
sau ct de mic ar trebui s fie eantionul pentru a estima parametrii unei colectiviti generale cu o
anumit probabilitate.
Ct de mare ar trebui s fie un eantion? Rspunsul se obine pornind de la relaia erorii limite [4.7].
n cazul sondajului aleator nerepetat, eroarea limit este:
x x
z = A =z
|
.
|

\
|

N
n
n
1
1
2

.
Prin ridicarea la ptrat a acestei identiti i renunnd la corecia cu 1 de la numitorul
membrului drept, rezult c n cazul sondajului aleator nerepetat, volumul necesar al eantionului
ntr-o nou cercetare este:
N
z
z
n
x
2 2
2
2 2

+ A
= [4.11]
atunci cnd determinarea are n vedere o caracteristic numeric, iar pentru o caracteristic
alternativ:
N
z
z
n
w
w
w
2 2
2
2 2

+ A
= . [4.12]
n cazul sondajului aleator repetat sau al sondajului mecanic, volumul necesar al
eantionului rezult din aplicarea relaiilor:
pentru caracteristica numeric:
2
2 2
x
z
n
A
=

. [4.13]
pentru caracteristica alternativ:
2
2 2
w
w
z
n
A
=

, [4.14]
obinute din ordonarea termenilor identitii [4.7] i, respectiv, [4.8] ridicate la ptrat.
Comparnd relaiile de calcul, rezult c numitorul relaiilor [4.13] i [4.14] este mai mic dect cel
specific relaiilor [4.11] i, respectiv, [4.12]. n consecin, volumul necesar al unui eantion pentru o
nou cercetare bazat pe sondaj statistic nerepetat este ntotdeauna mai mic dect dacse optez pentru
un sondaj aleator repetat sau un sondaj mecanic.

Desfurarea lucrrii

S se analizeze i soluioneze urmatoarea situaie:

Un echipament de ambalare este astfel reglat nct s mpacheteze cte 20 de bomboane cu
o toleran de 1 bucat.
Pentru a aprecia calitatea reglajului, din producia unei zile s-a prelevat prin extragere
mecanic un eantion de 150 pachete care conineau n total 3015 bomboane n loc de 3000
bomboane. Din cercetarea eantionului rezult c n jurul mediei de 20,1 bomboane/pachet,
intensitatea mprtierii era de 7,2%, n condiiile n care 129 pachete conineau exact 20
bomboane, 12 pachete aveau 21 sau mai multe bomboane, iar 9 pachete erau cu 19 sau mai puine
bomboane.


Se cere:
a) S se estimeze cu o probabilitate u(z) = 0,9973 (z = 3) numrul total de bomboane
ambalate n lotul de N =3000 pachete realizate n cursul zilei i s se observe dac
echipamentul se ncadreaz n tolerana admis;
b) Ct de mare ar trebui s fie un eantion, dac numrul mediu de bomboane/pachet ar trebui
estimat cu u(z) =0,9545 (z =2) n limitele unui interval de 0,5 buci?
c) S se observe n eantionul de 150 pachete, cota de produse care nu ndeplinesc cerina de
20 bomboane/pachet i s se estimeze cu u(z) = 0,90 (z = 1,65) cota minim i maxim,
precum i numrul minim i maxim de pachete necorespunztoare din punct de vedere al
coninutului n producia unei zile;
d) Avnd n vedere c un client nu va reclama dect n situaia n care obine mai puine
bomboane dect numrul de 20 (care apare nscris pe pachet), se cere refacerea calculelor,
considernd c m = 9 pachete din 150 verificate.

Rezolvare:
a) Din enunul problemei rezult c eantionul se caracterizeaz prin:
- Volumul n =150 pachete;
- Media x =20,1 bomboane/pachet;
- Abaterea standard = 1,4472 bomboane/pachet (din relaia coeficientului de variaie
% 2 , 7 100= =
x
v

)
Pe baza acestor date, se poate estima eroarea medie de reprezentativitate, tiind c n cazul
extragerii mecanice se aplic relaia de la sondajul simplu, aleator, repetat:
n
x
2

=
Un eantion de 150 produse prelevate mecanic din producia zilei, prezint, n medie, o
abatere cu 0,118 bomboane/pachet fa de numrul mediu (
0
x ) ce caracterizeaz ntrega producie.
Eroarea limit pentru u(z) =0,9973:
x x
z = A
Numrul mediu de bomboane/pachet n producia zilei se situeaz, cu probabilitatea de
0,9973 n intervalul:
) (
0 x
x x A e
Se determin producia ntregii zile prin multiplicarea cu N =3000.
Se compar intervalul de estimare cu cel de tolerana admis i se ia decizia dac reglajul
este sau nu corespunztor.

b)
2
2 2
x
z
n
A

=

.
c) Din 150 pachete prelevate, 12+9 = 21 pachete conin fie mai multe, fie mai puine
produse dect numrul standard de 20 bomboane/pachet.
n cadrul eantionului, media (w) i dispersia (
2
w
) caracteristicii alternative sunt:

n
m
w =
) 1 (
2
w w
w
=
Eroarea medie de reprezentativitate a unui eantion de volum 150 obinut prin prelevare
mecanic este de:
n
w
w
2

=
Eroarea limit pentru o probabilitate de 0,90 este de:
w w
z = A .
n aceste condiii, la u(z) =0,90, cota minim i maxim de defecte n producia zilei este
cuprins n intervalul:
) (
w
w p A e
Numrul minim i maxim de pachete necorespunztoare (M) n producia unei zile se obine
nmulind cu N = 3000 limitele intervalului n care se ncadreaz cota de defecte.

d) n situaia n care se consider c un client nu va reclama dect n situaia n care obine
mai puine bomboane dect numrul de 20 (care apare nscris pe pachet (m = 9 pachete din 150
verificate).
w =0,06; w(1-w) =0,0564

Cerinele lucrrii

Utiliznd algoritmul de soluionare prezentat in desfurarea lucrrii, s se rezolve
urmtoarea problem:

Un eantion de 20 studeni, selectat ntmpltor i repetat din rndul celor 200 studeni ai
anului I, prezint urmtoarele date privind timpul necesar rezolvrii unei probleme (sec): 23, 26,
30, 36, 24, 39, 31, 28, 32, 36, 28, 29, 33, 35, 41, 25, 27, 30, 31, 32.
Se cere:
a) S se alctuiasc distribuia studentilor dup timpul necesar rezolvrii problemei, pe
cinci grupe cu intervale egale.
b) S se verifice dac media este reprezentativ.
c) Pentru o probabilitate de 0,9976 (z = 3) s se estimeze timpul mediu i timpul total la
nivelul intregului an I (se presupune ca fiecare student rezolva alt problem, dar de
complexitate asemntoare).












































LUCRARE DE LABORATOR NR. 5

METODE ELEMENTARE DE CARACTERIZARE A LEGTURILOR
STATISTICE

Breviar teoretic
Statistica studiaz legturile de tip stochastic, caz n care modificarea nivelului cantitativ al
fenomenului efect (y) este determinat de o multitudine de fenomene cauz (x
1
, x
2
, , x
n
). Deci y
=f(x
1
, x
2
, , x
n
).
Legtura cauzal n care att caracteristica factorial, cauz (x) ct i caracteristica
rezultativ, efect (y) sunt caracteristici numerice, se mai numete i corelaie.
n cazul n care creterea (sau scderea) variantelor caracteristicii factoriale are ca efect
creterea (sau scderea) valorilor caracteristicii rezultative, se apreciaz c ntre cele dou
caracteristici exist o legtur direct. Atunci cnd creterea (sau scderea) variantelor
caracteristicii factoriale are ca efect scderea (sau creterea) valorilor caracteristicii rezultative, se
apreciaz c ntre cele dou caracteristici exist o legtur invers.
n funcie de numrul de caracteristici luate n studiu, legturile statistice pot fi:
legturi simple caracteristica rezultativ este analizat doar prin variaia unei singure
caracteristici factoriale;
legturi multiple caracteristica rezultativ este analizat prin prisma variaiei a dou sau mai
multe caracteristici factoriale.

Metodele de evideniere a existenei i formei legturilor dintre fenomene

Analiza legturilor dintre fenomenele i procesele social-economice are ca punct de plecare
punerea n eviden a existenei legturilor. Dintre cele mai importante metode de evideniere a
existenei i formei legturilor, prezentm: metoda seriilor paralele de date interdependente,
metoda gruprilor, metoda analizei dispersionale, metoda grafic, metoda funciei de regresie.

Metoda seriilor paralele de date interdependente
Metoda seriilor paralele de date interdependente const n prezentarea paralel a datelor
referitoare la mai multe caracteristici. Prin compararea irurilor de date se constat dac
schimbarea valorilor unei caracteristici este determinat n mod sistematic de schimbri n variaia
altei caracteristici. Aceast metod se folosete numai cnd avem un numr mic de uniti
observate.

Metoda grafic
Metoda grafic pune n eviden cel mai bine sensul i forma legturii dintre indicatorii a
cror dependen se studiaz din punct de vedere statistic.
n cazul reprezentrii grafice se ntlnesc urmtoarele situaii:
n cazul n care punctele sunt dispersate la ntmplare rezult c ntre cei doi indicatori nu
exist o legtur semnificativ. Aceast situaie este prezentat n figura 1. Linia tras prin
mijlocul norului de puncteeste, n general, paralel cu axa absciselor.








Fig. 1 Legtur nesemnificativ


dac punctele se disperseaz n direcia unei anumite linii care nu este paralel cu axa ox,
rezult c cele dou caracteristici sunt corelate. n cazul n care linia n jurul creia se concentreaz
punctele este o linie dreapt rezult c legtura dintre cele dou caracteristici este rectilinie. Dac
ntre cele dou caracteristici exist o legtur curbilinie aceast linie este o curb (parabol,
hiperbol, exponenial etc).













Fig. 2 Legtur direct Fig. 3 Legtur invers


Metoda funciilor de regresie
Metoda funciilor de regresie exprim sub form algoritmic modul n care modificarea
caracteristicii rezultative (y) este determinat de modificarea caracteristicii factoriale (x).
y =f(x
1
, x
2
, , x
n
)

Regresie simpl liniar
Regresia simpl liniar apreciaz forma dependenei caracteristicii rezultative (y) de
variaia caracteristicii factoriale (x), adic: Y
x
=a+bx
unde: x valorile empirice ale caracteristicii factoriale
b indic panta liniei. n corelaia invers acest parametru are o valoare
negativ, iar n cazul corelaiei directe, o valoare pozitiv.
Estimarea parametrilor se realizeaz prin metoda celor mai mici ptrate.
( )

= = min y y f
2
x i
( )

= = min bx a y f
2
i

Se deriveaz relaia de mai sus n funcie de parametrul a i parametrul b:
( )( )
( )( )

= =
c
c
= =
c
c

0 x bx a y 2
b
f
0 1 bx a y 2
a
f

= +
= +


xy x b x a
y x b na
2

Se calculeaz parametrii a i b:





= =
x x x n
x xy x y
x x
x n
x xy
x y
a
2
2
2
2





= =
x x x n
y x xy n
x x
x n
xy x
y n
b
2
2

Y
x
=a +bx





Regresia simpl curbilinie
Regresia simpl curbiline poate fi ntlnit sub urmtoarele forme:
Parabol Y
x
=a+bx+cx
2

Hiperbol
x
b
a Y
x
+ =
Exponenial Y
x
=ab
x


Funcia de regresie de tip parabol: Y
x
=a+bx+cx
2

Estimarea parametrilor se realizeaz prin metoda celor mai mici ptrate.
( )

= = min y y f
2
x i
( )

= = min cx bx a y f
2
2
i

Se deriveaz relaia de mai sus n funcie de parametrii a, b i c:
( )( )
( )( )
( )( )

= =
c
c
= =
c
c
= =
c
c

0 x cx bx a y 2
c
f
0 x cx bx a y 2
b
f
0 1 cx bx a y 2
a
f
2 2
2
2

= + +
= + +
= + +



y x x c x b x a
xy x c x b x a
y x c x b na
2 4 3 2
3 2
2


Se calculeaz parametrii a, b i c:






=
4 3 2
3 2
2
4 3 2
3 2
2
x x x
x x x
x x n
x x y x
x x xy
x x y
a ;






=
4 3 2
3 2
2
4 2 2
3
2
x x x
x x x
x x n
x y x x
x xy x
x y n
b






=
4 3 2
3 2
2
2 3 2
2
x x x
x x x
x x n
y x x x
xy x x
y x n
c

Funcia de regresie exponenial Y
x
=ab
x

Pentru facilitarea calculelor n cazul funciei exponeniale se logaritmeaz, obinndu-se:
lgY
x
=lg a +x lg b
Estimarea parametrilor se realizeaz prin metoda celor mai mici ptrate.
( )

= = min y lg y lg f
2
x i
f = ( ) min b lg x a lg y lg
2
=


Se deriveaz relaia de mai sus n funcie de parametrul a i parametrul b:
( )( )
( )( )

= =
c
c
= =
c
c

0 x b lg x a lg y lg 2
b
f
0 1 b lg x a lg y lg 2
a
f

= +
= +


y lg x x b lg x a lg
y lg x b lg a lg n
2

Se determin parametrii a i b






= =
x x x n
x y lg x x y lg
x x
x n
x y lg x
x y lg
a
2
2
2
2
;






= =
x x x n
x y lg y lg x n
x x
x n
y lg x x
y lg n
b
2
2



Desfasurarea lucrarii

Se analizeaza urmatoarea situatie:
In urma unui experiment se inregistreaza urmatoarele perechi de date:
Tabelul nr. 1
Nr.
crt.

x

y
1 165 102
2 169 103
3 170 103
4 174 104
5 177 106
6 180 107
7 181 108
8 185 110
9 186 112
10 190 113

Se cere:
1. S se verifice existena i forma legturii dintre X si Y folosind metodele simple de analiz
a corelaiei;
2. S se stabileasc funcia de regresie corespunztoare formei de legtur dintre variabile i
s se calculeze valorile ajustate ale lui Y n funcie de X;


Algoritm

1. Verificarea existenei i formei de legtur prin metodele simple se realizeaz prin:
- Metoda seriilor paralele interdependente
Dac se compar cele 2 serii de date (col. 1 i col. 4) se observ c pe msur ce crete
valoarea lui X, crete i valoarea lui Y. Deci exist legtur ntre cele dou variabile i anume o
legtur direct.
- Metoda grafic


2. Stabilirea funciei de regresie i a valorilor ajustate
Din figura de mai susnse poate aprecia c dependena intre cele doua variabile este de
form liniar, deci funcia este:
Y
x
=a +bx
Pentru a calcula valorile parametrilor a i b se utilizeaz metoda celor mai mici ptrate:
( ) min Y y
2
x
=

f = ( ) min bx a y
2
=


Se deriveaz relaia de mai sus n funcie de parametrul a i parametrul b:
( )( )
( )( )

= =
c
c
= =
c
c

0 x bx a y 2
b
f
0 1 bx a y 2
a
f

= +
= +


xy x b x a
y x b na
2
(1)
Se completeaza valorile necesare in tabelul de mai jos.
Tabelul nr. 2
Nr.
ctr.
x y
xy x
2
Y
x
=a+bx
1 165 102
2 169 103
3 170 103
4 174 104
5 177 106
6 180 107
7 181 108
8 185 110
9 186 112
10 190 113
Total 1777 1068

Valorile calculate se inlocuiesc in sistemul de ecuatii (1), apoi prin rezolvarea acestui
sistem de ecuatii se determina valorile necunoscutelor a si b, apoi valorile ajustate calculate dup
relaia Y
x
= a + bx se gsesc n tabelul 2 col. 5.







Cerinele lucrrii

Utiliznd algoritmul de soluionare prezentat in desfurarea lucrrii, s se rezolve
urmtoarea problem:
In urma unui experiment se inregistreaza urmatoarele perechi de date:
Nr.
crt.

x

y
1 1 0,2
2 2 0,4
3 3 0,5
4 4 0,2
5 5 0,1
6 6 0,14
7 7 0,22
8 8 0,4
9 9 0,6
10 10 0,65

Se cere:
1. S se verifice existena i forma legturii dintre X si Y folosind metodele simple de analiz
a corelaiei;
2. S se stabileasc funcia de regresie corespunztoare formei de legtur dintre variabile i
s se calculeze valorile ajustate ale lui Y n funcie de X;
LUCRAREA DE LABORATOR NR. 6

MSURAREA INTENSITII LEGTURILOR STATISTICE



Breviar teoretic

Indicatorii folosii pentru a msura intensitatea legturii sunt: covariana; coeficientul de
corelaie; raportul de corelaie.

Covariana
Covariana este indicatorul cu ajutorul cruia se calculeaz legtura dintre o caracteristic
factorial (x) i o caracteristic rezultativ (y).
( )
( )( )
n
y y x x
y , x cov


=
Dac legtura este direct atunci indicatorul are valoare pozitiv iar dac legtura este de
tip invers, atunci indicatorul are valoare negativ. Covariana este nul dac variabilele sunt
independente.

Coeficientul de corelaie
Coeficientul de corelaie simpl msoar intensitatea legturii dintre dou variabile x
i
i y
i
.
Este utilizat n cazul n care ecuaia de regresie este cea a liniei drepte Y
x
=a +bx
- Pentru serii simple, coeficientul de corelaie este:
( )( )
( ) | | ( ) | |
2
2
2
2
y x
x y
y y n x x n
y x xy n
n
y y x x
r




=
o o

=

- Pentru datele sistematizate prin:
- grupare simpl, coeficientul de corelaie se calculeaz astfel:
( )( )
( ) | | ( ) | |



=
o o

=
i i i
2
i i
2
i i i
2
i i
i i i i i i i i
x y
y x i
i i i
x y
n y n y n n x n x n
n y n x n y x n
r
n
n y y x x
r

- gruparea combinat, coeficientul de corelaie este:
( ) | | ( ) | | | |
2
j j j
2
j ij
2
i i i
2
i ij
j j i i ij j i ij
x y
n y n y n n x n x n
n y n x n y x n
r




=
Coeficientul de corelaie poate lua valori cuprinse ntre 1 i +1, adic satisface inegalitatea:
1 r 1
x y
s s .
- Cnd 0 r
x y
legtura este apreciat ca slab
- Cnd 1 r
x y
legtura este apreciat ca puternic
Dac ia valori pozitive ( ) 0 r
x y
> legtura este direct, dac ia valori negative ( ) 0 r
x y
< legtura
este invers.
Valoarea coeficientului de corelaie depinde de forma liniei de regresie, deci n cazul legturilor
neliniare este puin semnificativ, pentru aceasta se folosete raportul de corelaie.




Raportul de corelaie
Raportul de corelaie msoar intensitatea legturii dintre dou variabile x
i
i y
i
.
- Pentru serii simple, raportul de corelaie este:
( )
( )
( )
n
y
y
y x b y a y
1
y y
Y y
1 R
2
i 2
i
i i i
2
i
2
i
2
x i
x y
i

=
- Pentru datele sistematizate prin:
( )
( )
( )

=
i
2
i i
i
2
i
i i i i i i
2
i
i
2
i
2
x i
x y
n
n y
n y
n y x b n y a n y
1
n y y
Y y
1 R
i

Raportul de corelaie ia valori cuprinse ntre 0 i 1, adic satisface inegalitatea: 1 R 0
x y
s s .
Semnul raportului de corelaie este dat de semnul coeficientului de regresie (b) din cadrul
funciei de regresie.
Raportul de corelaie msoar intensitatea legturilor indiferent de forma de legtur.


Desfasurarea lucrarii

Se analizeazadinamica numarului de studenti admisi in anul I i a numarului de absolventi
ntre anii 1996 2002, fa de anul 1995, care se caracterizeaz prin urmtoarele serii paralele:
Tabelul 3
Anul 1996 1997 1998 1999 2000 2001 2002
Studenti admisi
in anul I
142 149 157 169 181 194 210
Absolventi 123 126 128 133 143 156 169

Se cere s se determine valorile ajustate ale salariului mediu n funcie de productivitatea
muncii folosind funciile:
a) liniar;
b) exponenial

Algoritm

Valorile ajustate ale salariului mediu n funcie de productivitatea muncii folosind:
a) Funcia liniar: Y
x
=a +bx

Pentru a calcula valorile parametrilor a i b se utilizeaz metoda celor mai mici ptrate:
( ) min Y y
2
x
=

f = ( ) min bx a y
2
=


Se deriveaz relaia de mai sus n funcie de parametrul a i parametrul b:
( )( )
( )( )

= =
c
c
= =
c
c

0 x bx a y 2
b
f
0 1 bx a y 2
a
f

Prin efectuarea operaiilor rezult sistemul de ecuaii :

= +
= +


xy x b x a
y x b na
2




Tabelul 1
Valori
empirice Anul
x y
xy x
2
Y
x
=22,16 +0,684x
0 1 2 3 4 5
1996 142 123
1997 149 126
1998 157 128
1999 169 133
2000 181 143
2001 194 156
2002 210 169
Total

nlocuind n sistemul de ecuaii, datele calculate n tabelul 1 vom obine valorile lui a si b,
precum si valorile ajustate.


b) Dac funcia este exponenial, ajustarea se va face dup ecuaia: Y
x
=ab
x

lg y
x
=lg a +x lg b f = ( ) min b lg x a lg y lg
2
=


( )( )
( )( )

= =
c
c
= =
c
c

0 x b lg x a lg y lg 2
b
f
0 1 b lg x a lg y lg 2
a
f

= +
= +


y lg x x b lg x a lg
y lg x b lg a lg n
2



Tabelul 2
nlocuind n sistemul de ecuaii, datele calculate n tabelul 1 vom obine valorile lui a si b,
precum si valorile ajustate.
Din compararea celor dou rezultate va rezulta care dintre ele estimeaz mai bine dinamica
datelor.










Valori
empirice Anul
x y
lgy X lgy Y
x
=61,211,005
x

0 1 2 3 4 5
1994 142 123
1995 149 126
1996 157 128
1997 169 133
1998 181 143
1999 194 156
2000 210 169
Total
Cerinele lucrrii

Se d circuitul din figur.


Se nregistreaz valorile msurate pentru urmtorii parametri:

Dioda k
Rk
[kOhm] ED[V] VD[V] ID[mA]
0,027 15 0,859 523,74
1
0,027 10 0,831 339,59
0,161 20 0,78 119,38
2
0,161 11 0,75 63,66
3 1 11 0,667 10,33
4 5,36 11 0,589 1,94
D4
5 20,7 11 0,52 0,51
0,027 15 0,37 541,85
1
0,027 10 0,34 357,78
0,161 20 0,29 122,42
2
0,161 11 0,26 66,71
3 1 11 0,178 10,82
4 5,36 11 0,114 2,03
5 20,7 11 0,069 0,53
6 98 11 0,031 0,11
D1
7 10700 11 0,0005 0,00



Se cere:
1. S se verifice existena i forma legturii dintre tensiunea VD[V] i curentul ID[mA],
pentru cele dou circuite cu diod, folosind metodele simple de analiz a corelaiei;
2. S se stabileasc funcia de regresie corespunztoare formei de legtur dintre variabile i
s se calculeze valorile ajustate ale lui VD[V] funcie de ID[mA];
3. S se reprezinte pe acelai grafic rezultatele obinute i datele iniiale i s se compare
rezultatele;
4. S se calculeze raportul de corelaie pentru cele dou situaii analizate.

S-ar putea să vă placă și