Sunteți pe pagina 1din 8

Variabile aleatoare și repartiția normală

Variabile aleatoare
Pentru studiul matematic al unui fenomen aleator este necesar ca descrierea să
aibă o expresie cantitativă, analizabilă cu un aparat matematic adecvat. Se ajunge
astfel la o nouă noțiune, deosebit de importantă în teoria probabilităților - variabilă
aleatoare - și la studiul ei probabilistic, care este expresia matematică a însăși legii
fenomenului aleator de la care se pleacă. Iată două exemple bazate pe experiențe
aleatoare foarte simple:
 Exemplul 1: Dintr-o urnă care conține același număr de bile albe și negre se
extrag trei bile, după principiul bilei revenite. Câte bile albe pot apărea?
 Exemplul 2: Două persoane joacă un joc descris de următoarea regulă: se
aruncă două zaruri numerotate obișnuit, de la 1 la 6, fiecare. Dacă suma
numerelor apărute pe cele două zaruri este mai mică sau egală cu 5, prima
persoană primește un punct, dacă suma este 6,7 sau 8 nu primește nici un punct,
iar dacă suma este mai mare sau egală cu 9, pierde un punct (primește -1
puncte). Câte puncte poate primi prima persoană după o aruncare a zarurilor?
Răspunsurile la cele două întrebări se exprimă prin numere. Totodată, trebuie să
se țină seama de faptul că răspunsurile sunt condiționate de rezultatele experiențelor
respective. Și, cum acestea au un caracter aleator, aceeași caracteristică o va avea și
răspunsul dat fiecăreia din cele două întrebări. S-a asociat, deci, fiecărei experiențe o
mărime numerică care nu are un caracter constant ci variază după o anumită lege
întâmplătoare. Pentru o mai bună înțelegere se examinează cele două exemple în
detaliu. Pentru asta se notează cu X numărul de bile albe ce pot apărea la o realizare a
experienței din exemplul 1 și cu Y numărul de puncte ce revin primei persoane, în
urma realizării experimentului de la exemplul 2. Pentru exemplul 1, se notează
cu a apariția unei bile albe și cu b apariția unei bile negre, o succesiune de trei litere de
acest tip indicând o realizare a experienței.
Variabila aleatoare este una din noţiunile fundamentale ale teoriei
probabilitãţilor şi a statisticii matematice. In urma unui proces tehnologic de prelucrare
se constatã cã deşi condiţiile de uzinare sunt identice între reperele prelucrate la
anumite perioade de timp existã diferenţe în cea ce priveşte dimensiunile prescrise. De
asemeni în cadrul unei cercetãri experimentale se constatã cã între valorile numerice
mãsurate existã diferenţe chiar dacã condiţiile de desfãşurare a experimentului rãmân
neschimbate. Dacã ne referim la o singurã mãsurãtoare, variabila aleatoare este acea
mãrime care în cadrul unui experiment poate lua o valoare necunoscutã aprioric.
Pentru un şir de mãsurãtori, variabila aleatoare este o noţiune care-l caracterizeazã din
douã puncte de vedere: - caracterizare din punct de vedere cantitativ - variabila
aleatoare ne dã informaţii privind valoarea numericã a mãrimii mãsurate -
caracterizare din punt de vedere calitativ - variabila aleatoare ne dã informaţii privind
frecvenţa de apariţie a unei valori numerice într-un şir. Dacã valorile numerice ale unui
şir de date aparţin mulţimii numerelor întregi sau raţionale atunci se defineşte o
variabilã aleatoare discretã. In cazul apartenenţei valorilor la mulţimea numerelor reale
se defineşte o variabila aleatoare continuã. Primul caz se întâlneşte în cazul numãrului
de piese defecte extras dintr-un lot de 70 Capitolul 4 fabricaţie care aparţine totdeauna
mulţimii numerelor întregi. Al doilea caz în cercetarea experimentalã la mãsurarea
forţei de aşchiere sau a momentului când valorile obţinute aparţin mulţimii numerelor
reale O variabilã aleatoare se noteazã cu litere mari A,B,X, cu litere mici notându-se
valorile posibile: x1,x2,x3,...,xn.

Repartiția unei variabile aleatoare


Caracterul aleator al unei variabile aleatoare este scos în evidență de
corespondența dintre valorile posibile ale variabilei aleatoare și evenimentele
desfacerii. Dar cum variabila aleatoare este o funcție cu valori reale putem nota pentru
exemplul 1 că:
p1=P(X=0), probabilitatea cu care X ia valoarea 0
p2=P(X=1), probabilitatea cu care X ia valoarea 1
p3=P(X=2), probabilitatea cu care X ia valoarea 2
p4=P(X=3), probabilitatea cu care X ia valoarea 3
rezultă,
p1=1/8, p2=3/8, p3=3/8, p4=1/8
Fie X o variabilă aleatoare simplă și x1, x2,x3, … , xn valorile ei posibile. Definim
evenimentul Ai ca reuniunea tuturor evenimentelor elementare cărora li se asociază un
numar real xi prin aplicația X.
Avem că P(X=xi)=P(Ai), i=1,2,…,n
Fie f(xi)=P(X=xi).
Mulțimea perechilor ordonatre (xi,f(xi)), i=1,2, … ,n, definește repartiției variabilei
aleatoare simple X.
Funcția f definită pe {x1, x2,x3, … , xn} ale cărei valori f(x1), f(x2), … ,f(xn), sunt
cuprinse între 0 și 1 poartă numele de funcția de frecvență a lui X.
Funcția de repartiție
Fie X o variabilă aleatoare. Pentru fiecare număr real x avem F(x) probabilitatea cu
care X ia valori mai mici decât x.
f(x)=P(X≤x)
Funcția reală F definită prin această egalitate se numește funcția de repartiție a
variabilei aleatoare X Fie X o variabilă aleatoare simplă având repartiția :
(xi, f(xi)), i=1,2, … , n.
Toate valorile posibile ale lui X sunt cele n numere reale x1, x2, … ,xn, prin urmare

F(x)=
deci, funcția de repartiție în punctul x este egală cu suma probabilităților valorilor
situate la stânga lui x.
Repartitia normala
Densitatea Normală (Gauss)
Curba Gauss, sau clopotul lui Gauss a jucat în istoria ştinţei şi joacă şi acum un
rol foarte important, fiind o repartitie extrem de frecvent utilizata in aplicatiile
practice.
Repartitia normala a variabilei aleatoare X se defineste prin densitatea de
repartitie:
1 ( x m )2
1 
f ( x)  e 2 s2

s 2

Se observă că această curbă depinde de doi parametri, m şi s, şi ea este perfect


determinată în momentul în care se cunosc aceşti parametri. Cei doi parametri
reprezintă media (m) şi abaterea standard (s).
Graficul din figura urmatoare, care este graficul unei curbe Gauss, ne arată că,
spre centru probabilităţile sunt cu atât mai mari cu cât suntem mai aproape de medie,
iar spre margini probabilităţile scad apropiindu-se de zero pe măsură ce ne îndepărtăm
din ce în ce mai mult de medie. Curba este simetrică, niciodată însă simetria nu este
perfectă pe o histograma particulară sau pe un poligon al frecevenţelor, dar curba
ideală este perfect simetrică.
Subliniem că prin curbă ideală înţelegem curba către care se îndreaptă poligonul
frecvenţelor când numărul de cazuri tinde la infinit iar lungimea claselor se apropie de
zero.
Uneori, graficul funcţiei este denumit “clopotul lui Gauss” datorită formei lui
deosebite, asemănătoare unui clopot.
Curba repartiţiei normale, sau curba lui Gauss. Are un maxim în dreptul
mediei, două puncte de inflexiune (în dreptul valorilor m-s şi m+s), tinde la
zero pe măsură ce ne îndepărtăm de medie la stânga şi la dreapta.
În analiza matematică se arată că graficul acestei funcţii, cel din figura, are un
maxim pentru x=m şi două puncte de inflexiune (în care devine din functie concavă,
o functie convexă), la m-s şi la m+s. Curba normală mai este cunoscută sub
denumirea de legea Gauss-Laplace sau legea normală şi apare pentru prima dată într-o
lucrare a matematicianului Moivre (1667 – 1754), apoi în lucrările lui Pierre Simon de
Laplace (1749 – 1827). Celebră este făcută de lucrările matematicianului Gauss (1777
– 1855). Utilitatea acestei repartiţii se datorează mai multor cauze, printre care:
 Multe fenomene aleatoare din natură se supun exact sau aproximativ acestei
legi. Astfel, deviaţiile stânga-dreapta de la medie ale erorilor de măsurare
urmează această lege simetrică şi cu proprietatea că, erori din ce în ce mai mari
sunt din ce în ce mai rare.
 O teoremă foarte importantă, teorema limită centrală, asigură acestei repartiţii
un rol privilegiat prin faptul că suma unui număr mare de variabile aleatoare
independente una de alta, dar identic repartizate, este repartizată Gauss
sau aproximativ Gauss. Această teoremă ne asigură de exemplu, de faptul că,
media calculată pe un lot are o repartiţie Gauss sau apropiată.
 S-a demonstrat că multe repartiţii empirice întâlnite în practică pot fi aduse la o
repartiţie Gauss prin transformări simple şi în felul acesta devin mai uşor de
studiat.
Trebuie reţinut că repartiţia Gauss are următoarele proprietăţi importante:
 Este simetrică faţă de media m
 Are două puncte de inflexiune, la m-s şi m+s
 Are maximul pentru x = m
 Are două cozi spre « + »şi « – » infinit care se apropie din ce în ce mai mult de
axa orizontală, fără să o atingă
 Mediana şi modul, coincid cu media
 Deoarece mediana coincide cu media, jumătate din aria de sub curbă se află în
stânga mediei şi jumătate în dreapta. Deci, într-o populaţie repartizată Gauss,
50% din indivizi sunt sub medie şi 50% peste medie
 Aria cuprinsă între curbă şi axa orizontală este 1 indiferent de medie şi de
deviaţia standard.
 Aria cuprinsă între curbă, axa orizontală şi două verticale în dreptul numerelor
a şi b, este probabilitatea ca, extrăgând aleator un individ din populaţie şi
făcând măsurătoarea pe acel individ, valoarea obţinută x, să fie între a şi b (Vezi
figura urmatoare).

Aria cuprinsă între curbă, axa orizontală şi două verticale în dreptul


numerelor a şi b, este probabilitatea ca, extrăgând aleator un individ din
populaţie şi făcând măsurătoarea pe acel individ, valoarea obţinută x, să fie
între a şi b
Repartiţia Gauss, este de fapt o famile de repartiţii ce depinde cei doi parametri:
media şi deviaţia standard. În figura 3, sunt desenate câteva curbe de repartiţie
Gauss, mai mult sau mai puţin aplatizate, după cum deviaţia standard este mai mică
sau mai mare.
Importanţa repartiţiei normale
După cum s-a văzut, cunoaşterea unei repartiţii în general este utilă deoarece se pot
verifica şi elimina valorile aberante, se pot verifica limitele de normalitate, etc. Dacă
ştim că o variabilă are o distribuţie Gauss cu media m şi deviaţia standard s, atunci
aproximativ 99,5% din valorile acelei variabile sunt în intervalul [m-3s, m+3s].
Deci, putem considera că într-un eşantion de dimensiune destul de mare, de câteva
sute de cazuri, apariţia de valori în afara acestui interval este aberantă, adică, în
principiu ar trebuie eliminate. Pe de altă parte valorile pe care le considerăm normale
se încadrează în aşa-numitul interval de normalitate care este aproximativ [m-2s,
m+2s]. Mai mult, având o valoare dată, putem cere să se verifice cât de verosimil este
ca ea să provină dintr-o populaţie cu distribuţia Gauss, cu media m şi abaterea standard
s.
Regula celor 3 sigma.
Deoarece în intervalul care se obţine prin scăderea şi adunarea a trei sigma la
medie este cuprinsă o arie de aproximativ 99,74% din toată aria de sub curba normală,
în eşantioane ce nu depăşesc anumite limite de volum, în mod normal nu există nici o
valoare care să fie în afara intervalului celor trei sigma. De aceea în general, aceste
valori, atunci când totuşi apar, sunt considerate aberante şi sunt eliminate.
Eliminarea valorilor aberante nu se face automat şi fără o judecată pentru fiecare
astfel de valoare în parte. Totuşi, uneori se elimină ca aberante valori care nu numai că
se află în afara intervalului celor trei sigma, dar sunt foarte departe de marginile
acestui interval. O teoremă celebră, datorată lui Cebâşev spune că, indiferent de
distribuţie, valorile sunt practic situate între media plus-minus şase abateri standard.
Deci ceea ce iese din acest interval trebuie oricum eliminat automat ca aberant.
Regula celor 2 sigma.
În mod asemănător cu regula celor trei sigma, valorile situate în intervalul obţinut
prin adunarea şi scăderea a două valori ale lui sigma la m, sunt considerate ca valori
normale. În acest interval se găsesc aproximativ 95,44% din indivizii unei populaţii,
dacă populaţia are o distribuţie Gauss. Aceasta este considerată o majoritate suficientă
pentru a lua acest interval ca interval de normalitate.
Ar rezulta că se pot în acest fel construi intrevale de normalitate practic pentru orice
tip de variabilă distribuită Gauss. Din păcate, în practică lucrurile nu stau deloc aşa.
Intervalul de normalitate se construieşte folosind media şi deviaţia standard ale
repartiţiei Gauss considerate. Dar aceşti parametri sunt de obicei necunoscuţi. De
aceea, intervalele de normalitate puse la dispoziţie de manuale şi tratatele ştiinţifice
sunt calculate pe eşantioane foarte mari, astfel ca media şi abaterea standard de
eşantionare să aibă valori foarte apropiate de cele reale şi sunt folosite în locul mediei
şi deviaţiei standard ale întregii populaţii.
Intervalele de normalitate obţinute astfel nu au valoarea ştiinţifică pe care le-ar
avea cele care folosesc valorile exacte şi nu pe cele aproximative. Totuşi ele sunt
singurele pe care le avem la dispoziţie şi nimic mai bun nu putem pretinde decât
îmbunătăţirea acestor intervale imprecise. De aceea se verifică în permanenţă modul în
care un eşantion se înscrie sau nu în intervalele de normalitate citate în literatura de
specialitate. Sunt uneori situaţii în care surse diferite dau ca intervale de normalitate
valori uşor schimbate, după autorul sau studiul care le-a obţinut. Micile diferenţe apar
tocmai din faptul că se folosesc valori aproximative în locul celor exacte.
2020

S-ar putea să vă placă și