Sunteți pe pagina 1din 118

UNIVERSITATEA DE VEST DIN TIMIOARA FACULTATEA DE MATEMATIC I INFORMATIC

Raluca Murean

Statistic descriptiv cu Mathematica i Excel


NDRUMTOR DE LABORATOR

2010

Cuprins
PREFA ...................................................................................... 4 INTRODUCERE............................................................................ 5 Capitolul 1. Utilizarea programelor Mathematica i Excel. ......... 7
1. Descriere general a programului Mathematica ................................................................... 7 2. Descrierea modului de lucru cu Mathematica....................................................................... 8 3. Descriere general a programului Microsoft Excel ............................................................. 14 4. Descrierea modului de lucru cu Excel-ul ............................................................................ 15

Capitolul 2. Generaliti privind culegerea datelor statistice. ..... 20


1. Cteva aplicaii privind construirea unor eantioane nealeatoare. ...................................... 22 Aplicaii practice ................................................................................................................. 23 2. Tabele de numere aleatoare i metode de generare a irurilor de numere aleatoare ce urmeaz o lege de repartiie dat............................................................................................. 32 2.1 Procedee analitice de generare a numerelor aleatoare................................................... 33 2.2. Utilizarea numerelor sau tabelelor de numere aleatoare pentru construirea de eantioane aleatoare............................................................................................................. 43 2.3. Generaliti privind generarea unor variabile aleatoare. .............................................. 46 2.4. Unele consideraii privind generarea vectorilor aleatori .............................................. 59 3. Construcia eantioanelor aleatoare cu ajutorul unor scheme probabiliste ......................... 64 3.1. Selecii aleatoare simple cu revenire i uniti echiprobabile. .................................... 64 3.2. Selecii aleatoare simple fr revenire i uniti echiprobabile. .................................. 66 3.3 Selecii sistematice din populaii simple ...................................................................... 68

Capitolul 3. Elemente privind descrierea i analiza datelor de selecie .......................................................................................... 70


1. Tabele statistice .................................................................................................................. 70 2. Metode grafice de reprezentare a datelor statistice ............................................................ 77 2.1. Histograme i poligoane asociate frecvenelor seriilor statistice ................................. 78 2

2.2. Repartiii de frecvene cumulative (i retrocumulative). Ogiva. Funcia empiric de repartiie. ............................................................................................................................. 83 2.3. Curba lui Gini-Lorenz .................................................................................................. 88 2.4. Diagrama Stem-and-Leaf (tulpin i frunze)................................................................ 91 2.5. Prelucrarea i reprezentarea seriilor statistice prin diagrame de diferite tipuri. ........... 93 3. Caracteristici numerice de sondaj ....................................................................................... 96 3.1 Caracteristici ale tendinei centrale sau parametrii de poziie ....................................... 96 3.2 Indicatorii variaiei (mprtierii) valorilor ................................................................. 104 4. Caracteristici de form ale graficului repartiiei de frecvene. ......................................... 113

Bibliografie................................................................................. 118

PREFA
Ideea introducerii n cultura de baz a absolvenilor de matematic a unor modalitii de exersare a utilizrii softurilor matematice n statistic este mai veche pentru colectivul de teoria probabilitilor i statistic matematic de la Facultatea de Matematica i Informatica de la Universitarea de Vest din Timisoara, dar nu i-a gsit rezolvarea n planurile de nvmnt existente pn de curnd. Numai o dat cu apariia n profilul de matematic a specializrii de masterat Statistic Aplicat i Informatic, cu durata de 2 ani, s-a introdus cursul de Software Statistic. Acest fapt a permis concentrarea eforturilor cadrelor didactice i ale masteranzilor n gsirea de ci adecvate att cu cerinele moderne de asistare cu calculatorul a statisticii matematice, ct i cu posibiliti concrete oferite de dotrile existente i resursele umane interesate n rezolvarea acestui deziderat. n plus, n cadrul cursului amintit i a celui de Regresie i corelaie, prevzute la masteratul precizat mai sus, s-a considerat oportun s se propun cursanilor ase proiecte de aplicaii concrete i probleme specifice softurilor i pachetelor statistice destinate analizei datelor statistice. n cadrul activitilor specifice de canalizare a pasiunilor i strdaniilor masteranzilor n perfecionarea lor n domeniul precizat, a aprut n persoana autoarei acestor texte i ndrumri pentru implementarea unor probleme de statistic un viitor specialist caracterizat printr-un nivel superior de pregtire profesional, prin pasiune i consecven, care a finalizat un ndrumtor sub o form detaliat, ca variant de lucru cu masteranzii n cadrul orelor de laborator. Ulterior a avut ansa s-i verifice utilitatea acestui demers direct la orele de laborator, cu masteranzii de la specializarea Statistic Aplicat i Informatic. Menionez competena i efortul dovedit, n calitate de masterand, n elaborarea, pentru prima dat n facultatea i universitatea noastr, a acestui material didactic att de necesar. Dovada competenei sale s-a reflectat i prin unele soluii personale n construcia de eantioane sistematice, n mbuntirea algoritmilor i produsului informatic numit cutia cu antene, mai detaliat dect cel oferit de softul Mathematica sau Excel. Forma prezentat aici, ca material didactic la dispoziia tuturor cursanilor din universitate interesai de aprofundarea i de aplicaiile statisticii descriptive, este mai sistematizat i mai adecvat cerinelor didactice. Am convigerea c acest ndrumator va fi folositor masteranzilor de la specializarea Statistic Aplicat i Informatic i de la alte specializri, mai ales cele de la Facultatea de Economie i Administrarea Afacerilor. Prof. dr. Gheorghe Constantin
4

INTRODUCERE

Statistica matematic are ca obiect studiul cantitativ al fenomenelor de mas care, datorit ntinderii, diversitii i variabiliti lor, nu apar cu exactitatea dorit dect prin intermediul unor numeroase observaii i msurtori. Asemenea fenomene rezult printr-o mpletire inextricabil de cauze, principale i secundare, eseniale i neeseniale, de natur s imprime o mare variabilitate a cazurilor singulare. Fenomenele de mas nu pot fi percepute pe ci directe, individuale, ci se impune considerarea n mas a aciunii comune a numeroase elemente omogene i tratarea lor statistic. Ele se ntlnesc n aproape toate domeniile tiinei i ale activitilor sociale, fiind generate de cauze multiple i complexe. Aplicarea calculelor statistice la datele empirice, oferite de observaiile efectuate asupra fenomenelor de mas, permite desprinderea legilor statistice care descriu relaiile cauzale statistice i care au statut propriu i obiectivitate ce le sporete nsemntatea. Particularitatea esenial a legilor statistice izvort din aceea c ele acioneaz n fenomenele de mas, unde ntregul este determinat de unitatea prilor componente, o constituie exprimarea comportrii ansamblului de uniti omogene i nu a fiecrei uniti n parte. Ca exemplu menionm punctul de vedere al colii de statistic descriptiv de la Gttingen din secolul 18, referitor la statistica social, care privete statistica drept istorie n repaus i istoria statistic n micare; statistica arat bogia sau srcia, tiina sau ignorana, fericirea sau nefericirea, moralitatea sau corupia, civilizaia sau barbaria, puterea sau slbiciunea naiunii iar filosofia statisticii este cunoaterea raional a normelor generale de cercetare, a surselor de date, a criteriilor de verificare, a principiilor de a judeca, a aplicaiilor la elementele care privesc starea naiunilor. Legile statistice se realizeaz ca o tendin predominant, ca o necesitate care i croiete drum printr-un numr foarte mare de contingene i care se manifest n aceste contingene ca medie a unui numr mare de abateri ntmpltoare. Evidenierea legilor statistice nu poate fi fcut dect cu ajutorul observrii unui numr suficient de mare de uniti elementare din ansamblul respectiv. Statistica modern a deplasat gndirea statistic spre interpretarea analitic a fenomenelor de mas i obinerea de concluzii inductive pe baza observaiilor empirice, concluzii obinute prin metodele de inferen statistic. Desfurea cercetrilor statistice are ca prim treapt observarea unitilor colectivitii respective care ofer materia prim pe baza creia se obine cunoaterea statistic. Observarea poate fi exhaustiv sau parial, prin varianta sa de sondaj statistic care poate oferi informaia dorit, prin investigarea unui eantion reprezentativ din populaia respectiv i extrapolarea rezultatelor obinute. Sondajele corect proiectate i desfurate permit estimarea preciziei i credibilitii rezultatelor. Mrimea erorii comise ofer garania calitii rezultatelor obinute.
5

Obiectul acestui ndrumtor este de a oferi un cadru teoretic minimal i o cale concret de utilizare a dou softuri, Mathematica i Excel, care conin pachete statistice suficient de bogate care s permit prelucrarea i analiza statistic pe baza seleciilor efectuate. Construcia eantioanelor aleatoare se face pe baza unei scheme probabiliste care ne ajut s asociem la mulimea eantioanelor o structur de cmp de probabilitate care va permite ca prin intermediul unor funcii de datele de observare s definim estimatori pentru caracteristicile numerice de baz ale populaiei. Pentru asigurarea unei precizii ct mai bune a estimaiilor dorite i optimizarea costurilor introduse de procedeul ales, vom folosi instrumentele moderne oferite de softurile statistice i de teoria probabilitilor n cadrul creia i gsesc explicaia diferite demersuri statistice. Am considerat util s abordm mai n detaliu unele aspecte din tehnica simulrii att pentru obinerea de numere i iruri de numere aleatoare ce urmeaz o lege de repartiie dat, ct i ca instrument deosebit de eficace pentru proiectarea realitii prin numere aleatoare i ca instrument de modelare statistic cu numeroase aplicaii. n acest fel dm o semnificaie special Capitolului 2 destinat eantionrii aleatoare i teoriei seleciei n general. Capitolul 1 este conceput ca un sprijin direct adresat cursanilor i oricror utilizatori de statistic matematic asistat de calculator prin oferirea unui scurt ghid privind utilizarea pachetului statistic din softul Mathematica i a funciilor statistice din Excel. Capitolul 3 este consacrat prelucrrilor primare ale seriilor statistice prin instrumentul tabelrilor, care preiau rezultatul primei operaii din demersul statistic, acela de grupare n grupe omogene de uniti, conform cu accepiunile discriminante ale uneia sau mai multor caracteristici. Se tie c tabelarea este cea mai plastic reprezentare a statisticii care presupune o operaie de ordonare logic, de sistematizare ce confer materialului statistic posibiliti de reflectare a unor situaii sau procese reale. Un tabel statistic bine ntocmit este un instrument de lucru deosebit pentru specialiti i de aceea tehnica de prezentare a datelor sub form tabelar a devenit foarte rspndit nct anuarele statistice i publicaiile periodice ale diverselor oficii statistice naionale i internaionale o prefer ca instrument de baz. Reprezentarea grafic a unor aspecte importante sugerate de seriile statistice de date prin combinaii de linii, curbe sau diagrame specifice transmit vizual informaii statistice. Ele nfieaz legturi, tendine, structuri sub form ilustrativ i care nlesnesc cunoaterea i previziunea. Dup unii autori ele imprim n memorie, n cinci minute i durabil, informaii a cror culegere i tabelare ar cere zile ntregi i devin un suport al gndirii statistice cnd ofer o reprezentare simpl i clar. Dintre acestea menionm histogramele, poligoanele de frecvene, curbele de frecvene cumulate i diagrama stem-and-leaf care ofer rezumri utile altor demersuri statistice. Prelucrarea seriilor statistice cu ajutorul caracteristicilor numerice asigur parametrii de baz ai legilor de repartiie ce urmeaz a fi confirmate ca model pentru variabilele sub cercetare. Ele reprezint un pas nainte spre cercetarea statistic prin inferena statistic cu ajutorul estimaiilor, al verificrii ipotezelor statistice, al analizei corelaiilor sau al metodei regresiei. Beneficiind de audiena Leciilor de Statistic Matematic. Preliminarii la softuri i pachete statistice, prezentate de prof. dr. Gh. Constantin de la Facultatea de Matematic i Informatic, Universitatea de Vest din Timioara, ne propunem s oferim prin acest ndrumtor de laborator o asisten adecvat privind transpunerea rezultatelor teoretice importante n raza de aciune a softurilor matematice. Adresez pe aceast cale recunotin i mulumirile mele calduroase profesorului meu pentru bunele sale oficii i rbdarea deosebit cu care m-a ndrumat i ncurajat s elaborez aceste texte i aplicaii.
6

Capitolul 1. Utilizarea programelor Mathematica i Excel.


1. Descriere general a programului Mathematica
Mathematica este un program, un sistem pentru efectuarea de operaii matematice cu calculatorul, dezvoltat de ctre compania Wolfram Research, Inc. i lansat pe pia pentru prima dat n 1988. Este considerat a fi cel mai putenic sistem de procesare de informaie (calcul) din lume. Dup lansare a avut un efect profund asupra felului n care sunt folosite calculatoarele n domeniile tehnice i nu numai. Dezvoltarea acestui program s-a realizat la centrul de cercetare al companiei Wolfram Research, Inc. din Illinois, SUA, de ctre o echip de specialiti sub conducerea lui Steven Wolfram, designerul softului. S-a spus c Mathematica a marcat nceputul calcului matematic modern. ntr-o prim faz, Mathematica s-a dezvoltat pornind de la ideile lui Chris A. Cole i Steven Wolfram din mai vechiul program Symbolic Manipulation Program (SMP). Acesta a fost creat la Caltech n 1979 i comercializat pentru prima dat n 1981. Este considerat versiunea 0 a programului; alte versiuni ale softului sunt: versiunea 1.0 aprut n 1988, versiunea 2.0 din 1991, versiunea 3.0 din 1996, versiunea 4.0 din 1999, versiunea 5.0 din 2003, versiune 6.0 din 2007, versiunea 7.0 din 2008, iar ultima versiune este 7.0.1 din 2009. Cheia avantajului intelectual adus de Mathematica a fost invenia unui nou tip de limbaj de programare simbolic, care a permis pentru prima dat manipularea unei vaste mulimi de obiecte indispensabile pentru a atinge generalitatea necesar calculului tehnic. Mathematica a atins la nceput domenii precum fizica, tiinele matematice i tiinele inginereti, dar apoi s-a extins i n alte domenii, tehnice sau nu, precum biologia, tiinele sociale i altele. n industrie, Mathematica a devenit un standard att n producie, pentru designul produselor, ct i n cercetare. n comer, i n economie n general, a ajutat la dezvoltarea unor modele financiare sofisticate. Totodat Mathematica este folosit i n educaie. Exist chiar o comunitate care susine dezvoltarea continu a softului, format din specialiti n domeniile tehnice i nu numai. De exemplu, MathWorld este cel mai mare site web care ofer acces gratuit la diverse resurse matematice i care a fost construit folosind Mathematica, cu contribuii de la mii de utilizatori. De asemenea exist reviste dedicate softului Mathematica, precum The Mathematica Journal, care public articole despre orice aspect legat de acesta.
7

2. Descrierea modului de lucru cu Mathematica


Mathematica este un program care permite calcule numerice i simbolice, afiarea de reprezentri grafice, dar este i un limbaj de programare complex. Cteva caracteristici ale acestui soft sunt: folosirea de funcii complexe pentru date simbolice, interfaa permite accesul la calcule i comenzi anterioare, existena pachetelor care conin funcii matematice elementare i speciale, posibilitatea de a construi grafice 2D i 3D, existena uneltelor pentru manipularea matricilor i a vectorilor, rezolvarea de ecuaii i sisteme de ecuaii difereniale ordinare, cu derivate pariale, rezolvarea integralelor i relaiilor de recuren, optimizri locale i globale, existena pachetelor de unelte pentru adugarea de interfee utilizator pentru calcule i aplicaii, posibilitatea importurilor i exporturilor de date (imagini, sunete, video-uri), suport pentru numere complexe i precizie arbitrar. Mathematica este i un limbaj de programare procedural, funcional, dar i obiect orientat. Programul permite comunicarea cu alte softuri prin MathLink, un protocol standardizat ce asigur legtura (n ambele sensuri) dintre nucleu i alte programe cum ar fi C, Java, Word, TeX, Excel, web. MathLink accept configuraii client-server permind softului s fie att clientul, ct i serverul, dar permite i comunicarea de tip peer-to-peer. MathLink mai permite ca Mathematica s fie inclus n alte aplicaii ce pot astfel apela softul pentru calcule complicate numerice sau simbolice, sau pentru grafice ale unor obiecte matematice. Mathematica este un sistem software modular, care are dou componente principale: front end, adic interfaa, i kernel, adic nucleul. Nucleul este cel care execut instruciunile i comenzile date de utilizator i returneaz apoi rezultatul. De obicei, nucleul nu este pornit pn nu i se cere softului s fac prima operaie. Lansarea n execuie a programului depinde de tipul de interfa folosit de sistemul de operare al computerului pe care este instalat Mathematica. Pentru interfeele grafice, apare pe ecran un obiect numit notebook (n traducere caiet) care este gol. n acesta se pot introduce comenzi dup care trebuie apsate tastele SHIFT i ENTER concomitent. Un exemplu de notebook n care apar texte, operaii, rezultate i grafice furnizate de Mathematica este urmtorul.

Se poate observa c Mathematica afieaz pe ecran In[1]:= n dreptul comenzii, returneaz rezultatul i pune n faa acestuia Out[1]=. Numrul 1 se schimb pe msur ce se introduc mai multe instruciuni. Meniul softului cuprinde mai multe submeniuri: File, de unde se pot executa prelucrri asupra fiierelor ca salvarea (Save i Save As), printarea (Print), deschiderea sau nchiderea (Open, Close); Edit cuprinde faciliti de editare a documentelor (Select, Copy, Paste); Insert permite includerea unor obiecte sau fiiere, matrici, tabele i caractere speciale n foaia de lucru; Format, pentru modificarea stilului n care s apar textul n documente; Cell, de unde se pot preciza modificri asupra celulelor; Graphics d posibilitatea includerii de grafice; Evaluation gestioneaz lucrul cu nucleul i permite evaluarea celulelor; Palettes faciliteaz inserarea diverselor expresii matematice uzuale; Window are opiuni pentru aranjarea ferestrelor mai multor notebook-uri deschise simultan; Help este un submeniu foarte important deoarece ofer informaii despre softul Mathematica n general, despre sintax, funcii, expresii, constante i calcule matematice. Meniul Help ofer acces utilizatorului la Documentation Center (unde apare toat documentaia despre acest program), la Find Selected Function (cu ajutorul creia se pot gsi informaii despre funcia dorit) sau la Wolfram Website (care este o legtur direct ctre site-ul www.wolfram.com). Din Documentation Center se poate accesa lista tuturor funciilor predefinite prin Index of Functions.

Informaii despre o anumit funcie predefinit se pot gsi selectnd numele acesteia din foaia de lucru i apsnd apoi F1 sau tastnd ?Nume n foaia de lucru. Comanda ??Nume d informaii suplimentare, iar ?Aaaa* returneaz numele funciilor predefinite care ncep cu Aaaa; n mod analog exist comenzile ?*aaaa, ?*aaaa*.

Prezentm n continuare cteva reguli de baz pentru sintaxa din Mathematica: argumentele funciilor sunt ncadrate ntre paranteze drepte []; parantezele simple () sunt folosite pentru a grupa operaii; parantezele drepte duble [[]] sunt folosite pentru indexarea listelor; numele funciilor predefinite ncep cu majuscul; dac un nume este compus din mai multe cuvinte, fiecare dintre acestea ncepe cu liter mare; numerele se introduc astfel: 2.5*10^-4 sau 2.5 10^-4.

Mathematica conine i o mare colecie de funcii matematice, dintre care exemplificm cteva: radicalul de ordin 2 Sqrt[x], funcia exponenial Exp[x], funcia logaritmic Log[x], Log[b, x], funciile trigonometrice Sin[x], Cos[x], Tan[x], funciile invers trigonometrice ArcSin[x], ArcCos[x], ArcTan[x], modulul Abs[x], n! prin Factorial[n], Round[x], restul mpririi lui n la m, Mod[n, m], Random[ ], maximul Max[x, y, ... ], minimul Min[x, y, ... ]. Sunt predefinite n Mathematica i cteva constante, cum ar fi Pi, E, I (numrul complex i = 1 ), Infinity ( ), GoldenRatio (
10

1+ 5 ), EulerGamma (0.577216), 2

Catalan (0.915966), Khinchin (2.68545), Glaisher (1.28243).


n Mathematica se pot defini variabile, adic se pot atribui nume unor expresii sau constante. Acest lucru se face n urmtorul mod:

x = valoare atribuie o valoare variabilei x; x=y=valoare atribuie o valoare att lui x, ct i lui y; Clear[x] sau x =. nltur orice valoare atribuit lui x.

Numele variabilelor pot fi orict de lungi, dar nu pot ncepe cu cifre i Mathematica face diferena ntre litere mari i mici. Funciile predefinite ncep cu litere mari, de aceea este recomandat ca variabilele i funciile definite de utilizator s nceap cu liter mic. Trebuie precizat c dac o instruciune se ncheie cu caracterul ; , atunci valoarea returnat de Mathematica nu se afieaz pe ecran.

Variabilele de mai jos sunt denumite similar, cu diferena c numele unuia este o liter majuscul i a celuilalt nu. Mathematica poate deosebi ntre apelul uneia sau alteia.

Anumite caractere i secvene de simboluri (nume de funcii) sunt protejate n Mathematica, adic nu pot fi folosite n alt scop dect cel stabilit de soft. De exemplu, nu este posibil folosirea caracterului N pentru denumirea unei variabile sau funcie deoarece n Mathematica acesta reprezint numele unei funcii predefinite ce returneaz valoarea numeric a unei expresii date ca argument. Dac se ntmpl acest lucru, Mathematica afieaz pe ecran un mesaj de eroare specificnd c simbolul N este protejat, dup cum se poate observa mai jos.

11

Numele unei variabile n Mathematica va fi asociat valorii respective tot timpul ct programul este deschis. La terminarea unei sesiuni aceste variabile dispar. Este important ca utilizatorul s fie atent la atribuirea de nume variabilelor dac respectivele denumiri nu au mai fost folosite. De aceea este sugerat ca variabilele s fie terse dac acestea nu mai sunt utile. Exist ns i variabile locale definite cu ajutorul funciilor Module sau With. Listele sunt mijloacele de a grupa obiecte n Mathematica, acestea fiind nite structuri generale foarte importante. Acestea sunt cele mai flexibile i mai puternice obiecte din Mathematica. Un exemplu de list este {2,3,5} (o colecie de trei numere n acest caz). Aceast list poate fi tratat ca o entitate i se pot face operaii asupra ei n acest mod. De exemplu:

Multe dintre funciile predefinite n acest soft au proprietatea de a fi listable, adic pot primi ca argument o ntreag list, dar opereaz asupra fiecrui element din lista respectiv. Un astfel de exemplu este cel al funciei Exp de mai sus. Pentru funciile care nu au aceast proprietate se pot folosi funciile predefinite Map i Thread care au acelai efect. Listele se pot construi cu funcii ca Table, Array sau Range sau pot fi introduse direct de la tastatur. n Mathematica exist structuri precum vectori sau matrici, dar acestea sunt tot liste, mai precis liste care au ca elemente alte liste. Tot ce este inclus ntre dou acolade este considerat o list. {a, b, c} este un vector (prima compenent a vectorului este a, cea de-a dou b i cea de-a treia c), iar {{a, b},{c, d}} este o matrice cu dou linii i dou coloane. Matricile pot fi afiate pe ecran sub form matricil, i nu de simpl list, folosind funciile TableForm i MatrixForm.

12

n Mathematica se poate face conversia ntre o list de liste i o list simpl i invers folosind funciile Flatten i Partition.

Mathematica lucreaz cu diferite obiecte precum formule matematice, liste i grafice, pentru a numi doar cteva. Dei pe ecran arat cu totul diferit, n nucleul su programul reprezint toate aceste obiecte sub aceeai form, de expresie. Deci totul n Mathematica este o expresie. Prototipul pentru o expresie este f[x,y], unde f reprezint tipul expresiei (numit head). De exemplu, atunci cnd se introduce de la tastatur x+y, softul convertete ceea ce s-a introdus n expresia Plus[x,y], dar afieaz pe ecran tot x+y. Una dintre cele mai importante caracteristici ale programului Mathematica este aceea c este un sistem extensibil. Adic pe lng multitudinea de funcii incluse n nucleu (numite built-in), mai posed i un numr de pachete ce conin funcii suplimentare. Acestea pot fi folosite de utilizator numai dup ncrcarea pachetului respectiv, sunt funcii scrise folosind softul Mathematica i corespund unor domenii diverse de aplicabilitate. Acestea se pot ncarca n dou feluri:

Exemple de pachetele din Mathematica sunt ANOVA, Audio, BarCharts, Calendar, Combinatorica, ComputationalGeometry, ComputerArithmetic, FourierSeries, FunctionApproximations, Histograms, HierarchicalClustering, HypothesisTesting, LinearRegression, MultivariateStatistics, NonlinearRegression, NumericalCalculus, PieCharts, RegressionCommon, StatisticalPlots. Exist funcii pentru repartiii statistice continue i discrete, unidimensionale i multidimensionale, pentru determinarea unor diveri coeficieni ai statisticii descriptive n cazul datelor unidimensionale i multidimensionale, pentru verificri de ipoteze statistice, estimri de tip interval de ncredere i funcii de regresie liniar i neliniar. Noi ne vom ocupa n acest ndrumtor cu descrierea i aplicarea unor instruciuni ce vizeaz prelucrri statistice primare sub form tabelar pentru a construi eantioane nealeatoare, generri de numere aleatoare avnd diverse repartiii cu rutina Random, dar i prin metode analitice (metoda lui von Neumann, metoda lui Lehmer etc.) pe care apoi le vom folosi la construcia diferitelor tipuri de eantioane aleatoare.
13

3. Descriere general a programului Microsoft Excel


Microsoft Office Excel este un program de calcul tabelar i cel mai utilizat program din lume pentru un astfel de calcul, deinnd o cot impresionant de pia estimat la 90%. Acest soft este proprietatea Microsoft, companie care a devenit cunoscut prin dezvoltarea sistemului de operare Windows i a produselor Microsoft Office. ncepnd de la mijlocul anilor 90 i continund pn n prezent, Excel a dominat piaa aplicaiilor de tip spreadsheet. Noiunea de spreadsheet denumete o aplicaie care simuleaz electronic (pe un calculator) o foaie de calcul de hrtie. Aceast aplicaie este format din mai multe celule, care mpreun formeaz o tabel alctuit din mai multe rnduri i coloane. n fiecare celul se pot gsi texte (secvene de simboluri alfanumerice) sau valori numerice. n cazul Excel-ului, un al treilea tip de dat este cel al formulelor. Astfel, o celul poate conine i o expesie matematic ce specific modul de determinare a valorii care se va afia pe ecran folosind coninuturile altor celule. Schimbarea valorii unei celule induce n mod automat, n acest caz, modificarea valorii tuturor celulelor ce depind de aceasta. Excel ofer utilizatorului posibilitatea de a efectua calcule matematice, conine unelte puternice pentru realizarea de diagrame i permite programarea prin componenta sa VBA (Visual Basic for Applications). Este unul dintre cele mai populare aplicaii pentru computere de pn acum. Cea mai recent versiune disponibil pentru Windows este Microsoft Excel 2010, dar exerciiile i exemplele utilizate n acest ndrumtor au fost rezolvate folosind versiunea din 2003. Excel ofer multe avantaje din punct de vedere al interfeei pe care o are, interfa de tip GUI (Graphical user interface), foarte prietenoas pentru utilizator. Totui se pstreaz esena aplicaiei de tip spreadsheet, aceea c foile de lucru sunt organizate n celule, care fac parte la rndul lor din coloane i rnduri, i pot conine formule, texte sau valori (constante) cu referiri relative sau absolute la alte celule. Cteva caracteristici ale acestui program includ posibilitatea de a crea tabele de tip pivot (numite pivot tables), adic modele de sumarizare i stocare a informaiei regsite n aplicaii de vizualizare a datelor. Printre alte funcii, aceste tipuri de tabele pot sorta, aduna, totaliza datele stocate i pot crea un nou tabel cu rezultatele aciunii de sumarizare. Prin intermediul Excel-ului se pot face importuri i exporturi de date si se pot crea liste. Mai trebuie precizat c exist o comunitate a celor care folosesc programul Excel i care se reunete pe diferite site-uri web. Folosind diverse platforme, ei interacioneaz spre o mai bun informare asupra facilitilor softului. Exist chiar i o alternativ gratis a Excel-ului ce are multe similariti cu acesta. Se numete OpenCalc i face parte din suita de programe Open Office, o replic gratuit a produsului Microsoft Office.
14

4. Descrierea modului de lucru cu Excel-ul


Dup cum am mai precizat, softul Excel ofer utilizatorului, prin afiare pe ecran, o foaie de lucru (worksheet) compus din mai multe celule organizate pe rnduri i coloane. Aceste foi sunt grupate n registre. Dup deschiderea aplicaiei Excel, pot fi utilizate unul sau mai multe registre, care la rndul lor conin una sau mai multe foi de lucru, foi cu diagrame sau module macro. Macro-ul este o noiune care definete capacitatea Excel-ului de a automatiza aciuni ale utilizatorului prin componenta VBA. Programul Excel efectueaz calcule numerice folosind formule, adic manipulri asupra adreselor unor celulelor spre a determina o valoare dorit, reinut n alt celul. Se mai pot face diagrame de diferite tipuri, rezolvri de ecuaii prin componenta Solver, operaii financiare i asupra valorilor de tip dat calendaristic, operaii asupra datelor stocate ntr-o baz de date sau list, investigri statistice. Specificm n continuare modul de deschidere a aplicaiei Excel. Programul se poate deschide n mai multe feluri: dnd dublu clic pe icoana de pe desktop,

alegnd opiunea Open din meniul care se deschide atunci cnd facem clic dreapta pe icoan sau din meniul Start al sistemului de operare Windows (calea este StartAll programsMicrosoft OfficeExcel). n acest fel apare pe ecran fereastra softului constituit dintr-un registru cu mai multe foi de calcul.

15

Se poate observa c foaia de lucru este mprit n mai multe celule aflate la intersecia liniilor i coloanelor. Fiecare coloan din cele 256 existente este denumit folosind o liter a alfabetului, de la A la Z, apoi urmeaz AA, ..., AZ, ... IV. Liniile sunt numerotate, existnd 16000 n total. Fiecare celul are o adres cu ajutorul creia se pot face referiri la ea: A7 este un exemplu de adres pentru celula aflat la intersecia primei coloane i celui de-al aptelea rnd. n fiecare celul se poate introduce de la tastatur o valoare numeric, un text sau o formul coninnd prelucrri asupra altor celule, funcii predefinite i operaii matematice. Se poate ntmpla ca Excel-ul s afieze ntr-o celul o valoare eronat de genul #DIV/0!, #VALUE!, #NUM!, #NAME? atunci cnd o formul nu a fost bine introdus, o funcie nu are argumentele corespunztoare, referina unei celule nu este valid sau din alte cauze. Atunci cnd apare ##### ntr-o celul nseamn c valoarea coninut are o dimensiune mai mare ca celula i aceasta trebuie redimensionat. Fereastra Excel-ului are mai multe elemente. Pe primul rnd apare numele softului i al registrului, Microsoft Excel i Book1. Apoi interfaa prezint meniul aplicaiei constituit din File, Edit, View, Insert, Format, Tools, Data, Window i Help. Urmeaz dedesubt bara de instrumente, n care se regsesc comenzi i opiuni din meniuri sub forma unor butoane. Mai jos se afl bara de formule, locul unde se pot introduce de la tastatur formule cu funcii predefinite sau operaii matematice asupra coninuturilor celulelor. Exemplificm cteva dintre facilitile cuprinse n meniurile Excel-ului. Meniul File conine opiuni pentru prelucrri asupra fiierelor ca salvarea (Save, Save As...), deschiderea (Open), nchiderea (Close), printarea (Print). Edit ofer opiuni pentru editarea fiierelor precum copierea (Copy, Cut), lipirea (Paste), gsirea sau nlocuirea unei valori (Find, Replace, Go To), eliminarea unei aciuni (Undo) sau repetarea ei (Redo). View are diverse posibiliti de vizualizare a foii de lucru ca Normal, Page Break Preview sau Custom views i de asemenea opiuni pentru afiarea de bare diferite ca Formula bar, Toolbars, Status bar. Insert poate insera celule (Cells), rnduri (Rows), coloane (Column) n foaia de lucru, foi noi (Worksheets) n registrul de lucru sau grafice (Chart), funcii (Function...), simboluri (Symbol) i obiecte ntr-un document (Object). Meniul Format permite formatarea celulelor (Cells), rndurilor sau coloanelor. Tools ofer diverse unelte pentru corectarea greelilor de scriere (Spelling), pentru analiza statistic a datelor (Data Analysis), pentru rezolvarea ecuaiilor (Solver), introducerea de macro-uri, precum i alte opiuni (Options). Data conine opiuni de creare a listelor (List), de importuri de date (Import External Data), de sortare i filtrare a datelor (Filter).
16

Window are opiuni pentru mprirea foii de lucru n mai multe ferestre mai mici (Freeze Panes i Split), de aranjare a ferestrelor atunci cnd mai multe registre sunt deschise (Arrange...), de ascundere sau vizualizare a registrelor (Hide i Unhide). Meniul Help reprezint o surs de informaii despre facilitile softului. Prin aceast component utilizatorul are acces la informaii stocate att n calculatorul propriu, ct i pe web. Acestea sunt ordonate pe capitole ca Working with Data (lucru cu datele), Formulas (formule); se poate cuta o anumit funcie n csua Search for.

Diagramele sunt una dintre cele mai importante faciliti oferite de Excel si se pot construi selectnd Chart... din meniul Insert sau folosind butonul de pe bara de instrumente. n mod analog, funciile predefinite ale Excel-ului se pot apela din acelai meniu, cu Function... sau folosind butonul , dac acesta se gsete pe bara de instrumente. Tipurile de funcii predefinite ale Excel-ului sunt de mai multe feluri: financiare (Financial), pentru operaii cu date calendaristice (Date & Time), matematice (Math & Trig), statistice (Statistical), pentru date de tip text (Text), logice (Logical), pentru ingineri (Engeneering), pentru baze de date (Database), referine i gsirea unei valori (Lookup&Reference). Exist o categorie care cuprinde lista tuturor funciilor (All) i una a celor mai recent folosite funcii (Most Recently Used).

17

Enumerm cteva dintre funciile matematice predefinite: funciile trigonometrice i inversele lor (COS, SIN, TAN, ACOS, ASIN, ATAN), valoarea absolut (ABS), funcia exponenial (EXP), logaritmic (LN), n! (FACT), funcia de nmulire a dou matrici (MMULT), restul mpririi a dou numere (MOD), radicalul (SQRT), operaii aritmetice (SUM, PRODUCT), generarea unui numr aleator (RAND). Dintre funciile logice amintim IF, TRUE, FALSE, AND i OR. Aadar, dei Excel-ul este nu este un soft matematic, el poate suplini rolul softurilor specializate n aceast direcie, cci cuprinde numeroase funcii din acest domeniu dup cum am putut observa din descrierea de mai sus. Programul are o componenta Solver de optimizare i programare matematic. Acesta se gsete la meniul Tools, opiunea Add-Ins.

Excel-ul are i o component important de statistic pe care o vom exploata cutnd s o aducem la faza n care s poat suplini un soft statistic. Menionm cteva dintre funciile statistice ale softului, apoi precizm facilitile oferite de pachetul Analysis ToolPak, precum i ce fel de prelucrri statistice se pot face asupra datelor. Aadar, dintre funciile statistice amintim: AVERAGE (media aritmetic), COUNT (numrul elementelor dintr-o list), COUNTIF (numrul elementelor dintr-o list care ndeplinesc un criteriu), COVAR (covariana a dou seturi de date), FREQUENCY (frecvena absolut a elementelor dintr-o list), GEOMEAN (media geometric), HARMEAN (media armonic), KURT (coeficientul Fisher de aplatizare sau excesul), LARGE (returneaz al k-lea cel mai mare numr dintr-o serie de date), MAX (valoarea maxim), MEDIAN (mediana), MIN (valoarea
18

minim), MODE (moda), PEARSON (coeficientul de corelaie Pearson), PERCENTILE (cuantile de diferite ordine), QUARTILE (cuartilele), SKEW (coeficientul de asimetrie a lui Fisher), SMALL (returneaz al k-lea cel mai mic numr dintr-o serie de date), STDEV (abaterea medie ptratic), VAR (variana unei serii de date). Excel-ul pune la dispoziie funcii prin care avem acces la cteva dintre cele mai cunoscute distribuii: BETADIST (distribuia beta), BINOMDIST (distribuia binomial), CHIDIST (distribuia 2 ), EXPONDIST (distribuia exponenial), FDIST (distribuia F), GAMMADIST (distribuia gamma), HYPGEOMDIST (distribuia hipergeometric), LOGNORMDIST (distribuia lognormal), NEGBINOMDIST (distribuia binomial negativ), NORMDIST (distribuia normal), POISSON (distribuia Poisson), TDIST (distribuia Student), WEIBULL (distribuia Weibull). Totodat mai exist i pseudoinversele funciilor de repartiie pentru cteva distribuii. Se pot face verificri de ipoteze statistice i estimaii n Excel cu ajutorul unor funcii predefinite ca CONFIDENCE, CHITEST, FTEST, TTEST, ZTEST. Excel dispune de anumite funcii pentru efectuarea regresiilor asupra unor seturi vectoriale de date: pentru regresia liniar exist LINEST, TREND, FORECAST, SLOPE, i STEYX, pentru regresia exponenial - LOGEST i GROWTH. Instrumentele pentru construcia de diagrame sunt foarte diverse n Excel, acesta punnd la dispoziia utilizatorului multe tipuri de grafice, att 2D, ct i 3D: cu bare, disc mprit n sectoare, cu cilindrii, conuri sau piramide, cu suprafee, de tip Scatter i altele. Se pot construi histograme i poligoane de frecvene pentru serii statistice, precum i grafice de funcii matematice. Aceste faciliti pot fi accesate din meniul Insert, opiunea Graph. Pe lng funciile statistice, n Excel exist i pachetul numit Data Analysis ce se gsete la opiunea Add-Ins din meniul Tools.

Aici se gsesc faciliti pentru a efectua diverse operaii statistice ca analiza varianei (ANOVA), histograme, teste statistice, regresii, eantionare i generare de numere aleatoare cu anumite distribuii.

19

Capitolul 2. Generaliti privind culegerea datelor statistice.


Statistica matematic este acea ramur a tiinei care se ocup cu descrierea i analiza numeric a fenomenelor de mas, urmrind particularitile de volum, structur dinamic, conexiunile i regularitile sau legile ce le guverneaz. Cercetarea statistic se realizeaz n trei etape distincte. Prima etap, cea a observrii statistice, asigur culegerea informaiilor primare de la unitile statistice ce compun populaia; a doua etap este prelucrarea datelor statistice i apoi analiza i interpretarea rezultatelor obinute, n vederea formulrii concluziilor referitoare la populaia investigat. Observarea statistic const n culegerea informaiilor referitoare la unitile statistice i caracteristicile acestora, dup criterii bine definite, pe baz de plan care specific problemele legate de obiectul observrii, scopul, programul, timpul i locul observrii. Observarea prin care se nregistreaz toate unitile populaiei se numete observare total sau exhaustiv (de exemplu recensmntul populaiei). Observarea parial prin anchet, prin sondaj, const ntr-o investigaie ntreprins pe o fraciune reprezentativ a populaiei statistice numit eantion. n virtutea reprezentativitii corecte a eantionului (pentru micorarea erorii de acoperire), informaiile obinute prin sondaj sunt extinse la ntreaga populaie prin tehnica inferenei statistice. Odat cu nregistrarea sistematic a unitilor alese n eantion i respectiv a datelor numerice sau informailor calitative asociate, ntr-o prim etap, are loc i o oarecare sistematizare i prelucrare primar strict necesar prezentrii aa numitelor serii (sau repartiii) statistice. Prin acestea se nelege orice ir de valori numerice (sau calitative) asociate caracteristicii sub cercetare, ordonate dup valorile unei alte caracteristici (aceasta putnd fi teritorial, adic spaial, conducnd la serii statistice spaiale; poate fi temporal, conducnd la serii cronologice). Cnd se nregistreaz schimbrile frecvenelor caracteristicii sub cercetare n funcie de variaia unei alte caracteristici se ajunge la seria statistic de repartiie (sau repartiia de frecvene). Deseori, domeniul de valori al variabilei sub cercetare este divizat n clase disjuncte care acoper toate cazurile particulare (adic exhaustiv), chiar dac are loc o pierdere de informaie. Numrul de observaii corespunztoare fiecrei clase (interval component) din repartiia statistic se numete frecven de clas sau frecven absolut asociat clasei (notat cu f i a ) i suma frecvenelor absolute este egal cu volumul eantionului. Frecvena relativ a unei clase (notat cu f i r , i = rangul clasei), este
fir
def

not fia = fi vol. esantion

20

uneori exprimndu-se n procente, adic

f ia 100%. vol. esantion Repartiiile de frecvene n cazul variabilelor calitative i, respectiv, cantitative se scriu sub forma:
Clase frecvene a b c f(a) f(b) f(c)

respectiv:

y1 ,..., y n not y i Y: f ,..., f = f n 1 i i =1,n


y i reprezentnd valorile variabilei sub cercetare Y, n ordine cresctoare. Seriile finite asociate caracteristicilor definite pe populaii finite, de volum N, se mai scriu i sub forma (xi,Ni) i =1,k , unde xi sunt valorile distincte ale caracteristicii cercetate, N i frecvena valorii xi n seria respectiv i N1+....+Nk =N, iar pentru s eantioane de volum n sub forma (xij,nij) j =1,m , i =i ,s , ni1+...+nim = n, i = 1, s sau sub forma (xij,
r r f ijr ) j =1,m , i =1,s , f i1 + ... + f im = 1 , i = 1, s .

Uneori, seriile statistice supuse unor prelucrri primare sau a unor sistematizri logice sunt prezentate sub form de tabele statistice care ofer asambluri de judeci despre subiect (populaia sau componentele ei) i despre predicat (elemente statistice ce caracterizeaz populaia: numrul de uniti, repartiii cumulative ascendent sau descendent de frecvene i alte informaii). n cazul variabilelor nediscrete se aplic repartiia pe clase (grupe) de valori ale variabilei aleatoare sub cercetare, adica domeniul de variaie de forma (a,b) , (a,b], [a,b) sau [a,b], (sau puin extinse la stnga sau la dreapta cnd seria se termin cu o clas deschis, cnd frecvenele nu sunt semnificative pentru a constitui o clas clar) se mparte ntr-un numr convenabil de clase consecutive de amplitudini hi, egale sau nu, i se indic pentru fiecare clas frecvena respectiv obinut prin asimilarea valorilor din clas cu o distribuie uniform pe acel interval

a 0 = a x < a1 , a1 x < a 2 ,..., a n 1 x < a n = b + , cu > 0 si mic X: f1 f 2 ... fn unde a- , a1,..., an-1 , b+ sunt extremitile claselor.Uneori se nregistreaz lungimile def a + ai intervalelor hi=ai+1 - ai i mijloacele acestora xi* = i +1 , iar frecvenele de clas se 2 nlocuiesc uneori prin aa numitele frecvene reduse notate prin: f * min(hi ) f i* = i , i = 1, n . hi
n ceea ce privete prelucrarea seriilor statistice, existena unor softuri statistice performante i a unor pachete statistice n diferite programe matematice sau de alt natur uureaz foarte mult eforturile pentru obinerea rezultatelor dorite. Ne propunem s prezentm diferite modaliti de construire a eantioanelor mpreun cu unele exemplificri de utilizare a programelor Mathematica i Excel.
21

1. Cteva aplicaii privind construirea unor eantioane nealeatoare.


Atunci cnd populaia este omogen, sondajul prin alegerea raional poate fi o soluie n sensul asigurrii unei oarecare fideliti cu populaia originar, asumndu-se unele dezavantaje, dar beneficiind de o oarecare operativitate i evitarea cerinei de a dispune de lista unitilor populaiei care uneori este greu sau imposibil de ntocmit sau actualizat i devine mai puin costisitoare. Acest tip de sondaj se bazeaz pe ideea c reprezentativitatea poate fi asigurat prin alegere raional i nu implic selecie aleatoare. Dintre cele mai importante tehnici raionale de eantionare amintim: eantionarea pe cote, care este metoda ce ofer rezultatele cele mai exacte, tehnica de eantionare pe baza de voluntariat, anchetele pe strad, sondajele n reea. Metodele de selecie nealeatoare ce au la baz alegerea raional pornesc de la unele analize prealabile asupra compoziiei populaiei de referin i a unor tendine rezultate din studii anterioare. Sunt recomandate n cazul populaiilor de referin omogene pentru c ofer un grad de operativitate sporit i o micorare a costurilor. Nu trebuie neglijate dezavantajele datorate unei slabe fideliti fa de ntreaga populaie i imposibilitatea estimrii varianei i a deplasrii estimatorilor fa de indicatorii populaiei de referin. Dintre tipurile de asemenea eantionri amintim aa zisa eantionare la ntmplare, eantionare dirijat, eantionare mixt, i eantionare prin voluntari (folosit n studiile medicale, de psihologie sau de marketing). Cea mai utilizat este eantionarea prin metoda cotelor sau repartizarea proporional folosit n cazul populaiilor grupate sau stratificate (n anchetele socio-economice, anchetele de opinie etc.). Aceast metod are n vedere existena unei partiionri a populaiei cu card ( ) = N n r subpopulaii de cardinal Ni , i= 1, r , astfel nct N =

N1+...+ Nr i

Ni = k i (exprimat zecimal sau procentual) care conduce la recomandarea N

ca eantionul de volum n s fie repartizat pe componente astfel nct ni = k i n , i = 1, r

Ni n i i sunt exprimate n procente, vom constata c valorile N n procentuale sunt egale, dar bazele la referin difer). Pentru sporirea gradului de reprezentativitate a eantionului n definirea structurii pe componente a populaiei se folosesc variabile de control prin care se nelege ansamblul caracteristicilor luate n studiu, n funcie de tipul populaiei, de cerinele studiului respectiv, att teoretice ct i practice. Ele au ca obiectiv o bun reprezentativitate a eantionului, asigurarea unor condiii ca frecvenele s defineasc distribuii statistice crora s li se poat aplica i tehnicile probabiliste, s evite implicarea operatorului de teren i chiar i a respondenilor. De exemplu, n cazul populaiilor umane se vor avea n vedere regiunile socio-economice, categoriile socio-profesionale, starea civil, sexul, vrsta etc., iar n
(n cazul cnd rapoartele
22

cazul cnd unitatea de baz este gospodria trebuie luate n seam regiunea sociocultural sau geografic, categoria localitii, numrul membrilor de familie, categoria socio-profesional a prinilor, numrul de copii etc. Exist posibilitatea sporirii fidelitii eantioanelor prin luarea n considerare, pe lng volumele straturilor, i gradul de variabilitate i (abaterea standard a unitii din stratul i) din fiecare strat. Vom alege

ni = n

N i i

N i i
i =1

, i= 1, k ,

adic direct proporional cu volumul stratului i invers proporional cu omogenitatea acestuia. Exist i o alt repartizare proporional ns nu n raport cu proporia stratului ci cu valorile unei variabile aleatoare X. O convenie cu caracter practic este ca ni obinute s fie ajustate convenabil la numere naturale. n multe cazuri, finalizarea prelucrrilor primare se prezint sub forma de tabele statistice de diferite tipuri (sugerate, uneori, chiar de rapoartele cerute de Direciile Regionale sau Naionale de Statistic).

Aplicaii practice
Utilizai calculatorul n actualizarea sau detalierea unor baze de date i manipularea unor tipuri de tabele statistice.

Exerciiul 1.
Pentru a exersa utilizarea diferitelor funcii din softurile Mathematica i Excel, se precizeaz o baz de date privitoare la starea civil i sexul populaiei din Bucureti ntr-un an, prezentat sub forma unui tabel combinat cu grupri dup cele dou caracteristici amintite i anume:

Tabelul nr. 1. Distribuia populaiei oraului Bucureti dup starea civil


din care Starea civil Necstorii Cstorii Divorai Vduvi Nedeclarat Total populaie 468947 647095 37827 81190 1849
23

masculin 247453 325604 8773 8985 646

feminin 221494 321491 29054 72205 1203

Total

1236908

591461

645447

Se cere s detaliai baza de date de mai sus prin oferirea a dou noi tabele: 1) un tabel (numrul 2) format prin adugarea a trei coloane noi: a) o coloan n care se nregistreaz ponderea strilor civile, numit ponderea % st. civ. i notat n soluia din Mathematica procent %, intercalat ntre coloana a doua i a treia din tabelul iniial (devenit coloana a treia n noul tabel); b) o coloan n care se nregistreaz ponderea brbailor dup starea civil (devenit coloana a cincea n noul tabel) i numit ponderea % brb, notat n soluia din Mathematica masc %; c) o coloan similar celei de la b) pentru femei, a aptea, numit ponderea % fem, i notat n soluia cu Mathematica fem %. 2) un tabel intitulat Tabel cu alocrile de subeantioane relativ la un eantion de volum n=1100 i construit prin metoda cotelor proporionale (aici procentele relative la volumul eantionului). Soluia n Mathematica. a) Declarm o list A care va reine datele din tabel.

Funcia "TableForm" prezint lista A sub forma unui tabel.

Pentru a construi altfel tabelul de mai sus, trebuie selectat din meniul ferestrei softului opiunea Insert i de acolo Table/Matrix -> New. Astfel se deschide o csu unde se poate preciza ce se dorete a se construi, tabel sau matrice, precum i numrul de linii i de coloane ale tabelului sau matricii. Mai trebuie bifate csuele Draw lines between rows, Draw lines between columns i Draw frame.

24

Comanda urmtoare insereaz pe prima linie la poziia a treia Procent % i modific tabelul.

Instruciunea For insereaz valorile procentelor corespunztoare pe poziia a treia pe fiecare linie din tabel i modific tabelul.

Vom insera n continuare n tabel o nou coloan numit masc %. Pe prima linie va avea scris chiar masc %, iar pe celelalte linii vor fi scrise, respectiv, procentele care corespund numrului de persoane de sex masculin din numrul total de persoane necstorite, cstorite, divorate, vduve. Aceasta se realizeaz folosind funcia Insert i instruciunea repetitiv For. Apoi se va afia tabelul modificat cu ajutorul funciei TableForm.

Se face acelai lucru pentru o nou coloan numit fem %.


25

n continuare vom construi un tabelul intitulat Tabel cu alocrile de subeantioane relativ la un eantion de volum n = 1100 i construit prin metoda cotelor proporionale (aici procentele relative la volumul eantionului). Pentru a face acest lucru, mai nti vom defini o lista pe care o numim tabesant i care va lua iniial valoarea tabelului memorat n variabila A. Apoi vom face modificri asupra acesteia folosind instruciunea repetitiv For.

Forma final a tabelului se afieaz cu funcia TableForm.

Facem un nou tabel cu rezultatele ajustate privind cotele eantionului.

26

Soluia n Excel. Construim mai nti tabelul de mai sus n Excel. Pentru aceasta deschidem fereastra Excel-ului cu 3 foi de lucru numite Sheet1, Sheet2, Sheet3. Pentru introducerea tabelului se poate alege oricare dintre acestea. Se selecteaz csuele de pe prima linie de la A1 pn la D1 n vederea scrierii un text mai lung. Din bara de meniuri a ferestrei aflat n partea de sus a ecranului se selecteaz meniul Format Cells. Se deschide urmtoarea fereastr.

Din submeniul Number Category alegem opiunea Text, iar din submeniul Alignment bifm cu mouse-ul csuele din dreptul opiunilor Wrap Text i Merge cells de la seciunea Text Control.

27

Astfel celulele selectate anterior, A1 pn la D1, vor fi considerate acum ca o singur celul, renumit A1 i care este lungit, de tip text, n care se va putea scrie pe mai multe rnduri. n aceast celul introducem textul Tabelul nr. 1. Distribuia populaiei oraului Bucureti dup starea civil i redimensionm celula. Completm apoi restul capului de tabel astfel nct, dup ce am fcut operaiile necesare, acesta s arate astfel:

. Completm acum i restul tabelului dup cum urmeaz: pe coloana A, de la celula A4 la A9, sub celula n care este deja scris Starea civil, scriem textele Necstorii, Cstorii, Divorai, Vduvi, Nedeclarat i, respectiv, Total. Pe coloanele B, C i D, sub Total populaie, masculin i feminin introducem datele corespunztoare din tabelul din enunul problemei. Astfel am introdus n foaia de lucru Excel ntreg tabelul din enunul problemei i acesta arat astfel:

28

. ncepem s construim tabelul cerut la punctul a) pe care l vom intitula Tabelul nr. 2. Trebuie s introducem o nou coloan n tabelul 1 pe care s-o numim ponderea n % a strii civile. Pentru aceasta ne poziionm, fcnd clic stnga cu mouse-ul, pe oricare din celulele din coloana C ncepnd de la cea n care avem introdus textul masculin. Apoi facem clic dreapta i ne apare o fereastr din care alegem opiunea Insert. Apare o nou fereastr din care alegem opiunea Entire Column care va insera o coloan ntre coloanele B i C.

Unim apoi primele dou celule ale noii coloane cu opiunea Merge Cells care se gsete sub form de buton pe bara de instrumente sau de la meniul ferestrei Excel alegem Format Cells (Number-> Text i Alignment->Text control->Wrap text i Merge Cells). Tabelul modificat arat aa:

. Introducem acum n celula C2 textul Poderea % st.civ. i dedesubtul acestei


29

celule, pe coloana C, i de exemplu, pe linia 4 adic C4 vom calcula procentele aferente fiecrei stri civile. n partea de sus dreapta a ferestrei de lucru, dedesubtul barei de instrumente, se gsete un spaiu unde se pot scrie formulele de calcul, pe care o vom numi bara de formule. Facem clic stnga cu mouse-ul pe celula C4, care ulterior va reine procentul persoanelor necstorite din totalul populaiei. Apoi ne poziionm cu mouse-ul pe bara de formule i scriem semnul = n dreapta formulei pentru calcularea procentului B4 * 100 , care reprezint numrul de persoane necstorite i, urmat de raportul B9 respectiv, totalul populaiei. Vom fixa celula B9, prin adugarea semnului dolar $B$9, cci va aprea n toate celelalte formule pentru calcularea procentelor, respectiv din celulele de la C5 la C9.

Putem repeta scrierea formulei pentru fiecare din celulele C5-C9, dar exist un mod mai simplu de a calcula celelate procente dect acesta: facem clic pe celula C4 i ne poziionm cu mouse-ul n colul dreapta jos al acestei celule; mouse-ul va avea acum forma unei cruci negre cu linii subiri ; inem apsat clic stnga n colul amintit al celulei i tragem n jos peste celulele C5-C9. Aceast metod se numete metoda Autofill de umplere a celulelor. n acestea vor aprea calculate procentele strilor civile corespunztoare.

Rspundem n continuare punctului b). Trebuie acum s inserm o nou coloan n tabelul 2, n care se va nregistra ponderea brbailor dup starea civil i care va fi notat masc %. Aceast coloan se insereaz ntre coloana D (a patra) i E (a cincea) Se procedeaz n mod analog i apoi se scriu formulele corespunztoare pentru calcularea ponderilor respective.

30

Pentru a rspunde n continuare punctului c) al problemei, trebuie s calculm ponderea persoanelor feminine dup starea civil i s reinem aceste ponderi ntr-o nou coloan, a aptea a tabelului 2. Se procedeaz analog ca n cazul determinrii ponderilor persoanelor masculine. Tabelul final va arta astfel:

. Trecem la rezolvarea cerinei de la punctul 2 al problemei. Trebuie acum s facem un nou tabel intitulat Tabelul nr. 3. Alocrile de subeantioane relativ la un eantion de volum n=1100. ntr-o zon goal a foii de lucru copiem tabelul numrul 2: selectm tabelul, facem clic dreapta cu mouse-ul i din fereastra ce se deschide alegem Copy. Ne poziionm pe zona dorit din foaia de lucru i, dnd clic dreapta, alegem opiunea Paste special, care ne va permite s alegem dintr-o alt fereastr opiunea Values. Astfel programul va copia doar valorile celulelor tabelului 2, nu i formulele acestuia.

31

tergem apoi coninuturile celulelor care rein totalul populaiei, numrul persoanelor de sex feminin i masculin. Introducem n dreptul celulei Total valoarea 1100. Apoi, cu ajutorul formulelor i, folosind procentajele rmase n tabel, determinm numrul persoanelor necstorite, cstorite, divorate, vduve i cu stare civil nedeclarat, din totalul de 1100. n acelai mod se determin numrul persoanelor de sex feminin i masculin cu strile civile menionate.

Facem acum un nou tabel cu rezultatele ajustate privind cotele eantionului. Introducem datele de la tastatur, nu le copiem din unul din tabelele anterioare, ntr-o zon a foii de lucru n care celulele nu au valori. Noul tabel se va numi Tabel cu rezulatele ajustate i va avea doar 4 coloane. El nu va cuprinde procente, ci doar valori ajustate.

2. Tabele de numere aleatoare i metode de generare a irurilor de numere aleatoare ce urmeaz o lege de repartiie dat.
Procese economice, industriale, fizice sau naturale prin complexitatea lor, ca form de manifestare a lumii reale, implic dificulti semnificative n cercetarea lor. Una dintre cele mai eficace abordri este cea a modelrii acestora, pentru a beneficia de instrumentele aparatului matematic. Se cunosc mai multe tipuri de modelri cum sunt cele imitative, analogice i simbolice (analitice). Un cadru mai general este oferit de modelele de simulare prin numere aleatoare care constituie o categorie special de modele simbolice care permit studierea att a modelelor imitative i analogice ct i a modelelor simbolice clasice. Modelarea prin simulare permite s simulm realitatea i s comparm rezultatele simulrii cu rezultatele observaiilor practice i apoi s
32

perfecionm modelul respectiv. Prin urmare, putem vorbi de metode de proiectare a realitii prin simulare utiliznd numere aleatoare. Cum analiza statistic a realitilor nconjurtoare implic tehnici de sondaj i respectiv de inferen statistic, metodele de constituire a eantioanelor aleatoare constituie un pas important al demersului statistic. In demersul statistic pe baza de eantioane aleatoare se obin avantaje evidente att prin eliminarea subiectivitilor n alegerea elementelor din eantion, ct i prin beneficiul deosebit al inferenei statistice prin estimarea parametrilor sau repartiiilor i respectiv prin verificarea ipotezelor statistice. In acest demers, fiecare unitate elementar din populaia de referin are o anumit probabilitate, nenul, de a aparine eantionului i care se cunoate a priori. Unul dintre avantajele eantionrilor aleatoare este posibilitatea estimrii erorii de eantionare care, n general, este mai mic dect n cazul nealeator. In general, se face uz de tabele de numere aleatoare sau de iruri de numere aleatoare ce urmeaz o lege de repartiie dat i obinute prin simulare.

2.1 Procedee analitice de generare a numerelor aleatoare.


Se tie c exist procedee mecanice, procedee pe baza surselor radioactive, a intensitilor de curent electric etc., dar un rol special l au procedeele analitice de generare de numere aleatoare. Procedeele analitice apeleaz la diferite tipuri de relaii de recuren care au fost algoritmizate i implementate n diferite softuri sau pachete statistice. Un neajuns al acestor procedee este acela c n aplicarea concret pe calculator se poate ajunge, dup un numr de generri, la iruri periodice. Ne vom referi la unele dintre metodele analitice de generare a numerelor aleatoare n cele ce urmeaz. Ele stau la baza unor programe performante de generare a numerelor aleatoare uniform repartizate i la baza binecunoscutei rutine RANDOM de generare a repartiiilor aleatoare uniforme pe [a,b] sau pe submulimi adecvate din . Acestea la rndul lor, dup cum rezult din paragraful urmtor, constituie instrumentul fundamental pentru generarea de iruri de numere aleatoare ce urmeaz o lege de repartiie dat ce rezult din teorema de transformare. a) Metoda lui J. von Neumann, numit i metoda mijlocului ptratului unui numr zecimal cu 2k cifre, este cea mai veche i cea mai cunoscut, chiar dac poate conduce la o recuren cu o perioad nu att de performant. Afectarea metodei de alegere nealeatoare a primului numr poate fi evitat cu mijloace moderne de simulare, combinat cu o generare aleatoare a acestuia, prin alte mijloace cunoscute. Ea exceleaz prin elegana i ingeniozitatea sa, n sensul c este i simpl i uor de aplicat. Se pornete de la un numr x0 sau x n = 0, a1 a 2 ...a 2 k care prin ridicare la ptrat conduce la un numr
2 x n = 0, b1b2 ...bk bk +1 ...b2 k b2 k +1 ...b3k ...b4 k

din care se formeaz numrul subunitar ce are ca zecimale cele 2k cifre de la mijloc,
33

adic x n +1 = 0, bk +1bk + 2 ...b3k . Se repet acest procedeu obinndu-se un ir de numere aleatoare uniform distribuite pe (0,1). Pentru construcia funciei de recuren f, se observ c
2 10 k x n = b1b2 ...bk , bk +1 ...b4 k 2 a crei parte fracionar {} = F este F (10 k x n ) = 0, bk +1bk + 2 ...b4 k din care deducem c 2 10 2 k F (10 k x n ) = bk +1 ...b3k , b3k +1 ...b4 k 2 a crei parte ntreag [] = I () , este I (10 2 k F (10 k x n )) = bk +1 ...b3k , adic cele 2k cifre not not

din mijlocul ptratului numrului x n . Vom avea ca funcie de recuren f(.):


2 x n +1 = f ( x n ) = 10 2 k I (10 2 k F (10 k x n )) . def

Exemplul 1. Implementai n Mathematica algoritmul lui von Neumann (alegnd cu RANDOM un numr notat cu x n ) pentru obinerea a 30 de numere
aleatoare. Soluia n Mathematica. Implementm metoda von Neumann pentru k=7.

Folosim o variabil de tip list numit lista care va reine 2k, adic 14, numere ntregi de la 0 la 9. Aceste numere se genereaz cu funcia Random, iar lista se completeaz cu funcia Table.

Declarm apoi o variabil de tip ir de caractere pe care o numim sir1. La inceput irul nu va avea nici un caracter.

Completm irul sir1 cu elementele listei sir1 folosind instruciunea repetitiv For i funciile StringJoin, ToString.

irul sir1 este acum urmtorul:

Transformm irul sir1 n expresie, adic ntr-un numr i l reinem n variabila b. Acest numr este primul numr x n al algoritmului, gsit aleator.
34

Ridicm numrul b la ptrat i noul numr gsit va fi reinut n variabila c.

Transformm numrul c n ir cu funcia ToString. irul obinut va fi stocat n sir2.

Din irul sir2 lum 2k caractere din mijloc, ncepnd cu al k+1-ulea pn la cel de-al 3k caracter, cu ajutorul funciei StringTake.

Introducem acum o list pe care o numim numere i care la nceput va reine irul sir.

Aplicm n continuare algoritmul descris la metoda von Neumann i astfel gsim 29 de numere aleatoare cu 2k cifre, pe care le reinem n lista numere.

Lista numere va avea acum 30 de numere aleatoare determinate folosind metoda von Nemann. Aflm lungimea acestei listei apelnd funcia Length.

35

Introducem o nou list pe care o numim numerezecimale. La nceput ea va fi goal. Iniializm o variabil x cu valoarea 0.

Transformm fiecare numr din lista numere ntr-un numr zecimal cu ajutorul instruciunii repetitive For i a funciilor ToExpression, N i AppendTo.

Lista numerezecimale va conine 30 de numere zecimale de 14 cifre dup virgul, determinate cu metoda von Neumann de generare de numere aleatoare.

b) Metoda lui Lehmer. Aceast metod folosete ca funcie de recuren urmtoarea procedur: x0 = numr ntreg arbitrar ales i x n +1 = K xn (mod m) pentru n 1 ,

unde m = 2 31 1 i K=23 (m este numit numrul lui Mersen) i este asigurat o perioad (m 1) 2 egal cu sau 1.073.741.823 care este suficient de mare fiind satisfctoare

pentru nevoile practice.

Exemplul 2. Implementai n Mathematica i Excel metoda lui Lehmer pentru obinerea a 30 de numere aleatoare.
36

n Mathematica. Iniializm 31 corespunztoare, adic cu 2 1 , respectiv 23.

Soluia

variabilele

m i k

cu

valorile

Generm un numr ntreg arbitrar ales ntre 0 i 1000 folosind funcia Random. Acest numr va fi numrul x 0 din algoritm.

Calculm numrul x1 cu funcia Mod care returneaz restul mpririi lui k*


x 0 la m.

Declarm o list pe care o numim lista i care va reine la nceput doar pe x1 .

Adugm la lista lista 29 de numere generate dup algoritmul din metoda lui Lehmer. Pentru aceasta folosim instruciunea repetitiv For i funciile AppendTo i Mod.

La final, lista va conine 30 de numere generate dup metoda lui Lehmer.

n Excel, deschidem mai nti fereastra de lucru, care are 3 foi de lucru numite Sheet1, Sheet2, Sheet3. Pentru construirea tabelului se poate alege oricare dintre acestea. Vom alege s introducem datele tabelului n prima foaie de lucru prin accesarea foii Sheet1, dnd clic stnga pe numele foii din partea stng jos a ecranului.
31 Introducem textul m= n celula A1, iar n A2 valoarea 2 1 . Aadar n

37

celula B1 introducem, n bara de formule sau chiar direct n celul, formula 2^31 1 . Foaia de lucru arat acum astfel:

n celula A2 introducem textul x0= pentru a indica c n celula imediat urmtoare, adic n B2, vom reine numrul x0 al algoritmului. Acesta se va determina folosind funcia predefinit RANDBETWEEN a Excel-ului. Pentru aceasta ne poziionm pe celula B2, facem clic stnga i apoi alegem de la meniu Insert al ferestrei de lucru opiunea Function....

Apare o nou fereastr de unde se poate alege orice funcie predefinit din Excel. Aceste funcii sunt mprite pe categorii, de exemplu Most Recently used, All, Financial, Date & Time, Math & Trig, Statistical, Look up References, Database, Text, Logical, Information i Engineering. Prima categorie enumerat conine cele mai recent folosite funcii, iar n categoria All sunt listate toate funciile predefinite. Noi vom alege funcia RANDBETWEEN care va returna n celula indicat un numr aleator ntre dou limite precizate.

38

Dup ce selectm funcia dorit, apare o nou fereastr n care se pot preciza limitele ntre care va fi generat numrul aleator. Alegem ca limite numerele 0 i 1000. Apsm apoi pe butonul OK i numrul este generat.

Dorim s copiem coninutul celulei B2 n celula B4. Pentru aceasta ne poziionm cu mouse-ul pe celula B2, care reine acum numrul aleator generat, i facem clic dreapta de unde alegem opiunea Copy. Repoziionm cursorul mouse-ului pe celula B4, facem clic dreapta i alegem opiunea Paste Special. Apare o fereastr din care se poate alege mai multe opiuni, dar noi vom alege opiunea Values din categoria Paste.

39

n celula B4 va aprea numrul generat aleator 590. Precizm c de fiecare dat cnd facem o operaie care implica valoarea reinut de celula B2, adic numrul aleator generat, ea se va schimba. De aceea am copiat numrul generat iniial n celula B4 i pe acesta l vom folosi n continuare n prelucrarea algoritmului. Copiem numrul generat aleator 590 i n celula D4. n celula B3 introducem textul xi*23 pentru a indica c pe coloana B, sub aceast celul, se vor reine numerele xi cu i de la 0 la 30. n celula C4 scriem x0 pentru a indica c n celula imediat urmtoare la dreapta, adic pe coloana D, linia a patra, se va reine numrul generat aleator. Ne poziionm cu cursorul mouse-ului pe celula C4 i apoi l repoziionm pe colul dreapta jos al celulei. Cursorul se transforma ntr-o mic cruce neagr, inem apsat clic stnga i tragem n jos pn peste celula C34 (folosim metoda Autofill de umplere a celulelor). Se va observa c n celulele de pe coloana C va aprea x urmat de un numr natural ntre 0 i 30, n ordine cresctoare. Foaia de lucru arat acum ca n imaginea din stnga:

40

Ne poziionm acum pe celula B5 i introducem n bara de formule sau direct n celul formula =D4*23 deoarece n celula D4 este reinut numrul x0, iar B5 reine numrul x0*23. Se afieaz n celula precizat numrul 13570. n celula D5 trebuie s introducem o formul astfel nct aceasta s rein restul mpririi lui x0*23 la 2 31 1 . Astfel, ne poziionm cu mouse-ul pe celula D5 i alegem apoi opiunea Function... din meniul Insert al ferestrei de lucru. Din fereastra care se deschide alegem categoria Math & Trig i funcia MOD. Parametrii funciei MOD sunt celulele B5 i B1, adic funcia va returna restul mpririi numrului reinut n B5 la cel reinut n B1, cci x1 din algoritm este egal cu restul mpririi lui 23*x0 la 2 31 1 (23*x0 este reinut n B5, iar 2 31 1 n B1). Trebuie s punem semnul dolar la cel de-al doilea argument al funciei pentru c celula B1 este o referin absolut pentru toate formulele care vor urma. Deci n celula D5 vom scrie MOD(B5;$B$1). Ca s determinm restul numerelor pn la 30 folosim metoda Autoumplere a celulei. Astfel n celula D6 a aprut un numr care este de fapt x1 din algoritm. Precizm c trebuie alternativ s folosim metoda Autoumplere a celulelor de pe coloana B mai nti i apoi D de pe acelai rnd pn determinm cele 30 de numere pentru c valorile de pe coloanele B i D depinde unele de altele. De exemplu, valoarea din celula B12 depinde de valoarea din D11, iar cea din D12 de cea din B12. Repetm n mod analog cele precizate mai sus pn cnd avem toate cele 30 de numere generate cu metoda lui Lehmer. Foaia de lucru reine acum cele 30 de numere
41

aleatoare generate dup metoda lui Lehmer dup cum se poate vedea n figura de pe pagina anterioar. Lista celor 30 de numere este urmtoarea: 590, 13570, 312110, 7178530, 165106190, 1649958723, 1441828630, 949803785, 370650585, 2082512514, 653147588, 2137492642, 1917690532, 1157209296, 846010044, 130878189, 862714700, 515085277, 1109543136, 1897172011, 685283313, 729130670, 1737619881, 1310551617, 77916133, 1792071059, 415445064, 965301884, 727106862, 1691072297, 239957185. c) Un procedeu asemntor de generare a numerelor aleatoare este definit astfel:
u 0 = 1 , u n +1 = 517 u n (mod 2 42 ) i x n = 2 42 u n .

Exemplul 3: Implementai n Mathematica procedeul de mai sus pentru obinerea a 30 de numere aleatoare.
Soluia n Mathematica. Iniializm mai nti variabilele a i b cu valorile 5
17

i respectiv 2 42 .

Variabila u0 va lua valoarea 1, iar u1 va fi restul mpririi lui 517 *u0 la 2 42 .

x1 este 2 42 *u1 afiat cu 15 zecimale.

Lista numere va reine la nceput numrul x1.

Adugm la lista numere 29 de numere generate dup algoritmul prezentat mai sus. Pentru aceasta folosim instruciunea repetitiv For i funciile AppendTo, N i Mod.

Lista numere va cuprinde acum 30 de numere aleatoare generate dup algoritmul prezentat la punctual c).
42

2.2. Utilizarea numerelor sau tabelelor de numere aleatoare pentru construirea de eantioane aleatoare

Sondajele statistice reprezint instrumentul de investigaie cel mai folosit n toat lumea, pentru a evalua starea anumitor populaii supuse cercetrii. Proiectarea oricrui sondaj comport trei elemente: 1) construcia sondajului i obinerea eantionului respectiv; 2) definirea estimatorilor parametrilor de interes cu specificarea preciziei acestora; 3) analiza statistic a legturilor dintre caracteristicile ce intereseaz sondajul respectiv; n orice sondaj se are n vedere ca precizia estimaiilor i costul procedeelor s fie optime. Construcia eantioanelor aleatoare (numit i selecie aleatoare) are loc din populaii
L

={ e1 ,..., e N } numite simple i finite, formate din unitile ei , i = 1, N , sau din ={ E1 ,..., E N }, respectiv stratificate, adic

populaiile grupate formate din N grupe

= U h , h = {eh1 ,..., ehN } , h= 1,,L, disjuncte i


h =1

N
h =1

= N = card ( ).

Construcia eantioanelor aleatoare se face pe baza unor scheme probabiliste care permit nzestrarea mulimii eantioanelor cu o structur de cmp de probabilitate adecvat. Se tie c un rol important n construirea de eantioane aleatoare l au schemele cu urne i bile numite schema bilei revenite i respectiv schema bilei nerevenite. Acestea ofer posibilitatea calculrii probabilitii de apartenen a elementelor populaiei sub cercetare la eantion i beneficiaz de teorii elaborate privind i alte aspecte importante ale eroarii de reprezentativitate (sau acoperire) a eantionului.
43

Totui, metodele de eantionare sunt diversificate i printre ele se ntlnesc i acelea ale seleciei aleatoare simple cu revenire sau fr revenire ce pornesc de la un numr aleator cu un numr mare de cifre cruia i se aplic diferite tehnici pentru a conduce la un eantion. Se construiete un numr aleator cu un numr mare de cifre fie prin alegeri aleatoare de cifre dintr-un tabel de numere aleatoare, fie prin asocieri de diferite tipuri de numere din tabele de numere aleatoare. Acest numr aleator cu un numr mare de cifre se prelucreaz apoi n diferite moduri. Se procedeaz apoi la diferite tehnici de citire a numrului aleator i obinerea de numere aleatoare cu 1,2 sau 3 cifre ce reprezint indicii elementelor din populaia int (originar) supus eantionrii. Dei metoda seleciei simple cu revenire i respectiv fr revenire este obiectul unui paragraf ulterior, exist i alte metode care ofer eantioane aleatoare cu revenire sau fr revenire pe baza tabelelor de numere aleatoare.

Exemplificri privind utilizarea tabelelor de numere aleatoare la construirea de eantioane aleatoare


Am amintit anterior aspecte privind generarea de numere aleatoare. Se tie c rolul principal i revine generatorului RANDOM, ce ofer selecii aleatoare uniforme pe [0,1] i care este suficient de performant n oricare dintre softurile sau pachetele statistice. Am amintit i neajunsurile utilizrii tabelelor de numere aleatoare, cu toate acestea ele rmn ca baz pentru scopuri didactice sau pentru probleme mai simple. Prezentm acum exemple privind seleciile aleatoare simple cu revenire sau fr revenire care au ca baz de pornire un numr aleator convenabil prelucrat.

Exerciiul 2.
Generai dou eantione de volum n dintr-o populaie cu N elemente (numerotate) cu ajutorul tabelelor de numere aleatoare. Se d n, N i o secvena dintr-un tabel de numere aleatoare pe care s le folosii pentru a construi 2 eantioane: a) n=11, N=55, din tabelul de numere aleatoare extragem urmtoarea secven: 63514134451257134302767822216423; b) n=13 i N=38, din tabelul de numere aleatoare extragem aceeai secven ca la a). Soluia n Mathematica. a) ntr-o variabil de tip ir de caractere, pe care o numim aleat, reinem secvena luat din tabelul de numere aleatoare. Variabila lista va reine numere aleatoare de cte dou cifre obinute din secvena extras din tabelul de numere aleatoare, iar compl va conine numerele din lista mai mari ca 55; n esant se vor gsi indicii indivizilor care vor face parte din eantion.

44

ntr-o variabil numit str deschidem o cale de citire din irul aleat prin apelarea funciei StringToStream, apoi apelm funcia Read pentru a citi din acest ir un numr. Funcia Head ne arat c aleat2 este ntr-adevr un numr ntreg.

Folosim funcia While pentru mpri numrul aleat2 n numere de cte dou cifre i For pentru a le determina pe cele mai mari ca 55.

b) Vom construi eantionul (adic lista de indici ai indivizilor din populaie care vor face parte din eantion) printr-o alt metod: lum toate numerele de 2 cifre formate cu cifrele din secvena dat i apoi gsim restul mpririi acestora la N, lista cu indici va fi format din aceste resturi. Apoi, dac nu am gsit suficiente numere distincte mai mici sau egale cu N, putem lua numerele cu 3 cifre formate cu cifrele din secvena dat i procedm analog.

45

2.3. Generaliti privind generarea unor variabile aleatoare.

Un rol important n modelarea stochastic simbolic prin simulare l au irurile de realizri individuale ale unor clase de variabile aleatoare, adic irurile de numere aleatoare care urmeaz o lege de repartiie dat. Ele permit comparaii ale datelor de msurare despre caracteristicile principale ale realitii, ale evenimentelor reale, despre corelaiile reciproce i modificrile acestora n funcie de variaiile parametrilor i ale variabilelor de decizie. Comparaiile rezultatelor simulrii cu rezultatele observaiilor practice permit mbuntirea modelului asociat realitii. Cea mai ntlnit repartiie este repartiia GaussLaplace sau legea normal, nu numai ca model ideal pentru erorile de msurare, dar i ca generator de clase apropiate ca i repartiia Student, repartiia 2 sau modelul Gram-Charlier (unul dintre cele mai vechi modele generale), familia curbelor normale de ordinul r, modelul Pearson ce cuprinde repartiia normal i repartiiile beta i gamma etc. Dac adugm la acestea i teorema limit central n care repartiia Gauss-Laplace nsumeaz o informaie i proprieti de excepie, vom nelege mai bine ct de important este s o studiem sub raportul simulrii i modelrii. Pentru obinerea de simulri ale unei variabile aleatoare de tip Gauss-Laplace se cunosc mai multe metode, dei metoda inversrii funciei de repartiie FX1 nu se poate aplica direct n acest caz din deoarece inversa ei nu se poate explicita printr-o funcie algebric, dar se poate aplica o invers tabelar, care pune unele probleme privind operativitatea acestei metode. Acest neajuns este evitat folosind algoritmi performani pe baza procesului de trunchiere prin aproximri convenabile oferite de teorema limit central dintre care amintim metoda sumelor asimptotice de variabile aleatoare, metoda divizrii probabilitilor, metoda compunerii i renunrii i altele. Metoda inversrii se aplic folosind aproximarea funciei FX prin funcii raionale sau prin polinoame diferite pe intervale succesive ale lui [0,1]; o cale este de a folosi dezvoltarea n serie Mac Laurin a funciei exponeniale e
46
x2 2

pentru aproximarea

densitii X ( x) =

1 2 e
x2 2

n cele ce urmeaz vom exemplifica simularea pentru variabile aleatoare prin metoda densitii de repartiie utiliznd facilitile deosebite oferite n Mathematica de instruciuni speciale. Un rol deosebit l joac repartiia uniform pe [0,1] datorit rezultatului fundamental dat de teorema urmtoare.

2.3.1 Generarea de iruri de numere aleatoare cu legi de repartiie date prin densiti
Un ir de numerele aleatoare definite ca realizri individuale ale unei variabile aleatoare cu repartiie dat spunem c este obinut prin generare de numere aleatoare cu lege de repartiie dat.

Teorema de transformare (inversare)


Dac F este o funcie de repartiie (n sensul F:
x x

[0,1] nedescresctoare i

continu la dreapta, lim F ( x) = 0 , lim F ( x) = 1 ) i inversa ei generalizat, dat prin u


[0,1], F
( 1)

(u ) = inf{x: F(x) u}, iar U

o variabil aleatoare cu repartiie uniform

pe segmentul [0,1], atunci variabila aleatoare X= F (1) o U are ca funcie de repartiie chiar pe F. Rezult c putem formula urmtorul algoritm: 1) se genereaz o variabil aleatoare U( ) care definete un ir {u n } de numere uniform repartizate pe [0,1]; 2) se definete irul x n = FX1 (u n ) care va urma legea de repartiie FX . n cazul cnd X admite o densitate X care este continu atunci avem c
x

FX ( x ) =

(t )dt

i prin inversare obinem x = F 1 (u ) n care u este o realizare a unei variabile uniforme


pe [0,1] i analog pentru orice {u n } {x n } ir de realizri pentru X.

Exerciiul 3.
S se genereze un ir de 100 de numere aleatoare ce reprezint realizri ale unei a + 2t variabile aleatoare X dat prin densitatea sa de repartiie f X (t ) = pe intervalul 2a 2 [0, a ] , pentru a = 3 , i 0 n rest, adic
47

3 + 2t , t [0,3] f (t ) = 18 0, in rest. irul va avea termenul general x ng = F ( 1) (u ng ) , unde u ng este o generare a unei
variabile aleatoare uniforme pe [0,1] , iar F (1) este pseudoinversa funciei de repartiie

FX a variabilei aleatoare X.
Soluia n Mathematica. Mai nti definim densitatea de repartiie f, apoi determinm funcia de repartiie F pe intervalul [0,3] (n rest este egal cu 0). Se poate observa c variabila t este urmat de semnul _, acest lucru fiind necesar n definirea unei funcii.

Urmtorul pas este determinarea inversei funciei F pe intervalul [0,3], cci n rest ea nu este inversabil, fiind o constant.

Construim histograma valorilor din lista sir fr a impune vreo restricie cu privire la intervalele n care s fie mprit aceasta Trebuie s ncrcm mai nti pachetul Histograms.

48

Observaie. Se tie c un mod des folosit n a justifica imagistic diferite densiti de repartiie sau funcii de repartiie este cel al histogramei (ca diagram special asociat seriei de date) sau poligonul frecvenelor. Acestea ofer o informaie intuitiv suficient pentru a face diferite ipoteze privind clasa de repartiie de care aparine.
Reprezentm grafic poligonul frecvenelor pentru irul de date obinut cu funcia ListLinePlot, iar frecvena datelor pe intervale o determinm cu BinCounts. Funcia Show permite suprapunerea graficelor.

Se poate observa c exist o concordan ntre imaginea repartiiei teoretice i a celei empirice. O eventual neconcordan s-ar putea datora fie faptului c nu am generat suficient de multe numere aleatoare cu repartiia dat, fie alegerii intervalelor de
49

grupare a datelor.

2.3.2 Generarea variabilelor aleatoare uniforme


n programele sau pachetele statistice sunt prezentate rutine specifice pentru generarea tipurilor importante de variabile aleatoare. Vom prezenta n continuare exemple de simulri de variabile aleatoare de tip continuu. Vom ncepe cu cea mai des folosit repartiie care este repartiia uniform pe [0,1], ce st la baza subrutinei Random.

Exerciiul 4.
Se cere o generare a unui ir de 1000 de numere aleatoare ce urmeaz o lege uniform pe [0,1], adic 1000 de realizri ale variabilei aleatoare X, X (0,1), i construirea histogramei i poligonului frecvenelor pentru datele generate. Soluia n Mathematica. Reprezentm grafic densitatea i funcia de repartiie ale distribuiei uniforme de parametri 0 i 1, apoi generm numere aleatoare avnd aceast repartiie (mai nti 10 astfel de numere, apoi cele 1000). Funcia GraphicsRow afieaz n foaia de lucru cele dou reprezentri grafice pe acelai rnd, iar opiunea PlotStyle va permite colorarea graficelor cu rou i ngroarea liniilor acestora.

50

2.3.3. Generarea variabilelor aleatoare de tip normal


Se tie c repartiia Gauss-Laplace sau normal ocup locul central n statistica matematic i n teoria probabilitilor datorit multiplelor ei aplicaii. Ea este generatoare de noi clase nrudite i mult folosite n modelarea stocastic.

Exerciiul 5.
Generai un ir de 1000 de numere aleatoare ce urmeaz o lege normal de parametrii 0 i 1, adic 1000 de realizri ale variabilei aleatoare X, X (0,1), i construii histograma i poligonul frecvenelor pentru valorile generate. Soluia n Mathematica.

51

Reprezentm grafic densitatea de repartiie a distribuiei normale pentru diveri parametri ai acesteia: mai nti variaz media, apoi dispersia. Opiunea Hue folosit schimb culorile liniilor graficelor.

52

Am generat mai sus numere aleatoare cu legi de repartiie cunoscute folosind programul Mathematica, iar n continuare generm numere aleatoare folosind Excel-ul.

Exerciiul 6.
Generai un ir de 100 de numere aleatoare ce urmeaz o lege gamma cu 3 i 1 grade de libertate. Construii histograma i poligonul frecvenelor pentru datele obinute prin generare. Soluia n Excel. Generm 100 de numere aleatoare cu repatiie uniform pe [0,1] folosind funcia RAND din categoria Math&Trig (se genereaz un numr, iar restul se determin cu opiunea Autofill). Reamintim c orice funcia se gsete prin alegerea opiunii Function... din meniul Insert.

Apoi utilizm pseudoinversa funciei de repartiie, adic n cazul nostru funcia statistic GAMMAINV, cu argumentele Probability, Alpha i Beta, pentru a genera un numr aleator cu repatiia gamma. Primul argument va fi chiar unul din numerele aleatoare generate, iar ceilali doi sunt 3, respectiv 1.

53

Cu opiunea Autofill se genereaz i restul numerelor. De menionat este faptul c de fiecare dat cnd facem o operaie n foaia de lucru (copiem anumite valori, aplicm funcia GAMMAINV sau opiunea Autofill), acestea se modific. De aceea alegem s le copiem n alt zon a foii de lucru folosind Copy i Paste Special-> Values.

Construim histograma numerelor generate. Selectm din meniul Tools opiunea Add-Ins; se deschide o fereastr unde bifm Analysis ToolPak. Aceast operaie va face ca n meniul Tools s apar Data Analysis... (dac aceasta nu se afl deja acolo), de unde alegem Histogram.

n fereastra ce se deschide trebuie s introducem anumite date: la Input Range scriem de la tastatur, sau prin selectare cu mouse-ul, domeniul celulelor n care apar numerele aleatoare cu repartiie gamma; la Bin Range trecem domeniul celulelor unde se gsesc limitele superioare ale intervalelor de grupare a datelor (pe care le-a introdus deja n foaia de lucru); bifm Output Range i scriem adresa unei celule n care dorim s apar rezultatul; bifm i Chart Output pentru ca programul s fac i reprezentarea grafic a histogramei.

54

n foaia de lucru va aprea un tabel cu frecvenele numerelor pe intervalele anterior precizate i histograma. Schimbm culoarea dreptunghiurilor de la opiunea Format Data Series pe care o putem selecta dup ce am fcut clic dreapta pe zona acestora.
Histogram
45 40 35 30 25 20 15 10 5 0 2 4 6 Bin 8 10 More

Frequency

Frequency

Pentru a construi poligonul frecvenelor i al suprapune histogramei, selectm opiunea Source Data..., dnd clic dreapta pe zona alb a reprezentrii grafice. Se deschide o fereastr i la Series adaugm o nou serie de date apsnd butonul Add, apoi completm la Values adresa celulelor unde se afl frecvenele numerelor pe intervalele respective. n csua Name scriem =Frequency pentru ca aceasta s apar la legend. Astfel va aprea poligonul frecvenelor pe acelai grafic cu histograma. n mod analog schimbm culoarea liniei poligonale.

Histogram
45 40 35 30 25 20 15 10 5 0 2 4 6 8 10 More Bin 45 40 35 30 25 20 15 10 5 0

Frequency

Frequency Frequency

55

2.3.4 Generarea de variabile aleatoare discrete


2.3.4.1. Generarea de variabile aleatoare discrete cu repartiie arbitrar dat

n cazul variabilelor aleatoare discrete X( ) = { x k , k = 1, n } i


P ({ : X ( ) = x k }) = p k , care se mai poate scrie astfel:

x ... x n X: 1 p ... p , xi < xi +1 , i = 1,2,,n-1 n 1


n acest caz

0, x < x1 not p1 = P1 , x1 x < x 2 not p1 + p 2 = P2 , x 2 x < x3 ... ... not FX ( x ) = p1 + ... + p k = Pk , x k x < x k +1 ... ... not p1 + ... + p n 1 = Pn1 , x n 1 x < x n x n x. p1 + ... + p n =1,
( ( i FX 1) (u ) = inf{x : FX1) u} devine def

x 1 x2 ... ( 1) FX (u ) = x k ... x n 1 x n

,u = 0 ,0 < u P1 P1 < u P2 ... Pk 1 < u Pk ... Pn 2 < u Pn1 Pn1 < u 1 = Pn.
not

, u [0,1] .

1 1 Are loc P({ : X ( ) = x k }) = FX ( x k ) FX ( x k 0) , care se realizeaz pentru orice

numr aleator uniform u i repartizat pe [0,1] i cu proprietatea Pk 1 < u i Pk pentru care este adevrat egalitatea P({ : U [ 0,1] ( ) = u ( Pk 1 , Pk ]}) = p k = Pk Pk 1 , care este tocmai probabilitatea iniial de realizare a evenimentului { : X ( ) = x k } . Prin urmare, simularea unui ir {u n } U [ 0,1] () i alegerea acelora care aparin intervalului ( Pk 1 , Pk ] revin la realizarea evenimentului { : X ( ) = x k } adic realizarea valorii x k X () .
56

Aceste comentarii conduc la definirea algoritmului de generare a realizrii de variabile aleatoare discrete. Observaie. Exist i alte metode de generare ca metoda sumelor asimptotice de variabile aleatoare, metoda acceptrii i renunrii, metoda compunerii i revenirii. Se tie c i variabilele aleatoare discrete joac un rol fundamental n modelarea stochastic prin simulare i n aceast direcie Mathematica ofer faciliti deosebite i performante dintre care prezentm mai jos pe cele mai des ntlnite n practic.

Exerciiul 7.
Prezentai un ir de 100 de realizri ale variabilei aleatoare discrete 1 2 3 4 X : 1 3 3 1 . 8 8 8 8 Soluia n Mathematica. Algoritmul pe care l folosim este urmtorul: generm un numr aleator ntre 0 i 1 cu funcia RandomReal i reinem n u. La nceput F 1 i k iau valoarile , respectiv 1. ntr-un ciclu While se repet: dac F<u, atunci F 8 se mrete cu urmtorul numr din lista probabilitilor lui X i k se mrete cu 1. Ciclul While se termin cnd F devine mai mare ca u. n acest caz se adaug la lista realizari valoarea lui k. Aceasta este lista care la sfrit va reine cele 100 de realizri ale variabilei X. Determinm i frecvenele numerelor generate aleator.

Apelm funcia Histogram cu lista de frecvene ale valorilor variabilei X, deci trebuie s dm valoarea True opiunii FrequencyData. Frecvenele valorilor lui X sunt calculate cu funcia Count i reinute n lista prob.

57

Exerciiul 8.
Generai un ir de 100 de numere aleatoare ce urmeaz o lege Poisson de parametru = 10. Soluia n Mathematica.

Soluia n Excel. Din meniul Tools selectm opiunea Data Analysis... i apoi Random Number Generation din fereastra care se deschide. Mai departe trebuie s precizm numrul de variabile aleatoare utilizate (1 n cazul nostru), cte numere aleatoare generm (100), tipul distribuiei numerelor generate (Poisson), parametrul distribuiei (10) i adresa celulei ncepnd de unde s fie reinute aceste numerele.

58

2.4. Unele consideraii privind generarea vectorilor aleatori

n practic intervin deseori probleme care necesit realizri de vectori aleatori. Simularea legilor uniforme joac i aici un rol important ca parte a simulrii unor densiti de repartiie multidimensionale. n plus, irurile uniforme ofer un mijloc practic pentru estimarea unor probabiliti ca limit de frecvene experimentale. Un ir de numere reale {x n } nN [0,1] se numete k-uniform dac pentru orice interval k-dimensional D = [a1 , b1 ) ... [a k , bk ) , 0 ai < bi 1, i = 1,..., k are loc proprietatea 1 n lim 1D (( x ki , x ki +1 ,..., x k (i +1)1 )) = (b1 a1 )...(bk a k ), n n i =0 unde 1D este funcia indicator a mulimii D, adic

1, daca y D 1D ( y ) = . 0, daca y D n probleme de simulare ce implic apelri succesive ale funciei RandomReal se consider k-uniformitatea pentru orice k N i un N-uplu de numere din [0,1] se va numi pseudoaleator, dac se supune unei serii de teste statistice care verific att kuniformitatea, ct i caracterul aleator.

2.4.1. Generarea variabilelor normale 2-dimensionale


Exerciiul 9.
Generai un ir de 100 de realizri ale unei variabilei aleatoare normale 21 0 dimensionale, cu vectorul medie (0,0) i matricea de covarian 0 1 , i construii histograma i poligonul frecvenelor pentru valorile generate. Soluia n Mathematica. Pentru a avea acces la distribuia normal 2dimensional trebuie s ncrcm pachetul MultivariateStatistics. Reprezentm grafic densitatea i funcia de repartiie ale acestei distribuii folosind funcia Plot3D.

59

60

2.4.2. Generarea unor vectori aleatori cu legea uniform pe un domeniu 2-dimensional


Propoziia 1. Dac D i D ' sunt dou domenii msurabile din R k , astfel nct
D D ' i 0 < vol ( D) vol ( D ' ) , unde vol(D) = volumul lui D n R k , iar dac X este un punct aleator ce urmeaz o lege uniform pe D ' , atunci legea lui X condiionat de evenimentul X D este o lege uniform pe D.

Exerciiul 10.
Fie D discul unitate din R 2 , iar D ' ptratul din R 2 ce-l conine , adic D = {( x, y ) | x 2 + y 2 1}, vol (D) = D ' = [1,1] [1,1], vol ( D ' ) = 4

i, respectiv, A un punct aleator ce urmeaz o lege uniform pe D ' . Justificai prin


simularea aleatoare a 100 de puncte de tip A, condiionate de evenimentul A D , c aceast lege condiionat este o lege uniform pe D. Algoritmul este: Repet X 2* Random - 1 Y 2* Random - 1 S X*X + Y*Y Pn cnd (S<1). Soluia n Mathematica. Generm un numr aleator de tip A, apoi alte 100 pe care le reinem n listaXY. Reprezentm grafic aceste puncte astfel nct s observm c acestea se afl n interiorul cercului unitate cu centrul n originea axelor de coordonate.

61

Metoda folosit se numete metoda acceptrii i respingerii n cazul 2dimensional, care afirm c dac X este o variabil aleatoare ale crei realizri se produc printr-un algoritm ce utilizeaz apelri succesive ale funciei RandomReal, legea ei de repartiie este o msur pe R obinut prin funcia amintit. Condiionarea de ctre un eveniment E cu P(E)>0 revine la a schimba legea P(.) prin P(.|E) i deci legea lui X se va schimba i legea condiionat de ctre evenimentul E, adic msura indus de X de pe cmpul ( , , P) pe ( , ) se va defini prin , P( X B | E ) = P ( X 1 ( B) E ) . P(E )

n practic, aceast trecere de la P(.) la P(.|E) revine la a schimba algoritmul notat prin algoritmul Repet pn ce E se realizeaz.

2.4.3. Aplicaii ale simulrii repartiiei uniforme la simularea unor clase de densiti de repartiie
Rezultatul care stabilete importana simulrii uniforme, la care se reduce simularea unor clase de densiti de repartiii, este dat la urmtoarea: din
k

Propoziia 2. Dac f este densitatea de repartiie continu pe anumite poriuni ,


62

D f = {( x, y ) R k R : 0 y f ( x)}
i X este un vector aleator cu valori n k , iar Y o variabil aleatoare real, atunci cuplul (X,Y) urmeaz o lege uniform pe D f dac i numai dac:
1) X are densitatea f; 2) legea condiionat a lui Y relativ la evenimentul {: X()= x} este legea uniform pe [0, f(x)]. Se observ c variabila aleatoare X cu densitatea fX nu este dect abscisa unui punct aleator de sub graficul lui fX i c metoda respingerii se extinde i la legi de repartiie oarecare. Amintim urmtorul rezultat cunoscut ca metoda densitii .

Propoziia 3. Fie f i g dou densiti de repartiie pe exist o constant c astfel nct:

cu proprietatea c

, c(g(x)) f(x).

Fie X o variabil aleatoare cu densitatea g i U o variabil uniform pe [0,1] i independent de X. Atunci, legea condiionrii a lui X relativ la evenimentul E dat prin cUg(X) <f(X) are densitatea f. Acest rezultat permite s plecm de la o densitate g uor de simulat pentru a simula o densitate oarecare f. Se folosete algoritmul: Repet simularea lui X de densitate g U Random pn ce cUg(X) <f(X).

Exerciiul 11.
Se cere simularea unui ir de 100 de puncte aleatoare ce urmeaz legea de 2 densitate f ( x) = 1 x 2 pentru x [1,1] , adic legea care d abscisa unui punct

ales la ntmplare din discul unitate. Soluia n Mathematica. Vom porni de la legea uniform pe [-1,1], 1 4 g(x)= 1 [1,1] , alegem c = i aplicm algoritmul: 2 Repet X 2*RandomReal-1 U RandomReal

63

4 1 2 Pn cnd ( U < 1 X 2 ). 2
(Condiia din algoritm se poate scrie n mod echivalent U*U<1-X*X.)

3. Construcia eantioanelor aleatoare cu ajutorul unor scheme probabiliste

3.1. Selecii aleatoare simple cu revenire i uniti echiprobabile.

Construcia eantioanelor aleatoare simple cu revenire sau bernoulliene (binomiale) are o valoare mai mult teoretic dect practic, ea folosindu-se mai rar n sondajele reale. n cazul cnd volumul N al populaiei este cu mult mai mare dect volumul n al eantionului, selecia aleatoare cu revenire este un bun aproximant pentru selecia fr revenire, pentru c probabilitatea repetrii unui element n eantion devine n foarte mic. De fapt, probabilitatea ca o unitate s fie inclus n eantion este pentru N
64

fiecare dintre acestea, cele n extrageri fiind independente i putnd s apar de mai multe ori aceeai unitate. Practic, se construiete o submulime {i1 ,..., i n } de indici coninui n mulimea {1,2,..., N } prin selecia cu revenire dup metodele precizate, care folosesc tabele de numere aleatoare, sau folosindu-se generatorul RandomInteger. Eantionul va fi s = {u i1 ,..., u in } . Acest tip de selecie se folosete mai mult n cazul populaiilor infinite, iar n cazul finit cnd volumul populaiei N este mult mai mare dect volumul n al eantioanelor acea selecie este o bun aproximare a celei fr revenire. Construcia eantioanelor const n aplicarea de n ori a subrutinei RandomInteger (de generarea unui subir din repartiia uniform pe {1,, N}, obinnduse un subir { i1 ,..., i n }, adic o selecie cu revenire i eantionul va avea forma s = { ei1 ,..., ein }, iar spaiul eantioanelor se organizeaz cu o structur de cmp de probabilitate ( S n , (S n ), Pn ) cu S n = k = n , Pn ( s ) =
k =1 n not

1 , pentru orice sS n . Nn

Probabilitatea i de includere a unitii ei n sondaj va fi:

i = 1-(1-

1 n ) , i = 1, N i N

ij = i j pentru unitile ei i e j , i,j = 1,, N,


pentru c probabilitatea ca ei s apar ntr-o extragere este independente. 1 i extragerile sunt N

Exerciiul 12.
Construii 2 eantioane prin selecie simpl cu revenire, de volume n1 n2 , din dou populaii originare cu N 1 i N 2 uniti indexate. Soluia n Mathematica. Reinem indicii indivizilor ce vor face parte din cele dou eantioane n listele esantion1 i esantion2. Construim aceste liste folosind funcia predefinit Function cu parametrii n (volumul eantionului) i N (volumul populaiei): n lista indici punem numere ntregi generate aleator cu valori cuprinse ntre 1 i N. Apelul funciei func, creat de noi, determin fiecare eantion.

65

Construim cel de-al doilea eantion.

3.2. Selecii aleatoare simple fr revenire i uniti echiprobabile.


Acest tip de selecie este cel mai frecvent apelat n cazul mulimilor finite i se pornete de la lista elementelor populaiilor numerotate cu 1,..., N, fr ordine stabilit i se construiete o submulime {i1 ,..., i n } a mulimii {1,,N} prin selecia aleatoare fr revenire, eantionul fiind s = {ei1 ,..., ein } . Sunt posibile dou modaliti de extragere a submulimi i1 ,..., i n : fie extragem simultan cele n elemente (cum se procedeaz n controlul statistic al calitii loturilor de produse), fie secvenial (aa cum se ntmpl la sondajele electorale sau n anchetele sociologice). Aceste procedee conduc la structuri de cmp finit de probabilitate diferite i avem n primul caz: S n = {s = {ei1 ,..., ein } / ei j , ei j eik pentru j k} i Pk ( s ) = iar n al doilea caz: 1 pentru orice s S n , n CN

S n = {s = {ei1 ,..., ein } / ei1 , ei2 {ei1 },...,e in {ei1 ,..., ein 1 }} i Pn ( s) = 1 , pentru orice s S n . n AN

Cum ns, n prelucrarea statistic nu conteaz ordinea introducerii elementelor n eantion, important fiind numai faptul c elementele din eantion sunt diferite, se 1 convine s se considere Pk ( s ) = n (pentru c probabilitatea alegerii a k elemente din CN
66

K elemente cu aceeai proprietate este dat de formula

k n C K C N kk ). n CN

Generarea submulimii {ei1 ,..., ein } din {1,,N} se face prin selecii aleatoare cu revenire i eliminare, adic se genereaz aleator numere i ntre 1 i N i dup fiecare generare se verific dac i este n submulimea deja generat; dac exist deja, se genereaz alt numr, pn se obine un numr care nu a mai fost generat. Procedeul se continu pn la generarea celor n elemente distincte {ei1 ,..., ein } (procedeul este
N ceea ce este ntotdeauna asigurat n sondajele statistice). n plus, 2 de regul generatorul RandomInteger este un generator multiplicativ cu o perioad foarte mare (2 32 - 2), ceea ce face ca selecia aleatoare cu revenire i eliminare s fie o bun aproximare a seleciei aleatoare fr revenire.

aplicabil dac n <

Probabilitile de includere a unei uniti ei n eantion i respectiv, a dou elemente ei , e j sunt date prin

i =
ij =

P (s) , i = 1,.., N
n SS n ei S
n

P ( s), i, j = 1,..., N , i
SS n ei , e j S

j.

Acest procedeu ofer o bun aproximare a seleciei aleatoare fr revenire. Alegerea secvenial a numerelor i1 ,..., i n din mulimea {1,...N } ce definete eantionul s menionat se ntlnete n sondajele de opinie, sondajele electorale, anchete sociologice etc.

Exerciiul 13.
Construii 2 eantioane prin selecie aleatoare cu revenire i eliminare, de volume, respectiv, n 1 i n 2 , din dou populaii cu N 1 i N 2 uniti indexate (pentru n 1 n 2 i N 1 N 2 , N 1 , N 2 >100, n 1 , n 2 >10). Soluia n Mathematica. Indicii indivizilor care vor face parte din cele dou eantioane se rein n listele esantion1 i esantion2.

67

3.3 Selecii sistematice din populaii simple

Selecia sistematic este mai simpl i mai rapid dect selecia aleatoare fr revenire i riscul de a grei prin includerea sau neincluderea unei uniti este mai mic. Intuitiv, ea este mai precis dect selecia aleatoare simpl fr revenire, n anumite ipoteze. n aceast selecie se presupune c elementele populaiei sunt ordonate dup un anumit criteriu (de exemplu n cazul loturilor de produse finite, dup data intrrii n depozit, la listele telefonice, alfabetic, etc.). Prima unitate este aleas aleator, iar celelalte sunt alese n mod sistematic, dup o regul nealeatoare: la indicele obinut aleator se adaug succesiv numrul k asfel nct N = nk + m, 0 m < n , n care se presupune c n este mult mai mic dect k. Algoritmul este urmtorul: 1) considerm o variabil aleatoare uniform U pe mulimea {1,,k}, adic 1 P(U = r ) = , r = 1,..., k ; k 2) se genereaz o valoare r a variabilei uniforme U; 3) a) dac r m, se definesc eantioanele s r = {er , er + k , er + 2 k ,..., er + ( n 1) k , er + nk } n numr de m i de volum n+1; b) dac r>m, se definesc eantioanele

s r = {er , er + k , er + 2 k ,..., er + ( n1) k }


n numr de k-m i de volum n.
68

Deci S n = {s1 ,..., s k } i Pn ( s r ) =

1 . s r S n . k

Exerciiul 14.
Construii un eantion sistematic de volum n1 dintr-o populaie cu N 1 indivizi indexai, pentru N 1 >300 i n1 >20. Soluia n Mathematica. Alegem valorile 353 i 25 pentru N 1 , respectiv n1 . Reinem indicii indivizilor ce vor face parte din eantion n listele esantion1 i esantion2.

Construim ntreg spaiul eantioanelor, pe care l reinem n lista1. Acesta se gsete prin apelarea funciei selectie cu argumentele 353 i 25.

69

Capitolul 3. Elemente privind descrierea i analiza datelor de selecie


n activitatea de culegere a datelor numerice sau calitative prin diferite tehnici de sondaj, prezentate n capitolul anterior, se obin aa numitele date primare obinute pentru una sau mai multe caracteristici sub cercetare. Scopul acestora este de a servi investigaiei prin inferen statistic asupra populaiei respective, adic prin estimare i verificarea ipotezelor statistice. Pentru scopuri preliminare, uneori suficiente pentru a decide necesitatea aprofundrii investigaiilor, se apeleaz la demersuri statistice mai simple care-i propun s dea unele informaii preliminare prin analize i grupri specifice i care ofer o descriere util prin instrumentele statisticii descriptive: tabelare (util pentru raportrile statistice i pentru ntocmirea anuarelor statistice ale statelor), grafice (ce ofer ci de abordare imagistic a unor ulterioare demersuri mai consistente) i numerice (care ofer caracteristici statistice importante privind centrele de grupare, msuri ale mprtierii datelor, informaii privind forma graficelor densitilor asociate cum sunt coeficienii de asimetrie i aplatizare). Analize mai profunde ofer metodele factoriale: Analiza Concordanelor, Analiza n Componente Principale i Analiza Canonic.

1. Tabele statistice
Am precizat anterior c unele tipuri (din care vor fi exemplificate cinci) de tabele statistice se constituie ca i documente statistice de utilitate public sau documentare tiinific. Problema planurilor de sondaje aleatoare, proiectarea acestora i controlul datelor de sondaj include printre altele pregtirea tabelelor indivizi/variabile, tehnici pentru tratarea non rspunsurilor (dintre care amintim metoda imputailor, metoda reponderrii eantionului, metoda reseleciei pentru nonrespondeni sau metoda ntrebrilor cu rspuns aleator) i problema eliminrii intruilor. Privind tabelele statistice din punct de vedere logic, acestea se constituie ca ansambluri de judeci despre subiect (populaia i componentele sale) i despre predicat (elementele statistice ce caracterizeaz populaia: numrul unitilor de un anume fel, valori sau frecvene nsumate i alte caracteristici). O prim clasificare ar putea fi acea care le mparte n tabele simple, tabele pe grupe, tabele statistice combinate, tabele cu dubl intrare i respectiv cu tripl intrare pe care le vom
70

exemplifica mai jos pentru a rezuma i facilitile oferite de softurile Mathematica i Excel. Vom cuta s exploatm facilitile softului Mathematica pentru prezentarea acestor metode, dar totodat vom scoate n eviden avantajul incontestabil al programului Excel la acest tip de prelucrare i prezentare de date statistice. Prezentm n Mathematica i n Excel cinci tipuri de tabele.

a) Tabelul statistic simplu sau cu simpl intrare (prezint repartiia unei


populaii dup o singur caracteristic atributiv, de timp sau de spaiu) este format de regul din dou coloane n care se nregistreaz modalitile caracteristicii (de regul valori, momente sau intervale de timp, atribute, etc.) i, respectiv, frecvenele sau nivelurile fiecrei modaliti (la nevoie se adaug coloane care nregistreaz frecvene relative, frecvene cumulate, valori globale, abateri etc.).

Exemplul 4. Evoluia populaiei Romniei ntre anii 2003-2007. Tabelul urmtor este construit n Microsoft Word, dar apoi acesta se va prezenta i n softurile Mathematica i Excel.
Tabelul nr. 1. Populaia Romniei ntre anii 2003-2007 Data recensmntului 1 iulie 2003 1 iulie 2004 1 iulie 2005 1 iulie 2006 1 iulie 2007 Numrul populaiei totale 21.733.556 21.673.328 21.623.849 21.584.365 21.537.563

Sursa: Anuarul Statistic al Romniei 2008 n Mathematica descriem tabelul de mai sus n dou feluri: sub forma unei liste pe care apoi o afim sub form de tabel i folosind opiunea Table/Matrix din meniul Insert.

71

Introducem datele n Excel dup cum am descris n Exerciiul 1, iar unde este nevoie, celulele se pot uni cu opiunea Merge Cells. De asemenea, trebuie redimensionate unele celule cu ajutorul mouse-ului.

b) Tabelul statistic pe grupe este acela n care populaia cercetat se desparte n grupe sau clase dup o singur caracteristic (calitativ sau cantitativ).

Exemplul 5. n tabelul alturat se dau cstoriile ntr-un an, dup grupa de vrst a soilor (deci tabelul statistic pe grupe dup o singur caracteristic):
Grupa de vrst sub 20 ani 20-24 25-29 Brbai 9.176 63.325 52.591
72

Femei 65.264 50.565 21.207

30-34 35-39 40-44 45-49 50-54 55-59 Peste 60

16.822 8.039 4.395 2.147 2.669 2.032 3.029

10.388 6.166 4.312 2.197 1.896 1.167 1.064

n Mathematica tabelul se introduce dup cum urmeaz.

n Excel tabelul arat astfel:

73

c) Tabelul statistic combinat este acela care ofer grupri combinate dup dou sau mai multe caracteristici, cu predicat prelucrat sau nu. Un exemplu de astfel de tabel este cel prezentat n Exerciiul 1.

d) Tabelul cu dubl intrare este acela n care se nregistreaz repartiii combinate dup dou caracteristici X i Y (uneori ntre acestea exist o dependen i atunci avem un tabel de corelaie). Tabelele cu dubl intrare, ce prezint datele unui vector (X,Y), n care X=xi, i= 1, m , Y=yj, j= 1, n , au pe prima linie valorile (sau intervalele de valori) lui Y (respectiv pe prima coloan valorile lui X), iar pe urmtoarele i linii i= 1, m , n rubricile de la intersecia cu coloanele j, j= 1, n , frecvenele perechilor de valori X= xi, Y=yj, notate cu nij

i numite frecvene sau efective pariale. Ultima linie (respectiv ultima coloan) n
care se scrie un total conine n fiecare coloan fixat j (respectiv fiecare linie fixat i) sumele numerelor din coloana fixat (linie fixat) numite secvene sau efective

marginale, notate prin:

n j =

i =1

n ij , ni =

j =1

nij , iar n =

n
ni =
i =1 j =1

unde n reprezint efectivul total sau volumul eantionului (acesta se scrie n rubrica de la intersecia liniei i respectiv a coloanei ce conin frecvenele marginale). n concluzie, prezentarea general a unui tablou (numit i tablou de contingen
74

sau de corelaie, pentru ca el sugereaz, n urma unor prelucrri corespunztoare anumite tipuri de dependene dintre cele dou variabile) cu date pentru analiza unui vector bidimensional ce reunete dou variabile statistice X i Y cu modalitile xi, i= 1, m ,

i yj, j= 1, n va fi de forma :

Exemplul 6. n tabelul urmtor este sintetizat informaia statistic obinut la testarea a trei categorii de bere produse de o firm care a solicitat prerile a 150 de persoane consumatoare:
Tabelul nr. 4. Rezultatele testului privind preferinele de bere Tipul de bere Blond Masc. Sex Fem. Total f11=20(13,3%) f21=30(20,0%) 50(33,3%) Neagr f12=20(13,3%) f22=10(6,7%) 30(20,0%) Normal f13=40(26,7%) f23=30(20,0%) 70(46,7%) Total 80(53,3%) 70(46,7%) 150(100%)

n Mathematica tabelul arat dup cum urmeaz.

75

n Excel se obine:

e) Tabel cu tripl intrare (sau cu trei dimensiuni).

Exemplul 7. Se nregistreaz 1000 de persoane dup starea civil, sex i vrst (deci trei caracteristici) astfel:
Tabelul nr.5. Rezultatele clasificrii a 1000 persoane dup 3 caracteristici x1=Starea civil x2=Sexul x3=Vrsta Sub 20 ani 20-60 ani 60 ani Total 8 198 34 240 10 220 30 260 141 9 5 155 139 3 3 145 0 5 40 45 0 5 50 55 1 5 54 60 1 28 11 40 100 150 217 133 500 150 256 94 500 200 500 200 1000 B. F. B. F. B. F. B. F. B. F. Cstorii Celibatari Vduvi Divortati Total

500

300

100

1000

n Mathematica tabelul de mai sus arat astfel:

76

n Excel:

2. Metode grafice de reprezentare a datelor statistice


Prezentarea grafic a datelor statistice are avantajul c pe lng suportul intuitiv i fora lor sintetic ele pun n eviden tendine i regulariti, dependene funcionale care nlesnesc cunoaterea i previziunea acestora. Histogramele, cu mai recenta lor form de diagram trunchi i frunze introdus de J. Tukey n 1977 sub denumirea de stem and leaf, i poligoanele frecvenelor sunt aproximante ale densitii de repartiie asociate variabilei aleatoare sub cercetare, iar curbele cumulate ascendant - aproximante ale funciei de repartiie asociate. Acestora li se asociaz i diferite tipuri de diagrame prin combinaii de linii, curbe, figuri geometrice, simbolice sau naturale care completeaz modalitile de prezentare i exprimare a constatrilor statistice, oferind n plus un bun mijloc de popularizare i o oarecare expeditivitate spre factorii decideni. Am exemplificat n Capitolul 2 2.3 suficiente cazuri de histograme i de poligoane de frecven, dar s amintim unele aspecte legate de acestea. Se tie c histograma este o diagram special asociat seriei statistice pe care o reprezint. Ea se deduce prin precizarea extremitilor intervalelor de grupare a datelor seriei statistice reprezentate pe axa absciselor i n fiecare ridicndu-se cte un segment perpendicular pe Ox i a crui lungime se alege astfel nct dreptunghiul format prin unirea capetelor superioare s aib aria proporional cu frecvena de interval (suma frecvenelor datelor
77

ce cad n interval). Suma ariilor dreptunghiurilor va fi 1, N= numrul valorilor de pe Ox sau 100, n funcie de convenia aleas la prezentarea datelor, respectiv prin frecvena relativ, prin frecvena absolut sau prin procente. Deci ea aproximeaz aria cuprins ntre graficul densitii de repartiie a variabilei cercetate prin selecii, axa Ox i paralelele la Oy prin extremitile seriei de date. n acest fel, segmentele paralele cu Ox, componente ale histogramei, definesc o linie poligonal special ca aproximant al graficului densitii de repartiie. Ea sugereaz diferite forme ntlnite n statistic: de tip simetric n form de clopot, n form de U, asimetrice sau oblice sau n form de J. Cu toate acestea, ea are inconvenientul c forma ei depinde de partiia mulimii valorilor seriei statistice n intervale ce pot fi i inegale (la care se adaug i erorile datorate conveniei c datele s-ar dispune uniform pe intervalele componente i c ar putea fi bine reprezentate de mijlocul acestor intervale). Cnd intervalele de grupare sunt inegale se obinuiete s se foloseasc aa numitele frecvene reduse obinute prin mprirea frecvenelor iniiale la valoarea raportului dintre lungimea intervalelor respective i lungimea celui mai scurt interval. Poligonul de frecven este o linie poligonal ce unete mijloacele intervalelor de grupare a datelor cu frecvenele pe intervalele respective. Acest tip de grafic este de asemenea un aproximant al formei densitii de repartiie. n comparaie cu poligonul frecvenelor, histograma este totui preferat n cazul seleciilor finite (discrete) pentru c evit posibila confuzie a liniilor poligonului de frecven cu liniile superioare ale histogramei, dnd impresia unei curbe continue de frecvene, dei seria este discret.

2.1. Histograme i poligoane asociate frecvenelor seriilor statistice

n cadrul comparrii datelor obinute prin generarea unor iruri de numere aleatoare ce urmeaz o lege dat cu legea nsi am constatat att avantajele, ct i dezavantajele oferite de abordarea imagisticcu ajutorul histogramelor i poligoanelor de frecven. Fr s minimalizm rolul acestor dou instrumente, este util s cunoatem unele subtiliti privind eliminarea unor erori posibile sau a unor pierderi de informaie. De exemplu, se impune o armonizare ntre tendina de sporire a numrului de intervale, care ar sugera micorarea erorii, i inconvenientul apariiei unor neregulariti (variaii brute de frecvene, unele chiar nesemnificative pentru fenomen, care pot duce la interpretri false). Modul n care frecvenele de grup sunt repartizate pe intervale succesive (impuse de metodologia de msurare sau prin convenie) definete repartiia de frecvene sau repartiia statistic a variabilei cercetate. Cu privire la regulile empirice folosite pentru determinarea numrului minim de intervale (notat cu k) sau lungimea intervalului de grupare (notat cu d) amintim urmtoarele reguli ntlnite n practic:

78

1) (regula lui H. A. Sturges): n=volumul seleciei; 2) d =

k =1+

10 log 10 n, 3

d=

x max x min , 10 1 + log 10 n 3

8( x max x min ) , 8 = constant empiric; 100

3) k = cel mai mic ntreg pentru care n 2 k . Dm o clasificare, n cazul discret, a fenomenelor observate pe baza formei poligonului de frecvene. Una din cile de sistematizare a demersului statistic este aceea de a compara rezultatele cercetrii cu anumite tipuri de repartiii ntlnite n practica statistic i studiate mai aprofundat. Dintre acestea amintim: a) repartiii de frecven de tip simetric sau n form de clopot (sau sub form de plrie sau cu un singur vrf, adic unimodale sau cu o singur cocoa) ceea ce exprim faptul c frecvenele descresc tinznd la zero, simetric de ambele pri ale unei valori maxime centrale; b) repartiii moderat asimetrice (oblice) sunt acelea n care frecvenele descresc cu vitez ntr-o parte a valorii maxime i mai lent n celalalt parte; exist repartiii oblice cu oblicitate pozitiv sau la stnga, cnd ramura lung a curbei se afl n dreapta i n cazul cnd ramura mai lung se afl la stnga oblicitatea este negativ sau la dreapta. c) repartiii pronunat asimetrice sau n form de (sau ) sunt acelea n care frecvenele de grupare i ating maximul la unul din capetele intervalului de variaie (sau sunt foarte apropiate de acestea); d) repartiii n form de , adic cele ce prezint frecvene maxime la capetele intervalului de variaie i frecvene minime n centrul intervalului. Pot aprea i forme mai complexe, adic diferite combinaii de , , , sau simetrice pe anumite intervale. n cazul multor legi de repartiie apropierea imagistic dintre histogram i densitatea de repartiie este satisfctoare i se recomand ca prim demers n obinerea de informaii i ipoteze ce urmeaz a fi confirmate sau nu prin tehnicile avansate de inferen statistic.

Exerciiul 15.
Administraia unui complex comercial dorete s ia msuri pentru micorarea absenteismului prin schimbarea programului de munc. Pentru a-i motiva decizia analizeaz numrul de abseni pe tur, n fiecare din cele cinci zile lucrtoare, pe o perioad de 6 sptmni i obine urmtoarele date:

79

Spt. 1 Spt. 2 Spt. 3 Spt. 4 Spt. 5 Spt. 6 Luni Mari Miercuri Joi Vineri 3 30 21 2 15 9 17 16 31 14 15 12 17 11 10 5 9 13 12 6 16 23 20 27 19 16 15 18 22 14

Construii histograma i poligonul de frecven pentru aceste date. Soluia n Mathematica. Construim histograma i poligonul frecvenelor la fel ca n paragraful 2.3 al capitolului anterior.

Histograma de mai sus coincide cu cea construita folosind regula lui Sturges.

Aplicam regula de la subpunctul 2) pentru d=3.

80

Construim poligonul de frecventa in primul caz.

Soluia n Excel. Introducem datele ntr-o foaie de lucru precum i limitele superioare ale intervalelor de grupare (5, 10, 15, 20, 25, 30), acestea din urm pe o singur coloan. Folosim apoi opiunea Histogram de la Data Analysis... din meniul Tools (dac nu gsim n acest meniu Data Analysis..., trebuie s deschidem AddIns... i s bifm Analysis ToolPak). n fereastra Histogram introducem la Input Range adresa celulelor unde se afl datele, la Bin Range adresa celulelor ce rein limitele superioare ale intervalelor de grupare, la OutPut Range adresa unei celule ncepnd de unde dorim s se afieze rezultatul i bifm Chart Output pentru a aprea n foaia de lucru graficul propriu-zis.

81

n foaia de lucru apar frecvenele datelor pe intervalele alese i histograma. Putem modifica aspectul acesteia dnd clic dreapta pe zona dreptunghiurilor i alegnd Format Data Series. Alegem culoarea roie pentru acestea i la Options scriem 0 n dreptul csuei Gap Width pentru a nu exista spaiu ntre dreptunghiuri.

Histogram
10 Frequency 8 6 4 2 0 More 5 10 15 20 25 30 Frequency

Bin

Se poate observa c Excel-ul returneaz valori diferite pentru frecvenele pe intervalele considerate. Acest lucru se ntmpl deoarece programul numr cte valori din setul de date sunt mai mici sau egale cu fiecare limit superioar de interval (de exemplu exist 3 valori mai mici sau egale cu 5). n schimb Mathematica returneaz numrul valorilor strict mai mici dect limita superioar a intervalelor considerate (de exemplu gsete 2 valori mai mici dect 5). Pentru a remedia acest lucru, dac se dorete, trebuie schimbate n Excel limitele superioare ale intervalelor considerate: 4,5; 9,50; 14,50; 19,50; 24,50; 29,50. Rezultatul este urmtorul:
H togram is
12 10 F q e c re u n y 8 6 4 2 0 4,50 9,50 14,50 19,50 24,50 29,50 M ore B in

Pentru a suprapune poligonul de frecven histogramei procedm n felul urmtor: dm clic dreapta pe zona alb a graficului i alegem Source Data..., apoi la Series apsm butonul Add pentru a introduce o nou serie de date (care n acest caz coincide cu cea deja existent), la Name scriem adresa celulei Frequency din figura de mai sus sau direct de la tastatur ="Frequency", iar la Values adresele celulelor unde se afl frecvenele. Dm OK i poligonul de frecven va aprea pe acelai grafic ca histograma. n mod similar, modificm culoarea liniei poligonale, iar
82

legenda din partea dreapt a graficului se poate terge. n cazul n care pe grafic nu apare o linie poligonal, ci tot dreptunghiuri, dar de alt culoare, trebuie s schimbm tipul diagramei celei de-a doua serii de date. Dm clic dreapta pe aceste dreptunghiuri i de la Chart Type... alegem tipul de grafic Line i subtipul Line with markers displayed at each data value sau mai simplul Line.

His togram
12 10 Frequency 8 6 4 2 0 4,50 9,50 14,50 19,50 24,50 29,50 M ore B in

2.2. Repartiii de frecvene cumulative (i retrocumulative). Ogiva. Funcia empiric de repartiie.

Se numesc curb a frecvenelor sau lege de frecven (curb de repartiie) i, respectiv, curb a frecvenelor cumulate sau ogiv (sau dac cumularea este descendent se numete curb a frecvenelor retrocumulate) acele curbe ctre care tinde histograma sau poligonul frecvenelor, respectiv poligonul frecvenelor cumulate de tipul corespunztor cnd numrul observaiilor crete foarte mult simultan cu
83

micorarea intervalelor de clas din partiionarea mulimii valorilor variabilei studiate.

Legea de frecven (relativ) i respectiv curba frecvenelor cumulate (ogiva) n limbajul probabilist conduc la densitatea de probabilitate i respectiv la funcia de repartiie.
Aceste asocieri de grafice corespunztoare permit ca prin interpolare s se deduc frecvenele unor valori intermediare ale absciselor sau respectiv frecvenele valorilor mai mici sau mai mari dect o valoare dat. Curba cumulat a frecvenelor (ogiva), comparativ cu curba frecvenelor are avantaje att prin claritatea reprezentrii, prin existena unor modaliti de estimare a numrului de observaii ce nu depesc o valoare, prin facilitile oferite prin interpolare, ct i prin aceea c forma rmne, n general, neschimbat chiar dac mrimea intervalelor sau numrul lor este diferit (de exemplu, pentru repartiie n fom de clopot ogiva arat ca un S alungit, form numit sigmoid). Nici folosirea de intervale inegale (care apare deseori din necesiti practice) nu denatureaz curba cumulat. Se tie c n cazul curbelor de frecven sunt greu de comparat curbe ce folosesc intervale neegale, cci acestea aduc modificri formei lor. Uneori se utilizeaz ogiva lui Galton, care este oarecum inversat n sensul c utilizeaz reprezentarea valorilor variabilei pe Oy i a frecvenelor pe Ox. Una din cele mai utile reprezentri ale variabilelor este funcia empiric de repartiie ( Fn* ), care este o form prelungit a poligonului de frecvene cumulate, adic a ogivei, la ntreaga ax real. Mai precis, ea coincide cu funcia de repartiie, n sensul teoriei probabilitilor, asociat repartiiei statistice (n care apar n ordine cresctoare valorile variabilei, fiecare dintre ele scris de cte ori se repet n obinerea datelor observate sau comasndu-le ntr-o singur enumerare, dar cu frecvena cumulat de cte ori se repet; n locul claselor se iau abscisele mijloacelor sau extremitile din dreapta ca reprezentante de clas). Aadar avem:

x1 x 2 1 1 n n

' ' ' ' x1' ...x1' x 2 ...x 2 ... x k ...x k ' 2 2 123 x1' ... x k ... x n 1 3 1 3 i2 ori i k ori = i1 1 1 = i1 ori i k , x r' < x s' , 1 1 1 1 ... 1 1 ... ... ... n n n ... n n n n n n n

1 2 n pentru r < s , i1 + ...i k = n i, respectiv, Fn* : R [0,1] , Fn* ( R) {0, , ,..., } , iar n n n respectivele valori sunt luate succesiv cnd x variaz cresctor de la la + , este nedescresctoare, continu la stnga, cu singurele puncte de discontinuitate xi' (tot attea cte valori sunt distincte), fiecare fiind de spea ntia i cu valoarea de salt 1 numrul de repetri ale fiecrei valori nmulit cu . n

84

Exerciiul 16.
Prezentai curba frecvenelor cumulate ascendent i descendent pentru seria de date din Exerciiul 15. Soluia n Mathematica. Construim curba cumulat ascendent a datelor i histograma corespunztoare. Funcia Accumulate ne ajut s determinm frecvenele cumulate ascendent.

Reprezentm grafic curba frecvenelor cumulate descendent i histograma corespunztoare. De data aceasta folosim funcia For pentru a determina frecvenele cumulate descendent.

85

Soluia n Excel. Introducem datele n foaia de lucru i determinm frecvenele cumulate ascendent i descendent ale acestora pe intervale de lungime egal cu 5. n Exerciiul 15 am gsit frecvenele absolute ale datelor pe intervalele specificate folosind opiunea Histogram de la Data Analysis..., din meniul Tools. Pentru determinarea frecvenelor cumulate ascendent i descendent folosim formule matematice, aa cum se poate observa n figura de mai jos.

Reprezentm grafic curba cumulat ascendent: de la Insert alegem Chart... i se deschide o fereastr unde specificm tipul Line de diagram, cu acelai subtip. Dm Next i la Data Range scriem adresa celulelor ce rein frecvenele cumulate ascendent, iar la Series, respectiv, Category (X) axis specificm domeniul celulelor unde se afl extremitile intervalelor de grupare. La urmtorul pas putem denumi graficul i axele sau preciza multe alte opiuni.

86

Dm clic pe butonul Finish si curba cumulat ascendent va aprea n foaia de lucru. Curba cumulat descendent se reprezint grafic n mod analog.
Curba cumulata ascendent
35

Curba cumulata descendent


35

30

30

25

25

Frecventa

Frecventa

20

20

15

15

10

10

0 4,50 9,50 14,50 19,50 24,50 29,50 M ore

4,50

9,50

14,50

19,50

24,50

29,50

M ore

Interv ale

Interv ale

Histogramele corespunztoare celor dou curbe se construiesc analog, cu precizarea c tipul de grafic trebuie s fie Column cu subtipul Clustered Column.
Curba cumulata ascendent
35

Curba cumulata descendent


35

30

30

25

25

Frecventa

Frecventa

20

20

15

15

10

10

0 4,50 9,50 14,50 19,50 24,50 29,50 M ore

4,50

9,50

14,50

19,50

24,50

29,50

M ore

Interv ale

Interv ale

87

2.3. Curba lui Gini-Lorenz

Pe un sistem de referin se figureaz pe axa absciselor frecvena cumulat n asociat seriei statistice {xi, ni}, adic F ( x) = i [0,1] , cci n1 + ... + n k = n , iar {i: xi < x} n pe axa ordonatelor se reprezint frecvena cumulat a valorilor globale, adic asociat seriei {xi , ni xi } i deci
F (nx) =

{i:ni xi < x}

ni x i

n
j =1

xj

Graficul {F ( x ), F ( nx )} din ptratul unitate [0,1] [0,1] (numit i ptratul lui Gini) se numete curba de concentrare a lui Gini-Lorenz. Ea are numeroase aplicaii n economie unde conceptul de concentrare este strns legat de cel de mprtiere sau de dispersie. Reprezentarea disparitii ntre prile relative atribuite claselor n repartiia valorilor globale ale unei variabile cercetate are o semnificaie important. De exemplu, concentrarea salariilor, a beneficiilor, a tipurilor de societi comerciale e altele sunt informaii de mare utilitate n cercetrile din economie.

Exerciiul 17 (din [5], pag. 130).


Construii curba lui Gini-Lorenz asociat statisticii privind gruparea populaiei Romniei la 1 iulie 1993 prezentat mai jos:
Numrul judeelor Frec. abs. 3 10 8 6 6 5 3 41 Frec. % 7,3 24,4 19,6 14,6 14,6 12,2 7,3 100,0 Frec. cum. 7,3 31,7 51,3 65,9 80,5 92,7 100,0 Numrul populaiei Frec. cum. 3,38 18,83 34,60 48,97 66,10 82,27 100,00

Grupe de judee dup numrul de locuitori

Frec. abs. 769.611 3.516.005 3.588.798 3.271.513 3.897.197 3.679.495 4.032.641 22.755.260

Frec. % 3,38 15,45 15,77 14,37 17,13 16,17 17,73 100,00

Sub 300.000 300.000-399.999 400.000-499.999 500.000-599.999 600.000-699.999 700.000-799.999 800.000 i peste Total

Soluia n Mathematica. Reinem frecvenele cumulate pentru judee i pentru populaie n listele frecvjud i, respectiv, frecvpop. Transformm apoi aceste valori
88

n numere subunitare i reprezentm grafic curba lui Gini-Lorenz utiliznd funcia ListPlot cu opiunea Joined avnd valoarea True. Pe acelai grafic prezentm i prima bisectoare pentru o analiz mai bun a diagramei.

Soluia n Excel. Introducem datele din enunul problemei ntr-o foaie de lucru activ a programului i transformm frecvenele cumulate pentru populaie i judee din procente n numere subunitare. Selectm domeniul celulor ce rein valorile subunitare i construim curba lui Gini-Lorenz: alegem Chart... din meniul Insert i din fereastra ce se deschide optm pentru tipul de grafic XY (Scatter) i subtipul Scatter with data points connected by smooth lines. Dup ce efectum cteva operaii pentru modificarea aspectului graficului, acesta va arta ca n figura de mai jos.

89

1,2 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 1,2

Pe acelai grafic reprezentm prima bisectoare: reinem n patru celule coordonatele punctelor (0,0) i (1,1), facem clic dreapta pe diagram, alegem Source Data..., n csua care se deschide introducem o nou serie de date la X Values scriem adresa celulelor unde sunt abscisele punctelor, iar la Y Values ordonatele lor.

1,2 1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 1,2

90

2.4. Diagrama Stem-and-Leaf (tulpin i frunze)

Acest concept a fost introdus n 1977 de ctre J. Tukey i constituie un instrument util i pentru cutia cu antene, ambele avnd un rol important n analiza primar a datelor statistice. Aceast diagram reprezint o form special de histogram deoarece asociaz unor rdcini (nuclee) de cifre iruri orizontale de cifre ce le urmeaz i care, adugate corespunztor, reconstituie o parte dintre datele numerice ale seriei statistice. Rezult c forma ei sugereaz forma densitii de repartiie asociat caracteristicii sub cercetare ce este reprezentat prin datele numerice din seria statistic analizat (ca rezultat al msurtorilor).

Exerciiul 18.
Se execut un test privind pregtirea la matematic a elevilor din ultima clas de liceu cu ntrebri, exerciii i probleme ce nsumeaz 100 de puncte. Se folosesc numai aprecieri cu puncte ntregi pentru notare i particip 50 de elevi. Prezentai diagrama stem-and-leaf a datelor de mai jos, nregistrate ca rezultate ale testului la matematic. 75 59 86 59 61 41 47 73 58 69 46 66 89 67 76 82 75 98 78 62 53 88 85 74 63 64 76 71 78 68 95 79 72 79 65 51 87 81 84 54 40 77 83 86 55 44 74 51 97 76

Soluia n Mathematica. Diagrama stem-and-leaf se construiete cu funcia StemLeafPlot din pachetul StatisticalPlots. Prezentm cteva dintre opiunile acestei funcii.

91

Soluia n Excel. Introducem ntr-o foaie de lucru punctajul obinut de elevi la testul de matematic. Pe o coloan, de exemplu B, scriem rdcinile diagramei: 4, 5, 6, 7, 8, 9. Pe coloana urmtoare determinm numrul frunzelor pentru fiecare rdcin folosind funcia statistic COUNTIF: la Range scriem adresa celulelor ce rein datele (A3:J7 n cazul nostru), iar la Criteria se introduce <=49 pentru prima rdcin. Numrul celorlalte frunze se gsete cu ajutorul unei formule matematice. De exemplu, pentru a vedea cte frunze corespund rdcinii 5, n celula corespunztoare scriem =COUNTIF(A3:J7; "<=59")-COUNTIF(A3:J7; "<=49"); analog se determin numrul frunzelor pentru celelalte rdcini.

Folosim apoi funcia REPT din categoria Text pentru a construi diagrama trunchi i frunze. Introducem textele Stem i Leaves n dou celule alturate i rdcinile pe aceeai coloan, sub celula cu Stem. n dreptul fiecrei rdcini apelm
92

funcia REPT, care va repeta caracterul X (sau orice alt caracter) de un numr de ori egal cu numrul frunzelor corespunztoare rdcinii.

2.5. Prelucrarea i reprezentarea seriilor statistice prin diagrame de diferite tipuri.


Diagramele prin figuri geometrice plane sau spaiale, numite diagrame prin arii i volume, sunt acelea n care frecvenele de clas (de grup sau de atribut) sunt reprezentate prin dreptunghiuri, ptrate, cercuri, semicercuri, paralelipipede, cuburi, cilindri, sfere sau semisfere ale cror arii sau, respectiv, volume sunt proporionale cu valorile reprezentate (deci laturile ptratelor sau cuburilor i razele cercurilor sau sferelor sunt rdcinile ptratice sau cubice ale valorilor caracteristicilor, respectiv, mprite la sau 3/4).

Exerciiul 19.
Reprezentai grafic datele din Exerciiul 17 folosind diagrame de diferite tipuri. Soluia n Mathematica. Folosim funciile BarChart i BarChart3D din pachetul BarCharts i PieChart din pachetul PieCharts mpreun cu cteva dintre opiunile lor.

93

94

Soluia n Excel. n Exerciiul 16 am prezentat modul n care se construiete o diagram n acest program. Analog, vom prezenta alte tipuri de grafice: disc mprit n sectoare (Pie Chart), gogoa (Doghnut), cu suprafee (Area), cu cilindri (Cylinder), cu conuri (Cone) sau piramide (Pyramid). Aceste tipuri sunt standard (Standard Types), dar exist i tipuri speciale (Custom Types), dintre care exemplificm Columns with Depth.
Doughnut
3 0 5

Pie Chart
3 12 0 5

12

26

26

40

40

95

Cylinder

Area
25 20
20 30 25 21 19 28

15 10 15 5 00 1 2 2 3 3 4 5 6 7 8 11 22 18 8 4 9 1 10 2 11 0 12 0 13

15 10 7 5 0 0 1 2 3 4 5 6 7 3 5 1 8 2 0 9 10

Cone
25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13
30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10

3. Caracteristici numerice de sondaj


Cu ajutorul datelor de selecie, aplicnd diferite operaii aritmetice, se obin anumite valori reprezentative (parametrii) care rezum seriile statistice, jucnd diferite roluri caracterizatoare ca tendina central a datelor (parametrii de poziie: media, mediana, modul etc.), msuri pentru mprtierea acestora (variana sau dispersia, amplitudinea, cuantilele, cutia cu antene, coeficientul de variaie) sau alura graficului poligonului de frecvene ca aproximant al densitii empirice de repartiie asociat seriei statistice, sugerat de coeficienii de asimetrie (oblicitate, etalare lateral) i de coeficienii de aplatizare.

3.1 Caracteristici ale tendinei centrale sau parametrii de poziie

3.1.1 Media aritmetic


Cea mai ntlnit caracteristic de localizare sau de nivel este dat de media aritmetic i media ponderat, dar un rol de seam l joac i mediana i modul (sau dominanta). Generalizri utile sunt oferite de aa numitele - medii care folosesc la rezumarea valorilor de selecie printr-un numr x pentru care funcia : proprietatea c

are

( x ) =

1 [(x1)+....+ (xn)]. n
96

n acest mod se definesc media armonic, media geometric, media ptratic i media de ordin k. n cazul repartiiilor de frecvene pe clase de valori se cuvine s se considere valorile uniform distribuite pe clasele respective i s fie reprezentate de valoarea central x i* = media aritmetic a absciselor extremitilor acestora. Printre neajunsurile mediei aritmetice amintim imposibilitatea de a fi calculat n cazul repartiiilor deschise (cnd nu este precizat lungimea intervalelor extreme) i afectarea ei de valorile foarte ndeprtate de valoare centrat, ceea ce conduce la o cerin n plus de eliminare a intruilor, ca date eronate. Convenia precizat poate conduce i la alte inconveniente cum este aa numitul paradox statistic (vezi Lecii de Statistic Descriptiv I-III, pag. 74-79) datorat efectului de structur i efectului de tendin care trebuie avut n vedere cnd media servete la definirea unor indici statistici aplicai n economie. Este important pentru utilizatorii de softuri statistice i proprietatea de X x0 , x0 este liniaritate ce permite uurarea calculului mediei prin transformarea Y = d de regul centrul intervalului median sau modal i d este acea lungime a intervalelor de clas care conduce la valori foarte simple pentru Y. Se tie c dac valorile variabilei se nmulesc cu o constant, media ei se nmulete cu acel numr, dar dac frecvena fiecrei valori se nmulete cu acelai numr, media dat sub forma

x
xa =
i =1 n i =1

fi
i

nu se schimb. Aceast proprietate se folosete pentru o schimbare de variabil astfel nct s uureze calculul mediei aritmetice, n sensul c se poate alege o valoare x0 numit origine (care, de regul, este o valoare central, cum este centrul intervalului median sau intervalului modal sau o valoare care s transforme o parte din zecimalele finale n zerouri, dac acestea coincid la toate datele), i o alt constant d care conduce la o alt unitate de msur i care de obicei se alege dintre lungimile intervalelor de clas. Astfel se obin pentru noua variabil Y numere mai simple, unde X=dY+x 0 , Y=

X x0 x x0 i deci y i = i , d d
(*)

(
X a = d Y a + x0 = x0 +
i =1

xi x0 ) fi d

f
i =1

Exerciiul 20.
Prezentai media aritmetic i media ponderat, punnd accentul pe avantajele, dar i pe unele neajunsuri (cum ar fi efectul de structur, de tendin, faptul c ea nu
97

se poate calcula cnd intervalele extreme sunt deschise i acela c este foarte afectat de valorile foarte ndeprtate de valoarea central sau dac repartiia este puternic asimetric), folosind datele de mai jos (din Lecii de Statistic Descriptiv I-III, pag. 72-73). a) W. Crookes, descoperitorul elementului chimic taliu, a gsit urmtoarele 10 estimaii ale greutii atomice: Nr. crt. al estimrii 1 2 3 4 5 6 7 8 9 10 n=10 Gr. atomic x 203,6 yi = i (x i ) 0,001 203,644 203,649 203,632 203,628 203,638 203,666 203,639 203,650 203,636 203,642 44 49 32 28 38 66 39 50 36 42

y
i =1

= 424

Calculai media aritmetic a acestei variabile cu formula (*), alegnd ca origine x0 = 203,6 i d = 0,001 (observai cu uurin avantajul obinut prin aceast alegere). Soluia n Mathematica. Calculm media aritmetic a datelor prin dou metode: folosind datele iniiale i cele determinate prin transformarea de variabil. Se observ c acestea coincid. Funcia Mean returneaz media aritmetic a datelor.

98

Soluia n Excel. Introducem datele ntr-o foaie de lucru. Valorile de pe coloana a treia a tabelului au fost calculate cu formule. Astfel, n celula corespunztoare primei greuti atomice (C2 n cazul nostru) am introdus formula (direct sau n bara de formule) =(B2-203,6)/0,001. Pentru restul celulelor am folosit metoda Autofill de umplere a celulelor. Media aritmetic a datelor de pe coloana greutilor atomice se determin cu funcia statistic AVERAGE al crei argument este domeniul celulelor ce rein aceste valori. Datele transformate se determin cu formule matematice. Se calculeaz n acelai mod media aritmetic a noilor valorilor i se verific apoi relaia (*).

b) Se testeaz aptitudinile fizice a 40 de studeni supui unui test de efort fizic la sfritul cruia se numr palpitaiile pe minut la fiecare dintre ei, obinndu-se urmtoarele rezultate:
136 120 108 135 110 115 121 160 121 146 107 102 108 77 99 138 90 100 108 128 93 101 108 125 129 97 81 128 114 137 110 105 118 144 125 111 112 116 129 115

Determinai numrul mediu de palpitaii pe minut. Soluia n Mathematica. ntocmim tabelul repartiiei de frecvene pe intervale i aplicm formulele

xa =

n x
i i =1 k

* i

n x
i

* i

(
i X a = x 0 + d *
i =1

n
i =1

=
i

i =1

xi x0 ) ni d

y n
i

n
i =1

= x0 + d *

i =1 n

n
i =1

,
i

unde n i este frecvena de interval, iar k numrul de intervale; x 0 = 74,5, d = 10, y*= i xi* x 0 . d
99

Intervale de valori ale ms. 70-79 80-89 90-99 100-109 110-119 120-129 130-139 140-149 150-159 160-169

Punctul mijlociu al clasei (x * ) i 74,5 84,5 94,5 104,5 114,5 124,5 134,5 144,5 154,5 164,5

Frecv. de cls. (n i ) 1 1 4 9 9 9 4 2 0 1 n=40

ni x* i 74,5 84,5 378 940,5 1030,5 1120,5 538,0 289,0 0 164,5

y* i 0 1 2 3 4 5 6 7 8 9 -

y* ni i 0 1 8 30 36 45 24 14 0 9

ni xi* = 4620
i =1

40

n y
i i =1

40

* i

= 164

Soluia n Excel. Introducem datele n foaia de lucru i construim tabelul de mai sus. Frecvenele pe intervalele precizate se determin cu opiunea Histogram de la Data Analysis... din meniul Tools, aa cum am procedat n Exerciiul 15. Folosind formule matematice se completeaz ultimele trei coloane ale tabelului.

100

Cu funcia matematic SUM calculm totalul frecvenelor i totalul pe coloanele D i F din tabelul de mai sus. Mediile aritmetice se determin mprind aceste valori la 40, numrul persoanelor testate. Verficm apoi faptul c mediile calculate cu cele dou formule sunt echivalente, adic 4,1 * 10 + 74,5 = 115,5 .

3.1.2 Mediana
Mediana, ca valoare central, are rolul de a marca valoarea Me situat n mijlocul seriei (care poate fi bine precizat n cazul valorilor distincte, ordonate i n numr impar, Me coinciznd cu cea de-a n-a valoare dintre cele 2n+1, dar care rmne incert n cazul a 2n valori i se convine a accepta un interval median, cel dintre a n-a i a (n+1)-a valoare sau mijlocul acestuia) i trebuie s asigure c suma frecvenelor valorilor mai mici sau egale cu Me s fie egal cu suma frecvenelor valorilor mai mari sau egale cu Me. Totodat mediana Me este abscisa punctului de intersecie a curbelor de frecven cumulate ascendent i respectiv descendent pentru a crei determinare aproximativ se apeleaz la interpolare. Aceast tehnic se aplic i n cazul gruprilor pe intervale, aplicnd formula

101

Me = x Me +

* n 2n1 d Me (din [5], pag. 82), unde 2n Me

x Me = limita inferioar a intervalului median; d Me = lungimea intervalului median;

n = volumul eantionului;
* n 1 = frecvena (antemedian);

cumulat

intervalului

imediat

inferior

intervalului

median

n Me = frecvena simpl (absolut) a intervalului median. Mediana are avantaj c nu este influenat de mrimea valorilor extreme, adic este mai puin afectat de fluctuaiile seleciei dect media aritmetic, deci e mai stabil i poate fi aplicat ca medie de poziie n cazul seriilor deschise. Chiar dac are dezavantajul c nu posed proprieti de adiiune, este util n unele tipuri de analize statistice: n studiul fertilitii, n studiul mortalitii, n studiul duratei de via, n probleme legate de caracteristici calitative, etc.

Exerciiul 21.
Msurtorile tensiunii n arc, n voli, aplicate la 50 de arztoare de cuar de 250 W pentru lmpi fluorescente conduc la rezulatele din tabelul alturat: 122,54 123,71 124,38 124,29 126,7 125,13 125,43 126,89 125,5 128,75

130,04 130,05 129,86 130,79 128,65 128,55 128,66 130,91 129,35 131,45 133,76 131,26 133,25 133,12 133,21 132,55 133,87 133,83 131,51 132,41 133,44 131,01 134,66 134,4 135,88 135,15 134,87 136,74 135,33 134,48

134,96 135,39 134,87 134,71 134,69 136,13 135,74 135,49 136,14 136,26 S se calculeze mediana msurtorilor fcute. Soluia n Mathematica. Folosim funcia Median.

Soluia n Excel. Programul Excel, la fel ca Mathematica, are o funcie predefinit pentru calcularea medianei unei serii da date: MEDIAN din categoria
102

Statistical. Introducem datele ntr-o foaie de lucru i apelm aceast funcie, care ia ca argument domeniul celulelor unde se afl valorile.

3.1.3 Modul (moda sau dominanta)

Modul, notat cu M 0 , este valoarea din repartiia statistic ce are frecvena cea mai mare, iar n cazul curbei de frecven este abscisa punctului de maxim al acesteia. n cazul seriilor cu date grupate, de regul vom gsi prezena unui interval modal (n cazul repartiiilor moderat simetrice sau cnd intervalul premodal i cel postmodal nu sunt esenial diferite ca frecvene, se poate lua ca valoare aproximativ pentru mod mijlocul intervalului modal). Mai riguros, exist formule de interpolare dintre care amintim urmtoarele:

Mo = l + sau

f k f k 1 dk ( f k f k 1 ) + ( f k f k +1 )

Mo = l

f k f k +1 dk , ( f k f k 1 ) + ( f k f k +1 )

unde l = limita inferioar a intervalului modal, l = limita superioar a intervalului modal, d k = lungimea intervalului modal, f k = frecvena intervalului modal, f k 1 = frecvena intervalului premodal, f k +1 = frecvena intervalului postmodal.

Exerciiul 22.
Se nregistreaz ce numr au pantofii de femei vndui ntr-un magazin care comercializeaz nclminte pentru aduli i rezult urmtoarea serie: 35 35 37 36 36 35 37 38 37 39 36 37 37 40 35 37 38 40 39 39 39 36 38 36
103

38 37 37 35

37 37 40 35

35 37 40 36

37 38 37 39

36 37 37 38

Determinai moda acestor date. Soluia n Mathematica. Folosim funcia Commonest care returneaz o list cu valorile cele mai des ntlnite n seria de date, adic lista valorilor modale.

Soluia n Excel. Se introduce seria de date a numerelor la pantofi ntr-o foaie de lucru activ a programului. Calculm modul datelor folosind funcia MODE din pachetul Statistical, care ia ca argument adresa celulelor unde se afl valorile.

3.2 Indicatorii variaiei (mprtierii) valorilor

Caracterizarea modului n care datele seriei statistice sunt dispuse luntric sau n jurul valorii centrale este dat de noi indicatori cum sunt amplitudinea i cuantilele de diferite tipuri, care mpreun cu cele de nivel i a unor convenii introduse de J. Tukey (aa numitele numerele lui Tukey) sunt expuse sub forma aa numitei cutie cu antene, introdus n 1975 de ctre Neil Sheldon. Parametrul cel mai des folosit este variana (sau dispersia) 2 mpreun cu abaterea ptratic medie = 2 i coeficientul de variaie ce caracterizeaz mprtierea valorilor variabilei aleatoare sub cercetare n jurul valorii medii, aa cum justific teorema lui Cebev cunoscut ca inegalitatea omonim.

3.2.1 Amplitudinea
Am precizat mai sus rolul parametrilor de nivel (media, mediana i modul) n caracterizarea centrului de grupare a datelor, ns acestea nu sunt satisfctoare pentru amnuntele luntrice privind mprtierea lor.
104

De exemplu, seriile de mai jos: {xi} i =1,11 = {2, 2, 2, 2, 2, 30, 58, 58, 58, 58, 58} {yj} j =1,11 = {28, 28, 28, 28, 28, 30, 32, 32, 32, 32, 32} au mediile egale

x a = 30 = y a = Me(x) = Me(y),
dar diferena extremelor difer

x = xmax-xmin=58-2=56 i y = ymax-ymin=32-28=4,
adic cea de-a doua serie este mult mai concentrat. Un asemenea parametru x =xmax-xmin se numete amplitudine sau interval de variaie pentru seria {xn} i are avantajul uurinei calculului i claritii sensului ei, fiind util n controlul statistic de calitate privind limitele erorilor admise. Este folosit n statisticile de ordine, dar are inconvenientul de a nu lua n calcul dect valorile extreme i de a fi supus fluctuaiilor mari de la un eantion la altul, nu se preteaz la calcule algebrice i nu ine seama de forma repartiiei de frecvene ntre extreme. n Mathematica amplitudinea unei serii de date se poate determina folosind funciile Min i Max, care returneaz valoarea minim, respectiv, maxim a aceesteia i fcnd apoi diferena dintre cele dou valori. n acelai fel se procedeaz n Excel, unde exist funciile statistice MIN i MAX. Prezentm un exemplu n exerciiul urmtor.

3.2.2 Cuantile, cuartile, decile, centile i intervalele de valori asociate


O informaie mai bogat privind repartizarea proporional a volumelor seriilor 1 statistice pe aceste intervale o ofer conceptul de cuantile care reprezint acele n 1 valori ale variabilei care separ repartiia ordonat n n pri, fiecare avnd cte din n efectivul total de valori. n cazul variabilelor aleatoare nediscrete se folosesc cuantilele care au aplicaii la definiia coeficientului de ncredere din teoria estimaiei i respectiv pragul sau nivelul de semnificaie al testelor de verificare a ipotezelor statistice. Prezentm amplitudinea i cuantilele de diferite tipuri, formulele adecvate i algoritmul de calcul, pe care l ilustrm cu ajutorul unui soft.

105

Exerciiul 23 (din [5], pag. 99)


Fie seria de date obinut ca rezultat al nregistrrii duratei de ateptare, n secunde, a legturii telefonice cu un partener: 14, 9, 12, 4, 20, 26, 17, 15, 18, 15, 10, 6, 16, 15, 8, 5. Calculai cuantilele C 95 , C 50 = Me = Q2, Q 1 , Q 3 i amplitudinea seriei de date. Soluia n Mathematica. Valorile Q 1 , Q 3 mpreun cu mediana se numesc cuartile i au proprietile: un sfert din date sunt mai mici sau egale i trei sferturi sunt mai mari sau egale cu Q 1 , iar trei sferturi din date sunt mai mici sau egale i un sfert sunt mai mari sau egale cu Q 3 . Funcia Quartiles retuneaz lista {Q 1 , Me, Q 3 }, iar Quantile determin cuantilele dorite.

Soluia n Excel. Introducem seria de date din enun ntr-o foaie de lucru activ a programului. Determinm cuartilele Q1, Q3 i mediana seriei de date folosind funcia statistic QUARTILE. ntr-o celul introducem formula =QUARTILE(A2:A17;1), unde A2:A17 reprezint domeniul celulelor ce rein datele i 1 indic faptul c dorim calcularea cuartilei Q1. Pentru celelalte dou cuartile procedm analog, dar scriem 2, respectiv, 3 la al doilea argument al funciei. Determinm n continuare cuantila C95 prin introducerea formulei =PERCENTILE(A2:A17;0,95) ntr-o celul; se returneaz valoarea 21,5. Valorea maxim, respectiv, minim se determin cu funciile MAX i MIN, iar amplitudinea va fi diferena dintre cele dou valori: 22. Diferenele dintre valorile caracteristicilor determinate n Mathematica i Excel provin din modul diferit de calcul al funciilor folosite.

106

3.2.3 Explorarea seriilor statistice cu ajutorul cutiei cu antene (boxand-whisker plot)


Diagrama stem and leaf, histograma i poligonul frecvenelor ofer informaii privind distribuirea seriei de-a lungul unei scale de msur i o vizualizare a acestor comportri. Adugarea la acestea a informaiilor introduse de diferitele caracteristici numerice ca media, mediana, modul i cuantilele permit noi caracterizri privind poziia i nivelul, simetria i asimetria precum i mprtierea sau concentrarea repartiiei de frecvene. Aceste abordri au condus la un instrument nou, care iese din modul uzual al analizei matematice i geometriei, n ceea ce privete reprezentarea vizualizat a dependenei dintre argumentele i valorile funciilor i este dat de cutia cu antene (box-and-whisker plot) introdus de Neil Sheldom n 1975, care cu ajutorul a nou numere (numite uneori i numerele lui Tukey, alteori se folosesc numai cinci) ofer informaii privind distribuirea valorilor, amputarea la extremiti cu ajutorul grilelor interioar i, respectiv, exterioar, despre cozile repartiiei i asupra valorilor strine (intruilor). Altfel spus se poate reconstitui alura graficului densitii prin aceste nou repere. Practicienii apreciaz metoda de analiz cu ajutorul acestui instrument argumentnd cu faptul c uureaz compararea mai multor distribuii, compararea diagramelor n cutie fiind mai eficient i mai uoar dect compararea histogramelor. n plus, cutia d informaii privind oblicitatea sau asimetria prin intermediul antenei mai lungi n sensul c direcia cozii mai lungi a repartiiei sugereaz etalarea la stnga sau etalarea la dreapta sau pozitiv dac antena mai lung este cea din dreapta. Prezentm cutia cu antene prin precizarea etapelor i ilustrarea lor pe un exemplu.
107

Exerciiul 24 (din [5], pag. 103)


Profitul a 30 de firme este analizat prin intermediul impozitului pe vnzri exprimat n procente i precizat de urmtoarea serie de date: 5,3; 4; 12,5; 2; 1,8; 3; 3,9; 6,4; 5,2; 2,6; 16,8; 7,1; 3,7; 4,4; 3,5; 3,4; 3,2; 5,6; 3,2; 3,4; 6,2; 4; 8,6; 3,1; 8,9; 16,5; 2,5; 3,8; 5,5; 6,5. S se asocieze diagrama cutia cu antene (box-and-whisker plot) acestor valori. Soluia n Mathematica. Pentru a rspunde cerinei folosim funcia BoxWhiskerPlot din pachetul StatisticalPlots. Pe diagrama determinat nu apar dect cinci dintre numerele lui Tukey, aadar calculm cuartilele pentru a gsi celelalte patru numere: Q1-1,5*(Q3- Q1), Q3+1,5*(Q3- Q1), Q1-3*(Q3- Q1), Q3+3*(Q3- Q1). La final vom prezenta pe acelai grafic diagrama cutia cu antene i cele nou numere ale lui Tukey.

108

Soluia n Excel. Introducem datele din enunul problemei (impozitul pe profit) ntr-o foaie de lucru activ.

109

Programul Excel 2003 nu are un instrument (o funcie predefinit sau o opiune) pentru determinarea diagramei cutia cu antene. De aceea fie o desenm cu facilitile puse la dispoziie de meniul Draw, fie aducem imaginea ei n foaia de lucru dup ce am construit-o n alt soft. Excel-ul ne permite s desenm diverse forme i obiecte. Acestea se afl pe bara de jos a ferestrei softului; dac nu se gsesc acolo, trebuie apsat mai nti butonul de pe bara de instrumente.

Diagrama cutia cu antene arat astfel:

3.2.4 Variana (dispersia) i abaterea media ptratic (abaterea standard). Coeficientul de variaie.
Indicatorii variaiei sau mprtierii volumului seriei statistice, care variaz n acelai sens cu mprtierea datelor fa de medie, sunt dai de dispersie ( 2 ) i abaterea standard ( ), definite prin:

2 def 1 =
unde

(x

x a )2 =

f
i =1

' i

( xi x a ) 2 , xi n seria ( xi , ni ) i =1,k ,

fi' =

fi

f
i =1

,
i

f i = frecvena absolut a valorilor


def

n1 + ... + n k = N , i, respectiv, =

2 este abaterea standard care se msoar n

aceleai uniti de msur ca i variabila cercetat. n cazul seleciilor de volum m<N = volumul populaiei, se utilizeaz pentru dispersia de selecie formula:
s2 =
def

1 m 1

n (x
i i =1

x m )2 ,

110

unde x m = val. medie de selecie, n1 +.+ n k = m i, respectiv, s = estimatori pentru 2 i .

s 2 , care sunt buni

Coeficientul de variaie este un parametru adimensional i servete la compararea seriilor statistice ale cror uniti de msur sunt diferite i care au valori medii foarte diferite. El este dat de formula: CV = deseori exprimat n procente

x
xa

x
xa

100% i care joac rol de dispersie relativ.

Exemplu. Dou societi comerciale ofer un salariu mediu de 2000 lei i, respectiv, 2500 lei avnd o abatere standard de 300 lei i, respectiv, 200 lei. Analizai dispersia relativ.
Soluia: C V1 = 300 200 = 0,15 C V2 = = 0,08. 2000 2500

Aceasta nseamn c dispersia relativ n cazul primei firme este mai mare dect n cazul celei de-a doua firme, deci salariile din prima firm sunt mai mprtiate n raport cu media lor dect salariile din a doua firm. Prezentm n continuare variana sau dispersia, abaterea medie ptratic i coeficientul de variaie cu o exemplificare pe o serie statistic.

Exerciiul 25 (din [5], pag. 112).


Fie seria de date obinut ca rezultat a 5 msurtori consecutive: 85,0554; 70,0256; 60,1153; 90,3157; 81,2231. Calculai 2 i s 2 , precum i abaterea medie ptratic , s i coeficientul de variaie:

2 =

2 1 n 2 1 n xi x a sau 2 = ( xi x a ) 2 , n i =1 n i =1

s2 =

1 n ( xi x a ) 2 . n 1 i =1

Soluia n Mathematica. Folosim funcia CentralMoment pentru varian deoarece aceasta este un moment centrat de ordinul 2, Variance pentru variana de selecie ( s 2 ) i StandardDeviation pentru abaterea medie ptratic de selecie ( s ).

111

Urmeaz soluia n Excel. Introducem seria de date ntr-o foaie de lucru activ a programului. Calculm variana 2 a datelor cu funcia VARP, care ia ca unic argument adresa celulelor unde sunt stocate valorile, i variana nedeplasat s2 cu funcia VAR, ce are acelai argument. Se returneaz rezultatele 118,633 i 148,2913. Determinm abaterea medie ptratic cu funcia STDEVP i abaterea medie ptratic s cu STDEV. Formulele returneaz urmtoarele rezultate: 10,891 i, respectiv, 12,177. Pentru a determina coeficientul de variaie calculm nti media aritmetic a valorilor cu formula =AVERAGE(A3:A7), unde A3:A7 este domeniul celulelor ce rein datele, apoi mprim abaterea medie ptratic i cea de selecie la media gsit. Obinem rezultatele 0,140 i respectiv 0,157.

112

Dintre proprietile importante ale dispersiei amintim c dispersia constantelor este nul, i deci D2 (X ) = D2 (X ) ,

D 2 (X ) = 2 D 2 ( X ), ,
D 2 ( X ) = M ( X 2 ) [ M ( X )] 2 . Are loc teorema lui Kning: media abaterilor valorilor unei caracteristici X fa de o valoarea fix c este egal cu disperia lui X plus ptratul diferenelor x a - c , adic
1 n
k

ni ( xi c ) 2 =
i =1

1 k ni [( xi x a ) 2 + ( x a c) 2 ], n i =1

n1 + ... + nk = n , care n cazul seriilor cu intervale egale sugereaz o formul de calcul preferat n programele de calculator pentru micorarea erorilor:
2

2 =

i =1

x c 2 fi ( i ) d

f
i =1

x c k ) fi ( i d d2 , d 2 - i =1 k fi i =1

unde d este lungimea intervalului de grupare (vezi Exemplul 12 din [5]). n cazul populaiilor grupate are loc formula: V(X) = V ( X i =1,k ) + V ( X i =1,k )
adic variana populaiei este egal cu valoarea medie a dispersiilor grupelor, numit variana intra plus variana valorii medii ale grupelor numit variana inter (vezi Exerciiul 13 din [5], pag. 114).

4. Caracteristici de form ale graficului repartiiei de frecvene.


Caracteristicile de form permit s precizm alura graficului asociat repartiiei de frecvene far a fi trasat, lucru ce-l face parial i cutia cu antene privind asimetria (oblicitatea sau etalarea). n plus, coeficienii de exces (aplatizare sau boltire) aduc informaii suplimentare. Dintre coeficienii de asimetrie amintim: s=

(Q3 M e ) ( M e Q1 ) Q3 Q1

coeficientul lui Yule,

a) dac s=0, repartiia este simetric (de fapt cuartilele sunt echidistante);
113

b) dac s>0, repartiia este oblic la stnga (sau etalat la dreapta); c) dac s<0, repartiia este oblic la dreapta (sau etalat la stnga), sk = (x a M 0 ) sau 1 =

32 coeficientul lui Pearson, 3 2

(coeficientul sk este indicat pentru repartiiile moderat asimetrice cnd se tie c are loc i o relaie ntre mod, median i medie - prin care se nltur inconvenientul c moda
' este greu de precizat cu exactitate - care conduce la forma s k =

3( x a M e )

' a) dac s k =0, repartiia este simetric; ' b) dac s k >0, repartiia este oblic la stnga; ' c) dac s k <0, repartiia este oblic la dreapta,

1 =

1 =

3 coeficientul lui Fisher, 3

a) dac 1 =0, repartiia este simetric; b) dac 1 >0, repartiia este oblic la stnga; c) dac 1 <0, repartiia este oblic la dreapta, iar cei pentru aplatizare sunt, respectiv

2 =

4 = 4 coeficientul lui Pearson, 2 2 4 4 -3 coeficientul lui Fisher sau excesul (fa de 4

2 = 2 - 3 =

repartiia normal care are 2 = 3 ), a) dac 2 =3 sau 2 =0, repartiia este normal sau mezocurtic; b) dac 2 >3 sau 2 >0, repartiia este leptocurtic; c) dac 2 <3 sau 2 <0, repartiia este platicurtic. Precizm c k = 1 n ( x x a ) k este momentul centrat de ordinul k. n i =1

Exerciiul 26.
Seria statistic ce nregistreaz vrsta persoanelor care au cumprat ochelari ntro sptmn de la o unitate de profil este: 62, 71, 36, 16, 45, 50, 16, 41, 43, 37, 48, 43, 47, 32, 58, 69, 55, 24, 50, 31, 44, 41, 58, 47, 41, 54, 46, 31, 49, 62, 56, 40, 19, 55, 62, 43, 58, 52, 30, 61, 52, 26, 63, 48, 43, 31, 67, 54, 55, 25, 52, 66, 47, 66, 23, 71, 48, 60, 9,
114

17, 36, 62, 37, 43, 45, 45, 38, 52, 40, 56, 55, 59, 66, 63, 46, 31, 4, 48, 52, 55, 50, 7, 51, 53, 31, 52, 59, 53, 40, 58, 30, 70, 53, 72, 37, 41, 51, 39, 46, 37, 37, 39, 31, 30, 53, 23, 31, 47, 25, 64. Calculai mediana, modul i determinai ce fel de oblicitate are repartiia seriei statistice, cu ajutorul coeficieniilor lui Yule, Pearson i Fisher. Soluia n Mathematica. Prezentm histograma i poligonul de frecvene pentru a observa asimetria repartiiei datelor: aceasta are oblicitate la dreapta.

115

Soluia n Excel. Introducem mai nti seria de date ntr-o foaie activ a programului. Determinm mediana i modul cu funciile statistice MEDIAN i respectiv MODE. Calculm i ali coeficieni, cum ar fi minimul i maximul pentru a folosi valorile obinute n determinarea amplitudinii seriei de date, apoi cuartilele Q1 i Q3, media aritmetic i abaterea standard.

Putem acum calcula coeficientul lui Yule dup formula

(Q3 Me) (Q1 Me) , (Q3 Q1 )

coeficientul lui Pearson i Fisher. Gsim valorile de mai jos i astfel se poate observa c repartiia seriei de date are oblicitate la dreapta.

116

Exerciiul 27.
Studiati aplatizarea repartitiei urmtoarei serii de date: 30, 45, 45, 55, 48, 45, 26, 39, 48, 65, 66, 45, 65, 57, 49, 50, 54, 48, 52, 66, 49, 26, 65, 45, 35, 59, 54, 37, 58, 57, 57, 57, 31, 69, 41, 41, 23, 45, 61, 55, 59, 45, 33, 41, 44, 50, 57, 22, 35, 65, 36, 34, 37, 54, 69, 54, 58, 21, 50, 68. . Soluia n Mathematica. Mai nti prezentm histograma i poligonul de frecvene pentru a observa forma repartiiei datelor, apoi calculm coeficientul lui Pearson de aplatizare, de unde rezult c repartiia valorilor este platicurtic.

Soluia n Excel. Introducem seria de date ntr-o foaie de lucru a programului. Calculm coeficientul Fisher cu funcia statistic predefinit a Excel-ului KURT. Astfel, introducem ntr-o celul formula =KURT(A5:J14), unde A5:J14 este zona n care au fost reinute datele. Se returneaz rezultatul -0,55; adunm numrul 3 la acest rezultat i obinem coeficientul lui Pearson.

Se observ c repartiia datelor este platicurtic. Mai precizm c n programul Mathematica am folosit funcia predefinit Kurtosis pentru a calcula coeficientul lui Pearson, iar n Excel am folosit funcia predefinit KURT pentru calcula coeficientul Fisher. Valorile calculate de cele dou programe sunt foarte apropiate.
117

Bibliografie
1. M. L. Abel, J. P. Braselton, Mathematica by example, Revised Edition, Academic Press, Chestnut Hill, 1994. 2. Gh. Bocan, E. Topuzu, Modelare statistic - idei i concepte fundamentale, Editura Orizonturi Universitare, Timioara, 2005. 3. Gh. Constantin, Curs de teoria probabilitilor i statistic matematic, partea I, Tipografia Universitii din Timioara, 1977. 4. Gh. Constantin i Olivia Lipovan, Caiet de seminar de teoria probabilitilor, cap. VII, Universitatea de Vest din Timioara, 1999. 5. Gh. Constantin, N. Surulescu, D. Zaharie, Lecii de statistic descriptiv I-III, Universitatea de Vest din Timioara, 1988. 6. Gh. Constantin i R. Negrea, Lecii de statistic descriptiv IV, Universitatea de Vest din Timioara, 2004. 7. M. Dumitrescu, Sondaje statistice i aplicaii, Editura Tehnic, Bucureti, 2000. 8. M. Dumitrescu, A. Bttorescu, Applied Statistics using the R system, Editura Universitii din Bucureti, 2006. 9. P. I. Good, Introduction to Statistic Resampling Methods and Microsoft Office Excel, Wiley Interscience, New Jersey, 2005. 10. Gh. Mihoc, V. Urseanu, Sondaje i estimaii statistice. Teorie i aplicaii, Editura Tehnic, Bucureti, 1977. 11. R. Negrea, Analiza corelaiilor, regresii i predicii. Aplicaii n economie i marketing, Tipografia Universitii de Vest din Timioara, 2004. 12. M. J. Panik, Advanced Statistics from an Elementary Point of View, Academic Press, 2005. 13. V. Radu, Elemente de teoria probabilitilor i aplicaii, Editura Mirton Timioara, 1997. 14. H. Ruskeep, Mathematica Navigator. Mathematics, Statistics and Graphics, 3rd edition, Academic Press, 2009. 15. G. Saporta, V. tefnescu, Analiza datelor i informatic, Editura Economic, Bucureti, 1996. 16. I. Scuiu, D. Zorilescu, Numere aleatoare. Aplicaii n industrie i studiul fenomenelor naturale, Editura Academiei, Bucureti, 1978. 17. S. Wolfram, The Mathematica Book, 5th Edition, Wolfram Media, 2003. 18. P. Wellin, R. Gaylord, S. Kamin, An Introduction to Programming with Mathematica, 3rd Edition, Cambridge University Press, 2005. 19. http://documents.wolfram.com/mathematica 20. http://reference.wolfram.com

118

S-ar putea să vă placă și