Documente Academic
Documente Profesional
Documente Cultură
1
Pachetele cele mai importante de analiz statistic complex
sunt:
SPSS www.spss.com
Pachetul de programe statistice a fost destinat la inceput
calculatoarelor mainframe, apoi a fost adaptat pentru
platforma PC. SPSS con ine un set complet de tehnici de
prelucrare i analiz a datelor. Pachetul eeste folosit in
diferite domenii: studii de piata, anchete, marketing
direct, domeniul academic, cercetarea administrativa,
resurse umane, planificarea resurselor, planificare si
predictie, optimizarea calitatii, raportare si luarea
deciziilor, etc.
SPSS poate fi folosit sub forma produsului SPSS Base
sau ca o combinatie a acestuia cu module si produse de
sine-statatoare.
In functie de varianta de SPSS utilizata, vor putea fi
accesate diferite module care compun SPSS cum ar fi:
o SPSS Base, contine tehnici statistice uzuale,
grafice, etc. Dintre statisticile importante ale SPSS
Base pe site-ul http://www.spss.ro/detail.php?id=18
sunt enumerate urmatoarele:
Linear Regression - exploreaza relatiile
dintre predictori si ceea ce se doreste prezis
(ex. vanzarile in functie de pret si tipul de
client)
Factor Analysis - identifica variabilele sau
factorii care explica corelatiile intre un set de
variabile observate. Cu ajutorul analizei
factoriale se obtine un numar mai mic de
factori care explica cea mai buna varianta
observata intr-un numar foarte mare de
variabile manifeste.
TwoStep Cluster analysis - algoritm folosit
in cazul seturilor mari de date la manipularea
variabilelor sau atributelor continue si
2
categoriale, presupune doar un singur pas in
procedura si descopera numarul potrivit de
clusteri. De exemplu, poate fi aplicata datelor
care descriu comportamentul de cumparare,
sexul, varsta, venitul, dupa care vor fi croite
strategiile de marketing pentru fiecare grup de
clienti, pentru a spori vanzarile si a construi
loialitatea.
K-means Cluster Analysis - grupeaza datele
din seturi mari de date. Presupune un numar
cunoscut de clusteri. Un analist de marketing
poate dori sa grupeze orasele in grupuri
omogene pentru a descoperi orase
comparabile, carora sa se adreseze diferit.
Hierarchical cluster analysis: SPSS ia
clusterii dintr-o singura inregistrare si
formeaza grupuri pana cand toti sunt uniti.
Dispune de mai mult de 40 masuri ale
similaritatii si disimilaritatii, de standardizare
a datelor dupa diferite metode, grupuri de
cazuri sau grupuri de variabile. Genereaza
masuri ale distantei si similaritatii. Afiseaza
statistici la fiecare stadiu pentru a ajuta in
selectarea solutiei optime ca numar de
clusteri. Procedura e recomandata pentru
seturi de date mai mici, ca focus-grupurile.
Un analist de marketing poate folosi
Hierarchical cluster analysis pentru a
identifica emisiunile TV care atrag audiente
similare pentru fiecare tip de emisiune sau le
poate grupa in clusteri omogeni in baza
caracteristicilor telespectatorului, pentru a
identifica segmentele carora sa li se adreseze.
Ordinal regression (PLUM): Realizeaza
predictii cu raspunsuri ordinale. De exemplu,
identifica nivelul de satisfactie (foarte
nesatisfacator, nesatisfacator, satisfacator,
3
foarte satisfacator) pentru a intelege
loialitatea clientilor. Alegand diferite functii,
sunt disponibile modele ca ordinal logistic
regression, ordinal probit si ordinal Cauchit.
Pot fi modelate atat locatia cat si scala
distributiei. PLUM ofera optiunea de a a salva
in fisierul de date probabilitatile predictate
pentru toate categoriile de variabile
dependente.
SPSS Base include si:
Statistici descriptive
Crosstabulations
Frequencies
Descriptives
Explore
Descriptive Ratio Statistics
Statistici bivariate
Means
t-tests
ANOVA
Correlation (Bivariate, Partial,
Distances)
Non-parametric tests
Predictie pentru variabile numerice
Linear Regression
Predictie pentru identificarea grupurilor
Factor Analysis
TwoStep Cluster Analysis
K-means Cluster Analysis
Hierarchical Cluster Analysis
Discriminant
o SPSS Tables modul utilizat la afisarea
rezulatelor in format tabelar. SPSS Tables ofera
cele mai solicitate facilitati, ca interactive table
preview builder, managementul categoriilor,
4
statistici inferentiale si desfasurarea cu usurinta in
Microsoft® Word sau Excel. Pentru oricine isi
actualizeaza rapoartele pe o baza normala, SPSS
Tables este cel mai potrivit instrument de
recalculare si re-formare de noi tabele cu date
revizuite.
o SPSS Trends - este cea mai performanta
procedura de analiza a datelor istorice,
construieste modele si prognozeaza evenimentele
viitoare. Este des folosita in: managementul
productiei - monitorizarea standardelor de
calitate, procesarea datelor - conducerea
performantei sistemelor de predictie,
managementul bugetului - ruleaza predictii
privind vanzarile, cercetari asupra politicilor
publice - studiul opiniei publice si multe altele
o SPSS Categories ajuta la analiza si
interpretarea datelor multivariate si a relatiilor
dintre ele folosind procedura analizei de
corespondenta cea mai performanta. Cu ajutorul
procedurii Optimal scaling variabilele calitative
sunt transformate in variabilele calitative,
procedura atribuind unitati de masura si puncte
zero datelor categoriale. Aceasta deschide un nou
set de functii statistice care permit analize pe
variabile cu nivele mixte de masuratoare
(nominale, ordinale si numerice). Pot fi mai bine
intelese datele categoriale cu proceduri similare
cu regresia obisnuita, analiza componentelor
principale (PCA) etc.
o Professional Statistics,
o SPSS Advanced Statistics,
o SPSS CHAID, etc.
5
SAS
http://www.sas.com/technologies/analytics/statistics/stat/
Pachet de programe statistice dezvoltat pentru cercetarea
academic i comercial , fiind utilizat atât pe
calculatoarele mainframe cat i pe calculatoarele
personale (PC-uri). Pachetul are denumirea comercial
SAS/STAT i face parte din sistemul SAS
(www.sas.com), un sistem complex de gestiune a
resurselor informa ionale destinat în special companiilor.
Datele pot fi introduse sau extrase din SAS folosind
produsul SAS/ACCESS. Sistemului SAS cuprinde
module pentru:
o managementul bazelor mari de date; analiza
statistica a seriilor cronologice; analiza statistica
clasica; vizualizarea si reprezentarea grafica a
rezultatelor.
o sistemul informational geografic SAS/GIS care
permite stocarea, analiza si afisarea datelor
spatiale.
o Modulul SAS/INSIGHT cu care se fac analize
exploratorii ale datelor folosind reprezentarea
grafica a rezultatelor.
STATISTICA www.statsoftinc.com
Pachet de programe statistice complet dezvoltat pentru
PC-uri, care cuprinde proceduri pentru toate tehnicile de
baz necesare unei analize statistice complete. Pe site se
g sesc resurse utile pentru analiza i interpretarea
datelor, inclusiv un manual gratuit de metode statistice
(The Electronic Statistics Textbook).
Stata http://www.stata.com
Stata este un pachet complet pentru statistica, un sistem
complet dedicat managementului datelor, continand solutii
integrale pentru statistica si grafica aferenta.
Stata este un produs "programabil" astfel, utilizatorii
6
obisnuiti cu Stata isi pot programa si adauga propriile functii
care sa le usureze munca de cercetare. Cu Stata se pot face
diferite analize de regresie si analize factoriale, etc
(http://www.token.com.ro/stata.htm).
BMDP http://www.statsol.ie/bmdp/bmdp.htm.
Pachet de programe statistice destinat calculatoarelor
mainframe (bazate pe limbaje de programare), orientat în
special pentru aplica ii specifice tiin elor care studiaz
via a i aspectele ei. Pachetul a fost achizi ionat de SPSS,
care a creat o versiune sub Windows a acestuia
Minitab http://www.minitab.com
Pachet software în domeniul educa ional foarte
prietenos, care con ine toate tehnicile de baza ale analizei
statistice. Datele pot fi introduse direct în fereastra de
date MINITAB sau pot fi importate Excel, Acces, etc.
S-Plus
http://www.insightful.com/products/splus/default.asp.
Pachet comercial de analize statistice, este folosit i în
mediile educa ionale i academice. Permite realizarea
regresiei liniare si a celei neliniare, are o serie de
facilitati pentru realizarea analizei multivariate, respectiv
pentru tratarea seriilor cronologice.
STATGRAPHICS http://www.statgraphics.com
Pachet de programe statistice dezvoltate pentru
calculatoarele personale. Programul este util în analiza
grafic i afi area rezultatelor.
WinSTAT
http://www.winstat.com/english/function/function.htm.
Modul de completare pentru Microsoft Excel destinat
analizei datelor. Cu el se pot realiza tabele, indicatori,
grafice. Indicatii despre modul se g sesc pe site.
7
1.2 Pachetele de programe pentru statistic par ial
8
cuprinde si doua module statistice complementare unul
de analiza numeric si unul de calcul tabelar.
ViSta http://forrest.psych.unc.edu/research/index.html
Pachet de programe statistice gratuit, cu care se pot
realiza: analiza regresiei, analiza componentelor
principale, scalarea multidimensional , analiza
coresponden elor.
9
realizare a graficelor. Statistics Toolbox din MATLAB
permite testarea ipotezelor, contine functii de regresie si
permite vizualizarea informatiilor statistice.
Mathematica http://www.wolfram.com
Maple http://www.maplesoft.com,
Mathcad
http://www.mathsoft.com/solutions/calculation_manage
ment_suite/mathcad.asp,
10
CAPITOLUL 2
SPSS TUTORIAL
1
Meniuri SPSS:
File - contine comenezi de
deschidere i salvare de fi iere
Edit contine operatiile comune
programelor Microsoft, respectiv:
Select, Copy, Cut, Paste, Find i
setarea caracteristicilor de lucru
ale SPSS
2
Transform contine func ii de
modificare a datelor prin calculare,
recodificare. Pentru a crea o noua variabila
in SPSS folosind variabile existente in baza
de date se utilizeaza comanda Compute din
meniul TRANSFORM.
Pentru a recodifica o variabila in SPSS se
foloseste comanda Recode din meniul
TRANSFORM.
contine
procedurile de
reprezentare
grafic
Utilities
contine informa ii despre variabile,
3
structurare pe seturi de variabile.
Window - contine lista ferestrelor deschise si permite
selectarea lor.
Help contine un tutorial de operare cu SPSS si o procedur
pentru alegerea tipului de prelucrare statistic (Statistic Coach)
4
Se selecteaza variabilele ce vor intra in prelucrare, apoi OK.
arborele de
navigare
6
Copy Paste/Paste Special sau cu optiunea EXPORT din
meniul FILE. In acest caz se deschide fereastra EXPORT
OUTPUT .
Datele sunt
organizate ca la
orice baza de date
in tabele cu linii
si coloane, liniile
fiind observatiile,
coloanele fiind
campurile
(variabilele)
bazei.
Pentru a putea
face o analiza
statistica este
nevoie de o baza
de date. Aceasta
poater fi creata sau importanta.
Cea mai uzuala metoda de scriere intr-o baza de date este
introducerea datelor direct de la tastatura
Inseararea unei
variabile in baza de
date se face astfel:
Se fixeaza cursorul pe
coloana variabilei în
stânga c reia se face
inserarea, meniul
Data-Insert variable.
se definesc apoi
numele, tipul si
eticheta variabilei.
7
tergerea unei variabile: clic pe numele variabilei, apoi click pe
tasta Delete .
Inserarea unei observatii: se fixeaza cursorul intr-una din
celulele liniei deasupra c reia se face inserarea, apoi meniul
Data-Insert case
tergerea unei observatii: se selecteaza observatia si apoi click
pe tasta Delete
Pentru inserari si stergeri se
poate folosi si meniul
contextual (drag and drop).
In cazul prelucrarilor pe
esantioane, se pot selecta
anumite observatii din baza
de date prin comanda
Data Select Cases si se
alege modalitatea de
filtrare.
9
Fereastra Data Editor, pagina Variable View,
Se activeaza celula din coloana Values.
Se deschide caseta de dialog Value Labels:
La VALUE se scrie codul, fie acesta 1
La VALUE LABEL se completeaza ce reprezinta codul, fie
acesta FOTBAL, Apoi ADD
Se pot atasa etichete si valorilor variabilelor, daca acestea sunt
de tip categorial: nominale sau ordinale. Exemplu: specializarea
cu valorile: fotbal, volei, etc., putem da eticheta 1 valorii fotbal,
10
Se observa ca SPSS poate salva în multe formate, utile atunci
cand transferam date pentru prelucr ri ulterioare în alte
programe.
Deschiderea unei baze de date SPSS creat cu SPSS se face cu
meniul File - Open,
11
CAPITOLUL III
12
Metoda 3.
o Meniul Analyze Descriptive Statistics
Frequencies Charts - Histograms
Curba frecventelor utila in determinarea normalitatii unei
distributii
meniul Graphs comanda Histogram
in fereastra deschisa se selecteaza variabila pentru care se
realizeaza histograma
se bifeaza Display normal curve.
la Titles se da titlul graficului, apoi OK.
Q-Q Plot - utila in determinarea normalitatii
meniul Graphs comanda Q-Q
in fereastra deschisa se selecteaza variabila (variabilele)
pentru care se realizeaza graficul
se selecteaza modelul distributiei test (ex: normala), apoi
OK.
Boxplot pentru distributii numerice. Datele sunt intai ordonate
si impartite in grupe (25% din distributie pentru fiecare grupa).
meniul Analyze Descriptive Statistics Explore aici se
selecteaza variabila de reprezentat graphic apoi Plots
Acest tip de grafic se poate obtine si din
meniul Graphs Boxplot , se seteaza Summaries of
separate variables, apoi Define
in caseta deschisa se selecteaza variabila de reprezentat si
OK.
13
meniul Graphs Bar
in caseta deschisa se bifeaza Summaries for groups of
cases apoi se apasa Define,
se deschide caseta Define Simple Bar , in care la Bar
Represent se bifeaza modalitatea de reprezentare (frecvente,
procente, ), se selecteaza apoi variabila ce urmeaza a se
reprezenta grafic, la Titles se da titlul graficului , apoi OK.
Diagrama Pie
meniul Graphs Pie
in caseta deschisa se bifeaza Summaries for groups of
cases apoi se apasa Define,
se deschide caseta Define Simple Pie , in care la Slices
Represent se selecteaza % of cases, la Define Slice by se
seteaza variabila ce va fi reprezentata, iar la Titles se da titlul
graficului , apoi OK.
Diagrama Pie prezinta procentele variabilei analizate.
14
o Indicatori statistici descriptivi butonul Statistics cu
optiunile: percentile (Percentile values), tendinta
centrala (Central Tendency), dispersie
(Dispersion), distributie (Distribution).
o Diferite tipuri de grafice butonul CHART cu
optiunile: grafice bar, pie, histograma
o Diferite moduri de prezentare a rezultatelor butonul
FORMAT cu optiuni de ordonare a variabilelor
(Order by) sau de prelucrare a variabilelor multiple
(Multipla variables).
Apoi OK.
15
Kurtosis - boltirea
Skewness - asimetria
o Modul de prezentare a indicatorilor (Display
Order)
16
populatie sau o valoare standard, precizata). Se aplica pentru
esantioane distribuite normal, datele trebuie sa fie numerice.
Obs. Pentru esantioane mai mici de 30 subiecti se foloseste
testul t pentru un singur esantion.
Meniul Analyze -Compare Means-One Sample T Test
17
Meniul Analyze - Compare Means One-Way-Anova.
In caseta deschisa se selecteaza variabila (variabilele)
dependenta apoi variabila factor.
La Options se pot seta diferite verificari de restrictii,
exemplu: verificarea restrictiei de normalitate (Descriptive).
18
diferen elor negative, cu atât cre te posibilitatea ca diferen a
dintre variabile s fie statistic semnificativ .
Meniul Analyze - Nonparametric Tests - 2 Related
Samples.
Se seleteaza variabilele doua cate doua formand perechi si
fiecare pereche se trece la Test Pair(s) List, apoi OK.
3.4 CORELATII
19
Caracterul i intensitatea corela iei dintre cele dou variabile se
observa prin reprezentarea grafica scatterplot: meniul Graphs-
Scatter... Se electeaza modelul de graphic, fie acesta Simple i se
apasa Define. Se selecteaza apoi variabilele si OK.
20
BIBLIOGRAFIE
21
http://www.amath.unc.edu/Faculty/mitran/papers/metodenumeri
ce.pdf
http://www.spss.ro/cauta.php
22
ANEXA
23
Support for Dimensions Data Model and traditional market research software
OLE DB data access
Control the flow of your syntax jobs using an external programming language
(through SPSS Programmability Extensions )
Validate Data procedure (in SPSS Data Validation )
Anomaly detection for multivariate outliers (in SPSS Data Validation)
Enhanced SPSS Trends add-on module with Expert Modeler
Bayesian estimation MCMC algorithm (in Amos 6.0 structural equation
modeling software)
Data imputation, including multiple imputation (in Amos 6.0 structural equation
modeling software)
Run significance tests on multiple response variables (in SPSS Tables )
Exclude categories used in subtotal calculations from significance tests (in SPSS
Tables)
Preference scaling (PREFSCAL) procedure (in SPSS Categories )
Chart Builder user interface for graphics
Support for SPSS Inc.'s Graphics Production Language (GPL)
2-D line charts (both axes can be scale axes) and charts for multiple response sets
Network license reservations and priority settings
Network commuter license
License manager redundancy
SPSS Version 13.0 Added
In-database data preparation (sort and aggregate) to improve performance (SPSS
Server only)
Create and save PMML models for scoring data at a later time (SPSS Server only)
Date and Time Wizard
Very long text strings (up to 32,767 bytes)
Interactive interface for the Output Management System (OMS)
Complex samples general linear model (GLM) (in SPSS Complex Samples add-on
module)
Complex samples logistic regression (in SPSS Complex Samples add-on module)
SPSS Classification Trees add-on module
Multiple correspondence analysis (in SPSS Categories add-on module)
Population pyramids (also called mirror charts or dual charts), 3-D bar charts, and dot
charts (also called dot density charts)
Additional chart display features/options, including paneled charts and error bars on
categorical charts
Export output to Microsoft® PowerPoint®
SPSS Version 12.0 Added
Support for Open SSL
Presentation graphics system
Identify Duplicate Cases tool
Long variable names (up to 64 bytes)
Visual Bander to easily create bands (e.g., break income into income "bands" of
10,000)
24
Output Management System (turn pivot table output, such as SPSS data files, XML,
and HTML into data/input)
SPSS Complex Samples add-on module
Stepwise Multinomial Regression (in SPSS Regression Models add-on module)
SPSS Manuals on CD, featuring manuals in PDF format for SPSS Base and all add-
on modules
64-bit version of SPSS Server (coming soon)
Multithreaded ODBC (in SPSS Server)
25
MATLAB exemple de functii de prelucrare a datelor i calcule
statistice
MATLAB este un pachet de programe de inalt performanta, dedicat calculului numeric
i reprezentarilor grafice in domeniul stiintei si ingineriei. El cuprinde module de analiza
numerica, calcul matriceal, reprezentari grafice, intr-un mediu usor de folosit in care
enunturile problemelor si rezolvarile acestora sunt exprimate in modul cel mai natural
posibil, asa cum sunt scrise matematic, fara a fi necesara programarea traditionala.
Elementul de baza cu care opereaz MATLAB este matricea.
Numele MATLAB vine de la Matrix Laboratory si este un sistem interactiv destinat
prelucrarilor numerice si simbolice asupra structurilor de tip matrice.
Dintre resursele de calcul i reprezentare grafica ale MATLAB-ului se mentioneaz
urmatoarele:
1. Operatii matematice fundamentale,
2. Algebra liniara si functii matriceale
3. Analiza datelor i transformatele Fourier:
corelatia, covarianta, diferente finite
transformata Fourier rapida (FFT)
media statistica, mediana si deviatia standard
interpolarea datelor
4. Analiza numerica neliniara
5. Programarea
6. Reprezentarea graficelor 2D t 3D:
folosirea pixelilor, liniilor, poligoanelor pline, liniilor de contur
utilizarea diagramelor polare, de bare sau a histogramelor
reprezentarea in coordonate liniare, semilogaritmice si logaritmice
reprezentarea suprafetelor
7. Vizualizarea graficelor:
controlul culorilor si a pozitiei sursei de lumina
vizualizari volumetrice
afisarea imaginilor si a animatie
8. Proprietati si resurse grafice:
crearea si manipularea figurilor
desenarea, scalarea, etichetarea i colorarea axelor
desenarea i manipularea liniilor si textului
9. Utilizarea interfetei grafice (Graphical User Interface - GUI)
10. Suportul pentru imprimare
11. Schimbul de documente.
Afiseaza:
Clear sterge variabile si functii. Pack compacteaza datele din memorie
Sintaxa: clear x y z .Optional se pune
variabila , fara x,y,z sterge toate variabilele.
Size returneaza dimensiunea unei matrice. Length returneaza lungimea unui vector.
Sintaxa:[m,n]=size(X) si returneaza un Sintaxa:a=length(X) si returneaza
vector linie cu doua componente [m,n] care dimensiunea maxima a matricei sau a
contin numarul de linii m si numarul de lungimii vectorului.E echivalenta cu
coloane n ale matricii X max(size(X)).
Exemplu:
Fie matricea X=[1 2 4 ;5 7 9]
Intructiunile:
au ca rezultat:
Variabile speciale si constante in MATLAB
Acestea nu pot fi declarate si sunt accesibile global in orice fisier - M.Variabilele si
constantele speciale sunt:
Ans variabila creata automat in care Eps variabila permanenta in care este
este returnat rezultatul unui calcul,atunci memorata eroarea relativa pentru
cand expresia nu a avut asignat un calculele in virgula mobila.
nume.
Pi variabila permanenta care are I variabila folosita pentru introducerea
asignata valoarea 3.14159265358. numerelor complexe ca in exemplul
z=2+3*i.Aceasta poate fi redusa si ca
variabila oarecare .Spre exemplu, daca
se defineste s=sqrt(-1),variabila s poate
fi folosita la introducerea numerelor
complexe.
Inf variabila folosita pentru NaN variabila folosita pentru
reprezentarea lui plus infinit, fiind reprezentarea lui Not-a-Number,
rezultatul impartirii 1.0/0.0. rezultatul impartirii 0.0/0.0.
Nargin variabila permanenta pentru Nargout variabila permanenta pentru
testarea numarului de argumente de testarea numarului de argumente de
intrare ce trebuie introduse pentru iesire ale unei functii.
apelarea unei functii.
Exemplu:
Se obtine:
Exemplu:
Se obtine:
Se obtin rezultatele:
max - determina cea mai mare componenta dintr-un vector sau matrice.
Se apeleaza cu sintaxa:
M=max(x).
Daca x este vector , aceasta functie returneaza un scalar, cel mai mare element, iar daca x
este matrice returneaza un vector linie care contine elementele maxime din fiecare
coloana.
Determinarea elementelor maxime ale vectorului , precum si a indicelui acestora se face
prin functia:
[M,l]=max(x)
Pentru a crea o matrice care contine elementele maxime din doua matrice de aceasi
dimensiune folosim sintaxa:
C=max(A,B)
min - determina cea mai mica componenta dintr-un vector sau matrice.
Se apeleaza cu sintaxa:
m=min(x) ).
Daca x este vector , aceasta functie returneaza un scalar, cel mai mic element, iar daca x
este matrice returneaza un vector linie care contine elementele minime din fiecare
coloana.
Determinarea elementelor minime ale vectorului , precum si a indicelui acestora se face
prin functia:
[M,l]=min(x)
Pentru a crea o matrice care contine elementele minime din doua matrice de aceasi
dimensiune folosim sintaxa:
C=min(A,B)
N 1
x( ), dacaN 2M 1
mediana(x)= 2
N N
x( ) x( 1)
2 2 , dacaN 2M
2
Obtinem:
Cu secventa MATLAB:
Va rezulta:
Va rezulta:
Regresie polinomiala - este o aproximare a unui set de date printr-un polinom de forma :
N
p(x)= ai x N i
i 0
Daca setul de date are N elemente , toate datele se afla pe curba de aproximare . Pentru
un grad mai mic decat numarul de date , aproximarea este cu atat mai buna cu cat gradul
polinomului este mai apropiat de numarul de date. Utilizarea unui polinom de aproximare
cu grad mai mare decat setul de date poate conduce la erori de aproximare considerabile.
Determinarea celei mai bune aproximari a unui set de date (x,y) cu un polinom de ordin n
foloseste functia polyfit, care se apeleaza cu sintaxa:
p=polyfit(x,y,n),care returneaza coeficientii ai ai polinomului p(x) care in valorile
precizate de vectorul x are ,in sensul celor mai mici patrate ,valorile date de vectorul y.
Exemplu:Fie polinomul p(x)=x3-6x2+11x-6, peste care este suprapus un zgomot cu
distributie normala. Aproximati in sensul celor mai mici patrate datele rezultate cu un
polinom de grad 3. Reprezentati grafic datele cu zgomot si polinomul aproximant.
Cu secventa MATLAB:
Se obtine graficul:
Prin individ statistic în elegem o entitate elementar purtatoare de însu iri. Dintre aceste
însu iri una exprim natura îns i a entit ii respective iar restul însu irilor sunt variabile,
adic au forme de manifestare diferite la entit i diferite. Insu irile variabile sau doar
variabilele au fost cuantificate sau m surate.
Clasificarea variabilelor:
- Calitative:
o nominale (categoriale),
o ordinale,
- Cantitative (numerice):
o de tip interval
o de tip raport.
Scalele nominale : sunt calitative, m soar variabilele, prin categorizare f r a indica o
anumit ordine ori cantitate. Ele nu pot fi prelucrate în func ie de cantitate sau ordine.
Scalele ordinale: sunt calitative, se reprezint prin numere care reprezint locul sau
ordinea într-un ir de date.
În cazul datelor ordinale, diferen a numeric în clasament nu este necesar egal cu
diferen a numeric exprimat în unitatea de m sur utilizat în acel caz (cinci sutimi,
respectiv cincizeci de sutimi).
Observa ie. Pentru analiza datelor reprezentate prin scale nominale i ordinale se
folosesc teste statistice neparametrice.
Scalele de tip interval: permit compara ia dintre date, dar valorile respectivelor date nu
pot fi multiplicate sau divizate.
Exemplu : Fie dou rezultate 85IQ i 100IQ ob inute dup efectuarea unui test de
inteligen . Diferen a dintre 85IQ i 100IQ este egal cu diferen a dintre 100IQ i 85IQ .
Observa ie. Cele mai multe instrumente psihometrice sau educa ionale implicate în
m surarea variabilelor cognitive sau comportamentale se g sesc la aceste trei nivele
(nominale, ordinale, de interval). [1]
Scalele de tip raport : sunt reprezentate de scalele de tip interval care indeplinesc în plus
condi iile :
zero absolut indic lipsa total a cantit ii m surate
datele pot fi multiplicate sau divizate (70 cm sunt jum tate din 140 cm i dublul a 35
de cm).
Observa ie. În general, pentru analiza datelor reprezentate prin scale numerice de tip
raport sau interval se folosesc teste statistice parametrice dac variabilele analizate
în cadrul e antionului de lucru :
- au o distribu ie normal ;
- au dispersia asem n toare cu dispersia acelora i variabile la nivelul întregii popula ii
din care a fost extras e antionul de lucru.
În plus, pentru anumite metode parametrice pot exista i alte condi ii suplimentare.
Tehnicile statistice parametrice sunt mai solide i deci ansa de a respinge o fals ipotez
nul este mare.
Datele unei variabile se pot organiza :
- Simplu se face o ierarhie a valorilor dup m rime i se calculeaz frecven a de
apari ie a fiec rei valori (variante);
- Grupat - se împart valorile variabilei în clase de intervale egale inând cont de
distribu ia grupat a datelor. Se pot folosi mai multe metode de grupare:
Algoritm de grupare dup metoda lui Spatz:
2
o Se stabile te num rul intervalelor între 10 i 20
o Se stabile te m rimea i a intervalului (trei sau cinci în general)
o Primul interval începe cu o valoare multiplu de i.
o Se trec în tabel valorile în ordine descresc toare.
Metoda lui Sturges are la baz formula:
unde:
i - lungimea recomandat a intervalului;
Xmax i Xmin - extremele valorilor irului de date ordonate descresc tor.
lg n - logaritm zecimal din num rul de date a irului (volumul e antionului).
Frecven a cumulat a unei clase este egal cu suma frecven elor din clasa respectiv i
frecven ele din toate clasele cu valori inferioare.
In statistic datele se pot defini, edita, prelucra i reprezinta sub form numeric sau
grafic utilizând diferite software-uri. Unul dintre cele mai cunoscute softuri pentru
statistica social este SPSS for Windows .
La reprezentarea grafic a datelor se pot folosi diferite tipuri de grafice:
- poligonul frecven elor i histogramele - pentru variabile cantitative de tip interval
ori de tip raport;
- cercurile de tip "pie" , histogramele - pentru variabile calitative nominale, etc.
Media : indicator de caracterizare a unui e antion (o popula ie) din punct de vedere a
unei caracteristici studiate. Media ine seama de toate cazurile i este influen at de
valorile lor,
Pentru a calcula media trebuie avut în vedere tipul de date cu care lucr m :
- Pentru o distribu ie simpl : se adun toate valorile dintr-un ir de date i se
împarte rezultatul ob inut la num rul de date:
- Pentru date grupate se aplic o alt formul :
n
f i * xi
i 1
M (X ) n
fi
i 1
unde: fi - frecven a grupat ,
xi - centrul intervalului.
Mediana : indicator care se afl pozi ionat în mijlocul seriei de date. Este punctul
central al seriei, la stânga i la dreapta ei aflându-se 50% din totalitatea datelor.
In cazul datelor distribuite normal mediana coincide cu media.
In cazul datelor distribuite asimetric mediana se îndep rteaz mult de medie.
Mediana ine seama de toate cazurile, dar nu este influen at de valorile extreme.
Pentru a calcula mediana trebuie avut în vedere tipul de date cu care lucr m :
- Pentru o distribu ie simpl se utilizeaz dou formule de calcul a medianei:
3
o n este impar - locul medianei = (n+1) / 2, iar valoarea medianei este
valoarea din ir de pe acea pozitie.
o n este par - valoarea medianei se ob ine prin adunarea valorilor din
centrul seriei i împ r irea sumei ob inute la doi.
- Pentru date grupate se utilizeaz formula
N
fc
Med l 2 *j
fi
unde:
l - limita inferioar a intervalului din clasa care con ine mediana;
fc - frecven a cumulat precedând clasa care con ine mediana;
fi - frecven a clasei intervalului care con ine mediana;
N - num rul total al cazurilor;
j - m rimea intervalului i care cuprinde mediana.
Modul : indicator care corespunde celei mai mari frecven e în variabila analizat
(valoarea cu frecuen a cea mai mare).
Pentru a calcula modul trebuie avut in vedere tipul de date cu care lucr m. Pentru date
grupate modul este dat de intervalul care are cea mai mare frecuen iar valoarea modal
este valoarea aflat în centrul respectivului interval Modul corespunde unuia sau mai
multor elemente ale seriei dac se ob in frecven e egale.
Observa ii [1} :
- Media este recomandat în cazul variabilelor numerice care îndeplinesc condi iile
parametrice (distribu ie normal , omogenitate s.a.).
- Mediana se recomand pentru cazurile în care nu sunt îndeplinite condi iile
parametrice (distribu ii asimetrice, eterogenitate crescut etc) i în cazul variabilelor
de tip ordinal.
- Modul este utilizat mai rar pentru date numerice, fiind îns foarte util în cazul
variabilelor de tip categorial (date calitative, nominale), deoarece nu putem calcula
ceilal i parametrii centrali.
Amplitudinea : indicador de determinare a distan ei dintre valoarea minim i valoarea
maxim într.-un ir de date:
A = (Xmax Xmin)
4
s² pentru dispersia e antionului utilizat pentru estimarea dispersiei popula iei.
Coeficientul de variabilitate se noteaz cu V i determin gradul de omogenitate a
unui e antion
Fig. 1
Asimetría este negativ dac media este mai mic decât mediana.
In aceast situa ie indicele de asimetrie este negativ i datele sunt distributie spre
dreapta.
Asimetria negativ se reprezint astfel
Fig. 2
Indicele de boltire sau de kurtoz (Kurtosis "cocoa ") - arat în l imea curbei,
comparativ cu cea normal .
5
Distribu iile pot fi leptocurtice (cu cocoa înalt ) i platicurtice (cocoa mic ).
In cazul în care indicele de boltire este pozitiv avem o distribu ie leptocurtic .
In cazul în care indicele de boltire este negativ avem o distribu ie platicurtica.
Dac indicele de boltire nu dep e te ±1,96 distribu ia este relativ normal .
Cotele standardizate z
Parametrii tendin ei centrale i ai varian ei descriu caracteristicile unui e antion sau a
popula iei.
X M
z
S
unde M - media e antionului , X - valoarea intrat în studiu, S - abaterea standard a
e antionului
Cotele z descriu un rezultat individual din cadrul e antionului sau al popula iei.
Cu ajutorul lor se pot face compara ii i între probe diferite.
Cotele z arat pozi ia valorii ob inute în distribu ia datelor pentru caracteristica m surat
din cadrul e antionului. In general sunt cuprinse între - 3,5 si +3,5.
Cota z=0 arat c valoarea g sit este egal cu media (într-o distribu ie normal ).
Cotele standardizate T
Rezultatul ob inut în cote z este exprimat în valori zecimale pozitive sau negative. Pentru
a u ura calculul s-au introdus cotele T pentru care : se propune media 50 i abaterea
standard 10. Astfel toate punctajele ob inute vor fi pozitive i distribuite pe o scal de la
20 la 80 în peste 99% din cazuri.
Formula de calcul a cotelor T este:
X M
T 50 10 *
S
unde: X - o anumit valoare, M - este media, S - abaterea standard a e antionului în
cauz .
CORELA II PARAMETRICE
6
Coeficientul de corela ie simpl - r (Bravais-Pearson)
Pentru calcularea lui r sunt necesare dou variabile numerice care îndeplinesc condi iile
parametrice.
Analiza semnifica iei lui r se face cu ajutorul unor tabele special construite i luând
diferite praguri de semnifica ie. La nivelul comunit ii tiin ifice interna ionale pragul
minim acceptat pentru ca o corela ie simpl s fie semnificativ statistic este 0,05.
Algoritmul de determinare a încrederii coeficientului de corela ie:
1. Se stabile te pragul de semnifica ie
Dac acesta este 0,05. rezult c din 100 de experimente cel mult 5 se vor datora
întâmpl rii restul datorîndu-se asocierii reale dintre variabile.
Dac acesta este 0,01 eroarea are loc numai într-un singur caz din 100.
2. Se stabile te tipul de rela ie între variabile:
bilateral (two-tailed), dac nu se dore te s se stabileasc directia leg turii
unilateral (one-tailed) daca se dore te s se demonstreze c dou variabile
coreleaz fie direct, fie invers
3. Se cite te din tabel valoarea lui r pentru coloana corespunz toare num rului de grade
de libertate (notat cu df), df=N-2 unde N=num rul de subiec i.
Dac valoarea lui r ob inut este mai mare decât cea din tabel, atunci valoarea lui
r este semnificativ la pragul de semnifica ie ales.
Cu cât cre te num rul de subiec i cu atât scade valoarea coeficientului de corela ie
necesar pentru ca r s fie semnificativ Astfel, valori foarte mici ale coeficien ilor
de corela ie pot fi semnificative dac sunt analizate grupe mari de subiec i.
Semnifica ia coeficientului de corela ie :
Interpretarea semnifica iei coeficientului de corela ie se realizeaz cu ajutorul
coeficientului de determinare (r²). Coeficientul de determinare indic partea din dispersia
total a m sur rii unei variabile care poate fi explicat de dispersia valorilor din cealalt
variabil , sau altfel spus, el determin partea de asociere comun a factorilor care
influen eaz cele dou variabile.
Analiza coeficientului de determinare se poate face numai dac r este semnificativ. Acest
criteriu este influen at de m rimea lotului utilizat în determinarea coeficientului de
corela ie. Se recomand utilizarea lui pentru un num r mai mare de 20 de subiec i, sau, în
cazul utiliz rii în aceasta situa ie analiza s se fac cu multa grij .
Coeficientul de corela ie par ial stabile te corela ia între dou m rimi,
men inând o a treia constant i neutr [Novac A] . El se utilizeaz atunci când între dou
variabile exist o a treia, responsabil de dependen a comun a celor dou i deci
corela ia dintre cele dou variabile poate induce în eroare i este dificil de interpretat.
REGRESIA LINIAR
Cu ajutorul regresiei se pot face predic ii ale unei variabile, în func ie de valoarea alteia.
Predic ia este procesul de estimare a valorii unei variabile cunoscând valoarea unei alte
variabile.
Regresia simpl liniara se realizeaz între o variabil dependent i una independent
astfel încât rela ia dintre cele dou variabile poate fi descris printr-o dreapt în cadrul
norului de puncte.
Ecua ia de regresie are forma:
^
Y a bX
unde:
7
^
Y - rezultatul estimat
a - valoarea lui Y când X este zero.
b - arat cu cât este influen at Y atunci când X cre te cu o unitate
X - variabil criteriu (cunoscut ).
Dup determinarea ecua iei de regresie se fac predic iile.
CORELA II NEPARAMETRICE
Dac nu pot fi aplicate testele parametrice (nu sunt îndeplinite cele dou condi ii) se
utilizeaz tehnicile neparametrice pentru a determina gradul de asociere între variabile.
Exemple de probe neparametrice:
coeficientul de corela ie (fi) (variabile dihotomice);
coeficientul de contingen C a lui Pearson (date categoriale nominale);
coeficientul de corela ie V a lui Cramer (date categoriale nominale);
testul Spearman al corela iei diferen ei rangurilor (date ordinale);
coeficientul (tau) b a lui Kendall (date ordinale).
Coeficientul de corelatie
Coeficientul de corelatie (fi) este o prob corela ional neparametric utilizata pentru
variabile dihotomice ob inute nu datorit unei regrup ri ci prin îns i natura variabilei.
Se interpreteaz ca i coeficientului de corela ie r, deoarece coeficientul de corela ie
este în esen o variant a acestui coeficient.
2
Semnul coeficientului de corela ie (fi) calculat dup formula:
N
se fixeaz în func ie de num rul subiectilor afla i pe cele dou diagonale ale tabelului de
dimensiune 2x2:
+ dac diagonala principal num r mai multi subiec i
- dac diagonala secundar num r mai mul i subiec i.
Coeficientul de contingen C a lui Pearson este utilizat pentru a determina
asocierea dintre dou variabile nominale mai mari de 2 x 2.
Coeficientul nu poate lua niciodat valoarea 1, chiar în cazul unei asocieri perfecte.
Pentru un tabel de tip 3 x 3 poate lua valoarea maxim 0,82, pentru un tabel de tip 4 x 4
poate lua valoarea maxim 0,87. Limita coeficientului C se deplaseaz spre 1, pe masur
ce dimensiunea tabelului cre te, astfel se recomand utilizarea coeficientului C în special
în cazul tabelelor de contingen de dimensiuni mari, de la 7-8 linii sau coloane în sus.
Coeficientul de corela ie V a lui Cramer este utilizat pentru a determina
asocierea dintre dou variabile nominale mai mari de 2 x 2. V poate atinge valoarea 1.
Interpretarea coeficien ilor C, respectiv V se face teoretic astfel: un rezultat cât mai
apropiat de 1 indic o corela ie pozitiv , iar un coeficient negativ indic o asociere
invers .
Testul Spearman al corela iei diferen ei rangurilor - se aplica atunci când
condi iile privind parametrii statistici nu pot fi îndeplinite, din cauza neomogenit ii
grupului sau a num rului prea mic de subiec i (sub 20). Testul ajut la determinarea
locului fiec rui individ într-un clasament. Testul un poate fi aplicat dac mai mult de 25
la sut din totalul rangurilor celor dou grupe sunt egale. In cazul rangurilor egale spre
exemplu, dac doi subiec i sunt clasa i pe locul patru, ei vor primi rangul 4,5 iar dac trei
8
subiec i sunt clasa i pe locul 2, ei vor primi rangul 3, aflat la mijlocul dintre locurile 2,3 i
4, iar urm torul rang ce va fi acordat va fi rangul 5.
Ccoeficientul de corela ie a rangurilor se noteaz cu , poate lua valori între -1 i +1, i
valori ale lui aproipiate de 1 ne arat o corela ie invers iar valori apropiate de zero arat
c nu avem asociere semnificativ .
Coeficientul (tau) b a lui Kendall pentru variabile ordinale se utilizeaz
pentru determinarea asocierii dintre variabile în cazul în care mai mult de 25% din date
sunt egale în ranguri. Asocierea este pozitiv dac indivizii plasa i pe locuri frunta e dup
o variabil , se afl mai în fa i dup cealalt variabil . Asocierea este negativ dac
aceia i indivizi plasa i bine dup prima variabil se vor reg si mai curând spre coada
clasamentului dup cea de a doua variabil .
In cazul corela iilor de date nominale:
- dac cele dou variabile sunt dihotomice de tip 2 x 2 se utilizeaz coeficientul de
corela ie .
- daca cele dou variabile sunt categoriale, peste 2 x 2 se utilizeaz coeficientul V a lui
Cramer, respectiv coeficientul de contingen C a lui Pearson (util în special pentru
tabele peste 5 x 5).
In cazul corela iilor de date ordinale (ordonate sub form de ranguri):
- dac cele dou variabile au pu ine ranguri egale se utilizeaz coeficientul de corela ie
a lui Spearman.
- dac cele dou variabile au mai multe ranguri egale se utilizeaz coeficientul a lui
Kendall.
S-a analizat pân acum asocierea dintre grupuri. Pentru analiza diferen elor dintre grupuri
se folosesc o serie de tehnici parametrice care permit evaluarea efectelor unei variabile
independente (manipulate de cercetator) sau ale unei variabile categoriale (vârsta, sex,
etc) asupra unei variabile dependente când se lucreaz cu una sau dou grupe de
subiec i [1].
Exemple de tehnici de compara ie între grupuri:
- Tehnicile t i z pentru un e antion
- Testele t i z pentru dou e antioane independente
- Testele t i z pentru e antioane dependente .
9
cazul în care n este mai mic de 30, se urm re te forma distribu iei datelor, astfel încât
indicatorii de oblicitate (skewness) i de boltire (kurtosis) s fie cât mai apropia i de zero
(maxim doi)}[1].
Se poate alege varianta de lucru pentru testul t: respectiv testul t unilateral sau testul t
bilateral. Dac exist supozi ia c datorit unor caracteristici speciale media e antionului
comparativ este mai mare sau mai mic decât media popula iei din care face parte
e antionul se utilizeaz valorile testului t unilateral din tabel.
Dac exist supozi ia c media e antionului comparativ i media popula iei din care face
parte e antionul difer semnificativ, f r a putea specifica dinainte care este mai mare sau
mai mic se utilizeaz valorile testului t bilateral din tabelul lui t. Pragul de semnifica ie p
ales va fi maxim 0,05.
Pentru a determina cât de mare este diferen a (semnificativ statistic) ob inut se
calculeaz m rimea efectului propus de Cohen i notat cu d. Aceasta este foarte
important pentru determinarea puterii experimentului i pentru calcularea m rimii
e antionului necesar pentru a da credibilitate cercet rii efectuate.
Interpretarea valorii d (m rimea efectului)
Prin conven ie: d = 0,20 se ob ine un efect mic, d = 0,50 se ob ine un efect mediu, d =
0,80 se ob ine un efect mare .
Testul z utilizat în cazul în care cele dou condi ii de mai sus sunt îndeplinite se
interpreteaz astfel: valorea ob inut cu testul z se raporteaz la valorile standardizate ale
lui z. In cazul testului z bilateral, pentru a putea admite sau respinge ipoteza nul ,
valoarea ob inut se compar cu dou valori standardizate: z = 1,96 pentru un p .05 i
z = 2,58 pentru un p .01 iar în cazul testului z unilateral valoarea ob inut se compar
cu valorile standardizate z = 1,65 pentru un p .05 si z = 2,33 pentru un p .01 .
Interpretarea m rimii efectului d se face la fel ca la testul t..
10
iar în cazul testului z unilateral valoarea ob inut se compar cu valorile standardizate z =
1,65 pentru un p .05 si z = 2,33 pentru un p .01 .
Interpretarea m rimii efectului d se face la fel ca la testul t..
Observa ie. In ultimii ani exist tendin a de a înlocui testul z cu testul t. Astfel,
programe de statistica computerizate precum SPSS au renun at la testul z în favoarea
testului t care este folosit i în cazul e antioanelor mai mari de 30 de subiec i fiecare.
TEHNICILE ANOVA
Se utilizeaz în cazul lucrului cu mai mult de dou grupe pentru a determina diferen ele
între grupe. Pentru a cre te siguran a rela iei dintre o variabil independent i una
dependent se recomand cre terea num rului de grupe experimentale.
Tehnicile ANOVA au fost dezvoltate de R. A. Fisher:
ANOVA simpl ;
ANOVA cu m sur tori repetate;
Tipul de eroare de ordinul I este determinat de formula: 1 (1 )c
unde: este nivelul de încredere pentru fiecare test t efectuat iar c este num rul de teste t
ce trebuie efectuate.
Nivelul de încredere maxim pân la care putem respinge o ipotez nula este 0,05.
ANOVA simpl sau analiza dispersiei dependente - lucreaz cu o singur variabil
independenta care are mai mult de dou trepte i o singur variabil dependent .
Pentru a putea lucra cu aceasta tehnic optim trebuie ca: e antionul s se selecteze
randomizat din popula ie sau m car s se randomizeze subiec ii din grupele
experimentale, variabila dependent trebuie s fie distribuit normal (se poate lucra si
f r îndeplinirea acestei condi ii f r a fi foarte tare afectat eroarea de tip), iar dispersia
subiec ilor împ r i i pe grupe de tratament diferite s fie egal ..
Tehnica este echivalentul testului t independent. Cu aceast tehnic se poate evalua
ipoteza nul între mediile a dou sau mai multe serii de date cu restric ia ca acestea s fie
11
trepte ale aceleia i variabile independente i se poate face compara ia simultan a trei sau
mai multe grupe men inând nivelul la valoarea dorit , de maxim 0,05.
Totalul dispersiei în ANOVA simpl provine din dispersia intragrup i intergrup:
Dispersia datorat e antion rii aleatoare se nume te i dispersia erorii
Dispersia datorata variabilei independente se nume te i dispersie adev rat .
Simbolul rezultatului ob inut prin ANOVA este F
Dac F ob inut este mai mare decât F tabelar rezult c raportul F ob inut este
semnificativ statistic, ipoteza nul este respins , deci exist diferen e între mediile celor n
grupe.
Dac ipoteza nul este respins rezult doar c cele n grupe nu sunt egale în ce priveste
media rezultatelor variabilei dependente. Pentru a afla cum difer cele n grupe între ele se
utilizeaz compara ii post hoc (efectuate dup g sirea unui raport F semnificativ).
De asemenea, pot fi utilizate i compara ii planificate pentru a testa diferen ele între
grupele de subiec i, înainte de efectuarea experimentului.
Pentru testul ANOVA simpl nu este obligatoriu ca num rul de subiec ti din grupe s fie
egal dac dispersia în grupe este omogen .
M rimea asocierii între variabila independent i cea dependent în cazul ANOVA se
m soar cu - omogenitatea dispersiei care este o m sura asem n toare lui r2. M sura
arat propor ia din dispersia variabilei dependente care poate fi pus pe seama varia iei
variabilei independente i se aplic numai dac : variabila independent este împ r it în
trepte cât mai egale posibil .
In tehnicile ANOVA m rimea efectului se noteaz cu f i se interpreteaz conform
propunerii lui Cohen astfel:
f =.10 efect slab, f =.25 efect mediu, f =.40 efect mare.
ANOVA cu m suratori repetate - este în coresponden cu testul t dependent.
Prin m suratori repetate se în elege evaluarea unui individ de dou sau mai multe ori în
ce prive te variabila dependent .
Pentru a putea lucra cu aceast tehnic optim trebuie ca: e antionul s se selecteze
randomizat din populatie sau macar s se randomizeaza subiec ii din grupele
experimentale, variabila dependent trebuie s fie distribuit normal (se poate lucra i
f r indeplinirea acestei condi ii f r a fi foarte tare afectat eroarea de tip), iar dispersia
subiec ilor împ r i i pe grupe de tratament diferite s fie egal . La aceste condi ii care
erau impuse i pentru ANOVA simpl se adaug una specific ANOVA cu m suratori
repetate: coeficien ii de corela ie între diferitele evalu ri repetate s fie aproximativ egali.
Totalul dispersiei în ANOVA cu m sur tori repetate provine din dispersia dintre indivizi;
dispersia datorat variabilei independente; i dispersia rezidual .
Se calculeaza F i se compar cu valoarea din tabelul lui F. Dac valoarea ob inut F este
mai mare decât cea din tabelul lui F la un prag de .05, ipoteza nul este respins , i se
trage concluzia c exist diferen e semnificative în ce prive te mediile celor n serii de
evalu ri.
Un alt test ANOVA este ANOVA factorial. Acesta studiaz influen a simultan a dou
sau mai multe variabile independente asupra unei variabile dependente
Raporturile F stabilite în cazurile ANOVA simpl , ANOVA cu m sur tori repetate i
ANOVA factorial se numesc i teste omnibus.
13
- testul Wilcoxon al rangurilor pereche (echivalent ANOVA cu m sur tori repetate ori
t dependent);
- testul ANOVA Kruskal-Wallis al rangurilor (echivalent ANOVA simpl , îns datele
sunt convertite în ranguri);
- testul Friedman ANOVA biunivoc al rangurilor (echivalent ANOVA m sur tori
repetate).
2
Tehnica este un test statistic asupra semnifica iei discrepan ei dintre rezultatele
observate celei a teptate. Se utilizeaz atunci când avem de analizat date nominale
(calitative).
Gradele de libertate se stabilesc în func ie de num rul de alternative existente minus unu.
Frecven a teoretic se stabile te împ r ind num rul total de date la num rul de alternative
(dac exist informa ii prealabile care s ateste o anumit distribu ie a datelor atunci
principiul amintit anterior cade).
2 2
Valoarea lui se compar cu valoarea tabelar a lui .
In cazul tabelelor de contingen frecven a teoretic se calculeaza în alt mod.
2
Daca se aplic unui tabel de contingen atunci num rul gradelor de libertate pentru
tabel este (r-1) (c-1), unde r este num rul de linii iar c num rul de coloane .
2 2
Dac observat este mai mare decât teoretic ipoteza nul poate fi respins a ,
valoarea ob inut fiind semnificativ .
2
Restric ii de utlizare a testului [1]:
Observa iile trebuie s fie independente i categoriile formate trebuie s se exclud
reciproc (eliminarea r spunsurilor multiple i alegerea unui singur r spuns la întrebare).
Frecven a teoretic pentru orice c su nu trebuie s fie mai mic de unu.
Nu mai mult de 20% din c su ele tabelului de contingen trebuie s aib valorile
teoretice ale frecven elor mai mici de cinci. Astfel SPSS anun când aceste valori nu
sunt atinse..
Pentru tabelele de contingen de tip 2 x 2 se aplic corectia Yates pentru continuitate.
In tabelele de contingen de tip 2 x 2 num rul total (N) trebuie s fie cel pu in 20;
2
Testul de omogenitate arat dac exist diferen e semnificative între distribu ia
teoretic (a teptat ) i distribu ia real (observat ) ob inut ..
Testul U al lui Mann-Whitney - este analog testului parametric t independent, fiind
una din cele mai puternice probe neparametrice.
Este utilizat pentru compara ia a dou grupe independente de date ordinale (ordonate pe
ranguri). Poate fi utilizat atât cu e antioane mici de subiec i, cât i cu e antioane mari.
Necesit numai m sur tori de tip rang . Acest test opereaz cu numere ordinale.
Testul Wilcoxon al rangurilor pereche se aplic pentru studii comparative între
dou grupe dependente (corelate) care nu îndeplinesc condi iile parametrice. Are acelea i
principii cu testul t dependent. Testul determin m rimea diferen elor dintre rezultate
(spre exemplu înainte i dup o ac iune), ordonate dupa rang.
Testul ANOVA Kruskal-Wallis al rangurilor se aplic pentru date ordinale, în
cazul când exist mai mult de dou grupe independente. Este comparabil cu ANOVA
simpl . Datele sunt convertite în ranguri.
Cele dou teste ANOVA Kruskal-Wallis i testul U a lui Mann-Whitney sunt tehnici ce
utilizeaz date ordinale, existând posibilitatea unor ranguri egale. Dac num rul
rangurilor egale este peste 30% nu este indicat utilizarea lor.
14
Testul Friedman ANOVA biunivoc al rangurilor - este analog tehnicii ANOVA
cu m sur tori repetate. Se aplic pentru date ordinale, pentru mai mult de dou grupe
dependente. Rezultatele sunt ordonate pe ranguri i se utilizeaz hi p trat ca test de
semnifica ie.
ANALIZA FACTORIAL
Cu ajutorul analizei factoriale se determin variabilele care au cât mai mult varia ie
(informa ie) comun , astfel încât, prin restrangerea acestea s piard cât mai pu in
informa ie util . Ea este utilizat pentru: detectarea structurii rela iilor dintre variabile
(clasificarea variabilelor) i reducerea num rului variabilelor la un num r mic de factori,
care s fac o descriere general a realit ii analizate.
Exemple de metode de analiz factorial :
- Analiza componentelor principale a lui Hotteling care face analiza varian ei totale
dintre variabile. In solu ia generat apar atâ ia factori câte variabile sunt disponibile.
Metoda ofer o solu ie unic , iar datele ini iale pot fi reconstruite din rezultatele
ob inute.
- Analiza factorilor comuni a lui Thurstone estimeaz varian ia comun la nivelul
variabilelor originale. Metoda produce mai pu ini factori decât num rul variabilelor
existente.
Datele ce intr în analiza factoriala trebuie s fie distribuite normal i s aib valorile
m surate pe scal parametric .
BIBLIOGRAFIE
[1] http://statisticasociala.tripod.com
[2] NOVAC, ANDREI, Statistic social aplicat , Ed. Hyperion,XXI, 1995
[3] NOVAC, ANDREI, Metode statistice în pedagogie i psihologie, Ed. didactic i
pedagogic , Bucure ti 1977
[4] SAVA, FLORIN , Analiza datelor în cercetarea psihologic , metode statistice
complementare, Cluj Napoca: Ed. ASCR, 2004
[5] Rotariu Traian, Badescu Gabriel, Culic Irina, Mezei Elemer, Muresan Cornelia,
Metode statistice aplicate în tiin ele sociale, Ed. Polirom, 2000
[6] Spircu Liliana, Calciu Mihai, Spircu Tiberiu, Analiza datelor de marcheting, Ed.
ALL, 1994
15