Sunteți pe pagina 1din 19

Principiile unei teorii științifice valide:

Caracterul empiric = suportul factual al acesteia, toate Testabilitate (verificabilitate) = predicțiile ei pot fi enunțate
datele științifice (observații, măsurători) care stau la baza ei. într-o formă măsurabilă; presupune:
Orice teorie științifică pornește de la date obiective măsurate a. alegerea unui caz particular din domeniul de aplicabilitate al
care trebuie să fie: teoriei (o ipoteză) care permite realizarea unei măsurători
a. verificabile; experimentale în condiții strict controlate;
b. replicabile b. măsurătorile științifice să poată fi realizate cu suficientă
Caracterul rațional = suportul logicii formale precizie pentru a putea fi comparate cu predicția.
Teoria reprezintă o serie de enunțuri deduse pe cale logică
Falsificabilitatea = pot fi testate ipoteze generate de teorie
din faptele științifice și cunoștințele considerate valide
care ar dovedi că teoria este incorectă
Simplitatea (parcimonitatea): o condiție în procesul de Generalitatea: o teorie mai generală este preferată uneia
evaluare al teoriilor: dintre mai multe teorii concurente este specifice pt. că exprimă doar relațiile general valabile dintre
preferată cea mai simplă (lama lui Occan) datele științifice, neglijând aspectele particulare;
- în practică se trece de la o teorie particulară la una generală
Primul principiu fundamental al științei: orice afirmație Etapele unei cercetări științifice aplicative
trebui supusă unei verificări critice; nu se acceptă ca Identificare problemei
argument decisiv părerea nici unei autorități (expert) fără ca Construcția modelului descriptiv
ea să fie testată Soluția
Testarea soluției găsite
Principiul al doilea: dacă o afirmație este contrazisă de un Interpretarea rezultatelor empirice
rezultat empiric, ea este considerată greșită Analiza erorilor
Piramida lui Anderson
1. Cadrul conceptual 2. Fenomenul
Un cadru conceptual este un complex de sisteme de Măsura fenomenului este comportamentul observabil.
cunoștințe cu nivele interconectate de generalitate. El Se pune întrebarea dacă comportamentul observat este util în
influențează puternic fenomenul studiat: este determinantul măsurarea fenomenului, acesta din urmă venind cu o
principal al judecăților și deciziilor în orice cercetare. interpretare conceptuală a comportamentului. Nimic nu
Cadrele conceptuale sunt sisteme personale de cunoștințe, garantează că fenomenul și comportamentul reprezintă același
aflate în continuă schimbare și dezvoltare. Lărgirea cadrului lucru.
conceptual conduce la progrese importante. Un motiv este reprezentat de faptul că acțiunea urmărită
într-un cadru experimental implică alte abilități pe lângă
- natura problemei identificate , determină valoarea comportamentul avut în vedere. Tehnicile de proiectare
cercetării; statistică pot îndepărta o parte din aceste confuzii.
- implică faza de documentare Un alt aspect al distincției dintre comportament și fenomen
3. Comportamentul ține de generalizare. Se poate generaliza pe baza
Comportamentul este creat parțial de opțiunile comportamentului observat?
cercetătorului în ceea ce privește construcția cadrului
experimental. Un cadru experimental bun este dat de - analiza fenomenului se face prin construirea de modele ale
importanța comportamentului observat, simplitatea și realității, pe baza elementelor care au o pondere crescută în
potențialul de generalizare al acestuia, proprietățile structura fenomenului; trebuie evitată:
statistice ale răspunsului măsurat și costul, inclusiv timpul și a. subspecificarea modelului = omiterea factorilor care
nivelul de resurse implicate. sunt relevanți dpdv al determinării fenomenului studiat
Cadrul experimental trebui văzut în continuă schimbare, b. supraspecificarea modelului = includerea factorilor
urmare a problemelor legate de confuziile ce pot apărea, irelevanți dpdv al fenomenului studiat
precum și a celor de validitate și fiabilitate.

-operaționalizarea: proces
un de definire
comportamentală a constructului; are loc o conversie a
constructelor care alcătuiesc modelul într-un set de

1
comportamente observabile, care permit măsurarea acelor
constructe și implicit testarea relației lor în cadrul modelului
4. Măsurarea 5. Designul de cercetare
Este legătura dintre lumea reală și lumea științei. Cea mai simplă cercetare implică un grup experimental și un
Reprezintă transformarea lumii reale a obiectelor într-o lume grup de control, întrebarea fiind dacă tratamentul aplicat
conceptuală a ideilor și simbolurilor. grupului experimental influențează comportamentul. Cel mai
Validitatea și fiabilitatea guvernează toate măsurătorilor. important rol al statisticii în această etapa este
Distorsiunea de măsurare apare atunci când un instrument - controlul variabilelor care ar putea distorsiona interpretarea.
măsoară mai bine constructul într-o anumită populație decât Alt roluri sunt:
în alta. - calcularea probabilității de succes/eșec, denumită în mod
-pentru măsurare se folosesc scale: formal puterea experimentului;
A. Variabile sau scale categoriale - analiza determinărilor multiple (majoritatea
1. scala binară/dihotomică: există doar două categorii, iar comportamentelor depind de acțiunea combinată a doua sau
variabila face parte dintr-una dintre ele (pozitiv/negativ; mai multe variabile; întrebări: Două variabile interacționează?
da/nu); Dacă da, în ce mod?);
2. scala nominală: presupune categorizarea pe criterii
calitative; datele nominale sunt folosite pentru stabilirea Validitatea
frecvențelor (de câte ori apare cuvântul măr într-o înșiruire de a. validitatea internă SAU VALIDITATEA CONSTRUCTULUI:
fructe consumate într-o săptămână); se atribuie numere doar măsurătorile constituie o reprezentare veridică a fenomenului
pentru a denumi clase de echivalență; sau procesului care se dorește a fi studiat = (variabilele
3. scala ordinală; presupune ordonarea indivizilor pe baza măsoară ceea ce ar trebui să măsoare?).
unui criteriu cantitativ (sau calitativ); categoriile sunt b. validitatea externă = capacitatea de generalizare a
ordonate A > B > C, însă nu știm cu cât A > B > C : nu rezultatelor
cunoaștem diferențele dintre A, B și C; orice situație în care - diferite contexte afectează în mod diferit răspunsurile
persoanele notează sau ordonează ceva subiectiv ar trebui subiecților = afectează comparabilitatea datelor
tratată ca furnizând variabile ordinale; - controlul de cercetare se manifestă prin posibilitatea
3b. scale hiperordinale: sunt caracterizate nu numai printr-o cercetătorului de a controla și uniformiza condițiile de
relație de ordine între elemente, ci și între intervalele care le
participare la studiu, astfel încât scorurile obținute să fie
separă.
comparabile;
B. Variabile sau scale cantitative = continue = numerice
- un nivel ridicat al controlului oferă studiului validitate internă
4. scala interval: presupune existența unei unități de măsură;
- validitatea internă: eventualele diferențe observate
intervale egale de pe scală reprezintă diferențe egale ale
proprietăților măsurate între diferitele categorii de participanți se datorează într-
5. scala raport: presupune existența unui punct zero real = adevăr variabilelor incluse în studiu și nu altor variabile
punct unde scorul zero indică lipsa completă a constructului; externe
raportul dintre punctele de pe scală reprezintă o oglindire a ----------------------------------------------------------------------------------
realității, are sens; variabilele pot fi 7. Inferența științifică
a. discrete: pot avea anumite valori fixe (numere întregi) sau - constă într-o concluzie sau afirmație verificată prin
b. continue: pot fi măsurate la orice nivel de precizie (vârsta intermediul metodei științifice
poate fi măsurată în ani, luni, zile, ore, minute, etc. )
6. Inferența statistică b. validitate relativă la conținut : întrebările incluse în
Testul de semnificație reprezintă o funcție necesară, dar test/chestionar acoperă întreg domeniul conceptual al
minoră în inferența științifică. Prezintă dovada existenței unui constructului;
rezultat care să fie interpretat, a faptului că rezultatele c. validitatea relativă la construct:
obținute sunt reale și nu obținute din întâmplare . Ea are - convergența: scorurile instrumentului propriu se asociază
loc la final și joacă un rol limitat în proiectarea cercetării. cu scoruri ale instrumentelor care măsoară constructe similare
- are rolul de a disocia ceea ce poate fi întâmplător de ceea ce și divergente sau
este (foarte probabil) sistematic - divergența: scorurile instrumentului nu se asociază cu cu
scorurile instrumentelor care măsoară constructe diferite;
Validitatea în cazul instrumentelor de evaluare d. validitatea relativă la criteriu: scorurile instrumentului se
asociază cu comportamente externe constructului, dar

2
psihologică: determinate/relaționate cu acesta; ex: testul de admitere se
a. validitate de aspect: sarcinile unui test de inteligență asociază cu performanța academic ulterioară)
arată așa cum ar trebui să arate un test de inteligență;
Fidelitatea măsurării: instrumentul măsoară CORECT ceea Testarea fidelității:
ce-și propune să măsoare? Fidelitatea test-retest a unui instrument: testată prin
Fiabilitatea datelor: măsurătoarea este stabilă și consistentă aplicarea instrumentului de măsurare de mai multe ori
în timp acelorași subiecți;
Acuratețea datelor: măsura în care măsurătoare este liberă Fidelitatea inter-item a unui instrument: testată prin
de eroare măsurarea în repetate rânduri ale aceluiași comportament în
Eroare poate fi: cadrul unei singuri evaluări;
a. aleatoare sau nesistematică: gradul erorii variază în timp Fidelitatea inter-evaluator a unui instrument: măsurarea se
=> tinde să producă o medie și e mai puțin probabil să face o singură dată, simultan de către mai mulți evaluatori
producă date neexacte; este caracterizată de o distribuție în
formă de clopot (distribuție normală) Creștere fidelității prin:
b. sistematică sau condiționată: eroare introdusă cu fiecare a. standardizarea procesului de culegere și administrare a
măsurătoare este constantă.
datelor = standardizare procedurală;
Eroarea generală poate fi redusă prin: b. formularea clară a instrucțiunilor și întrebărilor (itemilor);
a. identificarea cauzelor și mărimii erorilor sistematice; c. antrenarea operatorilor de cercetare;
b. reducerea efectului erorilor aleatoare (se poate face prin d. reducerea erorilor de codare a răspunsurilor.
înlocuirea valorii individuale (o singură măsurătoare) cu valoarea
medie a distribuției unui număr mare de măsurători identice)
Construct: o trăsătură de personalitate, o stare emoțională, Definiția conceptuală: o descriere a proceselor interne care
atitudine, abilitate, etc. care nu poate fi observată formează constructul
direct/nemijlocit deoarece aceasta reprezintă o tendință de
comportament (ex: agresivitate, extraversiune) sau implică -----------------------------------------------------------------------------------
mecanisme de procesare internă (ex: inteligență, stil Definiția operațională: totalitatea comportamentelor
decizional, stil de învățare); (deschise sau ascunse; overt or covert) prin care constructul
- un concept teoretic care nu este vizibil în realitate prin devine măsurabil (subiective – obiective)
sine însuși, ci prin elementele lui componente vizibile
Scorul: valoarea numerică pe care o obținem ca urmare a Tipuri de cercetări:
procesului de măsurare, a.î. diferențele de scor dintre doi 1. Cercetări aplicative vs. Cercetări fundamentale
indivizi (dacă măsurarea a fost corect efectuată) să reflecte 2. Cercetări cantitative (If anything exists, it exists in some
diferențele cantitative existente între trăsăturile măsurate ale amount. If it exists in some amount, it can be measured –
acelorași doi indivizi Thorndike, 1926)
vs.
Orice scor notat cu X = T + e (unde „T” este scorul măsurat și Cercetări calitative (fenomenele sunt construite și
„e” este eroarea reconstruite în mod particular de fiecare subiect sau
cercetător cu ocazia fiecărei testări)
Măsurarea: procesul prin care un set de caracteristici Studii descriptive: au ca obiectiv surprinderea și
psihologice, de obicei exprimate sub forma unui descrierea cantitativă a unui fenomen;
comportament sunt transformate într-un set de numere; - pot fi bivariate sau multivariate = atunci stabilesc relații între
Codarea: datele obținute prin diferite forme de investigație fenomenul studiat și alte relații conexe acestuia (corelări);
psihologică sunt aduse la o formă numerică; - studiul observațional și de tip Survey sunt descriptive
Variabilele brute: rezultă Studii predictive: sunt intim legate de studii descriptive;
- fie în mod direct din citirea aparatelor; - pe baza relațiile stabilite între fenomenul observat și diferite
- fie din însumarea de puncte (ex: testele creion – hârtie) variabile se pot face predicții;

3
Grila de observație: strângerea unor informații mai mult - scopul: predicția unui comportament viitor;
calitative => frecvențele anumitor răspunsuri, date Studiile explicative: își propun să treacă dincolo de simpla
Protocol: documentul care consemnează informațiile descriere, încercând să înțeleagă relațiile cauzale care duc la
obținute și modul de recoltare; apariția fenomenului;
- este o particularitate a variabilei = mulțimea de observații Studiile aplicative: au ca obiectiv rezolvarea directă a unei
(date) efective (Variabila poate fi o mulțime de observații probleme și testarea validității protocoalelor de diagnostic și
potențiale) intervenție.
Domeniul de variație: registrul de valori posibile Teorema limitei centrale: distribuția mediilor tuturor
vs. eșantioanelor ce pot fi extrase aleator dintr-o populație este
Domeniul de definiție: mulțimea de indivizi susceptibili de a de formă gaussiană
prezenta aceste modalități (populația)
Testul: un gen de experiment standardizat; Distorsiune: un artefact care face ca ceea ce văd la nivelul
- pune în evidență diferențele individuale dintre oameni și eșantionului să nu fie reprezentativ pentru populația din care a
permite evaluarea acestor diferențe; fost extras acesta
- măsoară doar un eșantion de comportament;
- ca mijloc de evaluare a prestației sau conduitei umane se
elaborează pe bază statistică;
- trebuie să existe un grup de referință care conduce la
stabilirea unui tabel de norme sau o tipologie.
Studiul observațional: Coeficientul de concordanță interevaluatori K (Cohen)
- grila de observație = instrumentul: o listă de rubrici care - verifică fidelitatea evaluării unui comportament prin
oferă cadrul de clasificare a datelor brute; grile de observație în situația în care grilele au la bază o
- nu este indicat să cuprindă mai mult de 10 categorii, scală nominală;
- categoriile trebuie să fie disjuncte și să epuizeze aspectele K = (P₀ - Pₑ) / (1 - Pₑ)
principale ale fenomenului P₀ = proporția concordanțelor observate dintre categoriile
Eșantionarea comportamentului: o secvență de celor doi observatori;
comportament care apare (spontan sau generat de P₀ = număr total de concordanțe / numărul total de
cercetător) într-un anumit context (timp și spațiu) la anumiți observații realizate
participanți (participanții la studiu) Pₑ = proporția concordanțelor care ar putea apărea
Eșantionarea: întâmplător în cazul rezultatelor date
- secvențelor de timp (sistematică, aleatoare, mixtă); Pₑ = (numărul de observații realizate de A pt comportamentul
- evenimentelor; X / numărul total de observații) * (numărul de observații
- eșantionarea situațiilor: comportamentul este observat în realizate de B pt. comportamentul X / numărul total de
diferite situații; observațiie) + (numărul de observații realizate de A pt.
- eșantionarea subiecților: în situații complexe, pot fi mai
comportamentul Y / numărul total de observații) * (numărul
mulți potențial participanți;
de observații realizate de B pt. comportamentul Y / numărul
Observația directă: poate fi cu intervenție sau fără total de observații)
intervenție - se folosește matricea concordanțelor
vs. - valorile negative indică o concordanță inferioară celei
Observație indirectă (neintruzivă, nonreactivă): studiul întâmplătoare
urmelor fizice sau studiul înregistrărilor din arhive - o valoare a lui K ≥ 0,7 echivalează cu o bună fidelitatea a
grilei de observație
Observația cu intervenție: observația participativă, Observația naturală (observație fără intervenție):
observația structurată, experimentul de teren - scopul este surprinderea unor comportamente așa cum apar
vs. ele în contextul lor natural (studiu explorator);
Observația fără intervenție: observația naturală - permite validarea observațiilor realizate în context de
laborator (studiu confirmator);
Observația structurată - sunt singurele metode de cercetare atunci când intervenția
nu este permisă

4
a. psihologie cognitivă (studiul Hyman, 2009) Observația participativă
b. psihologia dezvoltării (studiile lui Piaget, 1965) a. deschisă: reactivitatea subiectului
Avantaje: desfășurarea unor „experimente” în context natural b. sub acoperire (studiul Rosenhan, 1973)
Dezavantaje: lipsa controlului și prezența posibilelor variabile Avantaje: oferă informații care altfel nu sunt accesibile
externe pot duce la imposibilitatea generalizării concluziilor Dezavantaje: riscul ca participantul să intervină în derularea
c. psihologia socială (studiul Asch, 1951) evenimentelor (în funcție de mărimea grupului, rolul
Avantaje: control crescut al situației, validitate internă observatorului, caracterul deghizat sau nu al observatorului)
Dezavantaje: validitate externă mai redusă
Observația indirectă: studiul urmelor fizice Observația indirectă: studiul înregistrărilor din arhive:
a. analiza urmelor utilizării (însemnări pe un text, resturi a. analiza înregistrărilor curente (fluctuația de eșantionare
în deșeuri, etc.) într-o organizație sau domeniu, absenteismul în școală)
b. analiza produselor (obiecte din antichitate, picturi, b. analiza evenimentelor istorice
analiza unui meniu, etc.) Avantaje: studiul efectelor unor evenimente naturale (ex:
Avantaje: informații care nu pot fi altfel reproduse dezastre)
Dezavantaje: nu este certă validitate măsurării Dezavantaje: înregistrarea selectivă, supraviețuirea selectivă a
documentelor cresc riscul „descoperirii” unor relații false
Înregistrarea comportamentelor: Comprehensive vs. Selective Erori în studiul observațional:
a. efectul observării asupra subiectului (reactivitatea,
habituarea, desenzibilizarea)
b. problemele etice
c. așteptările cercetătorului
Studiul de tip Survey: un studiu descriptiv care își Populația teoretică (statistică): este definită prin criterii de
propune să ofere informații referitoare la starea actuală includere și excludere;
sau evoluția unui fenomen, local sau global, într-o - definiția trebuie formulată a.î. oricine să poată decide dacă
anumită populație un anumit individ face parte din populația definită;
- este în continuă mișcare, este o entitate vie ce nu poate fi
cuprinsă în întregime
Metoda eșantionării: permite aproximarea cât mai fidelă a Populația de acces (sampling frame): partea din populație
comportamentului întregii populații (mai exact a mediei sau a la care avem acces
tendinței centrale) doar măsurând un mic eșantion din
aceasta.
Populația: totalitatea indivizilor la care se aplică concluzia Cadrul de eșantionare: o listă a tuturor membrilor unei
formulată în baza cercetării; populații
- stabilirea populației reprezintă primul pas al cercetării;
- modul în care definim populația (stabilind criterii de Eșantionul reprezentativ: include toate „tipologiile” de
includere și excludere) limitează gradul de generalitate al indivizi care compun populația, în procentul în care acestea
concluziilor formulate în urma studiului; sunt prezente în populație
- populația este dinamică
Selecția probabilistică: criteriile de selecție al unui individ Eșantion distorsionat: apare dacă cadrul de eșantionare nu a
sunt fundamentate pe calcul probabilistic = estimări ale fost corect ales, metodologia de colectare a datelor nu este
probabilității ca un individ să fie selectat; potrivită, etc.
- putem estima probabilitatea de a fi reprezentativ dpdv al
unei variabile; Eșantionare randomizată simplă (Epsem): se face prin
atribuirea de probabilități egale fiecărei unități de selecție =
fiecare membru al populației are o șansă egală să facă parte
Selecția nonprobabilistică: selecția se face pe alte criterii; din eșantion;
estimarea probabilității de a fi reprezentativ este mult mai
- șansa ca eșantioanele mici să fie distorsionate este mare;
dificilă sau imposibilă este cu atât mai mare pentru categoriile ale căror frecvențe
sunt reduse în populație
Eșantionarea randomizată grupată (clustering): implică Eșantionare randomizată simplă fără înlocuire: fiecărui

5
selecția eșantionului în etape, astfel încât unitățile individuale individ îi este atribuit un număr și numerele sunt extrase
să fie grupate în grupuri apropiate geografic (se aleg aleator aleator; dacă se extrage de două ori același număr, se trece la
elevi din câteva școli) alt număr;
Avantaj: pt un cost fix, produce rezultate mai bune decât Eșantionare randomizată simplă sistematică: fiecărui
eșantionarea randomizată simplă individ îi este atribuit unu număr, iar numerele sunt extrase
Dezavantaj: pt. o dimensiune fixă a eșantionului, poate suferi folosind un pas de extragere i = N/n (unde N este dimensiunea
de erori majore (între indivizii care locuiesc grupați tinde să populației, iar n este dimensiunea eșantionului)
existe o mai mare asemănare)

Eșantionarea randomizată stratificată: eșantionul este Eșantionarea cu cote: se specifică cote pentru anumite
împărțit în sub-grupuri separate pe baza unor criterii de tipologii de indivizi care trebuie incluse pentru a reprezenta
stratificare și apoi sunt extrase eșantionare din fiecare sub- corect populația avută în vedere (poate fi echivalentul
grup; stratificării din suportul de curs);
Stratificarea proporționată: se extrage un anumit procent Avantaj: un eșantion care seamănă cu populația poate fi
de unități pe baza randomizării simple a.î. procentul unui strat obținut foarte repede și cu costuri reduse;
din eșantion să fie identică cu procentul aceluiași strat din Dezavantaj: pot apărea prejudecăți (biases) în selecție care să
populație facă eșantionul nereprezentativ pt. variabilele pt. care nu au
Stratificarea disproporționată: pt. a spori eficiența fost fixate cote
statistică se pot alege eșantioane mai mari în cazul grupurilor
de mici dimensiune; ulterior acestea sunt ponderate-negativ
pentru a ajunge la procentul corect din populație
Studiu longitudinal: un singur fenomen este studiat pe Studiu transversal: un singur fenomen este studiat pe
același eșantion în momente diferite de timp (un singur eșantioane diferite, care corespund unor momente diferite de
eșantion de copii este studiat la 6, 7 și 8 ani); timp (există 3 eșantioane, unul cu copii de 6, altul de 7 și altul
- sunt afectate de testarea repetată a participanților care pot de 8 ani care sunt studiate o singură dată);
afecta comportamentul subiecților și durează mult timp - sunt mai rapide, dar suferă de efecte de cohortă:
Studiu cu eșantioane independente succesive: în primul participanții nu diferă doar în ceea ce privește vârsta, ci și
an este selectat un eșantion (care include copii de 6, 7 și 8 experiența de viață = nu se poate ști dacă diferențele se
ani), în anul următor un al doilea eșantion și în al treilea an, datorează vârstei sau experiențelor de viață diferite.
un al treilea eșantion similar;
- participanții sunt independenți, alegerea unui participant
într-un eșantion nu influențează alegerea altor participanți în
alt eșantion
Tendința centrală a unei distribuții este dată de: 2. Modul: scorul care apare cel mai frecvent
1. Media aritmetică - apare ca bara cea mai înaltă din histogramă sau punctul cel
2. Modul mai înalt din poligon;
3. Mediana - într-o distribuție grupată apare ca un interval;
- nici o măsură a tendinței centrale nu reprezintă fidel - o distribuție poate avea două moduri = bimodală
scorurile dacă distribuția conține un nivel ridicat de Avantaje:
variabilitate - în cazul scalelor interval/raport indică dacă distribuția este
unimodală sau multimodală
- poate fi folosit pentru orice scală de măsurare
Scoruri nedeterminate (timpul de reacție): cercetătorul nu - este singura măsură a tendinței centrale care poate fi
știe cât îi va lua subiectului să răspundă și
folosită în cazul scalelor nominale
Scoruri cu final deschis (subiectul poate alege un răspuns -----------------------------------------------------------------------------------
precum 10 sau mai mult); 3. Mediana: este scorul din mijloc
- pot produce o medie care să reprezinte greșit rezultatele
- divide aria poligonului în două jumătăți egale, aria acestuia
- mediana are în acest caz un avantaj clar asupra mediei ca
fiind proporțională cu numărul scorurilor
măsură a tendinței centrale în statistica descriptivă
- nu este sensibilă la scoruri extreme
- nu poate fi folosită pentru scalele nominale

6
1. Media (proprietăți) Abaterea standard (proprietăți):
a. dacă o constată este adăugată sau scăzută din fiecare scor a. dacă o constantă este adăugată sau scăzută din fiecare scor
al distribuției, media crește sau scade cu acea constantă; al distribuției, abaterea standard nu va fi afectată; media se
b. dacă un fiecare scor dintr-o distribuție este înmulțit sau schimbă, dar distanța dintre scoruri rămâne constantă
împărțit cu o constantă, media va fi înmulțită sau împărțită cu b. dacă un fiecare scor dintr-o distribuție este înmulțit sau
acea constantă; împărțit cu o constantă, abaterea standard va fi înmulțită sau
c. suma abaterilor de la media va fi întotdeauna 0; împărțită cu acea constantă;
d. suma pătratelor abaterilor de la medie va fi mai mică decât c. abaterea standard față de medie va fi mai mică decât
suma pătratelor abaterilor în jurul oricărui alt punct din distribuție abaterea standard față de orice alt punct al distribuției.
Măsuri ale variabilității 1. Amplitudinea: diferența dintre valoarea cea mai mare și
1. Amplitudinea cea mai mică a setului de date;
2. Amplitudinea semi-intercvartilă - surprinde întreaga distribuție, fără excepție
3. Abaterea medie - este influențată de valori extreme și tinde să fie înșelătoare
4. Varianța când distribuția include câte scoruri extreme;
- este determinată doar de două valori;
5. Abaterea standard
- nu poate fi folosită în cazul distribuțiilor care conțin scoruri
nedeterminate la un capăt al setului de scoruri;
- nu permite analize statistice inferențiale
2. Amplitudinea inter-cvartilă: jumătate din diferența 3. Abaterea medie: distanța medie cu care scorurile deviază
dintre scorurile Q3 și Q1; față de medie;
- oferă distanța unui scor tipic față de mediană = - se folosesc scorurile absolute (nu se ține cont de semnul
jumătate din scorurile din distribuție delimitate de intervalul negativ al scorurilor); rar folosită în statistica avansată.
inter-cvartilic vor fi mai apropiate de mediană, iar jumătate se 4. Varianța: media pătratelor valorilor abaterilor medii =
vor afla mai departe; media pătratelor abaterilor de la medie
- se bazează pe centile; - este un indicator de arie
- se aplică scalelor de măsurare ordinale și numerice; - varianța unui eșantion se obține împărțind suma pătratelor
- nu este afectat de valori extreme / distribuții asimetrice; la N (N = numărul scorurilor); la nivelul populației această
- se pretează la situații open-ended; formulă tinde să subestimeze varianța populației = bias
- relativ rezistent la fluctuațiile eșantionare; - varianța la nivelul populației suma pătratelor se împarte la
N-1 = unbiased sample variance
---------------------------------------------------------------------------------- 5. Abaterea standard: radical din varianță
Gradele de libertate (df): numărul de abateri care pot varia - procesul de ridicare la pătrat și de obținere a mediei dă o
liber; mai mare greutate scorurilor mari, care nu este îndepărtată
- df = N – 1 prin extragerea radicalului;
- este necesar pentru a obține o estimare nedistorsionată a - nu este niciodată mai mică decât abaterea medie
varianței populației - prin extragerea radicalului, aria rezultată în formula varianței
este redusa la un parametru unidimensional
Distribuții asimetrice - asimetria negativă: media se mută spre minus, media <
- o distribuție este asimetrică dacă majoritatea scorurilor mediana, jumătate din scoruri sunt peste medie;
sunt concentrare într-o singură parte a scalei; - asimetria pozitivă: media se mută spre plus, media >
- distribuție asimetrică negativă = coada poligonului este mediana, jumătate din scoruri sunt sub medie;
spre stânga, spre minus; - floor effect: asimetriile pozitive apar când există o limită a
- distribuție asimetrică pozitivă = coada poligonului este valorilor variabilelor la capătul inferior, nu și la capătul
spre dreapta, spre plus; superior sau când majoritatea valorilor sunt grupate la limita
- mediana nu este puternic afectată de asimetria distribuției, inferioară, nu și la cea superioară;
lucru care poate fi un avantaj în măsurarea tendinței centrale; - ceiling effect: scorurile sunt grupate lângă limita superioră,
- după aflarea medianei, un scor din distribuție poate fi mutat nu și către cea inferioară;
cât se poate mult de aceeași parte a medianei fără ca aceasta - mediana este preferată când floor effect sau ceiling effect
să fie afectată; nu este valabil pt. medie, care este afectată de influențează puternic distribuția;
valoare numerică a fiecărui scor din distribuție; - asimetria influențează puternic abaterea standard; abaterea

7
- media se mută în direcția cozii distribuției asimetrice; medie este afectată mai puțin
Kurtosis: gradul de turtire a curbei distribuției - măsura kurtosis-ului este dată de suma abaterilor de la
- distribuția leptokurtică: o concentrare mai mare a medie ridicate la puterea a 4-a, împărțită la N înmulțit cu
scorurilor în mijloc și lipsa scorurilor în umeri = kurtosis abaterea standard ridicată la puterea a 4-a, din care se scade
pozitiv; cifra 3 (pentru a facilita comparația cu distribuția normală);
- distribuția platykurtică: are mai multe scoruri în umeri, o - este adimensională;
coadă subțire și un vârf mai puțin abrupt = kurtosis negativ; - are nevoie de cel puțin 4 valori pentru a putea fi definită;
- distribuția mesokurtică = distribuția normală; - arată dacă eșantionul a fost extras dintr-o populație
normal distribuită (la fel și skewness).
Skewness (asimetria): este egală cu media cuburilor Reducerea asimetriei produse de valorile extreme sau
abaterilor de la media distribuției; aberante:
- rezultatul poate fi pozitiv sau negativ, indicând un skewness - Trimming: eliminarea unui procent fix din valorile extreme
pozitiv sau negativ; sau aberante;
- dacă skewness-ul este 0, distribuția este simetrică; - Winsorizing: înlocuirea unui procent fix din scorurile
- este adimensional: adunarea, scăderea, înmulțirea sau extreme cu cea mai extremă valoare, din aceeași direcție, care
împărțirea la o constantă a scorurilor distribuției nu îl nu a fost eliminată;
modifică; - Transformarea datelor prin extragerea radicalului sau a
- skewness-ul unui eșantion este o estimare distorsionată al unui logaritm din toate scorurile distribuției
populației
Standardizarea procedurală (are loc în culegerea datelor) Transformarea liniară: permite compararea a două grupuri,
VS. chiar dacă procedurile nu au fost standard;
Standardizare statistică (are loc după culegerea datelor) = - permite compararea performantele unui individ față de
transformarea scorurilor brute în scoruri standard Z = media fiecărui grup din care face parte;
transformare liniară - modifică distribuția valorilor, media, tendința centrală,
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
-
valoarea abaterii standard, însă,
Valori extreme: o valoare care, într-o distribuție standard, - forma distribuției nu se schimbă (ridicarea la putere reușește
se află dincolo de 2,5 – 3 cote standard să schimbe forma distribuției; nu este cazul aici).
Scorul Z = cât de mult mă abat eu de la medie, față de cât se Distribuția normală (gussiană): este un model teoretic,
abat, în medie, ceilalți de la medie SAU matematic convenabil și rezonabil de precis care
- cu câte abateri standard se depărtează un anumit scor față aproximează foarte bine distribuția multor variabile din
de media distribuției; realitate, în general, a variabilelor;
- permite compararea scorurilor care au diferite unități de - fiind un model matematic descrie o infinitate de observații
măsură (lipsă de standardizare procedurală) datorită faptului care sunt pe o scală de măsurare continuă;
că, după standardizare, toate vor avea aceeași unitate de - în realitate nu există o infinitate de observații: observațiile
măsură = abaterea standard; sunt discrete =>
- daca Z = 0, scorul meu este egal cu media, a. nici o variabilă reală nu este distribuită identic cu distribuția
- scorul pozitiv sunt deasupra mediei, normală;
- dacă este negativ eu sunt sub medie. b. multe variabile nu sunt distribuite normal.
Proprietățile unei distribuții standardizate (de scoruri Z): Distribuția normală este definită de o ecuație care descrie
- media scorurilor Z este 0 (media scorurilor brute este scorul nu doar o curbă, ci o familie de curbe;
care se află la 0 abateri standard de medie = de ea însăși), - acestea pot avea medii și deviații standard diferite, însă
- abaterea standard și varianța vor fi 1 (abaterea standard a toate curbele distribuite normal sunt:
scorurilor brute este unitatea de măsură => este unitară = 1), a. simetrice (skewness 0);
- forma distribuției nu se schimbă (folosind o constantă, b. unimodale și continue,
relații proporționale dintre scoruri rămân la fel). c. mezocurtice (curtozis 0),
Ale proprietăți: d. au un caracter asimptot (oricât departe ne-am duce față de
- semnul + sau – indică dacă scorul se află deasupra sau sub medie nu am atinge valoarea 0).
medie; e. aria de sub curba unei distribuții normale este distribuită
- magnitudinea scorului Z indică distanța acestuia față de identic:
medie în termeni de deviații standard; - 68% la 1 abatere standard,

8
- comparația a două distribuții de scoruri standard Z are sens - 95% la 2 abateri standard,
doar dacă cele două au forme similare (în cazul formelor - 99,7% la 3 abateri standard;
diferite pot fi folosite centilele); - pt. identificarea unei anumite poziții este nevoie de o
Scorurile standard normalizate: procesul de transformare variabilă care să nu fie dependentă de o medie și o abatere
modifică forma distribuției, rezultând o distribuție normală; standard particulare => scorul Z
Dezavantaje ale scorurilor Z: Distribuția normală aproximează bine modul în care se
- scorurile Z au atât valori pozitive +, cât și negative -; comportă distribuția mediilor (eșantioanelor selectate
- majoritatea se vor afla între 0 și 2 și va fi nevoie de două întâmplător);
zecimale pentru ca localizarea să fie suficient de precisă; - curba erorilor nesistematice sunt distribuite gaussian (au
- cele două de mai sus pot crea probleme de comunicare. forma, distribuția gaussiană/normală).
Scorurile T sau SAT: Teorema limitei centrale: distribuția mediilor unui
SAT = 100z + 500 / T = 10z + 50 număr infinit eșantioane, extrase aleator dintr-o
- un set complet de scoruri T va avea media 50 și abaterea populație și având toate aceeași dimensiune,
standard 10 aproximează o formă gaussiană pe măsură ce mărimea
Scoruri derivate: corelează poziția unui scor brut fie cu eșantioanelor crește, indiferent de forma populației din
a. alte scoruri din aceeași distribuție, fie cu care ele sunt extrase;
b. distribuția scorurilor brute obținute de un grup - chiar dacă distribuția populației este asimetrică,
reprezentativ (grupul de control); rectangulară, diferită de normală, distribuția mediilor
- furnizează un cadru standard de referință în care eșantioanelor tinde să devină normală;
însemnătatea unui scor poate fi mai bine înțeleasă. - distribuția mediilor permite trecerea de la eșantion la
Două categorii: populație;
A. scoruri derivate care păstrează relația proporțională a - cu cât eșantioanele sunt mai mari, mediile eșantioanelor
distanțelor dintre scoruri dintr-o distribuție (scorurile Z și alte sunt mai apropiate de media populației;
transformări liniare); - fluctuația de eșantionare se reduce pe măsură ce
B. cele care nu fac acest lucru (centilele) dimensiunea eșantionului crește.
Distribuția mediilor eșantioanelor Trecerea de la eșantion la populație: se face pe baza unei
- grupurile nu pot fi comparate cu distribuția indivizilor, ci cu distribuții normale, presupunând că:
distribuția grupurilor de aceeași dimensiune; 1. distribuția mediilor eșantioanelor reflectă o
- se folosește media sau alți indicatori ai tendinței centrale distribuție normală la nivelul populației;
pentru comparație; - dacă distribuția nu este normală la nivelul populației, sunt de
- între eșantioane există mult mai puțină variației decât între ajutor:
indivizi => este afectată măsura în care un grup este a. teorema limitei centrale
considerat neobișnuit; b. dimensiunea eșantionului: cu cât eșantionul este mai mare,
- cu cât eșantioanele sunt mai mari, cu atât mediile acestora cu atât distribuția mediilor eșantioanelor se apropie de una
sunt mai apropiate între ele => o eroare standard mai mică normală =>
(eroarea standard este echivalentul abaterii standard); A. dacă variabilele sunt distribuite aproape normal, se poate
- eroarea standard este egală cu abaterea standard a presupune că distribuția mediilor eșantioanelor este normală
populației împărțită la radical din dimensiunea eșantionului chiar și pentru eșantioanele mici (eroarea este neglijabilă);
Cercetarea corelațională B. dacă distribuția este mult prea asimetrică sau are o formă
- este folosită pentru a descrie relația dintre două sau mai diferită decât cea normală, distribuția mediilor eșantioanelor
multe variabile care apar în mod natural: nu va fi una normală, decât dacă dimensiunea eșantionului
- pt. a se determina dacă o variabilă este legată de o altă este suficient de mare (eșantioane de 30 – 40 tind să fie
variabilă se verifică dacă scorurile celor două variabile variază adecvate).
împreună; 2. eșantioanele sunt alese aleator: dacă dimensiunea
Coeficienții de corelare exprimă natura relațiilor dintre eșantionului este N, fiecare eșantion posibil de dimensiunea N
două variabile; care ar putea fi format din populație trebuie să aibă aceeași
- indică gradul în care două variabile se corelează într-un probabilitate de a fi selectat; acest lucru înseamnă:
mod liniar; A. fiecare individ din populație trebuie să aibă o șansă egală
Coeficientul de corelare Pearson (r): este cea mai folosită de a fi selectat și
măsură a corelației; măsoară doar corelațiile lineare (nu

9
se aplică corelațiilor curbilinii sau altor forme de corelare); B. fiecare selecție trebuie să fie independentă de toate
- variază între – 1.00 și + 1.00; celelalte => Eșantionare randomizată independentă;
- se folosește atunci când ambele variabile, x și y, sunt pe - tehnic, eșantionarea trebuie făcută cu înlocuitor (după ce
scale de măsurare interval sau raport; un subiect a fost selectat, acesta trebuie reintrodus în
- indică semnul și magnitudinea: populație a.î. să poată fi selectat mai mult decât o singură
Semnul corelației: „+” indică o corelare pozitivă = o relație dată = a avea șansa de a fi selectat în fiecare eșantion);
directă, pozitivă între cele două variabile, „ -„ indică o corelare - în realitate, eșantionarea se face fără înlocuitor; în cazul
negativă = creșterea valorii unei variabile este asociată cu grupurilor mari, eroare introdusă de riscul ca același individ să
scăderea valorii celeilalte variabile nu fie selectat de două ori este neglijabilă

Magnitudinea corelației: este o valoare numerică care Reprezentarea grafică a corelațiilor


ignoră semnul și exprimă puterea relației dintre cele două - diagrama de corelație;
variabile; - corelare pozitivă: pantă în urcare spre dreapta;
- r = 0 exprimă lipsă unei corelații liniare între variabile; - corelare negativă: pantă în coborâre spre dreapta;
- de obicei, r ≤ 0,10 reprezintă corelații care sunt de - cu cât este mai puternică corelația, cu atât scorurile sunt mai
magnitudine mică (sunt responsabile doar pentru 1% din apropiate de o linie imaginară care trece printre ele;
varianță), r = în jur de 0,30 reprezintă corelații moderate, iar - în cazul unei corelări perfecte (-1 sau +1), toate scorurile
r ≥ 0,50 reprezintă corelații puternice formează o linie perfectă;

r=
∑ (X − X́ )(Y −Ý ) - în cazul unei corelări 0, scorurile apar sub forma unei așezări
n Sx Sy întâmplătoare de puncte pe toată suprafața diagramei;
- există posibilitatea ca o corelație 0 să fie de fapt o corelare
curbilinie (nu este acoperită de coeficientul de corelare r).
r=
∑ Zx Z y -----------------------------------------------------------------------------------
n Seminificativitatea statistică a lui r
Z Z
- x y = cotele standard ale scorurilor brute z = (x -m)/s - există atunci când un coeficient de corelare calculat pe
Coeficientul de determinare: un eșantion are o probabilitate foarte mică să fie 0 în
- comunică proporția varianței totale într-o variabilă populație;
care este corelată cu varianța sistematică a celeilalte - o corelație semnificativ statistic există atunci când
variabile (ex: 6,5% din varianța scorurilor pentru variabila X probabilitatea care aceasta să fie ZERO la nivelul
se datorează variabilei Y); populației este suficient de mică (de obicei, mai puțin de
- în măsura în care două variabile sunt corelate, scorurile 0,5);
uneia dintre ele sunt dependente de scorurile celeilalte și - factori care afectează semnificativiatatea statistică a lui r:
varianța sistematică este prezentă; a. mărimea eșantionului: cu cât mărimea acestuia este mai
- coeficientul de determinare exprimă cât la sută din mare, cu atât o corelație particulară este mai semnificativă;
varianța unei variabile se datorează celei de-a doua b. magnitudinea corelației: pentru o anumită dimensiune a
variabile; eșantionului, cu cât este mai mare r, cu atât este mai puțin
- este obținut prin ridicarea la pătrat a coeficientului de probabil ca acesta să fie 0 în populație;
corelare; c. cât de siguri ne dorim să fim că nu tragem o concluzie
- coeficientul de corelare nu se află pe scală raport; este adus greșită în ceea ce privește semnificativitatea statistică a lui r,
pe scala raport prin ridicarea la pătrat; respectiv ca acesta să nu fie 0 în populație;
- cu cât varianța / coeficientul de determinare este mai mare, - există tabele care arată care ar trebui să fie valoarea
cu atât relația dintre cele două variabile este mai puternică. minimă a lui r, în funcție de dimensiunea eșantionului, pentru
Factori care distorsionează corelațiile ca acesta să fie semnificativ statistic <=> să există mai puțin de
1. amploarea restrânsă a eșantionului: corelațiile 5% șanse ca corelația la nivelul populației să fie 0;
obținute pe un grup relativ omogen de participanți, cu - semnificativatea statistică ne spune doar cât de
scoruri care cad într-un interval restrâns, sunt mai mici probabil este ca corelația să fie 0 la nivelul populației .
decât cele obținute utilizând eșantioane eterogene cu o Corelare și cauzalitate
gamă variată de scoruri; - corelația nu implică cauzalitate, nici dacă două variabile sunt
- este necesară analiza datelor brute pentru a se verifica dacă perfect corelate (r = -1.00 sau + 1.00)

10
scorurile nu sunt artificial restrânse; Pentru cauzalitate, este necesar să fie îndeplinite 3 criterii:
- problema poate fi mai serioasă în cazul variabilelor care a. covariația sau corelarea: dacă o variabilă o cauzează pe
sunt corelate curbiliniu, iar intervalul de scoruri este restrâns; alta, atunci schimbări în ceea ce privește o variabilă ar trebui
2. valori aberante = valori aflate la mai mult de 3 abateri să fie asociate cu schimbări în cea de-a doua variabilă;
standard față de medie; b. presupusele cauze preced presupusele efecte în timp;
- valorile aberante aflate în linie umflă, cresc în mod artificial - greu de realizat în studiile corelaționale; de cele mai
coeficienții de corelare; multe ori ambele variabile sunt măsurate în același timp;
- valori aberante în afara liniei, dezumflă, scad în mod c. toate efectele străine care ar putea influența relația dintre
artificial coeficienții de corelare; două variabile sunt controlate sau eliminate;
3. fiabilitatea/fidelitatea măsurătorilor: cu cât sunt mai - două variabile pot fi corelate datorită faptului că ambele
scăzute, cu atât este mai mic coeficientul de corelare. sunt legate de o a treia variabilă.
Corelația parțială: este corelația dintre două variabile Coeficientul de corelare Spearman: este folosit atunci când
rezultată din eliminarea statistică a uneia sau mai una sau ambele variabilele sunt măsurate pe scale ordinale;
multor variabile terțe (care ar putea influența prima Coeficientul phi: este folosit când una sau ambele variabile
corelație); sunt măsurate pe scale binare (ex: sexul, da sau nu);
- se poate concluziona că o posibilă explicație cauzală a Coeficientul de corelare biserial: este folosit atunci când o
relației dintre variabile este mai probabil să fie corectă decât variabilă este măsurată pe scală binară, iar a doua este pe
alte explicații cauzale; scală interval sau raport.
- folosind corelația parțială se pot testa ipoteze privind - o dată calculați, toți coeficienții de mai sus sunt interpretați
posibilele efecte produse de o a treia variabilă asupra precum coeficientul Pearson r.
corelațiilor dintre două variabile; -----------------------------------------------------------------------------------
- dacă x este corelat cu y atunci: Covarianța = o exprimare nestandardizată a gradului de
a. x cauzează y asociere (fără transformarea în scoruri Z) = modul în care
b. y cauzează x variabilele variază împreună, pozitiv sau negativ;
c. z cauzează x și y; - covarianța crește pe măsură ce variabilele indică o tendință
- dacă x și y sunt corelate chiar și atunci când varianța mai mare de a varia împreună;
sistemică produsă de z este îndepărtată, atunci este
improbabil ca z să producă relația dinte x și y; Cov XY =
∑ (x i− x́ )( y i− ý )
- dacă x și y nu se mai corelează după îndepărtarea N −1
influenței lui z, atunci corelația dintre ele este produsă de z
sau de alte variabile asociate lui z.
Corelația perfectă pozitivă: fiecare persoană din grup are Varianța unei variabile: covarianța unei variabile cu ea
același scor z în cazul ambelor variabile; însăși;
Corelație perfectă negativă: fiecare persoană din grup are ∑ ( x i− x́)2
același scor z în cazul ambelor variabile, dar de semn contrar. Var =x
N −1
----------------------------------------------------------------------------------
Coeficientul de corelare al populației – rho (ρ ¿:
Transformarea lineară: o transformare care nu schimbă
coeficientul r al lui Pearson care ar fi calculat dacă o întreagă
scorurile z = scorurile originale pot fi adunate, scăzute,
populație ar fi măsurată;
înmulțite și împărțite la o constantă fără ca acest lucru să
- poate fi calculat pe baza unui eșantion:
schimbe corelarea perfectă existentă între scorurile originale și
- este afectat de:
scorurile transformate;
a. amplitudinea restricționată sau trunchiată : este - relativa poziție a măsurilor celor două variabile este
eșantionată doar o mică parte din populație care, de obicei, importantă, și nu scorurile absolute.
indică un r mai mic decât în populație ( ρ ¿;
- în cazul relațiilor curbilinii, r poate fi considerabil mai mare Puterea testului de corelație
decât ( ρ ¿ - ipoteza nulă pentru un studiu de corelație este aproape
b. scorurile extreme (outliers) întotdeauna ρ0 = 0 (ipoteza nulă înseamnă că nu există nicio
---------------------------------------------------------------------------------- corelație între variabile la nivelul populației);
- r descrie mărimea efectului la nivelul populației, nu și dacă
Transformarea Fisher Z:
ipoteza nulă este sau nu semnificativă statistic (nu ne spune și
- ajută la construirea unui interval de încredere pentru
cât de probabil este ca corelația să fie de fapt 0 la nivelul pop.)

11
corelație realizată în special când rho ( ρ ) se apropie de ±1; - este nevoie să transformăm ρa (care este r-ul prognozat la
- când rho ( ρ ) = 0, coeficientul lui Pearson r formează o nivelul populației) în delta (δ ¿ :
distribuție simetrică în jurul lui 0, care poate fi aproximată δ =√ N−1∗ρa
printr-o distribuție normală; - pe baza cotațiilor din tabel se află puterea corelației;
- cu cât rho ( ρ ) se apropie de ±1, cu atât r nu va fi distribuit - puterea corelației poate fi folosită pentru a determina
simetric în jurul lui rho ( ρ ) => ceiling effect deoarece r nu numărul maxim de subiecți care ar trebui folosit pentru a
poate fi mai mare de 1 => o distribuție cu atât mai obține un anumit grad de putere statistică (se introduce δ
asimetrică cu cât rho (ρ) se apropie de ±1; dorit și cel mai mic nivel acceptat al lui ρa și se extrage N.
- pentru a construi un interval de încredere pe baza unei Utilizarea studiile corelaționale
distribuții normale se aplică transformarea Fisher Z => r-ul 1. studiu de tip survey: se estimează relații dintre diferite
transformat devine Z: variabile;
2. studiu metodologic: se testează indicatorii psihometrici ai
Transformarea Fisher Z: instrumentelor de măsurare (test – retest, split-half, inter-
- se găsește în tabelul lui Fisher scorul Z r care corespunde lui item, validitatea criteriilor self-report);
r 3. alte studii: experimental sau cvasi-experimental
- exemplu: dacă r = - 0,735 => Z r = - 0,94; se calculează -----------------------------------------------------------------------------------
eroarea standard pentru Z r și se fixează intervalul de Strategiile avansate de corelare permit:
încredere (de obicei este 95%): a. dezvoltarea de ecuații care descriu modul în care variabilele
1 sunt legate și care permit predicții privitoare la o variabilă pe
Eroarea Standard ( Z r )=
√ N −3 baza unei sau mai multor alte variabile (analizele de
- la N = 6, Eroarea Standard ( Z r) = 0,577; pentru Z r = - 0,94 și regresie);
intervalul de încredere de 95% se știe că limitele intervalului b. explorarea direcției probabile de cauzalitate dintre două
de încredere se află la ± 1,96 abateri standard => se sau mai multe variabile corelate: cross-lagged panel și
înmulțește 1,96 cu valoarea Erorii Standard Z r [ 1,96 * 0,577 = analiza ecuațiilor structurale;
1,13] și se adună/scade la valoare ei la Z r => - 0.94 ± 1,13 = c. identificarea dimensiunilor de bază care susțin setul de
0.19 / -2.07; corelații (analizele factoriale).
=> avem valorile Z r care formează intervalul pentru care -----------------------------------------------------------------------------------
avem o probabilitate de 95 să găsim coeficientul r; avem însă Consecința existenței unei corelații între două variabile :
nevoie să folosim tabelul transformărilor lui Fisher pentru a dacă se cunoaște scorul unei variabile, se poate prezice scorul
aduce valorile lui Z r găsite înapoi la coeficienți r (care sunt celeilalte variabile;
între ±1) => valorile lui r = 0,968 și - 0,188 => putem spune cu - predicțiile nu sunt exacte, însă au o mai mare precizie decât
o probabilitate de 95% că rho ( ρ ) se află în acest interval; cele făcute prin hazard;
- datorită faptul că în acest interval există și 0, nu putem Regresia lineară
exclude ipoteza nulă = probabilitatea ca în populație să nu Scopul: dezvoltarea unei ecuații de regresie prin
existe nicio corelație; acest lucru se datorează eșantionului intermediul căreia putem prezice un scor pe baza unuia sau
foarte mic (N=6) mai multor alte scoruri;
Analiza de regresie simplă: implică specificarea - în cazul corelării liniare a două variabile => o linie poate fi
modelului = desemnarea rolurilor în analiză: trasată prin scoruri pentru a reprezenta relația dintre variab.;
Variabila dependentă, criteriu, rezultat = y, variabila pe - scopul analizei de regresie devine găsirea ecuației pentru
care dorim să o aflăm; linia respectivă care descrie cele mai bine tiparul datelor
Variabila predictor, examen sau diagnostic = x, variabila existente;
independentă, pe care o cunoaștem; -----------------------------------------------------------------------------------
β₀ = constanta de regresie, intercept, este punctul în care Regresia multiplă: implică folosirea a mai multor variabile
linia care reprezintă cel mai bine relația dintre x și y predictor pentru aflarea unei variabile dependente;
intersectează axa Y (valoarea pe care o va lua y atunci când x - în mod obișnuit îmbunătățește acuratețea predicției;
este 0) - există:
1. Regresie multiplă standard;
β₁ = coeficientul de regresie, înclinarea liniei care reprezintă
2. Regresie multiplă în trepte (stepwise);
cel mai bine relația dintre x și y (cu cât crește y atunci când x
3. Regresie multiplă ierarhică
crește cu o unitate)

12
Y = β₀ + β₁x
Regresia multiplă în trepte (stepwise): variabilele răspunde de mare parte din variabilitatea cu care se corelează
predictor sunt introduse pe rând; și cea de-a doua, aceasta din urmă nu mai este necesară);
- prima variabilă predictor introdusă este cea care se => variabilele sunt introduse în ecuație pe baza abilității lor de
corelează cel mai puternic cu variabila criteriu; a se corela cu o varianță unică din variabila criteriu;
- în a doua etapă este introdusă variabila predictor care - procesul în trepte se oprește atunci când:
contribuie cel mai puternic la predicția variabilei criteriu, a. au fost introduse în ecuație toate variabile (se întâmplă
ținând cont de faptul că prima variabilă se află deja în acest lucru dacă fiecare dintre acestea au o contribuție unică
ecuație; la predicția variabilei criteriu);
- a doua variabilă nu este obligatoriu să fie a doua cea mai b. variabilele predictor rămase nu pot contribui în mod unic
puternic corelată variabilă cu variabila criteriu, conform la predicția variabilității din variabila criteriu.;
coeficientului de corelare (dacă prima variabilă introdusă -->> - modelul stepwise este sensibil la eșantionul pe baza căruia
este construit și nu va fi la fel de puternic pe un alt eșantion.
Regresia multiplă standard = regresie multiplă simultană: Regresia multiplă ierarhică: variabilele predictor sunt
toate variabilele predictor sunt introduse în regresie în același introduse în ecuație într-o ordine predeterminată de
timp; cercetător, bazată pe ipoteza care se dorește a fi testată;
- formula va conține o constantă de regresie și un coeficient - pe măsură ce sunt introduse variabilele, contribuția fiecăreia
de regresie pentru fiecare variabilă predictor dintre ele la predicția variabilei rezultate poate fi evaluată în
Y = β₀ + β₁X + β₂X + […] +βnx fiecare etapă = cercetătorul poate determina dacă un anume
predictor este responsabil pentru o varianță unică în variabila
Corelația multiplă: răspunde la întrebarea „Cât de bine x
criteriu, influența celorlalte variabile predictor fiind
anticipează Y?” = exprimă puterea corelației;
îndepărtată statistic;
Coeficientul de corelare multiplă R: exprimă utilitatea - poate fi folosită pentru a îndepărta efectele variabilelor
unei ecuații de regresie pentru a realiza predicții; predictor introduse în primele etape pentru a putea vedea
- descrie gradul de corelare dintre variabila criteriu y și setul dacă predictorii introduși ulterior oferă contribuții unice la
de variabile predictor; variabila rezultat;
- variază de la 0 la 1.00; - este folosită de obicei pentru:
- un R mai mare reprezintă un grad de predicție mai ridicat al 1. a elimina variabilele confundate (datorită faptului că
ecuației; studiul corelațional nu poate controla sau elimina variabilele
- dacă este ridicat la pătrat (R²), indică procentul de externe, variabilele predictor se confundă = tind să acționeze
varianță dintr-o variabilă criteriu de care este simultan, făcând dificilă separarea diferitelor efecte asupra
răspunzător setul de variabile predictor; comportamentului);
---------------------------------------------------------------------------------- 2. pentru a testa ipotezele mediatoare, potrivit cărora
Evaluare direcției: oferă informații legate de plauzibilitatea efectul produs de x asupra lui y apare datorită intervenției
unei anumite ipoteze cauzale; variabilei z (dacă z mediază corelarea lui x cu y, atunci
1. Modelul Cross-Lagged Panel introducerea lui z ar trebui să elimine variabilitatea produsă de
- corelația dintre două variabile este calculată în două x asupra lui y; dacă varianța produsă de x rămâne, atunci z nu
momente diferite de timp; intermediază relația dintre x și y).
- de exemplu: se corelează scorurile x înregistrate la 2. Modelul ecuațiilor structurale: un mod mai sofisticat de
Momentul 1 cu scorurile y înregistrate la Momentul 2 și se a testa ipotezele cauzale folosind date corelaționale;
corelează scorurile y de la Momentul 1 cu scorurile x de la - având dat tiparul corelațiilor într-un set de variabile,
Momentul 2; dacă x produce y, ar trebui ca corelarea dintre x anumite explicații cauzale a relațiilor dintre variabile sunt
la Momentul 1 și y la Momentul 2 să fie mai mare decât mai logice sau probabile decât altele;
corelarea dintre y la Momentul 1 și x la Momentul 2; acest - având dat tiparul corelațiilor într-un set de variabile, anumite
lucru se datorează datorită faptului că relația dintre o cauză relații cauzale sunt virtual imposibile, în timp ce alte relații
(variabila x) și efectul acesteia (variabila y) ar trebui să sunt mai plauzibile;
fie mai puternică dacă variabila predictor este măsurată - pentru a realiza modelarea ecuațiilor structurale,
înainte decât după ce își produce efectul; cercetătorul face predicții precise privitoare la modul în care
---------------------------------------------------------------------------------- trei sau mai multe variabile sunt legate între ele;
- fiecare model presupune variabilele sunt corelate într-un
Analiza factorială: face referire la o clasă de tehnici
mod particular;

13
statistice folosite pentru a analiza relațiile dintre un număr - modelul ecuațiile structurale compară matematic matricea
mare de variabile; corelațiilor presupusă de un anumit model ipotetic cu
- are scopul de a identifica dimensiunile sau factorii care adevărata matrice corelațională rezultată din datele culese;
stau la baza tiparelor relaționate observate într-un set - se urmărește gradul în care modelul presupus se potrivește
cu matricea rezultată;
de variabile;
- într-un set mare de variabile se observă că unele dintre ele - analiza ecuațiilor structurale furnizează un index de
se corelează puternic, în timp ce altele slab; potrivire (fit index): arată cât de bine se potrivesc cele două
- se presupune că aceste tipare de corelare apar datorită elemente;
faptului că variabilele care se corelează puternic măsoară - modelarea variabilei latente (latent variable modeling):
același construct, iar cele care se corelează slab măsoară sunt folosite multiple măsurători pentru fiecare construct (se
constructe diferite; presupune că măsurătorilor estimează o singură variabilă);
- prezența corelațiilor mai multor variabile sugerează că - analiza căii (path analysis): se folosește o singură
variabilele sunt legate de aspectele unui factor de bază; măsurătoare a fiecărui construct.
Analiza factorială: încearcă să identifice numărul minim Analiza factorială, utilizare:
de factori sau dimensiuni care vor reuși rezonabil de bine 1. pentru a studia structura de baza a constructelor
să explice relațiile observate între variabile; psihologice sau a experiențelor (câte abilități mentale
- dacă toate variabilele se corelează puternic unele cu distincte există? care sunt expresiile emoționale primare?);
celelalte, atunci toate măsoară aspecte ale aceluiași construct 2. pentru a reduce un număr mare de variabile la unul
= analiza va identifica un singur factor; mai mic și mai ușor de administrat;
- dacă variabilele sunt total necorelate, analiza va identifica - de obicei sunt măsurate un număr mare de variabile știindu-
atâția factori câte variabile există; se că acestea măsoară un număr mic de constructe;
- soluția unei analize factoriale este prezentată într-o - o dată identificați factorii, proceduri statistice obișnuite pot
matrice factorială: intrările numerice din matrice sunt fi realizate asupra factorilor înșiși => a. se elimină redundanța
încărcările factoriale = corelațiile variabilelor cu factorii; în analiza mai multor măsurători ai aceluiași construct și b.
- încărcările factoriale sunt diferite de corelațiile dintre analizele sunt de obicei mai puternice și mai fiabile.
variabilele setul inițial de date; Criteriul celor mai mici pătrate sau al celui mai potrivit
- văzând care variabile încarcă un anumit factor, cercetătorii (best fit):
pot identifica natura acestuia; - linia care descrie cel mai bine tiparul datelor existente este
- sunt luate în considerare variabilele care încarcă cel puțin ± formată din valori estimate pe baza ecuației de regresie,
0,30 fiecare factor; care sunt diferite de valorile reale;
----------------------------------------------------------------------------------
- criteriul celor mai mici pătrate al lui Pearson spune că
Regresia lui y pe baza lui x:
linia cea mai potritivă (best fit) minimizează pătratele
z’ᵧ = rzᵪ diferențelor dintre valoarea reală și valoarea estimată;
- z’ᵧ = valoarea scorului standard al lui y; Linia regresiei și media:
- r = coeficientul de corelare dintre x și y; a. atât linia regresiei, cât și media minimizează suma
- zᵪ = valoarea scorului standard x pe baza cărui z’ᵧ este discrepanțelor la pătrat și au proprietăți analoage, inclusiv
estimat; rezistența la variația eșantionului;
1. pentru toate valorile lui r, ecuația regresiei estimează b. linia regresiei este un fel de medie, este o serie de medii:
că un caz al mediei lui x va întâlni media lui y pe linia de pentru fiecare valoare a lui x, linia regresiei ne spune media
regresie  linia de regresie va trece întotdeauna printr-un estimată a lui y  dacă Ym este media tuturor valorilor lui y
punct definit de media lui x și media lui y; dintr-un set de scoruri, y’ este un estimat al mediei lui y, fiind
2. dacă r = 0, estimarea valorii scorului standard y va fi dată o anumită valoare a lui x (este un fel de medie a lui y pt.
întotdeauna 0  dacă corelația este zero, atunci valoarea o anumită valoare a lui x);
estimată a lui y este media lui y indiferent ce valoare a lui x
este folosită pentru a-l prezice pe y;
Regresia lui y pe baza lui x (formula scorurilor brute): Eroarea standard a estimatului ( S xy):
Sγ Sγ ∑ ( Y −Y ' )2
Y '= r ( ) ( )
Sx
X− r
Sx
X m+Ym S xy =
√ n
'
Y = scorul brut estimat al lui y - valoarea estimată a lui y este doar un estimat al valorii medii

14
S x , Sγ = abaterile standard ale lui x și y a lui y pentru cazurile rezultate dintr-o valoarea dată a lui x;
Xm, Ym = mediile lui x și y - doar când corelația este unitară (= 1) valorile actuale vor
r = coeficientul de corelare dintre x și y egala regulat și precis valorile estimate (când corelația este
perfectă (= ± 1), fiecare valoare a lui (y – y’) este egală cu 0 și,
^y sau y ' =β 0 + β 1 x drept urmare, eroarea standard Sγχ=0;
- S xyeste abaterea standard a scorurilor y obținute în
Eroarea în estimarea lui y pornind de la x: raport cu scorurile y estimate;
- deoarece scorul estimat y’ este un fel de medie, iar eroarea
standard a estimatului ( S xy) este un fel de abatere standard, S xy =S y √ 1−r 2
având o distribuție normală bivariată (a lui y), atunci valorile
lui y sunt distribuite sub formă gaussiană: - S xy variază de la 0, când corelația este perfectă, la S y când
68% din valorile reale ale lui y se află între y’ ± 1.00 S xy nu există nici un fel de corelație;
95% din valorile reale ale lui y se află între y’ ± 1.96 S xy
99,7% din valorile reale ale lui y se află între y’ ± 3.00 S xy
Condiții care privesc estimarea erorii de predicție : Eșantion aleator/randomizat = un mod de eșantionare
1. relația dintre cele două variabile trebuie să fie liniară; probabilistică;
- dacă nu se întâmplă acest lucru, atunci pentru majoritatea - este un eșantion extras într-un asemenea mod încât fiecare
valorilor lui x, y’ va subestima sau supraestima media eșantion posibil de aceeași dimensiune din populație are
scorurilor y brute; șanse egale de a fi selectat;
2. variabilitatea lui y real raportat la y’ trebuie să fie - este definit de metoda de selecție și nu de rezultat;
constantă pentru toate valorile lui x; - fiecare element din populație trebuie să aibă o șansă egală
3. scorurile y reale trebuie să fie distribuite normal pentru să fie inclus în eșantion;
toate valorile lui x;
Distribuția mediilor eșantioanelor randomizate
4. stabilirea erorii în estimarea lui y nu ia în calcul influența
- o distribuție este definită complet de medie, abaterea
variației eșantionului randomizat, care extind intervalul în
standard și formă =>
care y real se va regăsi (mai puțin pentru predicțiile făcute
1. media ( X́ ) oricărei distribuții a (tuturor) mediilor
pentru valorile centrale ale lui x și mai mult pentru valorile
eșantioanelor randomizate ( denumită valoarea prognozată a
distante ale lui x).
mediei eșantionului ) = este aceeași cu media populației de
Inferența statistică, obiective:
scoruri ( μ x)
a. obținerea unei concluzii privitoare la un parametru al
μ x́ =μx
populației pe baza unui eșantion extras din populație ;
b. identificarea diferențelor dintre populații în ceea ce 2. abaterea standard a distribuției mediilor eșantioanelor
privește un anumit parametru; randomizate = eroarea standard a mediei (σ x́ ), depinde
Tipuri de proceduri de inferență: abaterea standard a populației (σ x ) și mărimea eșantionului n:
1. testarea ipotezelor (ipoteza = o declarație privitoare la
un parametru din populație care poate fi testată și, pe baza σx
σ x́ =
rezultatelor obținute, respinsă sau acceptată) și √n
2. estimarea; întrebarea care privește estimarea: Cât de - eroarea standard a mediei (σ x́ ) este abaterea standard a
aproape este estimarea noastră de adevărata valoare a distribuției mediilor ( X́ ) eșantioanelor pe baza eșantioanelor
parametrului în populație? de o anumită mărime;
Cheia: aflarea valorilor eșantionului care vor apărea în - din formula erorii standard a mediilor =>
eșantionări repetate și cu ce probabilitate => este nevoie să a. mediile eșantioanelor variază mai puțin decât scorurile
putem descrie distribuția eșantioanelor; (când mărimea eșantionului este cel puțin 2);
- pentru a afla care sunt valorilor eșantioanelor care vor b. mediile eșantioanelor variază mai puțin atunci când
apărea și cu ce probabilitate, trebuie cunoscute regulile care scorurile în populație variază mai puțin;
leagă „comportamentul” eșantionului de populație; c. mediile eșantioanelor variază mai puțin când mărimea
- pot fi cunoscute dacă există o metodă sistematică de eșantionului este mai mare;
extragere a eșantioanelor și ea este folosită consistent; - distribuția mediilor/abaterilor standard a eșantioanelor este
- singura regulă utilă = eșantionarea probabilistică; A. o populație de valori și

15
Nivelul α = nivelul de risc asumat sau nivelul de eroare B. reprezintă toate posibilele medii/abateri standard ale
asumat (procentul de valori eliminat din calculul de estimare) eșantioanelor de o anumită dimensiune și, drept urmare,
- de obicei, este acceptat un nivel α = 0,05 = 5% reprezintă populația (nu doar o parte a ei);
Probabilitatea p = probabilitatea ca ipoteza nulă să fie - dacă forma populației scorurilor este distribuită normal,
corectă distribuția mediilor eșantioanelor va fi distribuită normal,
Testul Z pentru un eșantion = testul Z pentru un indiferent de mărimea eșantionului;
- nu există doar o distribuție a mediilor eșantioanelor, ci o
eșantion larg
familie a acestor distribuții, una pentru fiecare dimensiune
X́ −μ
z= posibilă a eșantionului;
s
Testul Z pentru un eșantion: este bazat pe statisticile unuia
√N sau mai multor eșantioane (ex: media) și urmărește o
- Testul Z pentru un eșantion larg, care implică folosirea lui s distribuție cunoscută (ex: distribuția normală);
atunci când σ este necunoscută, este valid doar în cazul unui - cu cât este mai mare scorul Z, cu atât este mai mic p;
eșantion suficient de mare (limita inferioară 30 – 40 subiecți); - un scor z foarte mare pentru un experiment particular este
- pt. eșantion de 100 sau mai mult este destul de precis. foarte rar, doar dacă ipoteza nulă se întâmplă să fie adevărată
- scopul: aflare scorului z care corespunde unei medii a eșant.
Ipoteza nulă = ipoteza care contrazice presupunerea sau Testul Z pentru un eșantion:
ipoteza de la care pornim; - scopul: este obținerea unui scor Z mare, dacă este
- dacă se dovedește că există o probabilitate extrem de posibil, care ar arăta că ipoteza nulă este falsă, tocmai
redusă ca ipoteza nulă să fie corectă, avem o dovadă pentru că, dacă am crede că ipoteza nulă este adevărată,
indirectă că presupunerea de la care am pornit poate fi am ajunge la concluzii implauzibile;
adevărată; - scorurile Z mari conduc la valori mici ale lui p, care permit
- furnizează o harta cu rezultatele care au rezultat sau pot respingerea ipotezei nule, însă nu înseamnă că abaterea
rezulta din întâmplare; mediei eșantionului este suficientă pentru a fi importantă sau
Eroarea de Tip I = respingerea ipotezei nule în situația în interesantă.
care ea este corectă ( p = α ); Testarea ipotezelor cu o singură coadă: face mai ușoară
Eroarea de Tip II = acceptarea ipotezei nule în situația în atingerea punctului de însemnătate statistică în coada avută în
care ea este falsă ( p = β ); vedere;
- evitarea erorilor de Tip I se poate face prin coborârea - ia în calcul ca eroarea să apară doar la un singur capăt al
nivelului α; distribuției;
- o coborâre prea mare a nivelului α poate însă conduce la - elimină posibilitatea de a testa rezultatele și în cealaltă
apariția erorilor de Tip II (= ignorarea unor ipoteze adevărate); coadă;
- nivelul α = 0,5 reprezintă un compromis între erorile de Tip Testarea ipotezelor cu două cozi: este considerată
1 și erorile de Tip 2 standard pentru psihologi, datorită prevalenței rezultatelor
- în testarea ipotezei nule se pornește de la o anumită medie neașteptate;
a populației, care este cunoscută, și se încearcă a se afla care - ia în calcul ca eroarea să apară în ambele capete ale
medii a eșantioanelor sunt probabile, drept urmare, se află distribuției.
distribuția mediilor eșantioanelor cea mai potrivită și se
centrează pe media populației
Media Varianța Dimensiunea Abaterea standard Abaterea standard
unbiased
Eșantion m, x́, X́ S2 n (N) s s
Populație M x, μ σ2 N σ
Eroarea standard a mediei = σ x́ Estimatul erorii standard a mediei = s x́
Testul T pentru un eșantion: Distribuția t: se aseamănă unei distribuții normale (are formă
- se folosește atunci când: de clopot, este simetrică, asimptotă și are media 0);
a. eșantionul este foarte mic (de obicei, sub 40); - la eșantioane de mici dimensiuni, s poate fluctua destul de
b. avem media unei populații, dar nu și abaterea medie; mult față de σ și nu mai reprezintă o constantă; acest lucru
c. se estimează o medie, pe baza unei predicții teoretice, iar face ca distribuția z să nu mai urmărească o distribuție
probabilitatea ei este testată pe baza unui experiment cu un normală la valori mici ale lui n;

16
eșantion; - există o distribuție t diferită pentru dimensiune a
d. subiecții din două grupuri sunt grupați câte doi potrivit eșantionului => spunem că există o familie de distribuții t;
unui anumit raționament care este relevant pentru variabila - distincția dintre distribuțiile t se face pe baza gradelor de
măsurată; ceea ce ar fi un test t pentru două grupuri devine libertate (df)
test t pentru un grup (împerecheat) pentru a afla scorurile df =N−1
diferite pentru fiecare pereche. - pe măsură ce gradele de libertate cresc, coada distribuției t
se subțiază și valorile t critice (extreme) devin mai mici
Creșterea eșantionului ajută la obținerea semnificativității Valorile critice ale distribuției t:
(clarității) statistice prin: - cresc pe măsură ce nivelul alpha (α ¿ scade;
a. un eșantion mai mare înseamnă mai multe grade de - descresc pe măsură ce gradele de libertate (df) cresc;
libertate df și o valoarea critică mai mică a lui t; - atunci când gradele de libertate ajung la valori maxime,
b. tinde să conducă la creșterea lui t și z. valorile critice t devin asemeni valorilor critice z, datorită
faptului că distribuția t ia forma unei distribuții normale;
Estimare punctuală: folosirea mediei eșantionului pentru a Estimare punctuală:
estima media populației = se sugerează un singur -->> - un eșantion mai mare oferă mai multă încredere
număr/punct care se așteaptă să corespundă mediei -->>
populației;
Estimarea interval <=> interval de încredere: Calcularea intervalului de încredere (CI) pentru media
- o cale mai informativă de estimare a mediei populației; populației:
- în mod obișnuit este construită prin amplasarea estimării 1. selectarea dimensiunii eșantionului: cu cât este mai
punctuale în mijloc și marcarea aceleiași distanțe la stânga și mare eșantionul, cu atât este mai redus intervalul de
la dreapta; încredere;
- alegerea distanței depinde de cât de multă încredere dorim - dacă eșantionul ar fi întreaga populație, intervalul de
să avem în estimarea noastră; încredere s-ar reduce la un singur punct: media eșantionului ar
- după construcția unui interval de încredere de 95% putem fi fi în acest caz egală cu media populației;
95% siguri că media se va afla în intervalul specificat (în 2. selectarea nivelului de încredere: nivelul de încredere
condițiile în care premisele de bază au fost respectate); trebuie determinat pentru estimarea intervalului;
- o eroare de 5% este considerată tolerabilă; - de obicei se alege un nivel de încredere de 95%, iar pe baza
- un interval de încredere de 99% este mult prea mare și lui se estimează intervalul de încredere;
identifică probabilitatea localizării mediei populației mult - este analog alegerii alpha pentru testarea ipotezei nule;
prea puțin precis. 3. selectare eșantionului randomizat și colectarea
----------------------------------------------------------------------------------
datelor: intervalul de încredere depinde de măsura în care
eșantionul este cu adevărat randomizat;
Intervalele de încredere pot fi reduse și astfel deveni mai 4. calcularea limitelor intervalului: se pornește de la o
precise prin:
medie a eșantionului și se încearcă a se afla care este
1. modificarea nivelului de încredere (nu este de dorit)
2. creșterea dimensiunii eșantionului N => are ca efect media populației care ar putea produce media eșantionului
și care nu;
reducerea lui s x́;
- se ia o distribuție normală și se centrează pe media
- creștere lui N cu un factor conduce la împărțirea lui s la
eșantionului, care este punctul estimat pentru media
radical din acel factor => intervalul de încredere este redus cu
populației: cu cât media posibilă a populației este mai
radical din factorul respectiv;
aproape de media eșantionului, cu atât e mai probabil ca
- se poate merge și în sens invers: se specifică mărimea
media eșantionului să fie media populației;
intervalului de încredere dorit și apoi se află mărimea minimă
- pentru 95% din scorurile normal distribuite, z = ± 1,96;
a eșantionului N;
- întrucât scorurile z pentru intervalul de încredere (ex: 95%)
Condiții care stau la baza testului t și a intervalelor de sunt cunoscute, ele pot fi convertite în scoruri brute, oferind
încredere: limitele în care media eșantionului ar putea să fie aceeași cu
a. eșantionarea randomizată media populației sau, altfel spus, limitele între care s-ar putea
b. distribuția normală: lipsa ei devine o problemă în special afla media populației (cu un procent de încredere de 95%);
pentru eșantioanele mici (sub N = 100); limitele se află la 2 abateri standard de o parte și de alta a
c. abaterea standard a populației eșantionate este egală cu mediei;

17
cea a populației comparate; - un interval de încredere mai mare (ex: 99%) solicită scoruri z
d. folosirea de intervale de încredere pentru media populației mai mari => intervale de încredere mai mari.
Studii descriptive: Studiile predictive: pot fi
1. univariate: descriu populația din perspectiva unei singure a. explorative: nu presupunea cunoașterea mecanismelor
variabile = spun ceva din distribuția în populație a unei cauzale;
singure variabile; - pot fi parte a studiilor bivariate și multivariate;
- scoruri extreme (outliers) = cele aflate la 2,5 - 3 abateri b. explicative: presupunea asumarea unor mecanisme
standard față de medie; cauzale teoretice;
2. bivariate: descriu populația din perspectiva a două - ambele folosesc analiza de regresie, care poate fi:
variabile = spun ceva despre relația dintre două variabile la 1. simplă: liniară sau non-liniară
nivelul populației; 2. multiplă: liniară sau non-liniară;
- scoruri extreme (outliers) = valorile variabilelor luate -----------------------------------------------------------------------------------
separat pot fi mai mici de 2,5 – 3 abateri standard, dar
Etapele studiului predictiv:
combinația, corelarea dintre ele să fie în extrema distribuției
1. Elaborarea unui model de predicție pe baza analizei de
bivariate;
regresie;
3. multivariate: descriu populația din perspectiva a mai
2. Verificarea generalității modelului;
multor variabile = vorbesc despre relațiile complexe dintre
3. Utilizarea modelului în scop predictiv.
variabile.
Analiza de regresie simplă R = coeficient de corelația
^y =β 0 + β 1 x R² = coeficient de determinare
^y = variabila dependentă, criteriu; 1 - R² = coeficient de alienare
x = variabila independentă, predictor; -----------------------------------------------------------------------------------
β 0= constanta de regresie, intercept, este punctul în care Homoscedasticitate: varianța în jurul unei linii de regresie
linia care reprezintă cel mai bine relația dintre x și y este la fel în fiecare punct al liniei = putem calcula varianța lui
intersectează axa Y (valoarea pe care o va lua y atunci când x Y pentru orice valoare particulară a lui X și vom găsi același
este 0); grad de împrăștiere, indiferent ce valoare a lui X alegem;
β 1 = B yx = coeficientul de regresie, înclinarea liniei care - justifică folosirea aceleiași valori a varianței estimatului ca
reprezintă cel mai bine relația dintre x și y (cu cât crește y marjă de eroare, indiferent la ce parte a liniei de regresie ne
atunci când x crește cu o unitate); uităm;
β 0=μ y −β 1 μ x vs.
Heteroscedasticitate: variabilitatea unei variabile este
sd y inegală de-a lungul liniei de regresie
β 1=r yx (formula din curs)
sd x
Analiza de regresie simplă Condiții pentru regresia lineară:
- pentru o corelație lineară perfectă, scorul z prezis pentru 1. eșantionare randomizată independentă: fiecare
y este același cu scorul z al lui x; pentru o corelație lineară subiect va fi selectat independent de ceilalți și va avea o șansă
perfect negativă, scorul z prezis pentru y este același cu scorul egală pentru a fi selectat;
z al lui x, ca magnitudine, dar de semn contrar; 2. linearitatea: rezultatele ar fi înșelătoare dacă corelația ar
- dacă o corelație nu este perfectă, scorul z prezis pentru y fi curbilinie;
este de r ori scorul z al lui x; dacă r = 0, predicția lui y este 3. distribuția normală: la fiecare valoare posibilă a lui X, Y
întotdeauna media lui y, indiferent de valoarea lui x; trebuie să urmeze o distribuție normală;
- pentru regresia în scoruri z, panta este r, iar 4. Homeoscedasticitatea
interceptul lui y este întotdeauna 0; Eroarea standard a estimatului ( S xy) unbiased (permite
- pentru scoruri brute, panta ( β 1 ¿ este de r ori raportul trecerea de la eșantion la populație):
dintre cele două abateri standard (pt. y și pt. x);
∑ ( Y −Y ' )2
- pentru scoruri brute, punctul de intercepție ( β 0 ¿ este
media lui y minus media lui x înmulțită cu panta;
- interceptul lui y nu are întotdeauna sens;
S xy =
sau
√ N−2

N −1
2
- varianța estimatului (σ est y ¿= varianța reziduală = S xy =S y
√ N −2
(1−r 2)

18
varianța în jurul liniei de regresie; - arată cât de împrăștiate sunt scorurile față de linia de
2
- când corelația este perfectă σ est y =0 , iar predicția nu regresie (2/3 dintre scoruri ar trebui să se afle la o abatere
implică nicio eroare; standard deasupra sau dedesubtul liniei)
2 2 2
- când r = 0, σ est y =σ y , unde σ yeste varianța totală a
scorurilor y;
- varianța totală poate fi împărțită în:
a. varianță neexplicată = varianța estimatului și
b. varianța explicată;
- coeficientul de determinare (r²) este proporția varianței
explicate raportată la varianța totală
- coeficientul de nondeterminare ( k²): este proporția
varianței neexplicate (a estimatului) raportată varianța totală;
k² = 1 - r²

19

S-ar putea să vă placă și