Sunteți pe pagina 1din 8

Curs Analiza bivariată

Pana in acest moment am vorbit de analiza univariată. In cercetările de marketing ne


interesează in schimb sa facem corelații intre variabile. Scopul unui sondaj nu este nu doar sa
aflam cine are principala șansă de câștig ci sa vede si cine pe cine susține.
Exemplul de mai jos este dat pe o baza de lucru a SPSS-ului ceva mai veche dar cred eu foarte
ușor de înțeles.
Intr-un chestionar variabilele demografice nu sunt puse doar pentru a vedea ca in cercetarea
mea au răspuns 60% femei si 40 % bărbați ci pentru a vedea daca sexul persoanei influențează
decizia de cumpărarea/ de vot sau ce ne interesează pe noi.

Putem face o corelaţie între două variabile care aparent nu au legătură sau să căutam daca
exista legătură intre o variabila dependentă si una independentă.

Încercați sa va instalați SPSS-ul versiunea de încercare, deschideți baza de date atașată acestui
curs si puneți întrebări in forumul special deschis.

Baza de date – Alegerile din SUA

Analyze – Descriptive statistics – Crosstabs


Vrem să aflăm:
1. Există vreo legătură între sexul persoanei şi votul exprimat de aceasta?
2. Dacă da, cât de puternică este această legătură?

Trump Johnson Clinton Total


Bărbaţi 315 152 337 804
Femei 346 126 571 1043
Total 661 278 908
Tabel 1

Dar din acest tabel nu prea ne dam seama, chiar daca mai multe femei o sprijină pe Clinton
vedem ca tot mai multe femei îl sprijină și pe TRUMP dar si ca au fost mai mutele femei
întrebate decât bărbați (1043 vs. 804)

Daca nu știm de unde sa pornim in demonstrația noastră folosim un mic truc. In gimnaziu ați
folosit metode reducerii la absurd. Nu puteați să demonstrați ceva presupuneți pin absurd ca
acest lucru se întâmplă, calculați și descoperiți că 1=1 deci presupunerea voastră era adevărată
sau că 1=0 deci presupunerea voastră a fost falsă.

La fel funcționează si testele statistice.

Ipoteza de la care plecam este ca există legătură intre sexul persoanei si votul pe care îl da
pentru ca altfel slujba de consultant de marketing politic nu are nici-o valoare.

Doar din tabelul de mai sus nu putem sa tragem o concluzi de aceea avem nevoie de o ipoteza
nulă.
Ipoteza nulă – presupune întotdeauna că nu există legătură între variabilele pe care le analizez.
(H0): Sexul persoanei nu influenţează votul.
Ipoteza alternativa- adică ipoteza pe care eu vreau sa o demonstrez este
(H1): Sexul persoanei influențează votul.

Știm cum arată distribuția de voturi în realitate (tabelul 1)

Dar dacă ipoteza nulă ar fi adevărată cum ar trebui sa arate acest tabel .

Este clar ca totalurile de voturi pentru cei 3 si numărul de femei si bărbați ar trebui sa rămână
aceleași.

Trump Johnson Clinton Total


Bărbaţi 804
Femei 1043
Total 661 278 908
Tabel 2

Răspunsurile studenților mei de anii trecuți in cazul in care sexul persoanei nu influențează
decizia de vot era că numărul voturi ar trebui să fie egal. Dar după cum vedem din start sunt
mai multe femei respondenți decât bărbații.
Atunci răspunsul este ca ar trebui sa fie proporțional cu ponderea femeilor și bărbaților in
studiu.

Trump Johnson Clinton Total Ponderi


Bărbaţi 804 43,53%
Femei 1043 56,47%
Total 661 278 908 100%
Tabel 3

(H0): Dacă sexul nu influenţează votul, înseamnă că ponderile sa respectă în fiecare căsuţă.

Trump Johnson Clinton Total Ponderi


Bărbaţi 43.53%*661 43.53%*278 43.53%*908 804 43,53%
Femei 56,47%*661 56,47%*278 56,47%*908 1043 56,47%
Total 661 278 908 100%
Tabel 4

Cu alte cuvinte aceeași pondere de votanți bărbați si femei au toți cei 3 candidați adica

Trump Johnson Clinton Total Ponderi


Bărbaţi 287,7 121 395 804 43,53%
Femei 373,2 157 512,7 1043 56,47%
Total 661 278 908 100%
Tabel 5
Daca am face calcule si demonstrația de mana ar trebui aici sa rotunjim datele pt ca nu exista
0,7 dintr-o persona, persoanele nu pot fi decât întregi. (era o poezie cand eram eu mic, ”si a
dat la rezultate 3 muncitori si jumătate”…)

Pentru a putea corela si cu datele calculate de SPSS, voi lăsa de date acesta 287,7 persoane in
loc de 288.

Pentru a putea compara datele din primul tabel care arată valorile reale cu cel din al doilea
tabel care arată valorile aşteptate, vom folosi testul Hi pătrat (litera greacă c sau in engleză
si implicit in SPSS chi square)

, r - rânduri, k – coloane

Știu că formula poate speria dar daca ne uitat un pic logic la ea o sa vede ca nu este chiar așa
de complicat.
Valorile Oij sunt valorile dint tabelul observat adică din tabelul 1
Valorile - sunt valorile așteptate de cercetător adică din tabelul 5

Cu alt cuvinte noi vrem sa vedem cat de mare este diferența dintre cele două tabele.
De aceea avem sumele din toate celulele celor două tabele si cum este normal sa facem
diferența intre bărbați care votează pe Trump vom face O11- A11

-De ce se ridică la pătrat?


- pentru a scăpa de semnul minus;
- diferenţele mici între valorile observate şi cele aşteptate, devin şi mai mici;
- diferenţele mari între aceste 2 valori, devin şi ma mari, astfel se accentuează mai ales
acestea.

Pentru ca acestă diferență ridicată la pătrat nu ne dăm seama dacă este mică sau mare trebui sa
o comparăm cu ceva si atunci o comparăm cu mărimea datelor așteptate

Astfel, pentru exemplul nostru, calculul va fi:


Bază de date stabilă, aşteptată
În cadrul tabelului de distribuție al funcției ne uităm după:

- Numărul gradelor de libertate;


- Prababilitatea de garantare a rezultatelor.

Numărul de grade de libertate (df) este dat de marimea tabelului. Una este sa spunem
ca valoare lui c2 este 33,82 rezultat dintr-un tabel de 2*2 adică din însumarea a 4
numere si alta ca este dintr-un tabel de 10*10 adică din însumarea a 100 de numere

Nr de grade de libertate este egal cu nr de rânduri minus 1 înmulțit cu nr de coloane


minus 1 (r-1)(k-1)
In cazul unui tabel de 2*2 asta înseamnă (2-1)(2-1) =1
Si in cazul nostru (3-1)(2-1)=2

Se compară calculat cu tabelar:

Probabilitatea de garantare a rezultatelor este de minim de 95% si ar putem merge si pe mai


mult 99.9%
In cazul nostru daca mergem pe 95% nivelul de garantarea a rezultatelor si 2 grade de
libertate avem un =5,99

Tabelul

- calculat tabelar diferenţa dintre valorile celor două tabele este mică, al doilea

tabel este suficient de bine ales, acceptăm

- calculat tabelar diferenţa dintre valorile celor două tabele este mare, se

acceptă
In concluzie sexul persoanei influenteaza decizia de votâ
In cazul nostru 5,99<33.82 deci se acceptă H1.
Sexul persoanelor influențează decizia e vot.
În SPSS:
Analyze – Descriptive statistics – Crosstabs – Statistics – Chi-square
Rows – sexul persoanei
Columns – vot

s
RESPONDENTS SEX * VOTE Crosstabulation

Count

VOTE FOR CLINTON, BUSH, PEROT


Trump Johnson Clinton Total

RESPONDENTS SEX male 315 152 337 804

female 346 126 571 1043

Total 661 278 908 1847

Chi-Square Tests

Asymp. Sig. (2-


Value df sided)

Pearson Chi-Square 33,830a 2 ,000

Likelihood Ratio 33,866 2 ,000

Linear-by-Linear Association 19,360 1 ,000

N of Valid Cases 1847

a. 0 cells (,0%) have expected count less than 5. The minimum


expected count is 121,01.

Valore subliniata cu galben este cea pe care o descoperisem si mai devreme prin calcul.

In acest caz nu mai trebuie sa avem un table si sa comparam ci SPSS-ul face acestă comparare
si ne spune direct la ce nivel de garantare a rezultatelor poate sa valideze ipoteza.

În cazul în care valoarea „Asymp. Sig.” 0,05 nivelul de încredere este de peste 95%

- În cazul în care valoarea „Asymp. Sig.” 0,01 nivelul de încredere este de peste
99%
0,000 nu înseamnă un nivel de garantare de 100% ci de peste 99,9%, in statistica nu
oferim certitudine. Nivelul de 99.9% fiind unul foarte mare.
Deci putem spune ca la un nivel de garantare a rezultatelor de peste 99,9% sexul
persoanei influențezi decizia de vot

- În cazul testului - nu avem voie să avem mai puțin de 40 de cazuri, de asemenea


fiecare valoare din tabel nu are voie să fie mai mică decât 5.
Crosstabs – Cells – (Observed, Expected, Procente) – pentru a putea vedea datele reale şi cele
aşteptate.
RESPONDENTS SEX * VOTE FOR CLINTON, TRUMP, JOHNSON Crosstabulation
% within RESPONDENTS SEX

VOTE FOR CLINTON, TRUMP, JOHNSON Total

Trump Johnson Clinton

male 39.2% 18.9% 41.9% 100.0%


RESPONDENTS SEX
female 33.2% 12.1% 54.7% 100.0%
Total 35.8% 15.1% 49.2% 100.0%

RESPONDENTS SEX * VOTE FOR CLINTON, TRUMP, JOHNSON Crosstabulation


% within VOTE FOR CLINTON, TRUMP, JOHNSON

VOTE FOR CLINTON, TRUMP, JOHNSON Total

Trump Johnson Clinton

male 47.7% 54.7% 37.1% 43.5%


RESPONDENTS SEX
female 52.3% 45.3% 62.9% 56.5%
Total 100.0% 100.0% 100.0% 100.0%

S-ar putea să vă placă și