Sunteți pe pagina 1din 47

CURS 2

(De ce) sunt necesare cercetările de piață?


 Identificarea clienților potențiali;
 O mai bună înțelegere a actualilor clienți;
 Stabilirea unor ținte realiste/realizabile;
 Dezvoltarea unor strategii de piață eficiente;
 Analiza și rezolvarea unor probleme existente;
 Stabilirea potențialului de dezvoltare a organizației;
 Identificarea unor noi oportunități de afaceri;
 Susținerea unor planuri/proiecte;
 Supravegherea pieței și anticiparea schimbărilor majore (previziuni ale evoluției celor
mai importanți indicatori);
 Folosirea datelor recente din piață pentru îmbunătățirea relației cu partenerii de afaceri;
 Ș.a.
Adevarat sau fals?
 Cercetările cantitative de piață sunt costisitoare;
 Realizarea unei cercetări cantitative de piață
 durează foarte mult timp;
 În realizarea unei cercetări sunt este implicată
 o echipă foarte mare;
 Pentru realizarea unei cercetări cantitative de piață
 este nevoie de echipamente și aplicații software foarte scumpe;
 Nu oricine poate realiza o cercetare cantitativă, este nevoie de serviciile unei firme
specializate;
 Cercetările cantitative online nu sunt recomandabile;
 Pentru reprezentativitate este suficient un eșantion mare;
 Operatorii de interviu și PC nu au nevoie de pregătire;
 Rata de răspuns în cazul unei cercetări cantitative este sub 10%;
 Raportul de cercetare are doar rol consultativ.
Etapele unei cercetari:
 Definirea problemei decizionale
 Alegerea instrumentului de Culegere a Datelor
 Definirea Esantionului
 Realizarea Cercetarii Pilot
 Ajustarea instrumentului si Metodologiei
 Colectarea Datelor
 Prelucrarea Datelor
 Analiza Datelor
 Elaborarea Concluziilor
 Definirea setului de Recomandari
Problema decizională
Problema decizională reprezintă situația care constituie o problemă reală pentru decident sau o
ocazie cu potențial favorabil pe care acesta dorește să o cunoască mai bine în vederea
valorificării;
Fără o corectă definire a problemei decizionale obținem cel mai probabil un răspuns corect la o
întrebare greșită;
Utilizând principiul iceberg-ului 90% din problemă sunt necunoscute și deseori omise; efectele
(simptomele) înșelătoare ascund de multe ori sursa unei probleme profunde;
Un audit de marketing este deseori utilizat atunci când beneficiarul nu poate furniza suficiente
informații pentru definirea corectă a problemei decizionale:
Scopul Cercetarii
Scopul cercetării se stabilește în funcție de problema decizională cu care se confruntă
beneficiarul (ce se dorește să se obțină) și a tipurilor de decizii care se doresc a fi fundamentate
prin intermediul rezultatelor acesteia;
Scopul cercetării derivă din problema decizională așa cum este ea formulată de către
decident/beneficiar;
În stabilirea scopului se va ține cont întotdeauna de profilul beneficiarului, informațiile căutate și
modul în care acestea vor fi utilizate ulterior;
Anterior determinării scopului cercetării este recomandată parcurgerea datelor disponibile din
surse secundare;

Stabilirea obiectivelor
Utilizând tehnica ”divide et impera” scopul este
împărțit în obiectivele cercetării prin precizarea la
nivel operațional a informațiilor necesare pentru rezolvarea
problemei decizionale respectiv atingerea scopului;

Utilizați sistemul SMART în stabilirea obiectivelor


Specific – indivizibilitatea sa în obiective mai
simple (cine, ce, când, unde, care, de ce)
Măsurabil – scala și valorile așteptate
(cât, ce valoare)
Accesibil – să poată fi atins
Relevant – să contribuie la rezolvarea problemei
Temporizat – limita de timp (până când)
Dacă numărul de obiective este foarte mare (>20) este recomandabilă divizarea în mai multe
cercetări;
Ipotezele cercetarii
Ipotezele cercetării sunt estimări pentru obiectivele stabilite realizate pe baza informațiilor
disponibile anterior demarării cercetării de piață;
În elaborarea acestora se ține cont de informațiile de care beneficiarul dispune și de modul în
care acesta ar fi dispus să procedeze pe baza experienței sale;
Prin confruntarea concluziilor, formulate la sfârșitul cercetării de piață, cu ipotezele elaborate
înaintea începerii acesteia poate fi evidențiată valoarea cercetării ca diferența dintre ceea ce
beneficiarul ar fi făcut în lipsa cercetării și în urma acesteia;
În cazul în care există șanse mari de confirmare aproape integrală a ipotezelor cercetătorul va
extinde setul de obiective îmbunătățind astfel valoarea cercetării pentru beneficiar.

Surse de informare
Date secundare: informații relevante pentru tema investigată publicate pe baza unor date culese
anterior de către organizație (interne) sau de către o altă entitate (externe);
Date primare: date culese pentru prima dată prin intermediul unor instrumente de cercetare de
către cercetător pentru a rezolva o problemă decizională specifică a beneficiarului;
Datorită implicațiilor investigării surselor primare de date o etapă esențială în procesul proiectării
unei cercetări de piață este investigarea surselor secundare puse la dispoziție de către beneficiar
cât și identificate de către cercetător
În acest fel este drastic îmbunătățită eficiența instrumentului de cercetare cu accent pe timpul
limitat avut la dispoziție pentru interogarea respondenților.
Avantaje date primare
 Actualitate
 Personalizare
 Control
 Pot genera avantaje concurențiale
Avantaje date secundare
 Cost redus
 Disponibilitate instant
 Analiza deja făcută
 Datele sunt testate
Dezavantaje date primare
 Cost ridicat
 Consumatoare de timp
 Necesită pregătire de specialitate
Dezavantaje date secundare
 Vechimea datelor
 Concurenții au acces la fel de ușor la ele
 Greu de verificat seriozitatea anchetei
 Pot fi voit eronate
Valoarea cercetarii
Pentru evaluarea contribuției rezultatelor cercetării la procesul decizional se va ține cont de:
 Importanța deciziei pentru organizație;
 Gradul de risc și incertitudine în care se va lua decizia;
 Influența rezultatelor cercetării asupra luării deciziei;
 Acuratețe (măsura în care este descrisă corect realitatea);
 Actualitate (prospețimea informațiilor);
 Suficiență (volum suficient de date pentru adoptarea deciziei);
 Disponibilitate (existența datelor necesare pe piață);
 Relevanța (pertinența și aplicabilitatea informației pentru problema decizională
prezentată);
CURS 3
Chestionarul este:
 Instrument de culegere a datelor;
 Interfața bi-direcțională dintre cercetător și respondent;
 Ghid de conversație structurat pentru operatorul de interviu;
 Standard de culegere și notare a răspunsurilor;
 Factor care motivează respondentul și obține cooperarea acestuia;
 Instrument de validare a răspunsurilor înregistrare;
 Filtru pentru respondenți;
 Sinteza modului în care respondentul abordează tema investigată;
Calitatile unui chestionar bun:
 Ordinea logică a întrebărilor (de la general la specific);
 Limbajul și scalele corespunzătoare specificului respondenților (acolo unde este cazul văr
fi folosite forme echivalente);
 Echilibru între scalele metrice (mai dificile) și cele nemetrice;
 Timpul necesar completării sub 10 minute;
 Etichete sugestive pentru variantele predefinite;
 Existența regulilor de completare acolo unde este cazul;
 Ușurința și rapiditatea completării;
 Capacitatea de a motiva și atrage interesul respondenților;
Definirea cadrului conceptual:
Totul pornește de la obiectivele cercetării, de la principalele necunoscute ce urmează a fi
elucidate cu ocazia studiului.
Pe baza nivelului existent al cunoașterii putem proiecta un cadru conceptual nou, putem folosi
unul existent ca atare sau într-o formă îmbunătățită.
Definirea clară a variabilelor dependente și independente, a factorilor ce vor fi investigați și
utilizați ca variabile de intrare pentru metodele de analiză selectate.
Astfel, ne asigurăm că toate variabilele relevante pentru subiectul investigat sunt incluse în
instrumentul de colectare a datelor. În același timp acest model ne permite să eliminăm toate
variabilele care nu sunt esențiale.
Traducerea/Adaptarea textului
Respondenții vor primi întotdeauna chestionarul în limba pe care o stăpânesc cel mai bine.
Atunci când există diferențe semnificative între limba vorbită în diferite regiuni ale aceleiași țări
avem în vedere adaptarea textului la specificul local.
Pentru a ne asigura că traducerea este corect și completă folosim doi traducători independenți
pentru traducere în limba dorită și retraducere în limba inițială. Traducerea este îmbunătățită
până când ne asigurăm că respondenții înțeleg corect și complet textul propus.
Deosebit de important atunci când chestionarul este proiectat de către specialiști care nu
stăpânesc foarte bine limba vorbită de către respondenți.

Structura chestionarului
 Fraza introductivă (scopul cercetării, modul de utilizare a datelor, identitatea operatorului
și a organizației pe care o reprezintă, teaser-ul anchetei)
 Întrebări filtru (acolo unde este cazul);
 Întrebări de deschidere/motivaționale/de încălzire;
 Întrebări generale/de reamintire pe subiectul investigat;
 Întrebări specifice;
 Întrebări critice;
 Întrebări socio-demografice/de identificare și caracterizare;

Aspectul chestionarului
 Utilizați cât mai puține coli (o coală A4 față-verso este ideal);
 Utilizați chestionare perforate în mape în locul foilor libere/capsate;
 Exprimarea scurtă, clară, accesibilă este de preferat;
 Evitați structurile tabelare/aspectul tip declarație de venit;
 Urmăriți un aspect aerisit, curat;
 Utilizați fonturi ”prietenoase”, culori, etichete grafice (simboluri);
 Semnalizați câmpurile de răspuns a.î. să fie evidente;
 Apelați la instrucțiuni de completare acolo unde este cazul;
 Evitați situațiile în care respondentul simte că este testat/evaluat;
 Nu abuzați de scalele metrice care consumă respondentul;
 Evitați jargonul sau termenii de specialitate și prescurtările;
 Evitați dubla negație și limbajul ambiguu;
 Nu conduceți către un anumit răspund prin intermediul enunțului;
 Evitați referințele către alte întrebări.

Etapele proiectării unui chestionar


 Stabilirea informațiilor dorite (Scop-Obiective-Variabile);
 Segmentarea și definirea respondenților țintă;
 Alegerea modului de obținere a informațiilor (cine, când ,unde, cum);
 Împărțirea variabilelor identificate în critice, importante, opționale și facultative pentru
atingerea scopului și eliminarea variabilelor redundante;
 Stabilirea formei întrebărilor (tip întrebare, scală), editarea enunțului și a variantelor de
răspuns (unde este cazul);
 Stabilirea unei structuri și ordonarea întrebărilor;
 Pretestarea chestionarului (timp, limbaj, scale, aspect);
 Îmbunătățirea setului de întrebări și finalizarea chestionarului.

Pre-testarea chestionarului
 Obiectivele acestei activități sunt:
 Testarea limbajului (ușurința înțelegerii enunțului și variantelor);
 Testarea ordinii logice a întrebărilor, fluența parcurgerii;
 Testarea ușurinței de utilizare a scalelor;
 Testarea vitezei de răspuns per total și pe fiecare întrebare;
 Testarea necesității introducerii unor întrebări suplimentare sau variante de răspuns sau a
eliminării unora existente;
 Testarea reacției respondenților la fiecare întrebare (este considerată a fi invazivă, prea
dificilă, ș.a.).

Confidențialitatea datelor
Încă din antetul chestionarului asigurăm respondentul că participarea este anonimă și nu
solicităm niciun fel de informație care poate conduce la identificarea sa, a menajului în care
locuiește, a locului său de muncă...
Suplimentar, este nevoie de asigurări cu privire la eventuala supraveghere audio-video din zona
în care datele sunt culese (atunci când interviurile au loc în spațiul propriu al organizației).
În cazul utilizării unui chestionar de identificare a participanților la studii ulterioare, situație în
care sunt solicitate date de contact și identificare se va menționa în mod clar scopul utilizării
acestora și a termenului limită până la care acestea vor fi stocate și utilizate de către companie.

O atenție deosebită se va acorda securizării formularelor electronice și a echipamentelor care


stochează datele colectate.

Cazuri speciale
Există situații în care cercetătorul este nevoit să apeleze la tehnologii neconvenționale pentru
chestionar precum utilizarea de simboluri, cerneala fluorescentă, alfabetul Braille, tușul alb pe
hârtie neagră, coli A4 create din minerale (piatră) sau materiale reciclate, hârtie artizanală
(presată manual), hârtie din bumbac, tuș hipo-alergenic, chestionar scris manual de un caligraf ...

Răspuns predefinit sau deschis?


Avantaje raspuns deschis
Libertate pt. respondent
Rapiditate răspuns
Rată mică de non-răspunsuri
Ușurință în înțelegerea enunțului
Simplitate chestionar
Influențare minimă a respondentului
Avantaje raspuns predefinit
Ușurință în înregistrarea răspunsului
Codificare implicită
Inexistența răspunsului invalid
Dezavantaje raspuns deschis
Timp mult necesar codificării
Rată mare de abatere de la subiectul întrebării
Număr mare de răspunsuri invalide
Dezavantaje raspuns predefinit
Conducere către un anumit răspuns
Timp mai mult necesar citirii enunțului

Scale nemetrice
Scala nominală
Care este animalul dvs. preferat? (răspuns unic)
cal;
oaie;
vacă;
porc;
Alt animal.

Care sunt animalele dvs. preferate? (răspuns multiplu)


cal;
oaie;
vacă;
porc;
găină.

Scala ordinală
Ordonați într-un clasament de 5 locuri următoarele animale în funcție de
preferințele dvs.:
Locul 1 Locul 2 Locul 3 Locul 4
Cal o o o o
Oaie o o o o
Vacă o o o o
Găină o o o o

Pe scala ordinală nu avem informații despre cât de sus este locul I sau care este diferența dintre
locul I și locul II. Cele 4 animale pot fi pe poziții aproximativ egale sau foarte puternic
departajate.

Scale metrice

Scala interval/cardinală
Ce părere aveți despre următoarele aniamle?
Excelentă Foarte bună Bună Așa și așa Proastă
Cal o o o o o
Oaie o o o o o
Scala proporțională
În trecutul dvs. câte animale din următoarele
specii au aparținut familie din care faceți parte?
Cal ______ Oaie ______
Vacă ______ Găină ______

Scale de masurare

Scale comparative - metoda comparațiilor perechi


(cu sau fără diferență de preț)
Alegeti din fiecare pereche animalul preferat in gastronomie:
Cal o – o Oaie
Porc o – o Cal
Oaie o – o Porc
Vită o – o Oaie
Porc o – o Vită
Vită o – o Cal

Cât ați fi dispus să plătiți suplimentar pentru un kg din carnea preferată?


_____ lei
_____ lei
_____ lei
_____ lei
_____ lei
_____ lei

Scale comparative - scala cu sumă constantă


(cu sau fără preț/pondere estimativă)

Împărțiți 100 de puncte între următoarele animale în funcție de propriile preferințe alimentare:
Cal _____ puncte
Porc _____ puncte
Oaie _____ puncte
Vită _____ puncte

Dacă bugetul săptămânal pentru carne este de 200 lei împărțiți suma pe următoarele categorii?
Cal (35lei/kg) _____ lei
Porc (20lei/kg) _____ lei
Oaie (30lei/kg) _____ lei
Vită (35lei/kg) _____ lei
Pui (15lei/kg) _____ lei

Scale noncomparative – scale liniare continue


Este posibil ca în ultimele 6 luni să fi mâncat carne de cal.
Ce părere aveți despre acest sortiment?

Favorabila – nefavorabila de la 0-100 (nu are etichete)

Scale noncomparative – scale liniare etichetate


de la foarte favorabila la foarte nefavorabila
( foarte favorabila-favorabila-oarecum nefavorabila- nici nici- oarecum nefavorabila-
nefavorabila-foarte nefavorabila)

Scale non-comparative - scala semantică

Este posibil ca în ultimele 6 luni să fi mâncat carne de cal.


Ce părere aveți despre acest sortiment?

Scale non-comparative – diferențiala semantică

Este posibil ca în ultimele 6 luni să fi mâncat carne de cal.


Ce părere aveți despre acest sortiment?

Scale non-comparative - scala lui Likert


(acord total-acord-nici nici- dezacord- dezacord total) au bulinute de bifat

Mezelurile conțin carne de cal


Carnea de cal este bună
Calul nu este comestibil

Scale non-comparative – scala lui Stapel


(favorabila-nefavorabila de la -5 la 5 )
Este posibil ca în ultimele 6 luni să fi mâncat carne de cal.
Ce părere aveți despre acest sortiment?
CURS 4

Cum definim greșit structura BD?

În definirea unei baze de date cele mai des întâlnite greșeli sunt:
 Introducerea datelor într-o bază de date neformatată sau o foaie de calcul tabelar fără cap
de tabel;
 Codificarea variantelor de răspuns folosind litere (a,b,c…);
 Introducerea datelor în formă necodificată urmând ca apoi să fie utilizată funcția
search&replace (motivul: din coduri nu se înțelege nimic);
 Codificarea variantelor de răspuns începând cu valoarea 0 (zero);
 Codificarea întrebărilor ”cu răspuns predefinit multiplu” într-o singură variabilă;
 Definirea tuturor variabilelor într-un format numeric sau șir de caractere generos care să
poată înmagazina orice cantitate de date;
 Definirea tuturor variabilelor de tip șir de caractere;
 Utilizarea tipurilor de date specifice doar anumitor aplicații.

Cum greșim la introducerea datelor?

Odată definită structura bazei de date nu de puține ori apar erori în introducerea chestionarelor
completate în baza de date cum ar fi:
 Lipsa introducerii unui cod care să facă diferența dintre un câmp gol, un non-răspuns sau
un răspuns imposibil de utilizat;
 Corectarea răspunsurilor considerate necorespunzătoare, care nu se încadrează în tiparul
așteptat;
 Codificarea la introducere a răspunsurilor deschise/de completare;
 Ajustarea scalelor metrice completate greșit (ex: scala cu sumă constantă cu suma diferită
de 100 de puncte);
 Completarea de către operator a non-răspunsurilor;
 Înlocuirea unui răspuns deschis de completare cu alegerea unei variante predefinite dacă
par a fi similare;
 Anularea răspunsurilor ce par greșite (ex: o extremă de scală) și introducerea acestora ca
non-răspuns;

De la chestionar la baza de date

Pentru a putea fi analizate, răspunsurile primite de la respondenți vor fi stocate într-o bază de
date digitală a cu următoarele proprietăți:
 Structura bazei de date va reflecta întrebările din chestionar; în cazul unei cercetări online
răspunsurile sunt înregistrare direct într-o bază de date cu structura corespunzătoare gata
codificate;
 Baza de date va permite înregistrarea completă și corectă a informației din chestionar fără
a fi nevoie de prelucrarea acesteia;
 Răspunsurile vor fi introduse în baza de date exact ca în chestionar, fără ”corecturi”,
”îmbunătățiri” sau alte modificări;
 Se va alege un format de bază de date universal, recunoscut de cât mai multe aplicații
(csv, xls, dbf, ș.a.);
 Valoarea de pornire a câmpurilor va fi ”NULL” (evitați ”0”) ;
 Baza de date va avea un câmp index (automat) unic;
 Baza de date va primi răspunsurile în format codificat.

Principiile bazelor de date

Baza de date este formată din:


 Setul de variabile care definesc structura bazei de date (coloane);
 Înregistrările/cazurile ce conțin totalitatea răspunsurilor primite de la fiecare respondent
în parte printr-un anumit chestionar (linii);
 Când se dorește modificarea bazei de date se va realiza întotdeauna o copie de siguranță a
acesteia;
 Variabilele native (care stochează răspunsurile neprelucrate nu vor fi niciodată
suprascrise/editate/modificate;
 Pe fiecare chestionar introdus în baza de date se va nota numărul unic de
înregistrare/ordine din baza (indexul automat);
 Răspunsul întrebărilor cu variante predefinite vor fi introduse sub formă codificată (șirul
de caractere substituit cu valoare numerică unică);
 Numele fiecărei variabile va fi ales astfel încât să faciliteze identificarea întrebării
aferente în chestionar (ex: Q1).

Codificarea răspunsurilor

1. Întrebările cu variantă predefinită de răspuns (răspuns unic)


Variantele de răspuns vor primi coduri începând cu valoarea ”1” pentru primul răspuns din set
(seturi fără ordonare) sau pentru cel mai mic răspuns (seturi interval sau în succesiune logică);
Valoarea ”0” va fi evitată, aceasta reprezintă originea în cadrul scalelor metrice proporționale;
Marcarea întrebărilor care au fost evitate/refuzate de către respondent se va face folosind codul
99;
Răspunsurile eronate, imposibil de descifrat sau confuze vor fi marcate utilizând codul 95;

Sub nicio formă nu for fi introduse alte coduri decât cele convenite sau șiruri de caractere.

I1. Animal preferat:


Câine; 1
Pisică; 2
Vulpe; 3
Cal. 4
I2. Vârstă:
Sub 18 ani; 1
18-25 ani; 2
26-35 ani; 3
Peste 35 ani. 4

2. Întrebările cu răspuns deschis numeric


 Răspunsurile primite la acest tip de întrebări sunt introduse în baza de date exact așa cum
apar în chestionar;
 În cazul în care din neglijența operatorului, greșeala respondentului sau neincluderea
filtrelor numerice în chestionarul virtual răspunsurile includ altceva decât o singură
valoare numerică acestea vor fi corectate;
 Dacă răspunsul nu poate fi corectat (ex: vârsta sub formă de interval sau expresii fără
caracter metric) întrebarea va fi tratată drept non-răspuns;

I3. Vârstă în ani împliniți:


……………….

I4. Acordați o notă de la 1 la 10 pentru produsul X:


……………….

I5. Numărul copiilor minori din familie:


…………………

3. Întrebările cu răspuns deschis alfa-numeric


Pasul 1: se identifică toate variantele unice de răspuns prin parcurgerea bazei de date pe variabila
selectată și se alocă coduri unice (atenție la duplicate absolute sau relative);
Pasul 2: se cuantifică apariția fiecărei variante unice identificate în formă identică sau foarte
asemănătoare;
Pasul 3: se creează o nouă variabilă (!!!) care va stoca răspunsurile în formă codificată;
Pasul 4: în variabila nou creată vor fi introduse codurile aferente răspunsurilor unice identificate;
pentru câmpurile text de completare (vezi întrebarea cu răspuns unic) va fi completat setul inițial
de variante predefinite.

I6. Animalul preferat:


……………..

I7. Prenumele dumneavoastră:


……………….
I8. Culoarea preferată
o verde
o roșu
o albastru
o altă culoare
……………..

4. Bateriile de întrebări cu răspunsuri dihotomice (întrebări cu răspuns predefinit multiplu)

 Aceste întrebări sunt doar o formă particulară de formatare a întrebărilor dihotomice


(răspuns unic din 2 variante posibile);
 Fiecărei valori din setul predefinit îi va corespunde o variabilă distinctă care primește
codul 1 când câmpul este bifat și 2 când nu este bifat (valoarea predefinită a bazei de date
este ”NULL”);
 Se aplică regulile aferente întrebărilor cu răspuns predefinit unic.

I9. Animalele preferate:


Câine;
Pisică;
Cal;
Papagal.

I10. Este câinele unul dintre animalele dvs. preferate?


Da; 1
Nu. 2

5. Bateriile de întrebări cu răspunsuri multihotomice (scale Likert, ș.a.)


 Aceste întrebări sunt doar o formă particulară de formatare a întrebărilor cu răspuns
predefinit unic care au un enunț similar sau identic;
 Fiecărui element investigat îi corespunde o variabilă distinctă;
 Se aplică individual regulile specifice întrebărilor cu răspuns predefinit unic;

I11. Cât de mult vă plac următoarele animale

Foarte Mult Nici/nici Puțin Foarte


mult puțin
Câine o o o o o
Pisică o o o o o
Cal o o o o o
Papagal o o o o o
I12. Cât de mult vă plac câinii?

Foarte puțin; 1
Puțin; 2
Nici/nici; 3
Mult; 4
Foarte mult. 5

6. Bateriile de întrebări cu deschise

 Aceste întrebări sunt doar o formă particulară de formatare a întrebărilor cu răspuns


deschis ce au un enunț comun;
 Fiecărui câmp de completare îi va corespunde o variabilă distinctă;
 Se aplică regulile specifice tipului de întrebare cu răspuns deschis aferent.
I13. Împărțiți 100 de puncte între următoarele animale:
Câine ……..
Pisică ……..
Cal ……..
Papagal ……..

I14. Enumerați 3 culori care vă plac:


………………..
………………..
………………..

Variabilele native și cele artificiale

 Variabila nativă corespunde unei întrebări existente în chestionar și memorează răspunsul


primit de la respondent fără nicio modificare;
 Aceste variabile primesc coduri care să reflecte întrebarea sau bateria de întrebări din
care fac parte (ex: Q1, Q4_1, Q4_2, Q6_text);
 Variabilele native nu se modifică, nu se suprascriu, nu se șterg;
 Variabila artificială este creată de către cercetător pentru a memora date ce nu se regăsesc
în chestionar cum ar fi:
 Forme prelucrate ale variabilelor native (unități de măsură schimbare, scale modificare,
ș.a.);
 Scoruri multi-variabilă (scor de performanță, medii ponderate pentru scala lui Likert,
ș.a.);
 Numărul/codul unic de identificare a chestionarului fizic;
 încadrarea înregistrării într-o anumită categorie;
 Diverse observații cu privire la acea înregistrare (cod operator interviu, cod operator PC,
constatări, ș.a.).

CURS 5

De ce prelucrarea datelor este o necesitate?

 Respondenții nu trebuie considerați a fi motivați, dornici și capabili;


 Operatorii de interviu pot înregistra uneori răspunsurile destul de distorsionate;
 Operatorii de digitalizare a datelor pot avea dificultăți în citirea formularelor;
 Formularul este optimizat pentru viteza de culegere a datelor;
 Formularul va folosi întotdeauna unitățile de măsură folosite de respondent;
 Modelele complexe de analiză a datelor necesită tip și distribuții specifice;
 Când o scară metrică nu este cu adevărat necesară;
 Dacă investigația pilot a fost doar simulată sau omisă împreună;
 Folosind diverse colectări de date, software-ul de digitalizare ar putea necesita o editare
suplimentară;
 Sponsorul proiectului ar putea necesita scări de măsurare diferite.

Ce este prelucrarea datelor?

 Fuzionarea si impartirea bazelor de date;


 Eliminarea inregistrarilor invalide;
 Identificarea/eliminarea inregistrarilor duplicate;
 Eliminarea raspunsurilor predefinite cu frecventa zero;
 Calcularea variabilelor de indexare si modificarea ordinii inregistrarilor;
 Identificarea si corectarea răspunsurilor incorecte;
 Identificarea răspunsurilor lipsă și marcarea acestora;
 Utilizarea generatoarelor numerice automate (aleatorie);
 Schimbarea unităților de măsură;
 Calcularea mediilor/scorurilor ponderate multivariabile;
 Transformarea variabilelor de la scale metrice la scale nonmetrice;
 Conversia variabilelor la o altă scară de măsurare;
 Modificarea sistemului de codificare inițial a răspunsurilor predefinite.

Fuzionarea/diviziunea bazelor de date

Când aveți de-a face cu mai multe baze de date provenind din mai mulți operatori/parteneri de
colectare trebuie să fie fuzionate prin adăugarea de înregistrări având o structură identică.

Pentru studii longitudinale, efectuate pe aceeași panel de respondenți la diferite intervale de timp,
bazele de date vor fi unite prin adăugarea de noi variabile.
Împărțirea bazei de date este necesară atunci când:
Generarea de mostre ale înregistrărilor aleatorii ale unor variabile specifice sau ale variabilelor
aleatoare ale tuturor înregistrărilor către potențiali clienți;
Exportarea unui număr de înregistrări conform unui filtru de selecție;
Izolarea unui anumit set de variabile din baza de date pentru proceduri specifice de analiză (care
necesită un anumit aspect al bazei de date);
Extragerea răspunsurilor deschise care urmează să fie trimise spre codificare unei terțe părți.

Eliminarea înregistrărilor nevalide

Înregistrările pot fi considerate nevalide și eliminate din baza de date atunci când:
 Datele demografice nu corespund profilului de respondent specificat;
 Majoritatea variabilelor sale lipsesc răspunsuri;
 Filtrul de selecție a respondentului nu a fost trecut;
 Respondentul a părăsit interviul fără a răspunde la toate întrebările;
 Răspunsurile sunt contradictorii;
 Variabilele critice lipsesc răspunsuri, indiferent de motiv;
 Respondentul este vizibil înclinat spre extrema pozitivă sau negativă pe majoritatea
scalelor de măsurare.
Eliminarea înregistrărilor duplicate

Este posibil, dar foarte improbabil ca un formular să fie digitalizat de două ori, dar înregistrările
duplicate sunt rareori identice.

Vom considera două sau mai multe înregistrări ca fiind duplicate dacă:
 Datele de identificare ale respondentului sunt identice;
 Peste 80% dintre răspunsuri sunt identice;
 Răspunsurile deschise sunt identice;
 Datele unice prin definiție sunt identice (număr de telefon, e-mail etc.);
 Răspunsurile la un număr semnificativ de întrebări consecutive sunt identice.

Fervențele zero sunt un semn al investigației pilot necorespunzătoare sau al lipsei acesteia. De
asemenea, arată că răspunsurile predefinite nu au fost create pe baza unei cercetări exploratorii.

Răspunsurile predefinite cu frecvență zero vor fi eliminate la sfârșitul etapei de colectare a


datelor și numai după ce a fost determinată cauza (asigurându-vă că nu este o eroare de cod a
formularului sau o problemă de bază de date).

Codurile răspunsurilor predefinite rămase nu vor fi modificate pentru a acoperi poziția eliminată.

Păstrarea frecvențelor zero în baza de date va provoca imagini neplăcute (tabele și diagrame),
extinzând dimensiunea acestor elemente și dând raportului un aspect neprofesional.
Sortarea înregistrărilor
Toate bazele de date trebuie să aibă o variabilă de indexare cu autoincrementare (ID) cu un
identificator numeric unic pentru toate înregistrările sale. Aceasta este ordinea sa implicită și
poate fi restabilită în orice moment.

Modificările în ordinea înregistrărilor din fișierul bazei de date nu vor afecta rezultatele
procedurilor de prelucrare și analiză a datelor.

Sortarea bazei de date se poate dovedi a fi utilă pentru:


 Inspecții vizuale ale conținutului acestuia;
 Căutând răspunsuri lipsă;
 Codificarea răspunsurilor deschise;
 Izolarea unei înregistrări cu o anumită valoare sau combinații de valori.

Confruntarea cu răspunsurile greșite


În cele mai multe cazuri, răspunsurile greșite nu pot fi corectate și
singura soluție este marcarea lor ca răspuns lipsă.
În rare ocazii, când motivul din spatele greșitului
răspunsul este cunoscut și bine documentat, răspunsul poate
fi recuperat.

Cele mai frecvente exemple de răspuns greșit sunt”


Răspunsul deschis nu se potrivește cu întrebarea;
Scalele de sumă constantă nu se adună la valoarea convocată;
Răspunsurile nu au sens cu privire la unitatea de măsură utilizată;
Răspunsurile pot fi considerate evazive, contradictorii sau confuze;
Sunt furnizate elemente nesolicitate;
Mai multe articole ocupă același loc pe o scală de notare;
Sunt selectate mai multe opțiuni pentru o singură întrebare cu răspuns;
Răspunsurile sunt incomplete, sunt furnizate doar 3 elemente dintr-un set de 5.

Codificarea răspunsurilor lipsă


Dacă respondentul nu a oferit niciun fel de răspuns la
o întrebare specifică, acest eveniment va fi amenințat ca fiind dispărut
răspuns și marcat cu un cod numeric unic.

Această valoare va fi utilizată prin convenție în întreaga bază de date și nu ar trebui să se apropie
de alte valori utilizate în răspunsurile predefinite (99 pentru răspunsuri lipsă, 95 pentru răspuns
incorect, 96 pentru incapacitatea de a furniza unul).

Un formular bine conceput și pre-testat ar trebui să aibă drept răspunsuri lipsă doar refuzul
respondentului de a oferi un răspuns sau incapacitatea de a face acest lucru din cauza lipsei de
informații.

Înregistrarea răspunsurilor incorecte va fi pusă pe seama operatorului sau a formularului asistat


de calculator și neștiind ce să răspundă din lipsa cercetării exploratorii înainte de etapa de
concepere a chestionarului.

Efectuarea diferitelor calcule


SPSS permite diferite calcule bazate pe formule matematice. Un set generos de funcții este
furnizat și rezultatul poate fi stocat într-un fișier existent variabilă sau una nou creată.

Cea mai populară utilizare a acestei funcții se schimbă


unitatea de măsură și calcularea diverselor
medii ponderate.

Prelucrarea se face prin aplicarea formulei pe fiecare înregistrare parțială, de la prima până la
ultima. Formula poate conține numai valori constante sau o combinație de constante și mai multe
variabile din baza de date.

Formulele pot stoca rezultatele doar într-o singură variabilă la un moment dat, iar bunele practici
recomandă crearea unei noi variabile (evitând suprascrierea uneia existente).
Recodificarea variabilelor
Această procedură va schimba codificarea răspunsurilor predefinite cu coduri noi (valoare la
valoare) sau va transforma o variabilă metrică într-una ordinală prin înlocuirea tuturor valorilor
dintr-un interval dat cu un cod numeric (interval la valoare).

Această procedură nu trebuie confundată cu o simplă funcție de căutare și înlocuire. Aceasta este
o procedură dedicată care utilizează coduri SQL și este guvernată de un set de reguli de evitare a
erorilor.

Folosind codificarea putem elimina, de asemenea, răspunsurile cu frecvență zero și îmbina două
sau mai multe coduri într-o singură opțiune.

De la scale metrice la nemetrice


Variabilele critice sunt de obicei înregistrate cu precizie maximă de măsurare, dar unele
proceduri de analiză necesită mai puțin și pentru confortul publicului raportarea se va face pe
scale de măsurare mai ușoare.

Procedura este utilizată pe scară largă pentru a transforma expresia metrică a variabilei într-un
interval unul care reflectă criteriile de segmentare.

Când se confruntă cu o distribuție mai puțin continuă sau cu una distribuită ciudat, această
transformare poate deține cheia pentru recuperarea variabilei, pentru a o face utilizabilă pentru
cele mai groaznice dintre metodele de analiză.

CURS 6
Analiza datelor este un proces complex și sistematic bazat pe un amestec de tehnici statistice și
matematice axate pe
extragerea informatiilor cerute de decident de la unul sau mai multe
baze de date.

Marea varietate de metode de analiză poate fi grupată după:


Scara de măsurare utilizată (nominal, ordinal, interval și proporțional);
Numărul de probe investigate (una sau mai multe);
Relația dintre eșantioanele investigate (dependente sau nu);
Numărul de variabile investigate simultan.

Fără a fi o listă exhaustivă, cele mai importante obiective ale procesului de analiză a datelor sunt:
 Determinarea tendinței centrale;
 Investigarea varianței;
 Măsurarea intensității, direcției și reprezentativitatea asociațiilor;
 Efectuarea de prognoze pe termen scurt, mediu și lung;
 Evaluarea diferenţelor dintre variabile şi grupuri de variabile;
 Identificarea legăturilor cauzale între variabile;
 Construirea și testarea modelelor de comportament;
 Îmbunătățirea motorului de inerență și a bazelor de cunoștințe ale sistemelor de suport de
decizie/sisteme expert;
 Actualizarea listei de urmărire a riscurilor;
Tendința centrală

Modul nu este altceva decât alegerea cea mai frecventă a respondenților (răspunsul cel mai
popular). Cu cât sunt mai multe răspunsuri predefinite în set, cu atât este mai mare riscul pentru
un mod multiplu (două sau mai multe răspunsuri cu același număr de opțiuni maxime).

Pentru variabilele măsurate pe scara proporțională (metrică), răspunsurile unice cu frecvențe sub
1% sunt destul de comune și a avea doi sau mai mulți respondenți cu același răspuns este doar
noroc. Aceste variabile vor raporta mai multe valori modale (frecvențe maxime) și rareori vor
avea mai mult de 5% din numărul total de respondenți.

Mediana este valoarea de tăiere responsabilă pentru împărțirea respondenților în două părți egale.
Cu răspunsurile sortate de la cel mai mic la cel mai mare vom urmări frecvențele cumulate până
când se va găsi nota 50%/50%.

Cu cât este mai mare numărul de răspunsuri unice, cu atât mai precisă va fi poziția medianei. Cu
cât este mai mic numărul de răspunsuri unice, cu atât va fi mai puțin precis.

Pe baza aceleiași proceduri putem determina alte tipuri de percentile:


 Quartile (împărțirea dimensiunii eșantionului în 4 segmente);
 Decili (împărțirea dimensiunii eșantionului în 10 segmente);
 Centile (împărțirea dimensiunii eșantionului în 100 de segmente – avertisment de exces);
 Percentile personalizate.
Media este o formulă matematică elementară obținută prin raportarea sumei tuturor valorilor la
numărul de răspunsuri valide/dimensiunea eșantionului și este specifică doar scalelor metrice de
măsurare.

Pentru scalele de măsurare pe intervale și ordinale, o medie ponderată poate fi utilizată cu o


utilitate limitată. Pot fi utilizate ponderi crescătoare de la răspunsul cu valoarea cea mai mică la
cea mai mare, precum și ponderi simetrice.

Pentru intervale, greutatea individuală va fi calculată ca punct de mijloc al fiecărui interval.

Dispersia

Frecvențele sunt un indicator foarte simplu care ne arată numărul


de respondenți pentru fiecare răspuns unic (predefinit sau deschis) ca:
Numărul de respondenți (valori absolute);
Procente din întreaga dimensiune a eșantionului sau răspunsuri valide (pentru acea variabilă);
Procente cumulate ale răspunsurilor sortate pe valori crescătoare;

Frecvențele pot fi calculate pe toate tipurile de variabile, dar utilitatea lor este pusă sub semnul
întrebării pe variabile cu un număr mare de răspunsuri unice. În unele cazuri, putem scăpa
prezentând răspunsurile cele mai apreciate (când frecvența lor este relevantă) și enumerarea
celorlalte ca categorii generice.

Intervalul nu este altceva decât o simplă împărțire între cea mai mare și cea mai mică valoare
înregistrată care ne spune câte unități de măsură sunt între ele. Împărțind-o la mijloc ne va oferi
interval relativ.

Abaterea medie este o medie simplă a distanței dintre fiecare răspuns și media pentru acea
variabilă.

Varianta este media pătratelor abaterilor individuale. Rădăcina pătrată a varianței ne va oferi
abaterea standard.

Corelatii

Măsurarea asocierii dintre două variabile va ține cont de următoarele caracteristici ale acestei
relații simetrice:
Direcția (natura) relației:
*aceeași direcție (valori pozitive);
*Inversat (valori negative);

Intensitate: accidentală, slabă, medie, puternică, perfectă;


Asociere foarte slabă (accidentală) 0,00 – 0,20
Asociere slabă 0,21 – 0,40
Asociere de intensitate medie 0,41 – 0,60
Asociere puternică 0,61 – 0,80
Asociere foarte puternică (dubioasă) 0,81 – 1,00

Semnificație statistică: reprezentativă sau neconcludentă


(valoarea validează sau invalidează existența legăturii);

Puterea asociației

Indicatorul statistic ales depinde de scara de măsurare a perechii noastre de variabile:


Pentru variabilele nominale: tabele de contingență, coeficientul de corelație r, coeficientul phi,
chi pătratul, testul exact al probabilității Fisher, coeficientul de contingență;
Pentru variabilele ordinale: coeficientul lui Spearman, coeficientul Z de semnificație a legăturii,
coeficientul lui Goodman și Krusdal;
Pentru variabilele metrice: coeficientul R, Z al lui Pearson.

Fii atent la...

 Atunci când selectăm perechea de variabile pentru a măsura asocierea, trebuie să luăm în
considerare:
 Cele două variabile nu trebuie să fie sinonime sau forme diferite de exprimare a aceluiași
fenomen;
 Nicio a treia variabilă nu ar trebui să aibă o influență puternică asupra ambelor variabile;
 Variabilele selectate ar trebui să fie indivizibile;
 Ambele variabile sunt cel mai clar definite la nivel operațional, fără erori de măsurare;
 Eșantionul trebuie să fie reprezentativ statistic;
 Distribuția variabilelor nu trebuie condensată;
 Răspunsurile cu frecvență zero ar trebui eliminate și se va acorda o atenție deosebită
frecvențelor sub 5%;
 Ambele variabile sunt măsurate pe aceeași scară sau pot fi convertite într-una comună;
 Se recomandă un număr similar de răspunsuri unice.

CURS 8

Teste statistice parametrice pentru date cantitative


Simpla existență a scalelor metrice nu ne permite însă întotdeauna utilizarea testelor statistice
parametrice pentru datele cantitative.

Uneori variabilele care au origine unică și unitate de măsură (condiții care definesc scala
metrică) nu au un număr unic de răspunsuri suficient de mare și, prin urmare, suntem nevoiți să
apelăm la testele neparametrice prin conversia valorilor la ranguri sau transformarea variabilei
din scală proporțională în interval sau ordinală.
Teste statistice parametrice pentru date cantitative
Atunci când avem acces la date referitoare la media populației, suficient de actuale și bine
definite, ne putem permite compararea acestora cu datele culese de la respondenți prin
intermediul testului z (sau testul t) pentru eșantioane independente.

Semnificația statistică a noțiunii populație nu face referire în mod exclusiv la o colecție de


indivizi, ci mai degrabă la totalitatea valorilor posibile care descriu o anumită caracteristică
(psihologică, biologică sau de altă natură).

Datorită dificultăților întâmpinate în găsirea datelor referitoare la media populației, testul este
utilizat mult mai frecvent în practică pentru evidențierea diferențelor dintre două categorii de
respondenți definite/separate pe baza unei variabile dihotomice de stare (apartenența la un grup
sau nu).

Denumirea de variabilă dependentă provine de la faptul că dorim să testăm în ce măsură


variabila de scindare a grupului investigat în două eșantioane influențează evoluția acesteia.

Variabila independentă este practic factorul de influență al cărui impact dorim să îl măsurăm. În
cazul scindării grupului investigat pe baza unei variabile independente, eșantioanele astfel
rezultate se numesc eșantioane independente deoarece sunt constituite din subiecți diferiți (un
anumit respondent nu poate face parte din ambele eșantioane).

Ipoteza nulă (statistică, H0) constă în presupunerea că variabila independentă nu influențează în


mod semnificativ evoluția variabilei dependente, iar ipoteza cercetării (H1) susține existența
diferenței semnificative între cele două grupuri datorită factorului de influență.

Pentru a calcula valoarea testului z avem nevoie de valoarea diferenței dintre cele două
eșantioane cercetate, media populației (de diferențe ale mediilor) și abaterea standard a acesteia.
Odată calculată, această valoare va fi comparată cu valoarea tabelară pentru a vedea
probabilitatea obținerii unei diferențe mai mari pe baza unei selecții strict aleatorii.

Valoarea calculată a testului t trebuie să fie cel puțin egală sau mai mare decât cea
teoretică/critică pentru a putea fi respinsă ipoteza nulă și acceptată ipoteza cercetării.

Valoarea testului t nu este relevantă, ci probabilitatea asocierii acesteia. Valoarea calculată a


indicatorului ne indică de câte ori este mai mare diferența dintre mediile comparate și eroarea
standard estimată a acelei diferențe.

Atunci când eșantioanele nu sunt suficient de mari, ne vom aștepta la erori considerabile în
estimarea dispersiei populației pe baza dispersiei eșantionului investigat și vom apela la testul t
pentru dispersii diferite (inegale) sau pentru dispersii egale (dispersie cumulată).
Datorită faptului varianta pentru dispersii diferite că nu urmează cu exactitate distribuția t,
utilitatea sa este controversată și vom folosi dispersii egale care utilizează dispersia cumulată a
celor două eșantioane, fapt deosebit de util atunci când cele două dispersii nu diferă semnificativ.

Considerarea împreună a celor două dispersii ca o singură estimare a dispersiei populației


reușește să corecteze inconvenientul mai sus amintit

Datorită faptului că magnitudinea diferenței dintre medii poate fi mică, chiar dacă probabilitatea
asociată valorii t este foarte mică pentru aprecierea importanței diferenței dintre mediile
grupurilor investigate, avem nevoie de informații suplimentare.

Această mărime a efectului pentru testul t aferent eșantioanelor independente este indicată de
coeficientul d a lui Cohen. Cu cât valoarea indicelui de mărime a efectului este mai mare, cu atât
diferența dintre medii este mai importantă.

Ipoteza nulă (H0) specifică ANOVA presupune că grupele analizate provin din aceeași
populație, prin urmare mediile aferente lor sunt egale, iar distribuțiile suprapuse, caz în care
diferențele dintre mediile lor sunt doar o variație firească a distribuției de eșantionare.

Cu cât sunt mai diferite una față de cealaltă, cu atât distribuția lor are o varianță mai mare.
Ipoteza cercetării (H1) susține că grupurile sunt diferite provenind din populații distincte.

O valoare scăzută a acestui raportului dintre dispersia valorilor individuale la nivelul populației
ipotezei nule și dispersia mediilor anxietății grupurilor cercetate confirmă ipoteza nulă
(eșantioanele fac parte din aceeași populație), iar o valoare ridicată infirmă ipoteza nulă.

Neavând acces la datele necesare pentru calcularea dispersiei aferente populației menționate în
ipoteza nulă, aceasta va fi estimată prin media dispersiei grupurilor investigate (dispersie
intragrup).

Dispersia mediilor grupurilor investigate ne indică cât de împrăștiate sunt mediile eșantioanelor
investigate (dispersie intergrup).

Raportul acestor două dispersii se numește raport F și este responsabil cu indicarea valorii
testului ANOVA unifactorial. Cu cât valoarea acestuia este mai mare, împrăștierea grupurilor
comparate este și ea mai mare, iar diferența lor este una semnificativă, diferită de o variație pur
întâmplătoare.

Testul ANOVA oferă o imagine generală a variației mediilor grupurilor investigate fără a
identifica sursa acesteia sau variațiile mediilor tuturor perechilor posibile formate din grupurile
investigate.
Pentru situația în care dorim să aflăm cum diferă grupurile între ele și în ce sens, vom efectua o
serie de comparații multiple pe baza unuia dintre testele statistice posthoc (Scheffe, Tukey sau
Bonferoni) ulterior efectuării testului ANOVA, atunci când testul F raportează un rezultat
semnificativ.

Aceste teste se interpretează similar testului t pentru diferența mediilor unor eșantioane
necorelate. Finalitatea este luarea măsurilor disponibile pentru diminuarea excesului de eroare.

În situația în care suntem nevoiți să comparăm două sau mai multe valori măsurate pe exact
aceiași subiecți utilizăm testul t pentru diferența dintre mediile a două eșantioane dependente.

Utilizarea acestui test se recomandă atunci când:


măsurăm o anumită caracteristică înaintea unei condiții și după acțiunea acesteia (before and
after);
măsurăm o serie de variabile concomitent pe aceiași subiecți (within subjects);
atunci când nu putem testa caracteristica pe aceiași subiecți (acțiunea condiției durează ani de
zile) și găsim un al doilea respondent ca substitut pentru evaluarea secundară (matched pair
design).

Variabila independentă va fi una de tip nominal, dihotomică (înainte/după), iar cea dependentă
va fi măsurată pe o scală metrică interval sau proporțională.

Măsurătorile de dinainte și de după acțiunea condiției se vor face în același fel, pe același
instrument, în aceiași unitate de măsură pentru a permite efectuarea calculului direct al
diferenței.

Datorită faptului că cele două eșantioane (cel intervievat înainte și cel intervievat după) sunt
formate din aceiași indivizi, ele sunt considerate dependente (corelate).

În formularea ipotezei nule ne bazăm pe faptul că, în cazul unei manifestări fără impact a
condiției, diferențele pozitive s-ar neutraliza cu cele negative
generând o medie a diferențelor nulă (egală cu zero). Această ipoteză statistică presupune că
media diferențelor este egală cu zero (manifestarea condiției nu a avut niciun impact).

Pentru confirmarea ipotezei de cercetare, testul t trebuie să demonstreze existența unei valori a
mediei diferențelor calculate pe eșantionul cercetat suficient de departe de valoarea zero pentru
respingerea ipotezei nule.

Mărimea efectului este aflată prin calcularea indicelui de mărime a efectului d a lui Cohen.
Semnul indicelui nu are importanță existând 3 stări: efect mic (0,2-0,5), efect mediu (0,5-0,8 și
efect mare (0,8-1,0).
În situația în care dorim să aflăm dacă există o legătură între variația valorilor a două variabile
diferite măsurate pe același eșantion, mai exact a gradului de asociere dintre acestea două, vom
utiliza coeficientul de corelație lineară a lui Pearson (r). Pentru relațiile nonlineare putem efectua
anumite transformări care să aducă variația sub formă liniară (logaritmare, extragerea radicalului
etc.).

Coeficientul de corelație liniară a lui Pearson poate utiliza două variabile măsurate în unități de
măsură diferite (dar ambele pe scală proporțională), deoarece transformă valorile ambelor
variabile în scoruri standard.

Coeficientul r a lui Pearson se raportează la o distribuție teoretică derivată din distribuția t. Dacă
valoarea calculată este mai mare sau egală cu cea critică reluată din tabel, ipoteza nulă poate fi
respinsă, iar coeficientul de corelație considerat reprezentativ.
7
Având în vedere faptul că coeficientul r al lui Pearson oferă rezultatele pe o scală ordinală pentru
a putea compara valorile obținute pentru mai mulți coeficienți folosim coeficientul de
determinare (r2).

Cu ajutorul acestuia putem spune cât la sută din variația unei variabile este determinată de
variația celeilalte (cele două variabile au în comun x% din variația care le caracterizează).

Limitele de încredere se află în jurul punctului de estimare (valoarea calculată a lui r) la care se
adaugă și se scade valoare lui r critic înmulțită cu eroarea standard a estimării. O variantă
simplificată este utilizarea tabelului Fisher de transformare în Z a valorilor lui r.
CURS 9

Analiza multivariata a datelor

Analiza multivariată a datelor cuprinde totalitatea tehnicilor și metodelor statistice care


analizează
simultan valorile mai multor variabile în scopul definirii relațiilor dintre acestea.
Alegerea metodei corespunzătoare dintre multitudinea de opțiuni disponibile se va face ținând
cont de:

 Natura legăturilor dintre variabile (cauzale sau de asociere);


 Numărul de variabile dependente (pentru relațiile de dependență);
 Capacitatea de măsurare a scalei (metrică sau nemetrică).
Analiza multivariata de dependenta
Explicitarea variației unei variabile sau set de variabile dependente a căror valoare este
determinată prin intermediul valorilor altor variabile considerate factori de influență (variabile
independente, explicative).
 O singură variabilă metrică într-o singură relație: regresie multiplă (lineară sau non
lineară), regresie cu date categoriale și analiză CONJOINT;
 O singură variabilă nemetrică într-o singură relație: analiza discriminantului și analiză
”log-linear”;
 Mai multe variabile dependente metrice în relații individuale: analiză canonică și analiză
”MANOVA”;
 Mai multe variabile dependente nemetrice în relații individuale: analiză de corelație
canonică cu variabile ”DUMMY”;
 Relații multiple între variabile dependente și independente: modele cu ecuații structurale
”LISREL” și analiză ”PATH”.

Regresie liniara(multipla)
Urmărește identificarea celor mai buni predictori pentru variabila dependentă selectați din
mulțimea factorilor de influență considerați inițial.
Odată identificați aceștia modelul urmărește identificarea celei mai bune predicții pentru
variabila dependentă prin intermediul configurației cu cei mai puțini factori care reușește să
explice cât mai bine variația acestei variabile.

Scopul metodei este ca prin combinația de factori de influență valoarea acestei erori să fie cât
mai mică cu putință. Una dintre ipotezele de lucru ale modelului susține că, prin prisma faptului
că aceste erori pot fi cauzate de acțiunile simultane a factorilor avuți în vedere, natura
fenomenelor respective și influențele unor factori aleatorii, eroarea va tinde către o repartiție
normală.

Principalii pași în utilizarea acestui model sunt:


 Estimarea coeficienților specifici factorilor de influență;
 Stabilirea calității estimării;
 Verificarea ipotezelor enunțate;
 Evaluarea calității predicției;
 Alegerea formei finale a modelului.

Regresia de tip polinomial

Relația dintre variabila dependentă și un singur factor de influență este definită printr-un polinom
considerând fiecare pereche a polinomului ca un factor diferit împreună cu coeficientul asociat
acestuia.

Regresia logistica(cu date categoriale)


Utilizată în situațiile în care variabila dependentă
este dihotomică/binară, având ca posibile valori
doar două stări (da/nu, adevărat/fals), și un set
de variabile independente.

Prin intermediul ecuației de regresie se urmărește determinarea importanței variabilelor


independente în diferențierea celor
două stări ale variabilei dependente, în
clasificarea unei anumite înregistrări într-una
dintre cele două.

Termenul din partea stângă reprezintă probabilitatea de obținere a unuia dintre cele două cazuri
ale variabilei dependente (y=1) condiționată de valoarea factorului de influență x și poartă
numele de transformare logit a probabilității.

Analiza componentelor comune(conjoint)

Metodologie de definire a instrumentului de colectare a datelor atunci când avem ca obiectiv al


cercetării modelarea alegerilor.

Vizează descompunerea unui obiect (produs, serviciu) în componentele sale de baza în vederea
determinării importanței relative a fiecărui element în parte în luarea unei anumite decizii de
către respondent.

Componentele analizate put fi ulterior reasamblate pentru a realiza variante imaginare ale
obiectului analizat, variate care pot fi ulterior analizate comparativ pentru a stabili configurația
ce se apropie cel mai mult de efectul urmărit.

Putem previziona impactul modificării sau eliminării anumitor caracteristici precum și a


introducerii unor caracteristici noi asupra comportamentului vizat în rândul consumatorilor.
Caracteristicile produselor sunt numite factori iar diferitele valori ale acestora niveluri.

Chiar dacă un atribut poate avea un număr relativ mare de valori posibile (niveluri) în model
luăm în considerare doar acele variante care fac obiectul alegerilor consumatorilor, eliminând
astfel valorile posibile inutile.

Varianta adaptivă a analizei comune a factorilor (CONJOINT) are în vedere faptul că fiecare
consumator în parte utilizează doar o parte a acestor factori.

Factorii utilizați pot fi definiți prin ordonarea acestora de către respondent pe baza importanței
acordate în evaluarea produsului respectiv. Respondenții vor evalua colecții mai mici de
alternative (2-5) pentru alegerea variantei preferate.
Analiza discriminantului

Metodă de clasificare care estimează relația dintre o variabilă dependentă măsurată cu ajutorul
unei scale nemetrice (nominală sau ordinală) și combinații liniare ale mai multor variabile
independente (denumită funcție discriminată) măsurate pe scale metrice.

Se urmărește maximizarea raportului dintre


dispersia dintre grupuri și cea internă, de la nivelul fiecărui grup. În acest sens vor fi definite
două sau mai multe grupuri omogene pe plan intern și eterogene față de celelalte.

Deși similară analizei MANOVA și regresiei logistice, prin prisma încadrării în anumite grupuri,
mecanismul de funcționare al acestei metode este cu totul opus, pornind de la grupurile
predefinite

Analiza log-linear

Utilizată atunci când nu avem o variabilă definită ca dependentă și urmărim să determinăm


existența unei relații de asociere semnificativă din punct de vedere statistic între componentele
unui set de trei sau mai multe variabile categoriale (dihotomice sau multihotomice) măsurate pe
scale nemetrice (nominală sau ordinală).

Urmărește identificarea unei forme simplificate a modelului saturat care să poată descrie
frecvențele observate într-un mod satisfăcător dar cu un număr redus de variabile.

Analiza de corelație canonică

Studiază relația liniară dintre un grup de variabile dependente și un grup de variabile


independente, considerate factori de influență pentru variabilele din primul grup utilizând un
număr de funcții liniare egal cu cel al variabilelor din grupul cel mai mic.

Coeficientul de analiză de corelație canonică măsoară intensitatea asocierii dintre două variabile
latente (care nu au fost culese sub această formă direct de la respondenți) calculate prin
intermediul unei sume ponderate a unui set de variabile observate.

Coeficienții de contingență canonică testează existența relațiilor generale dintre cele două seturi
de variabile iar măsurile de redundanță testează magnitudinea acestor relații.

Analiza multivariată a variației MANOVA

Utilizează două sau mai multe variabile independente și două sau mai multe variabile dependente
comparând diferențele dintre mediile unui număr multiplu de grupuri și analizând impactul pe
care una sau mai multe variabile independente îl au asupra generării diferențelor semnificative
înregistrate pe baza anumitor caracteristici.

MANOVA excelează în cazul experimentelor cu variabile latente, având nevoie de o singură


scala nominală pentru variabilele independente. În acest caz variabilele latente, dificil sau
imposibil de observat direct, sunt reprezentate prin intermediul mai multor variabile
independente metrice.

Analiza multivariată a covariației MANCOVA

O combinație a analizei uni-factoriale MANOVA urmată de o analiză a regresiei, utilizând o


singură
variabilă independentă. Această analiză explică varianța intra-grup a analizei MANOVA și
exercită
control asupra factorilor ce pot crea confuzii.

Analiza MANCOVA pe o singură cale folosește un număr de cel puțin 4 variabile, variabila
independentă (măsurată pe scală nominală), două sau mai multe variabile dependente (măsurată
pe scală interval sau proporțională) și cel puțin un factor intricat/concomitent care moderează
impactul factorilor independenți asupra variabilei dependente.

Aceste covariabile vor fi măsurate pe scală metrică și reprezintă de cele mai multe ori o valoare
pre-test sau o valoare de referință/de baza. Metoda elimină efectele de covarianță asupra relației
dintre variabilele dependente și independente.

Modele cu ecuații structurale (SEM)

Se concentrează pe descoperirea și analiza relațiilor structurale dintre variabilele


măsurate/observate și cele latente. Poate estima simultan multiple relații dintre variabile
dependente și factori de influență și permite includerea variabilelor latente ce nu pot fi observate
în mod direct.

SEM este considerată mai degrabă ca fiind o metodă de analiză confirmatorie decât exploratorie
deoarece flexibilitatea deosebit de mare a modelului poate conduce la foarte multe variante
alternative pentru modelul investigat.

SEM realizează o diagnosticare a modelelor identificate prin intermediul metodelor exploratorii


pentru a concluziona asupra măsurii în care modelul testat este corespunzător sau nu.

CURS 10
Analiza multivariată de interdependență

Investighează simultan existența și intensitatea relațiilor de interdependență din cadrul unui set
de variabile pentru a descoperi modelele de grupare a variabilelor/cazurilor/
atributelor/obiectelor.

Utilizate atunci când urmărim identificarea structurii datelor prin reducerea numărului de
variabile din set, gruparea obiectelor/cazurilor sau atunci când este dorită reprezentarea relațiilor
dintre obiecte și atributele acestora utilizând graficul tip hartă perceptuală.

Relații între variabile: analiza factorială și analiza componentelor principale;


Relații între cazuri: analiză de tip ”cluster”;
Relații între obiecte: scalare multidimensională (măsurate metric) și analiză de corespondență
sau analiză de omogenitate (măsurate nemetric).

Metodele decompoziționale pornesc de la evaluări generale sau măsurători globale ale obiectelor
în încercarea de definire a unui spațiu multidimensional în care aprecierea generală este susținută
de către coordonatele obiectelor. Metodă specifică scalării multidimensionale.

Metodele compoziționale pornesc de la un set de cazuri (înregistrări, obiecte, atribute) și


utilizează relațiile de asociere dintre acestea pentru a defini o reprezentare/evaluare. Se utilizează
o anumită măsură de similaritate pentru compunerea datelor într-o structură cu un număr redus
de dimensiuni. Specifică analizei factoriale, CLUSTER, analiza de corespondență/omogenitate.

Analiza factorială și analiza componentelor principale

Analiza factorială și analiza componentelor principale


reduc un set de variabile interdependente la un număr
redus de factori latenți care explică structura relațiilor
dintre acestea. Analiza pornește de la matricea de
corelații dintre variabile.

Factorii observați sunt grupați în dimensiuni (variabile


latente) care pot caracteriza fenomenul analizat
urmând să identificăm acel set redus de factori ce
formează variabilele cheie neobservabile direct (dimensiuni, factori de influență). Variabilele
care formează o dimensiune sunt puternic corelate între ele și foarte slab corelate cu celelalte.

Deseori vom diviza eșantionul în două părți, pe baza unui criteriu aleatoriu de selecție, pentru a
defini setul de dimensiuni pe baza primei jumătăți și a confirma modelul respectiv prin
intermediul celei de a doua.
Analiza factorială

Analiza factorială permite gruparea unui set de factori într-o dimensiune caracteristică
fenomenului investigat. Scopul metodei este identificarea cu precizie a configurației de factori
care maximizează capacitatea de descriere a comportamentului prin intermediul unui număr
minim de factori latenți.

Analiza factorială pornește de la valorile indicatorilor de corelații individuali pentru toate


perechile posibile din setul dat (din matricea de corelație). Variabilele puternic corelate între ele
și slab corelate cu celelalte sunt grupate într-o dimensiune nouă a modelului.

Factorul latent astfel generat poate fi utilizat ca variabilă dependentă iar setul de factori
componenți vor descrie varianța acesteia. Factorul latent va fi puternic corelat cu toți factorii săi
și foarte slab corelat cu toți ceilalți factori.

Calculăm scorul factorial pentru fiecare factor/dimensiune, valori care vor înlocui variabilele
originale din componența factorului latent. Aceste valori vor fi folosite mai departe în procesarea
și analiza datelor.

Grație capacității metodei de a lucra cu seturi mari de variabile (reduse la un număr mai ușor de
gestionat de factori) aceasta este foarte populară în proiectele de cercetare exploratorie. Metoda
poate fi utilizată cu succes și în proiecte de cercetare descriptivă, în special când urmărim
confirmarea validității unui model multidimensional.

Cei șapte pași specifici analizei factoriale:


 Definirea problemei conceptuale;
 Generarea matricei de corelații;
 Extracția factorilor;
 Rotația factorilor;
 Interpretarea factorilor;
 Generarea variabilelor explicative;
 Validarea analizei factoriale.

Analiza factorială are nevoie de variabile de intrare măsurate pe scale metrice


(interval sau proporționale). În lipsa unor variabile metrice continue (având în vedere setul
generos necesar) pot fi utilizate și variabile ordinale ale căror răspunsuri să fie în mod obligatoriu
codificate cu valori numerice unice continue.

Având în vedere această proprietate critică a datelor de intrare, avem la dispoziție un set de trei
metode ce pot fi utilizate pentru determinarea validității datelor disponibile pentru modelul
considerat:
 Testarea statistica a existenței legăturii de asociere dintre variabilele din matricea de
corelații utilizând testul sfericității al lui Barlett (cu cât valoarea calculată este mai mare,
cu atât este mai scăzut nivelul de semnificație și mai semnificative corelațiile observate);
 Examinarea coeficienților parțiali de corelație dintre factorii unici ai variabilelor (căutăm
valori apropiate de zero pentru coeficientul de corelației anti-imagine);
 Testul KMO (Keiser-Meyer-Olkin) pentru eșantionare adecvată (compară intensitatea
corelațiilor cu cea a coeficienților parțiali de corelație; valorile mai mare indică existența
unor factori comuni mai pronunțați).
Procedura de extracție pornește de la ipoteza existenței unui singur factor comun. Numărul de
factori comuni este ulterior incrementat cu câte o unitate la fiecare iterație până la promovarea
testului discrepanței (dintre matricea de corelație inițială/observată și cea generată ulterior). Cele
mai populare metode de extracție a factorilor sunt:
 Metoda celor mai mici pătrate;
 Metoda probabilității maxime;
 Factorizare Alfa;
 Factorizarea imaginii;
 Factorizarea pe axa principală;
Analiza componentelor principale.

Matricea de saturație indică relația de corespondență dintre factorii generați și variabilele


individuale componente ale setului inițial. Valorile mari indică reprezentativitatea la nivel de
variabilă pentru factorul investigat.

Rotația factorilor reprezintă un pas esențial deoarece reduce numărul de variabile prin
intermediul mai multor transformări pe matricea de saturație. Gruparea lor în factori latenți
semnificativi reduce complexitatea variabilei latente și crește gradul de determinare factorială a
acesteia.

Cele mai comune tehnici de rotație a factorilor sunt:

 Examinare vizuală a configurației grafice a variabilelor: axele sistemului sunt


reprezentate de factori iar poziția variabilelor este determinată de saturația lor factorială;
axele sunt redefinite până la gruparea variabilelor, fiecare ax (factor) secționând grupul
de variabile;
 Rotație analitică ortogonală: Varimax (simplifică coloanele matricei factoriale),
Quatimax (maximizează varianța pătratelor saturațiilor individuale, Equamax (o
combinație între Varimax și Quatimax);
 Rotație analitică oblică: rotație obli-min directă (simplifică saturația factorială și adaugă
posibilitatea oblicității), ProMax (similar cu Varimax dar mai rapidă și mai bună pentru
baze de date mari);

În etapa de interpretare a factorilor fiecare factor identificat primește o etichetă și o scurtă


descriere care sintetizează conținutul variabilelor componente care îl saturează. Odată
identificate dimensiunile latente pentru setul de date putem examina comportamentul
respondenților.

Variabilele latente sunt definite începând cu variabila cu cel mai mare scor factorial în matricea
de saturație factorială (utilizată ca variabilă surogat) sau prin definirea unei noi variabile
reprezentativă calculată pe baza scorului factorial de pe fiecare înregistrare.

Soluția variabilei surogat nu poate fi utilizată decât atunci când aceasta saturează în mod
semnificativ un anumit factor, mult mai mult decât oricare altă variabilă din set.

Pentru estimarea scorurilor factoriale putem folosi următoarele metode:


 Regresie: identifică cele mai puternice corelații cu factorul latent investigat; folosită
pentru maximizarea scalelor factoriale prin intermediul factorului latent atunci când scala
este corelată cu un singur factor;
 Metoda Barlett: asociază ponderi mai mici variabilelor cu erori de eșantionare mai mari;
utilizată atunci când scala factorială se corelează în mod exclusiv cu factorul latent pe
care îl măsoară;
 Metoda Rubin-Anderson: o variație a metodei Barlett utilizată atunci când factorii
estimați sunt ortogonali doi câte doi.

Înainte de a generaliza rezultatele la nivelul întregii populației analizate procedura de validare


estimează magnitudinea și probabilitatea erorii asociate cu această extrapolare a rezultatelor pe
întreaga comunitate prin intermediul statisticii inferențiale (jumate de bază de date pentru calcul
iar cealaltă pentru validare)

Analiza componentelor principale

Această metodă este destul de similară cu analiza factorială, motiv pentru care acestea sunt
adesea confundate. Deși par variațiuni ale aceleiași metode există diferențe subtile cu un impact
semnificativ asupra aplicabilității rezultatelor.

Scopul său declarat este reducerea numărului de variabile din setul inițial. Generează una sau
mai multe variabile index prin intermediul combinațiilor lineare și calculează variabile compuse
cu ajutorul unei medii ponderate, numite componente (pe baza variabilelor inițiale).
Metoda caută numărul optim de componente (mai puține, mai bine), configurația optimă a
fiecărei componente și ponderile optime pentru calculul componentelor individuale. Întrebarea
este ce combinație de variabile va descrie componenta mai bine decât orice altă alternativă.

Calculul proporției varianței explicată prin intermediul fiecărui element reprezintă un mod mai
sofisticat de selectare a numărului final de dimensiuni. Alegem astfel o valoare de referință și
adăugăm elemente noi cu fiecare iterație în parte până la atingerea pragului stabilit.
Reprezentarea grafică este generată pe baza listei de variabile ordonată după varianța acestora.
Graficul este unul cumulativ, însumând toate valorile de la cea mai mare în jos până la atingerea
pragului. Oprim adăugarea de elemente noi atunci când curba valorilor cumulative indică faptul
că impactul elementelor suplimentare este nesemnificativ.

Analiza Cluster

Grupează cazurile (înregistrările) pe baza asemănării caracteristicilor acestora producând grupuri


omogene intern și eterogene extern. Analiza pornește de la matricea de similarități dintre
variabile.

Prin intermediul tehnicilor și procedurilor specifice se urmărește o reducere a datelor prin


organizarea unei mulțimi de mari dimensiuni într-un număr relativ redus de grupuri
reprezentative.

Caracteristicile care definesc fiecare grup în parte, obligatoriu împărtășite de către obiectele
aparținătoare, sunt stabilite de către cercetător. Fiecare grup în parte poate fi descris de către
oricare dintre obiectele componente.

Metodele de partiționare iterativă (k-means clustering) pornesc de la o grupare inițială a


obiectelor într-un număr dat de grupuri (definit de către cercetător). Pentru fiecare grup este
calculat centroidul iar obiectele din set sunt ulterior alocate celui mai apropiat centroid.
Algoritmul se repetă până când nu mai apare nicio modificare în aceste alocări.

O alternativă mai puțin sensibilă la valori extreme este PAM (partitioning around medoids sau
K-medoids clustering). În acest caz fiecare grupeste reprezentat de către unul dintre obiectele din
clusterul analizat.

Pentru baze de date de mari dimensiune este Recomandat CLARA (clustering for large
applications), o extensie a modelului PAM.

Metodele ierarhice aglomerative (HCA) consideră pentru început că fiecare obiect din setul
inițial este un grup și la fiecare iterație sunt fuzionate două grupuri apropiate până când rămân
doar două grupuri (root/single cluster).

Această metodă nu presupune formarea unui număr dat de grupuri.

Ca alternativă la metodele aglomerativeputem utiliza metodele de partiționare (divise clustering)


care pornesc de la grupul rădăcină (root cluster) și divizează grupurile cele mai heterogene până
atunci când fiecare obiect este un grup cu o singură componentă).
Gruparea probabilistică (fuzzy/soft clustering) are în vedere probabilitatea ca fiecare element să
aparțină fiecărui grup (spre deosebire de metodele anterioare în care un obiect poate aparține
unui singur grup).

Probabilitatea ca un element să aparțină unui anumit grup este dată de o valoare cuprinsă între
zero și unu.

FCM (fuzzy c-means), cel mai popular algoritm de grupare din această categorie, Calculează
poziția centroidului ca medie a tuturor punctelor (elementelor) ponderatăcu ajutorul probabilității
de apartenență la grupul respectiv. Gruparea pe bază de model consideră că datele de intrare
provin dintr-o distribuție compusă dintr două sau mai multe grupuri și folosește asocierea
probabilistică (similar fuzzy clustering). Fiecare grup este modelat pe baza distribuției normale
(Gauss).
Cel mai bun model de reprezentare este selectat folosind BIC (Bayesian Information Criterion).
Un scor BIC mare indică un model corespunzător.

Parametrii modelului pot fi estimați utilizând algoritmul EM (Expectation-Maxmization)


inițializat folosind algoritmul de grupare ierarhică. Fiecare grup este centrat pe valoarea medie,
cu densitate mai mare în pentru punctele aflata în vecinătatea acestei valori.

Specificul geometric al fiecărui grup (formă, volum, orientare) este determinat pe baza matricei
de covarianță.

Metodele de grupare pe baza densității (DBSCAN) au fost concepute în scopul identificării


grupurilor cu dimensiuni si forme diferite în seturi de date afectate de distorsiuni și valori
extreme (derivate din metodele de grupare manuală intuitivă).

Grupurile sunt definite ca regiuni cu densitate mare din spațiul grafic de reprezentare separate
prin zone de densitate redusă.

Pentru fiecare punct care aparține grupului în imediata sa vecinătate (rază) trebuie să existe un
număr minim de puncte.

Oferă rezultate excelente pentru grupuri non-sferice precum și atunci când separarea nu este
evidentă. Izolează foarte binevalorile extreme și distorsiunile.

Scalarea multidimensionala

Definește harta perceptuală a poziționării relative a obiectelor în funcție de două sau mai multe
dimensiuni. Analiza se bazează pe evaluări de similaritate/preferințe ale respondenților
transformate în distanțe între obiecte.
Utilitatea acestei metode de analiză este remarcabilă prin prisma generării pozițiilor relative ale
produselor/serviciilor/companiilor în preferințele consumatorilor. Spațiul perceptual în care
aceste obiecte sunt definite este constituit pe baza judecăților pe care respondenții le fac în relație
cu aceste obiecte investigate.

Prin intermediul metodei urmărim identificarea acelor caracteristici subiective fundamentale pe


baza cărora respondenții evaluează obiectele aparținând acelei categorii, caracterizate prin
pseudo-scala de măsurare utilizată de aceștia și valorile pe care produsele le pot lua pe aceasta.

Pe baza acestor caracteristici putem descoperi structura ascunsă a datelor prin intermediul unei
hărți perceptuale realizată prin marcarea obiectelor în spațiul bi, tri sau multidimensional definit
de către setul de caracteristici identificate.
Putem folosi culori acolo unde straturile se suprapun. Se recomandă minim 10 obiecte pentru
hărți bidimensionale și minim 20-25 pentru tridimensionale.

Această tehnică de reducere a setului inițial de elemente putem identifica dimensiunile latente
caracteristice grupului inițial obiecte așa cum a fost el definit de către respondenți. Este
recomandat ca numărul de obiecte evaluate să fie de 4-5 ori mai mare decât cel al
caracteristicilor utilizate pentru definirea spațiului multidimensional.

Obiectele avute în vedere vor fi în mod obligatoriu comparabile pe baza setului complet de
caracteristici comune.

Pentru ca respondenții să poată evalua fiecare obiect folosind aceste caracteristici este necesar să
ne asigurăm ca fiecare obiect poate primi valori pentru toți parametrii considerați.

În același timp este important că toți respondenții să fie capabili și dispuși să evalueze acele
obiecte pe baza caracteristicilor considerate.

Pentru evaluarea preferințelor în legătură cu setul de elemente considerate se va face prin


intermediul unor criterii foarte bine puse la punct și clar comunicate, folosind atribute specifice
categoriei de obiecte din care fac parte.

Putem utiliza și criterii subiective de evaluare sau ușor neconvenționale atunci când aceste sunt
indicate de către respondenți, chiar dacă nu se regăsesc în fișa tehnică a produsului.

De multe ori respondenții nu dețin cunoștințe de specialitate pentru o evaluare corectă din punct
de vedere tehnic însă folosesc interpretări simplificate ale caracteristicilor (populare). Evaluările
metrice sunt de multe ori înlocuite cu expresii superficiale, subiective (bun, satisfăcător,
suficient...) pe care nu le pot explica/defini cu precizie.

În multe situații, obiectele foarte asemănătoare vor fi departajate pe baza acestor caracteristici
subiective, făcând imposibilă eliminarea acestora.
Analiza de corespondenta

Analizează relațiile de asociere dintre variabilele calitative și dintre categoriile acestora generând
o formă de reprezentare grafică ce grupează categoriile în funcție de similaritatea acestora.

Metoda urmărește descoperirea structurii aferente unui set complex de date reprezentat prin
intermediul unui tabel de contingență. Datele respective sunt transformate în coordonate ce
corespund categoriilor de răspuns specifice celor două variabile analizate.

Acestea vor fi reprezentate grafic într-un spațiu cu două dimensiuni pentru evidențierea
categoriilor cu poziții similare (categoriile variabilelor diferite care sunt afișate pe poziții
apropiate în spațiu).

Inițial, pe baza datelor din tabelul de contingență, fiecare variantă predefinită a unei variabile
este definită prin intermediul unui set de coordonate egal cu numărul de categorii ale celeilalte
variabile.

Metoda analizei de corespondență reduce acest număr de coordonate la 2 specific spațiului


bidimensional, cu două axe, pentru toate categoriile de răspuns aferente ambelor variabile.

Astfel este posibilă reprezentarea simultană a variantelor de răspuns specifice ambelor variabile
în același spațiu. Opțional, diametrul simbolului de reprezentare folosit pentru fiecare categorie
în parte va fi proporțional cu frecvența sa absolută din tabelul de contingență.

Analiza de omogenitate

Analiza de omogenitate, forma extinsă a analizei de corespondență, cunoscută și sub numele de


analiza de corespondență multiplă, funcționează pe principii similare dar poate analiza un set
format din mai mult de două variabile nominale.

În cadrul acestei analize se caută cuantificări optime pentru categorii în vederea obținerii unei
separări cât mai clare între acestea prin atribuirea unor valori numerice pentru cazuri și atributele
lor (folosind metoda celor mai mici pătrate alternante).

Această metodă este deosebit de utilă atunci când ne confruntăm cu variabile caracterizate printr-
un grad ridicat de omogenitate.

CURS 12
Previziuni de marketing

Previziunile de marketing reprezintă estimări ale nivelurilor variabilelor endogene sau exogene
pentru perioadele viitoare realizate pe baza examinării trecutului acestora și a identificării unui
tipar repetitiv în evoluția lor.

Pe baza acestor estimări se stabilesc performanțele anticipate ale organizației și linia strategică
necesară optimizării activității acesteia pe termen mediu și lung.

Alocarea eficientă a resurselor organizației pe orizonturi diferite de timp și activitățile de


programare depind în foarte mare măsură de acuratețea previziunilor .

Acuratețea previziunilor este determinată de:


 Specificitatea pieței;
 Contextul realizării previziunilor;
 Orizontul de timp avut în vedere
 (1-5 ani sau peste 5 ani);
 Ciclicitatea fenomenului investigat;
 Disponibilitatea datelor cu caracter istoric;
 Numărul și tipul factorilor de influență
 considerați;
 Nivelul de formalizare (cantitativ/calitativ);
 Gradul de precizie dorit;
 Intervalul de timp în care trebuie realizate previziunile;
 Importanța previziunii pentru factorii decizionali;
 Gradul de subiectivitate din datele istorice disponibile;
 Suprafața geografică considerată (regional, național, internațional).

Clasificarea metodelor de previziune

În funcție de tipul datelor disponibile pentru realizarea previziunilor de marketing metodele sunt
împărțite în cantitative (bazate pe metode statistice) și calitative (bazate pe judecata și experiența
specialiștilor).

Metoda potrivită este selectată în funcție de datele disponibile și de expertiza acumulată de către
experți în domeniul respectiv.

Metode cantitative de previziune

Se folosesc atunci când:


 Există informații istorice despre variabila în cauza cantitative sau cuantificabile;
 Este susținută ipoteza constanței configurației (variabila va avea o evoluție
 similară celei din trecut, ciclicitate).
Pe baza relației dintre variabila considerată și timp sau alte variabile se va alege metoda
corespunzătoare.

În funcție de specificul teoriei statistice utilizate avem:


Metode informale (extrapolează valorile viitoare ale variabilei (nivel, variații ciclice sezoniere,
tendință) pe bază empirică utilizând istoricul acesteia dar suferă de acuratețe redusă);
Metode formale (extrapolează valorile viitoare prin folosirea unor metode standardizate
optimizate pentru minimizarea erorii de previzionare).

Clasificarea metodelor de previziune

După tipul modelelor cantitative utilizate metodele cantitative de previzionare pot fi:
Metode de analiză a seriilor dinamice (endogene): se bazează pe analiza evoluției în trecut a
variabilei și/sau a erorilor de previziune pentru descoperirea configurației specifice a seriei
dinamice fără a considera în mod explicit factorii de influență; există 4 tipuri de configurații de
bază:
 configurație orizontală (staționară în jurul unei medii);
 configurație tendință (trend, creștere/descreștere pe termen lung);
 configurație sezonieră (fluctuații determinate de factori sezonieri);
 configurație ciclică (variabilă pe lungime si amplitudine pe orizonturi mai mari de timp).
Metode cauzale (exogene): presupun existența unei legături cauză-efect și se elaborează
previziunea pe baza acesteia presupunând că relația identificată rămâne constantă.

Metode cantitative de previziune

1. Metode bazate pe analiza seriilor dinamice (nu sunt riguroase statistico-matematic dar sunt
flexibile, ușor de utilizat, ieftine cu precizie acceptabilă)
 Metode naive (se bazează pe cele mai recente date și indicele de sezonalitate);
 Metoda modificării procentuale (pe baza unui indice de modificare anuală pe baze
sezoniere);
 Metoda modificării procentuale mobile (se utilizează mediile mobile ale schimbărilor
procentuale);
 Metoda mediilor mobile (folosește valorile medii pentru un număr fix de date istorice și
previzionează etapa viitoare pe baza mediilor celei mai recente observări);
 Metoda nivelării exponențiale (Brown, Holt sau Winter);
 Metode de descompunere a seriilor dinamice (funcție de tendință, sezonalitate și
ciclicitate plus eroarea aleatoare);
 Metode autoregresive.

2. Metode cauzale
Mult mai riguroase, cu complexitate ridicată și precizie sporită de previzionare au la bază
considerarea explicită a relației cauză-efect între variabila previzionată și un număr de variabile
independente.

 Metoda regresiei (multiple) presupune utilizarea unei ecuații de regresie ai cărei


parametrii pentru variabilele independente sunt stabiliți pe baza seriilor de timp și
necesită realizarea preliminară a estimărilor pentru toate variabilele independente.

 Metode de tip gravitațional presupun estimarea parametrilor prin aproximări succesive
(nu prin metode statistice) pe baza unei ecuații de regresie, și excelează în domeniul
serviciilor.

Metode calitative de previziune

Suplimentează previziunile cantitative pentru confirmarea rezultatelor și îmbogățirea


informațiilor oferite. În condițiile unui mediu turbulent sunt mai precise decât metodele
cantitative, acestea din urmă bazându-se pe o evoluție predictivă, cu hazard redus dar depind în
foarte mare măsură de experiența cercetătorului.

Tehnica Delphi (realizarea unui consens în eșantionul de specialiști care evaluează independent
și anonim variabila previzionată);
Analogiile (compararea prezentului cu situații istorice);
Metoda PERT-derivat (previziunea optimistă, pesimistă și probabilă);
Metoda bazată pe teoria utilităților;
Teoria deciziilor (clasică sau bayesiana);
Estimările de grup (atingerea unui consens prin interacțiunea experților);
Previziunile dinamice ale cotei de piață (metoda lanțurilor Markov).

Tehnica Delphi

Tehnica Delphi este o metodă structurată de comunicare dezvoltată ca o metodă interactivă de


previzionare care se bazează pe contribuțiile unui panel de experți.

Este investigată opinia unui număr relativ mare de experți independenți prin intermediul unor
chestionare aplicate în mod repetitiv, care sunt îmbunătățite la fiecare iterație.

Nu este necesar ca, în primă fază, experții să fie de acord cu privire la valoarea previzionată. Prin
intermediul mai multor runde de consultări aceștia rafinează propriile previziuni până când
reușesc să convină asupra unor variante foarte probabile acceptate de comun acord.

Analogiile
Previziunile pornesc de la identificarea unui scenariu foarte asemănător în istoria recentă a
organizației/mediului de marketing.

Se pornește de la premisa că evoluția viitoare va respecta același tipar (de exemplu ciclul de
viață al unui produs: creștere, maturitate, declin).

Metoda este foarte sensibilă la intervenția factorilor perturbatori care pot accelera sau întârzia
evoluția pe baza trendului observat (în cel mai bun caz) sau pot genera evoluții atipice, în afara
acestui model istoric identificat (în cel mai rău caz).

Aceste previziuni vor fi atent monitorizate în timp pentru a ne asigura că fenomenul de interes
respectă trendul istoric utilizat.

Metoda PERT-derivat

PERT (Program Evaluation Review Technique) folosește estimarea optimistă, pesimistă și


cea mai probabilă pentru a previziona evoluția unui indicator.

Metoda generează rezultate bune atunci când evenimentul previzionat este puternic afectat de
incertitudini, fiind foarte dependent de evoluția altor elemente specifice (factori).

Estimatea PERT este considerată mai exactă deoarece are în vedere mai multe scenarii cuprinse
într-o plajă bine definită (de la cel mai nefavorabil la cel mai favorabil).
Metoda bazată pe teoria utilităților
Teoria utilității descrie modul în care consumatorii se vor comporta dacă își bazează procesul
decizional pe anumite necesități și dau dovadă de gândire rațională/obiectivă.

Metoda generează un set de axiome sau presupuneri caracteristice consumatorului rațional


investigat. Contradicțiile care încalcă aceste axiome, observate prin monitorizarea pieței, sunt
utilizate ulterior pentru îmbunătățirea modelului.

Această metodă nu este recomandată atunci când consumatorii vizați achiziționează produse și
servicii pe principii subiective, emoționale.

Teoria deciziilor
Aceste previziuni au la bază selectarea unei alternative decizionale dintr-un set de două
sau mai multe alternative posibile pe baza unui set de criterii de selecție.

Deciziile programate sunt de regulă activități repetitive guvernate de strategia adoptată


de către organizație.
Deciziile neprogramate sunt specifice managementului și vizează de cele mai multe ori
situații noi, mai mult sau mai puțin anticipate.

Aceasta metodă de previziune se bazează pe existența unui decident apt, bine informat, complet
rațional, calculat.

Estimările de grup
Vizează atingerea unui consens cu privire la cel mai probabil scenariu viitor (alternativă
prognozată unanim acceptată) prin interacțiunea experților ce formează un grup.

Se bazează pe teoria schemei decizionale sociale (SDST – social decision scheme theory) și
excelează în scenariile în care precizia estimării este radical influențată de abordarea
multidisciplinară a problemei decizionale.

Această metodă este deseori utilizată în ședințele care aduc împreună managementul de top al
organizației.

Pentru atingerea unui consens este necesar ca fiecare membru al echipei de specialiști să
argumenteze propria opinie pe baze obiective, folosind datele disponibile din surse
credibile/acceptate.

Previziunile dinamice ale cotei de piață

Previziunile dinamice ale cotei de piață se bazează pe metoda lanțurilor Markov. Pornim astfel
de la o serie de evenimente înlănțuite care depind unul de celălalt.

Astfel, ceea ce urmează să se întâmple în viitorul imediat apropiat depinde în foarte mare măsură
de
ceea ce se întâmplă în prezent (orice schimbare care modifică situația actuală nu poate aduce
modificări radicale bruște).

Practic, condițiile preexistente ale pieței limitează numărul de alternative posibile separând
alternativele foarte puțin probabile de cele cu probabilitate mare de materializare.

CURS 13

Utilizarea SPSS Syntax. De ce?

 Permite realizarea unui volum mare de activități cu efort minim și în timp record;
 Ușurează semnificativ munca în cazul cercetărilor longitudinale și atunci când suntem
nevoiți să realizăm raportări intermediare;
 Nu sunt necesare cunoștințe de programare;
 Codul SPSS Syntax este ușor de citit și intuitiv;
 SPSS generează automat codul aferent fiecărei comenzi realizate prin interfața vizuală
(atât pentru prelucrare cât și pentru analiză);
 Codul generat de SPSS poate fi editat în totalitate prin schimbarea variabilelor țintă și a
parametrilor;
 Utilizatorii cu experiență limitată pot progresa gradual de la copy-paste către introducerea
manuală a comenzilor;
 Editorul Syntax ajută utilizatorul prin intermediul funcției auto-complete;

Command Syntax Reference

Acest ghid este inclus in kitul de instalare al SPSS și conține toate comenzile Syntax grupate
după scopul acestora în:
 Import de date;
 Salvare și export date;
 Adaptare date în format SPSS;
 Definirea datelor;
 Transformarea datelor;
 Editarea proprietăților documentului;
 Transformarea fișierului;
 Structuri logice de programare;
 Utilități de programare și generale;
 Operații cu structuri tabelare;
 Afișarea rezultatelor;
 Generarea Graficelor;
 Serii de timp.

Suplimentar codul Syntax permite utilizarea modulelor suplimentare precum:


 Statistics Base;
 Advanced Statistics;
 Regression;
 Custom Tables;
 Decision Trees;
 Categories;
 Complex Samples;
 Neural Networks;
 Forecasting
 Conjoint Analysis;
 Bootstrapping;
 Missing Values
 Data Preparations.
Primii pași
 La sfârșitul cercetării pilot, cu structura bazei de date finalizată, realizați prelucrarea și
analiza a datelor pe datele disponibile (eșantionul mic specific cercetării pilot);
 Verificați rezultatele generate în fereastra Output asigurați-vă că acestea sunt într-o formă
satisfăcătoare;
 Creați un document text în care salvați codul sintaxă generat de către SPSS în fereastra
output pe structura obiectivelor urmărite (folosim comenzi tip comentariu pentru
separarea segmentelor de comenzi);
 Copiați din fișierul respectiv grupul de comenzi dorit în fereastra ”Syntax Editor”
(File/New/Syntax);
 Extindeți setul de comenzi asupra celorlalte variabile similare;
 Selectați grupul de comenzi dorit și lansați în execuție apăsând butonul RUN din panoul
superior cu instrumente;

Tranziția către utilizator avansat

Pentru început utilizatorul trebuie să abordeze cu încredere salvarea codurilor sintaxă generate
automat, modificarea codurilor variabilelor și rularea acestor coduri.

Ulterior se poate face tranziția către adăugarea de parametrii noi sau eliminarea unora din cei
existenți din comenzile autogenerate pe baza sintaxei comenzii respective.

Următorul pas firesc este editarea manuală a comenzilor sintaxă, activitate pentru care este
suficient să cunoască numele comenzii necesare.
Funcția de autocompletare împreună cu mecanismul de validare a codului ne vor ajuta să definim
corect comenzile și parametrii acestora.

Principii de funcționare

1. Începutul liniilor cu comentarii va fi marcat cu ”*” iar sfârșitul cu ”.” (textul va fi afișat
cu caractere de culoare gri);
2. Comentariile la sfârșit de linie vor fi precedate de”/*” și încheiate cu ”.”
3. Atunci când vor fi analizate mai multe variabile similare în același timp codul acestora va
fi separat printr-un caracter spațiu;
4. SPSS este ”case sensitive”, evitați utilizarea majusculelor;
5. Nu folosiți indentații (stații libere la început de linie);
6. Momentan diacriticele nu sunt acceptate;
7. Fiecare comandă va începe pe o linie nouă de la capăt de rând și poate continua pe câte
rânduri este nevoie până la întâlnirea caracterului ”.”;
8. Pentru a rula o comandă aceasta trebuie în prealabil selectată iar apoi apăsat butonul
săgeată verde Run (Ctrl+R);
9. Fișierele sintaxă vor avea extensia .sps și pot fi editate utilizând orice editor text/web
(notepad, notepad++...);
Comprimarea comenzilor

 Prescurtați comenzile generate automat (”V1 to v10”, ”all”);


 Comanda, lista de variabile și parametri pot fi pe aceiași linie;
 În lipsa parametrilor suplimentari este folosită configurația de bază;
 Odată cu acumularea experienței puteți omite cuvintele opționale;
 SPSS este optimizat pentru utilizarea comenzilor abreviate;
 Utilizarea codului Python în SPSS

Limbajul de programare Python a fost integrat in SPSS începând cu versiunea 14 pentru


automatizarea proceselor de prelucrare și analiză a datelor.

Python este un limbaj de programare dinamic high-level, printre cele mai importante limbaje de
programare utilizate în prezent. Proiectat inițial la începutul anilor 1980 a început să fie folosit
10 ani mai târziu iar filozofia sa se bazează pe următoarele valori:

 Codul frumos este preferabil celui urât;


 Codul explicit este preferabil celui implicit;
 Simplitatea codului este preferabilă complexității nejustificate;
 Codul complex este preferabil celui complicat;
 Codul ușor de citit este preferabil celui criptic.

De ce Python?

 Este printre cele mai importante limbaje de programare utilizate în acest moment;
 Utilizatorii nu au nevoie de experiență în programare pentru utilizarea comenzilor de
bază și redactarea de secvențe scurte;
 Este disponibil sub licență Open Source;
 Este dezvoltat în permanență de către comunitate;
 Este un limbaj intuitiv și foarte ușor de învățat (comparabil cu Visual Basic for
Applications utilizat de MS Office pentru macro);
 Permite editarea de secvențe de cod scurte precum și a unor programe cu un grad ridicat
de complexitate (inaccesibil sintaxei SPSS);
 Este ușor de integrat în alte aplicații;
 Nu implică costuri suplimentare pentru utilizatori;
 Utilizatorii au acces gratuit către nenumărate surse de informare și exemple disponibile
online;

De ce este utilizat în SPSS?

 Automatizarea proceselor repetitive de analiză și prelucrare a datelor;


 Analiză instant în cazul cercetărilor longitudinale pentru raportarea intermediară;
 Analiză instant în momentul finalizării colectării de date pe baza scriptului proiectat în
faza de planificare;
 Permite cercetătorilor să dezvolte instrumente de prelucrare și analiză suplimentare
inexistente in SPSS;
 Permite integrarea interogărilor MySQL pentru baze de date online și locale, fișiere
Excel;
 Permite salvarea/utilizarea unor modele de analiză personalizate dificil de realizat prin
interfața SPSS;

Cum poate fi utilizat?

1. Copy-Paste: sintaxa din fereastra Output a SPSS rezultată în urma unei acțiuni realizate
prin intermediul interfeței utilizator poate fi copiată, editată și rulată din nou;
2. Editarea propriei sintaxe: odată cu acumularea experienței utilizatorii își pot scrie propria
sintaxă similară celei generate automat de SPSS;
3. Editarea propriilor funcții: seturile de comenzi utilizate frecvent pot fi salvate sub forma
unor funcții personalizate ce primesc anumiți parametrii (nume de variabile, indicatori
solicitați...);
4. Editarea propriului modul de cod: utilizatorii experimentați care au cunoștințe de bază în
programare pot scrie propriul modul în cos Python (fără a mai depinde de sintaxa SPSS);
5. Crearea de ferestre de dialog și instrumente proprii: nivelul superior rezervat celor cu
aptitudini de programare și experiență în domeniu.
Programare Python v.s Python Scripting

Programare Python - utilizată în principal pentru editare date și analiză


Liniile cod sunt interpretate de modulul Python;
Interfața SPSS este utilizată pentru interogarea bazei de date și afișare rezultate;
Python generează comenzi în sintaxa SPSS;

Script Python - utilizat în principal pentru modificarea obiectelor din fereastra Output a SPSS

Obiectele existente in fereastra Output sunt editate prin setul de proprietăți definite pentru
acestea;
SPSS este folosit ca interfață in/out;

Principii de funcționare (programare)


 Codul Python va fi integrat între “begin program.” și ”end program.”pentru a fi separat de
sintaxa SPSS;
 Comentariile sunt precedate de caracterul ”#”;
 Interpretorul de cod Python este ”fully case sensitive” (!!!);
 Spațierea de la început de rând face parte din cod;
 Caracterul Backslash ”\” este caracter rezervat;
 Finalul comenzilor este marcat prin ”.”; în absența acestuia limbajul presupune că finalul
comenzii este la sfârșitul linei;

S-ar putea să vă placă și