Documente Academic
Documente Profesional
Documente Cultură
Stabilirea obiectivelor
Utilizând tehnica ”divide et impera” scopul este
împărțit în obiectivele cercetării prin precizarea la
nivel operațional a informațiilor necesare pentru rezolvarea
problemei decizionale respectiv atingerea scopului;
Surse de informare
Date secundare: informații relevante pentru tema investigată publicate pe baza unor date culese
anterior de către organizație (interne) sau de către o altă entitate (externe);
Date primare: date culese pentru prima dată prin intermediul unor instrumente de cercetare de
către cercetător pentru a rezolva o problemă decizională specifică a beneficiarului;
Datorită implicațiilor investigării surselor primare de date o etapă esențială în procesul proiectării
unei cercetări de piață este investigarea surselor secundare puse la dispoziție de către beneficiar
cât și identificate de către cercetător
În acest fel este drastic îmbunătățită eficiența instrumentului de cercetare cu accent pe timpul
limitat avut la dispoziție pentru interogarea respondenților.
Avantaje date primare
Actualitate
Personalizare
Control
Pot genera avantaje concurențiale
Avantaje date secundare
Cost redus
Disponibilitate instant
Analiza deja făcută
Datele sunt testate
Dezavantaje date primare
Cost ridicat
Consumatoare de timp
Necesită pregătire de specialitate
Dezavantaje date secundare
Vechimea datelor
Concurenții au acces la fel de ușor la ele
Greu de verificat seriozitatea anchetei
Pot fi voit eronate
Valoarea cercetarii
Pentru evaluarea contribuției rezultatelor cercetării la procesul decizional se va ține cont de:
Importanța deciziei pentru organizație;
Gradul de risc și incertitudine în care se va lua decizia;
Influența rezultatelor cercetării asupra luării deciziei;
Acuratețe (măsura în care este descrisă corect realitatea);
Actualitate (prospețimea informațiilor);
Suficiență (volum suficient de date pentru adoptarea deciziei);
Disponibilitate (existența datelor necesare pe piață);
Relevanța (pertinența și aplicabilitatea informației pentru problema decizională
prezentată);
CURS 3
Chestionarul este:
Instrument de culegere a datelor;
Interfața bi-direcțională dintre cercetător și respondent;
Ghid de conversație structurat pentru operatorul de interviu;
Standard de culegere și notare a răspunsurilor;
Factor care motivează respondentul și obține cooperarea acestuia;
Instrument de validare a răspunsurilor înregistrare;
Filtru pentru respondenți;
Sinteza modului în care respondentul abordează tema investigată;
Calitatile unui chestionar bun:
Ordinea logică a întrebărilor (de la general la specific);
Limbajul și scalele corespunzătoare specificului respondenților (acolo unde este cazul văr
fi folosite forme echivalente);
Echilibru între scalele metrice (mai dificile) și cele nemetrice;
Timpul necesar completării sub 10 minute;
Etichete sugestive pentru variantele predefinite;
Existența regulilor de completare acolo unde este cazul;
Ușurința și rapiditatea completării;
Capacitatea de a motiva și atrage interesul respondenților;
Definirea cadrului conceptual:
Totul pornește de la obiectivele cercetării, de la principalele necunoscute ce urmează a fi
elucidate cu ocazia studiului.
Pe baza nivelului existent al cunoașterii putem proiecta un cadru conceptual nou, putem folosi
unul existent ca atare sau într-o formă îmbunătățită.
Definirea clară a variabilelor dependente și independente, a factorilor ce vor fi investigați și
utilizați ca variabile de intrare pentru metodele de analiză selectate.
Astfel, ne asigurăm că toate variabilele relevante pentru subiectul investigat sunt incluse în
instrumentul de colectare a datelor. În același timp acest model ne permite să eliminăm toate
variabilele care nu sunt esențiale.
Traducerea/Adaptarea textului
Respondenții vor primi întotdeauna chestionarul în limba pe care o stăpânesc cel mai bine.
Atunci când există diferențe semnificative între limba vorbită în diferite regiuni ale aceleiași țări
avem în vedere adaptarea textului la specificul local.
Pentru a ne asigura că traducerea este corect și completă folosim doi traducători independenți
pentru traducere în limba dorită și retraducere în limba inițială. Traducerea este îmbunătățită
până când ne asigurăm că respondenții înțeleg corect și complet textul propus.
Deosebit de important atunci când chestionarul este proiectat de către specialiști care nu
stăpânesc foarte bine limba vorbită de către respondenți.
Structura chestionarului
Fraza introductivă (scopul cercetării, modul de utilizare a datelor, identitatea operatorului
și a organizației pe care o reprezintă, teaser-ul anchetei)
Întrebări filtru (acolo unde este cazul);
Întrebări de deschidere/motivaționale/de încălzire;
Întrebări generale/de reamintire pe subiectul investigat;
Întrebări specifice;
Întrebări critice;
Întrebări socio-demografice/de identificare și caracterizare;
Aspectul chestionarului
Utilizați cât mai puține coli (o coală A4 față-verso este ideal);
Utilizați chestionare perforate în mape în locul foilor libere/capsate;
Exprimarea scurtă, clară, accesibilă este de preferat;
Evitați structurile tabelare/aspectul tip declarație de venit;
Urmăriți un aspect aerisit, curat;
Utilizați fonturi ”prietenoase”, culori, etichete grafice (simboluri);
Semnalizați câmpurile de răspuns a.î. să fie evidente;
Apelați la instrucțiuni de completare acolo unde este cazul;
Evitați situațiile în care respondentul simte că este testat/evaluat;
Nu abuzați de scalele metrice care consumă respondentul;
Evitați jargonul sau termenii de specialitate și prescurtările;
Evitați dubla negație și limbajul ambiguu;
Nu conduceți către un anumit răspund prin intermediul enunțului;
Evitați referințele către alte întrebări.
Pre-testarea chestionarului
Obiectivele acestei activități sunt:
Testarea limbajului (ușurința înțelegerii enunțului și variantelor);
Testarea ordinii logice a întrebărilor, fluența parcurgerii;
Testarea ușurinței de utilizare a scalelor;
Testarea vitezei de răspuns per total și pe fiecare întrebare;
Testarea necesității introducerii unor întrebări suplimentare sau variante de răspuns sau a
eliminării unora existente;
Testarea reacției respondenților la fiecare întrebare (este considerată a fi invazivă, prea
dificilă, ș.a.).
Confidențialitatea datelor
Încă din antetul chestionarului asigurăm respondentul că participarea este anonimă și nu
solicităm niciun fel de informație care poate conduce la identificarea sa, a menajului în care
locuiește, a locului său de muncă...
Suplimentar, este nevoie de asigurări cu privire la eventuala supraveghere audio-video din zona
în care datele sunt culese (atunci când interviurile au loc în spațiul propriu al organizației).
În cazul utilizării unui chestionar de identificare a participanților la studii ulterioare, situație în
care sunt solicitate date de contact și identificare se va menționa în mod clar scopul utilizării
acestora și a termenului limită până la care acestea vor fi stocate și utilizate de către companie.
Cazuri speciale
Există situații în care cercetătorul este nevoit să apeleze la tehnologii neconvenționale pentru
chestionar precum utilizarea de simboluri, cerneala fluorescentă, alfabetul Braille, tușul alb pe
hârtie neagră, coli A4 create din minerale (piatră) sau materiale reciclate, hârtie artizanală
(presată manual), hârtie din bumbac, tuș hipo-alergenic, chestionar scris manual de un caligraf ...
Scale nemetrice
Scala nominală
Care este animalul dvs. preferat? (răspuns unic)
cal;
oaie;
vacă;
porc;
Alt animal.
Scala ordinală
Ordonați într-un clasament de 5 locuri următoarele animale în funcție de
preferințele dvs.:
Locul 1 Locul 2 Locul 3 Locul 4
Cal o o o o
Oaie o o o o
Vacă o o o o
Găină o o o o
Pe scala ordinală nu avem informații despre cât de sus este locul I sau care este diferența dintre
locul I și locul II. Cele 4 animale pot fi pe poziții aproximativ egale sau foarte puternic
departajate.
Scale metrice
Scala interval/cardinală
Ce părere aveți despre următoarele aniamle?
Excelentă Foarte bună Bună Așa și așa Proastă
Cal o o o o o
Oaie o o o o o
Scala proporțională
În trecutul dvs. câte animale din următoarele
specii au aparținut familie din care faceți parte?
Cal ______ Oaie ______
Vacă ______ Găină ______
Scale de masurare
Împărțiți 100 de puncte între următoarele animale în funcție de propriile preferințe alimentare:
Cal _____ puncte
Porc _____ puncte
Oaie _____ puncte
Vită _____ puncte
Dacă bugetul săptămânal pentru carne este de 200 lei împărțiți suma pe următoarele categorii?
Cal (35lei/kg) _____ lei
Porc (20lei/kg) _____ lei
Oaie (30lei/kg) _____ lei
Vită (35lei/kg) _____ lei
Pui (15lei/kg) _____ lei
În definirea unei baze de date cele mai des întâlnite greșeli sunt:
Introducerea datelor într-o bază de date neformatată sau o foaie de calcul tabelar fără cap
de tabel;
Codificarea variantelor de răspuns folosind litere (a,b,c…);
Introducerea datelor în formă necodificată urmând ca apoi să fie utilizată funcția
search&replace (motivul: din coduri nu se înțelege nimic);
Codificarea variantelor de răspuns începând cu valoarea 0 (zero);
Codificarea întrebărilor ”cu răspuns predefinit multiplu” într-o singură variabilă;
Definirea tuturor variabilelor într-un format numeric sau șir de caractere generos care să
poată înmagazina orice cantitate de date;
Definirea tuturor variabilelor de tip șir de caractere;
Utilizarea tipurilor de date specifice doar anumitor aplicații.
Odată definită structura bazei de date nu de puține ori apar erori în introducerea chestionarelor
completate în baza de date cum ar fi:
Lipsa introducerii unui cod care să facă diferența dintre un câmp gol, un non-răspuns sau
un răspuns imposibil de utilizat;
Corectarea răspunsurilor considerate necorespunzătoare, care nu se încadrează în tiparul
așteptat;
Codificarea la introducere a răspunsurilor deschise/de completare;
Ajustarea scalelor metrice completate greșit (ex: scala cu sumă constantă cu suma diferită
de 100 de puncte);
Completarea de către operator a non-răspunsurilor;
Înlocuirea unui răspuns deschis de completare cu alegerea unei variante predefinite dacă
par a fi similare;
Anularea răspunsurilor ce par greșite (ex: o extremă de scală) și introducerea acestora ca
non-răspuns;
Pentru a putea fi analizate, răspunsurile primite de la respondenți vor fi stocate într-o bază de
date digitală a cu următoarele proprietăți:
Structura bazei de date va reflecta întrebările din chestionar; în cazul unei cercetări online
răspunsurile sunt înregistrare direct într-o bază de date cu structura corespunzătoare gata
codificate;
Baza de date va permite înregistrarea completă și corectă a informației din chestionar fără
a fi nevoie de prelucrarea acesteia;
Răspunsurile vor fi introduse în baza de date exact ca în chestionar, fără ”corecturi”,
”îmbunătățiri” sau alte modificări;
Se va alege un format de bază de date universal, recunoscut de cât mai multe aplicații
(csv, xls, dbf, ș.a.);
Valoarea de pornire a câmpurilor va fi ”NULL” (evitați ”0”) ;
Baza de date va avea un câmp index (automat) unic;
Baza de date va primi răspunsurile în format codificat.
Principiile bazelor de date
Codificarea răspunsurilor
Sub nicio formă nu for fi introduse alte coduri decât cele convenite sau șiruri de caractere.
Foarte puțin; 1
Puțin; 2
Nici/nici; 3
Mult; 4
Foarte mult. 5
CURS 5
Când aveți de-a face cu mai multe baze de date provenind din mai mulți operatori/parteneri de
colectare trebuie să fie fuzionate prin adăugarea de înregistrări având o structură identică.
Pentru studii longitudinale, efectuate pe aceeași panel de respondenți la diferite intervale de timp,
bazele de date vor fi unite prin adăugarea de noi variabile.
Împărțirea bazei de date este necesară atunci când:
Generarea de mostre ale înregistrărilor aleatorii ale unor variabile specifice sau ale variabilelor
aleatoare ale tuturor înregistrărilor către potențiali clienți;
Exportarea unui număr de înregistrări conform unui filtru de selecție;
Izolarea unui anumit set de variabile din baza de date pentru proceduri specifice de analiză (care
necesită un anumit aspect al bazei de date);
Extragerea răspunsurilor deschise care urmează să fie trimise spre codificare unei terțe părți.
Înregistrările pot fi considerate nevalide și eliminate din baza de date atunci când:
Datele demografice nu corespund profilului de respondent specificat;
Majoritatea variabilelor sale lipsesc răspunsuri;
Filtrul de selecție a respondentului nu a fost trecut;
Respondentul a părăsit interviul fără a răspunde la toate întrebările;
Răspunsurile sunt contradictorii;
Variabilele critice lipsesc răspunsuri, indiferent de motiv;
Respondentul este vizibil înclinat spre extrema pozitivă sau negativă pe majoritatea
scalelor de măsurare.
Eliminarea înregistrărilor duplicate
Este posibil, dar foarte improbabil ca un formular să fie digitalizat de două ori, dar înregistrările
duplicate sunt rareori identice.
Vom considera două sau mai multe înregistrări ca fiind duplicate dacă:
Datele de identificare ale respondentului sunt identice;
Peste 80% dintre răspunsuri sunt identice;
Răspunsurile deschise sunt identice;
Datele unice prin definiție sunt identice (număr de telefon, e-mail etc.);
Răspunsurile la un număr semnificativ de întrebări consecutive sunt identice.
Fervențele zero sunt un semn al investigației pilot necorespunzătoare sau al lipsei acesteia. De
asemenea, arată că răspunsurile predefinite nu au fost create pe baza unei cercetări exploratorii.
Codurile răspunsurilor predefinite rămase nu vor fi modificate pentru a acoperi poziția eliminată.
Păstrarea frecvențelor zero în baza de date va provoca imagini neplăcute (tabele și diagrame),
extinzând dimensiunea acestor elemente și dând raportului un aspect neprofesional.
Sortarea înregistrărilor
Toate bazele de date trebuie să aibă o variabilă de indexare cu autoincrementare (ID) cu un
identificator numeric unic pentru toate înregistrările sale. Aceasta este ordinea sa implicită și
poate fi restabilită în orice moment.
Modificările în ordinea înregistrărilor din fișierul bazei de date nu vor afecta rezultatele
procedurilor de prelucrare și analiză a datelor.
Această valoare va fi utilizată prin convenție în întreaga bază de date și nu ar trebui să se apropie
de alte valori utilizate în răspunsurile predefinite (99 pentru răspunsuri lipsă, 95 pentru răspuns
incorect, 96 pentru incapacitatea de a furniza unul).
Un formular bine conceput și pre-testat ar trebui să aibă drept răspunsuri lipsă doar refuzul
respondentului de a oferi un răspuns sau incapacitatea de a face acest lucru din cauza lipsei de
informații.
Prelucrarea se face prin aplicarea formulei pe fiecare înregistrare parțială, de la prima până la
ultima. Formula poate conține numai valori constante sau o combinație de constante și mai multe
variabile din baza de date.
Formulele pot stoca rezultatele doar într-o singură variabilă la un moment dat, iar bunele practici
recomandă crearea unei noi variabile (evitând suprascrierea uneia existente).
Recodificarea variabilelor
Această procedură va schimba codificarea răspunsurilor predefinite cu coduri noi (valoare la
valoare) sau va transforma o variabilă metrică într-una ordinală prin înlocuirea tuturor valorilor
dintr-un interval dat cu un cod numeric (interval la valoare).
Această procedură nu trebuie confundată cu o simplă funcție de căutare și înlocuire. Aceasta este
o procedură dedicată care utilizează coduri SQL și este guvernată de un set de reguli de evitare a
erorilor.
Folosind codificarea putem elimina, de asemenea, răspunsurile cu frecvență zero și îmbina două
sau mai multe coduri într-o singură opțiune.
Procedura este utilizată pe scară largă pentru a transforma expresia metrică a variabilei într-un
interval unul care reflectă criteriile de segmentare.
Când se confruntă cu o distribuție mai puțin continuă sau cu una distribuită ciudat, această
transformare poate deține cheia pentru recuperarea variabilei, pentru a o face utilizabilă pentru
cele mai groaznice dintre metodele de analiză.
CURS 6
Analiza datelor este un proces complex și sistematic bazat pe un amestec de tehnici statistice și
matematice axate pe
extragerea informatiilor cerute de decident de la unul sau mai multe
baze de date.
Fără a fi o listă exhaustivă, cele mai importante obiective ale procesului de analiză a datelor sunt:
Determinarea tendinței centrale;
Investigarea varianței;
Măsurarea intensității, direcției și reprezentativitatea asociațiilor;
Efectuarea de prognoze pe termen scurt, mediu și lung;
Evaluarea diferenţelor dintre variabile şi grupuri de variabile;
Identificarea legăturilor cauzale între variabile;
Construirea și testarea modelelor de comportament;
Îmbunătățirea motorului de inerență și a bazelor de cunoștințe ale sistemelor de suport de
decizie/sisteme expert;
Actualizarea listei de urmărire a riscurilor;
Tendința centrală
Modul nu este altceva decât alegerea cea mai frecventă a respondenților (răspunsul cel mai
popular). Cu cât sunt mai multe răspunsuri predefinite în set, cu atât este mai mare riscul pentru
un mod multiplu (două sau mai multe răspunsuri cu același număr de opțiuni maxime).
Pentru variabilele măsurate pe scara proporțională (metrică), răspunsurile unice cu frecvențe sub
1% sunt destul de comune și a avea doi sau mai mulți respondenți cu același răspuns este doar
noroc. Aceste variabile vor raporta mai multe valori modale (frecvențe maxime) și rareori vor
avea mai mult de 5% din numărul total de respondenți.
Mediana este valoarea de tăiere responsabilă pentru împărțirea respondenților în două părți egale.
Cu răspunsurile sortate de la cel mai mic la cel mai mare vom urmări frecvențele cumulate până
când se va găsi nota 50%/50%.
Cu cât este mai mare numărul de răspunsuri unice, cu atât mai precisă va fi poziția medianei. Cu
cât este mai mic numărul de răspunsuri unice, cu atât va fi mai puțin precis.
Dispersia
Frecvențele pot fi calculate pe toate tipurile de variabile, dar utilitatea lor este pusă sub semnul
întrebării pe variabile cu un număr mare de răspunsuri unice. În unele cazuri, putem scăpa
prezentând răspunsurile cele mai apreciate (când frecvența lor este relevantă) și enumerarea
celorlalte ca categorii generice.
Intervalul nu este altceva decât o simplă împărțire între cea mai mare și cea mai mică valoare
înregistrată care ne spune câte unități de măsură sunt între ele. Împărțind-o la mijloc ne va oferi
interval relativ.
Abaterea medie este o medie simplă a distanței dintre fiecare răspuns și media pentru acea
variabilă.
Varianta este media pătratelor abaterilor individuale. Rădăcina pătrată a varianței ne va oferi
abaterea standard.
Corelatii
Măsurarea asocierii dintre două variabile va ține cont de următoarele caracteristici ale acestei
relații simetrice:
Direcția (natura) relației:
*aceeași direcție (valori pozitive);
*Inversat (valori negative);
Puterea asociației
Atunci când selectăm perechea de variabile pentru a măsura asocierea, trebuie să luăm în
considerare:
Cele două variabile nu trebuie să fie sinonime sau forme diferite de exprimare a aceluiași
fenomen;
Nicio a treia variabilă nu ar trebui să aibă o influență puternică asupra ambelor variabile;
Variabilele selectate ar trebui să fie indivizibile;
Ambele variabile sunt cel mai clar definite la nivel operațional, fără erori de măsurare;
Eșantionul trebuie să fie reprezentativ statistic;
Distribuția variabilelor nu trebuie condensată;
Răspunsurile cu frecvență zero ar trebui eliminate și se va acorda o atenție deosebită
frecvențelor sub 5%;
Ambele variabile sunt măsurate pe aceeași scară sau pot fi convertite într-una comună;
Se recomandă un număr similar de răspunsuri unice.
CURS 8
Uneori variabilele care au origine unică și unitate de măsură (condiții care definesc scala
metrică) nu au un număr unic de răspunsuri suficient de mare și, prin urmare, suntem nevoiți să
apelăm la testele neparametrice prin conversia valorilor la ranguri sau transformarea variabilei
din scală proporțională în interval sau ordinală.
Teste statistice parametrice pentru date cantitative
Atunci când avem acces la date referitoare la media populației, suficient de actuale și bine
definite, ne putem permite compararea acestora cu datele culese de la respondenți prin
intermediul testului z (sau testul t) pentru eșantioane independente.
Datorită dificultăților întâmpinate în găsirea datelor referitoare la media populației, testul este
utilizat mult mai frecvent în practică pentru evidențierea diferențelor dintre două categorii de
respondenți definite/separate pe baza unei variabile dihotomice de stare (apartenența la un grup
sau nu).
Variabila independentă este practic factorul de influență al cărui impact dorim să îl măsurăm. În
cazul scindării grupului investigat pe baza unei variabile independente, eșantioanele astfel
rezultate se numesc eșantioane independente deoarece sunt constituite din subiecți diferiți (un
anumit respondent nu poate face parte din ambele eșantioane).
Pentru a calcula valoarea testului z avem nevoie de valoarea diferenței dintre cele două
eșantioane cercetate, media populației (de diferențe ale mediilor) și abaterea standard a acesteia.
Odată calculată, această valoare va fi comparată cu valoarea tabelară pentru a vedea
probabilitatea obținerii unei diferențe mai mari pe baza unei selecții strict aleatorii.
Valoarea calculată a testului t trebuie să fie cel puțin egală sau mai mare decât cea
teoretică/critică pentru a putea fi respinsă ipoteza nulă și acceptată ipoteza cercetării.
Atunci când eșantioanele nu sunt suficient de mari, ne vom aștepta la erori considerabile în
estimarea dispersiei populației pe baza dispersiei eșantionului investigat și vom apela la testul t
pentru dispersii diferite (inegale) sau pentru dispersii egale (dispersie cumulată).
Datorită faptului varianta pentru dispersii diferite că nu urmează cu exactitate distribuția t,
utilitatea sa este controversată și vom folosi dispersii egale care utilizează dispersia cumulată a
celor două eșantioane, fapt deosebit de util atunci când cele două dispersii nu diferă semnificativ.
Datorită faptului că magnitudinea diferenței dintre medii poate fi mică, chiar dacă probabilitatea
asociată valorii t este foarte mică pentru aprecierea importanței diferenței dintre mediile
grupurilor investigate, avem nevoie de informații suplimentare.
Această mărime a efectului pentru testul t aferent eșantioanelor independente este indicată de
coeficientul d a lui Cohen. Cu cât valoarea indicelui de mărime a efectului este mai mare, cu atât
diferența dintre medii este mai importantă.
Ipoteza nulă (H0) specifică ANOVA presupune că grupele analizate provin din aceeași
populație, prin urmare mediile aferente lor sunt egale, iar distribuțiile suprapuse, caz în care
diferențele dintre mediile lor sunt doar o variație firească a distribuției de eșantionare.
Cu cât sunt mai diferite una față de cealaltă, cu atât distribuția lor are o varianță mai mare.
Ipoteza cercetării (H1) susține că grupurile sunt diferite provenind din populații distincte.
O valoare scăzută a acestui raportului dintre dispersia valorilor individuale la nivelul populației
ipotezei nule și dispersia mediilor anxietății grupurilor cercetate confirmă ipoteza nulă
(eșantioanele fac parte din aceeași populație), iar o valoare ridicată infirmă ipoteza nulă.
Neavând acces la datele necesare pentru calcularea dispersiei aferente populației menționate în
ipoteza nulă, aceasta va fi estimată prin media dispersiei grupurilor investigate (dispersie
intragrup).
Dispersia mediilor grupurilor investigate ne indică cât de împrăștiate sunt mediile eșantioanelor
investigate (dispersie intergrup).
Raportul acestor două dispersii se numește raport F și este responsabil cu indicarea valorii
testului ANOVA unifactorial. Cu cât valoarea acestuia este mai mare, împrăștierea grupurilor
comparate este și ea mai mare, iar diferența lor este una semnificativă, diferită de o variație pur
întâmplătoare.
Testul ANOVA oferă o imagine generală a variației mediilor grupurilor investigate fără a
identifica sursa acesteia sau variațiile mediilor tuturor perechilor posibile formate din grupurile
investigate.
Pentru situația în care dorim să aflăm cum diferă grupurile între ele și în ce sens, vom efectua o
serie de comparații multiple pe baza unuia dintre testele statistice posthoc (Scheffe, Tukey sau
Bonferoni) ulterior efectuării testului ANOVA, atunci când testul F raportează un rezultat
semnificativ.
Aceste teste se interpretează similar testului t pentru diferența mediilor unor eșantioane
necorelate. Finalitatea este luarea măsurilor disponibile pentru diminuarea excesului de eroare.
În situația în care suntem nevoiți să comparăm două sau mai multe valori măsurate pe exact
aceiași subiecți utilizăm testul t pentru diferența dintre mediile a două eșantioane dependente.
Variabila independentă va fi una de tip nominal, dihotomică (înainte/după), iar cea dependentă
va fi măsurată pe o scală metrică interval sau proporțională.
Măsurătorile de dinainte și de după acțiunea condiției se vor face în același fel, pe același
instrument, în aceiași unitate de măsură pentru a permite efectuarea calculului direct al
diferenței.
Datorită faptului că cele două eșantioane (cel intervievat înainte și cel intervievat după) sunt
formate din aceiași indivizi, ele sunt considerate dependente (corelate).
În formularea ipotezei nule ne bazăm pe faptul că, în cazul unei manifestări fără impact a
condiției, diferențele pozitive s-ar neutraliza cu cele negative
generând o medie a diferențelor nulă (egală cu zero). Această ipoteză statistică presupune că
media diferențelor este egală cu zero (manifestarea condiției nu a avut niciun impact).
Pentru confirmarea ipotezei de cercetare, testul t trebuie să demonstreze existența unei valori a
mediei diferențelor calculate pe eșantionul cercetat suficient de departe de valoarea zero pentru
respingerea ipotezei nule.
Mărimea efectului este aflată prin calcularea indicelui de mărime a efectului d a lui Cohen.
Semnul indicelui nu are importanță existând 3 stări: efect mic (0,2-0,5), efect mediu (0,5-0,8 și
efect mare (0,8-1,0).
În situația în care dorim să aflăm dacă există o legătură între variația valorilor a două variabile
diferite măsurate pe același eșantion, mai exact a gradului de asociere dintre acestea două, vom
utiliza coeficientul de corelație lineară a lui Pearson (r). Pentru relațiile nonlineare putem efectua
anumite transformări care să aducă variația sub formă liniară (logaritmare, extragerea radicalului
etc.).
Coeficientul de corelație liniară a lui Pearson poate utiliza două variabile măsurate în unități de
măsură diferite (dar ambele pe scală proporțională), deoarece transformă valorile ambelor
variabile în scoruri standard.
Coeficientul r a lui Pearson se raportează la o distribuție teoretică derivată din distribuția t. Dacă
valoarea calculată este mai mare sau egală cu cea critică reluată din tabel, ipoteza nulă poate fi
respinsă, iar coeficientul de corelație considerat reprezentativ.
7
Având în vedere faptul că coeficientul r al lui Pearson oferă rezultatele pe o scală ordinală pentru
a putea compara valorile obținute pentru mai mulți coeficienți folosim coeficientul de
determinare (r2).
Cu ajutorul acestuia putem spune cât la sută din variația unei variabile este determinată de
variația celeilalte (cele două variabile au în comun x% din variația care le caracterizează).
Limitele de încredere se află în jurul punctului de estimare (valoarea calculată a lui r) la care se
adaugă și se scade valoare lui r critic înmulțită cu eroarea standard a estimării. O variantă
simplificată este utilizarea tabelului Fisher de transformare în Z a valorilor lui r.
CURS 9
Regresie liniara(multipla)
Urmărește identificarea celor mai buni predictori pentru variabila dependentă selectați din
mulțimea factorilor de influență considerați inițial.
Odată identificați aceștia modelul urmărește identificarea celei mai bune predicții pentru
variabila dependentă prin intermediul configurației cu cei mai puțini factori care reușește să
explice cât mai bine variația acestei variabile.
Scopul metodei este ca prin combinația de factori de influență valoarea acestei erori să fie cât
mai mică cu putință. Una dintre ipotezele de lucru ale modelului susține că, prin prisma faptului
că aceste erori pot fi cauzate de acțiunile simultane a factorilor avuți în vedere, natura
fenomenelor respective și influențele unor factori aleatorii, eroarea va tinde către o repartiție
normală.
Relația dintre variabila dependentă și un singur factor de influență este definită printr-un polinom
considerând fiecare pereche a polinomului ca un factor diferit împreună cu coeficientul asociat
acestuia.
Termenul din partea stângă reprezintă probabilitatea de obținere a unuia dintre cele două cazuri
ale variabilei dependente (y=1) condiționată de valoarea factorului de influență x și poartă
numele de transformare logit a probabilității.
Vizează descompunerea unui obiect (produs, serviciu) în componentele sale de baza în vederea
determinării importanței relative a fiecărui element în parte în luarea unei anumite decizii de
către respondent.
Componentele analizate put fi ulterior reasamblate pentru a realiza variante imaginare ale
obiectului analizat, variate care pot fi ulterior analizate comparativ pentru a stabili configurația
ce se apropie cel mai mult de efectul urmărit.
Chiar dacă un atribut poate avea un număr relativ mare de valori posibile (niveluri) în model
luăm în considerare doar acele variante care fac obiectul alegerilor consumatorilor, eliminând
astfel valorile posibile inutile.
Varianta adaptivă a analizei comune a factorilor (CONJOINT) are în vedere faptul că fiecare
consumator în parte utilizează doar o parte a acestor factori.
Factorii utilizați pot fi definiți prin ordonarea acestora de către respondent pe baza importanței
acordate în evaluarea produsului respectiv. Respondenții vor evalua colecții mai mici de
alternative (2-5) pentru alegerea variantei preferate.
Analiza discriminantului
Metodă de clasificare care estimează relația dintre o variabilă dependentă măsurată cu ajutorul
unei scale nemetrice (nominală sau ordinală) și combinații liniare ale mai multor variabile
independente (denumită funcție discriminată) măsurate pe scale metrice.
Deși similară analizei MANOVA și regresiei logistice, prin prisma încadrării în anumite grupuri,
mecanismul de funcționare al acestei metode este cu totul opus, pornind de la grupurile
predefinite
Analiza log-linear
Urmărește identificarea unei forme simplificate a modelului saturat care să poată descrie
frecvențele observate într-un mod satisfăcător dar cu un număr redus de variabile.
Coeficientul de analiză de corelație canonică măsoară intensitatea asocierii dintre două variabile
latente (care nu au fost culese sub această formă direct de la respondenți) calculate prin
intermediul unei sume ponderate a unui set de variabile observate.
Coeficienții de contingență canonică testează existența relațiilor generale dintre cele două seturi
de variabile iar măsurile de redundanță testează magnitudinea acestor relații.
Utilizează două sau mai multe variabile independente și două sau mai multe variabile dependente
comparând diferențele dintre mediile unui număr multiplu de grupuri și analizând impactul pe
care una sau mai multe variabile independente îl au asupra generării diferențelor semnificative
înregistrate pe baza anumitor caracteristici.
Analiza MANCOVA pe o singură cale folosește un număr de cel puțin 4 variabile, variabila
independentă (măsurată pe scală nominală), două sau mai multe variabile dependente (măsurată
pe scală interval sau proporțională) și cel puțin un factor intricat/concomitent care moderează
impactul factorilor independenți asupra variabilei dependente.
Aceste covariabile vor fi măsurate pe scală metrică și reprezintă de cele mai multe ori o valoare
pre-test sau o valoare de referință/de baza. Metoda elimină efectele de covarianță asupra relației
dintre variabilele dependente și independente.
SEM este considerată mai degrabă ca fiind o metodă de analiză confirmatorie decât exploratorie
deoarece flexibilitatea deosebit de mare a modelului poate conduce la foarte multe variante
alternative pentru modelul investigat.
CURS 10
Analiza multivariată de interdependență
Investighează simultan existența și intensitatea relațiilor de interdependență din cadrul unui set
de variabile pentru a descoperi modelele de grupare a variabilelor/cazurilor/
atributelor/obiectelor.
Utilizate atunci când urmărim identificarea structurii datelor prin reducerea numărului de
variabile din set, gruparea obiectelor/cazurilor sau atunci când este dorită reprezentarea relațiilor
dintre obiecte și atributele acestora utilizând graficul tip hartă perceptuală.
Metodele decompoziționale pornesc de la evaluări generale sau măsurători globale ale obiectelor
în încercarea de definire a unui spațiu multidimensional în care aprecierea generală este susținută
de către coordonatele obiectelor. Metodă specifică scalării multidimensionale.
Deseori vom diviza eșantionul în două părți, pe baza unui criteriu aleatoriu de selecție, pentru a
defini setul de dimensiuni pe baza primei jumătăți și a confirma modelul respectiv prin
intermediul celei de a doua.
Analiza factorială
Analiza factorială permite gruparea unui set de factori într-o dimensiune caracteristică
fenomenului investigat. Scopul metodei este identificarea cu precizie a configurației de factori
care maximizează capacitatea de descriere a comportamentului prin intermediul unui număr
minim de factori latenți.
Factorul latent astfel generat poate fi utilizat ca variabilă dependentă iar setul de factori
componenți vor descrie varianța acesteia. Factorul latent va fi puternic corelat cu toți factorii săi
și foarte slab corelat cu toți ceilalți factori.
Calculăm scorul factorial pentru fiecare factor/dimensiune, valori care vor înlocui variabilele
originale din componența factorului latent. Aceste valori vor fi folosite mai departe în procesarea
și analiza datelor.
Grație capacității metodei de a lucra cu seturi mari de variabile (reduse la un număr mai ușor de
gestionat de factori) aceasta este foarte populară în proiectele de cercetare exploratorie. Metoda
poate fi utilizată cu succes și în proiecte de cercetare descriptivă, în special când urmărim
confirmarea validității unui model multidimensional.
Având în vedere această proprietate critică a datelor de intrare, avem la dispoziție un set de trei
metode ce pot fi utilizate pentru determinarea validității datelor disponibile pentru modelul
considerat:
Testarea statistica a existenței legăturii de asociere dintre variabilele din matricea de
corelații utilizând testul sfericității al lui Barlett (cu cât valoarea calculată este mai mare,
cu atât este mai scăzut nivelul de semnificație și mai semnificative corelațiile observate);
Examinarea coeficienților parțiali de corelație dintre factorii unici ai variabilelor (căutăm
valori apropiate de zero pentru coeficientul de corelației anti-imagine);
Testul KMO (Keiser-Meyer-Olkin) pentru eșantionare adecvată (compară intensitatea
corelațiilor cu cea a coeficienților parțiali de corelație; valorile mai mare indică existența
unor factori comuni mai pronunțați).
Procedura de extracție pornește de la ipoteza existenței unui singur factor comun. Numărul de
factori comuni este ulterior incrementat cu câte o unitate la fiecare iterație până la promovarea
testului discrepanței (dintre matricea de corelație inițială/observată și cea generată ulterior). Cele
mai populare metode de extracție a factorilor sunt:
Metoda celor mai mici pătrate;
Metoda probabilității maxime;
Factorizare Alfa;
Factorizarea imaginii;
Factorizarea pe axa principală;
Analiza componentelor principale.
Rotația factorilor reprezintă un pas esențial deoarece reduce numărul de variabile prin
intermediul mai multor transformări pe matricea de saturație. Gruparea lor în factori latenți
semnificativi reduce complexitatea variabilei latente și crește gradul de determinare factorială a
acesteia.
Variabilele latente sunt definite începând cu variabila cu cel mai mare scor factorial în matricea
de saturație factorială (utilizată ca variabilă surogat) sau prin definirea unei noi variabile
reprezentativă calculată pe baza scorului factorial de pe fiecare înregistrare.
Soluția variabilei surogat nu poate fi utilizată decât atunci când aceasta saturează în mod
semnificativ un anumit factor, mult mai mult decât oricare altă variabilă din set.
Această metodă este destul de similară cu analiza factorială, motiv pentru care acestea sunt
adesea confundate. Deși par variațiuni ale aceleiași metode există diferențe subtile cu un impact
semnificativ asupra aplicabilității rezultatelor.
Scopul său declarat este reducerea numărului de variabile din setul inițial. Generează una sau
mai multe variabile index prin intermediul combinațiilor lineare și calculează variabile compuse
cu ajutorul unei medii ponderate, numite componente (pe baza variabilelor inițiale).
Metoda caută numărul optim de componente (mai puține, mai bine), configurația optimă a
fiecărei componente și ponderile optime pentru calculul componentelor individuale. Întrebarea
este ce combinație de variabile va descrie componenta mai bine decât orice altă alternativă.
Calculul proporției varianței explicată prin intermediul fiecărui element reprezintă un mod mai
sofisticat de selectare a numărului final de dimensiuni. Alegem astfel o valoare de referință și
adăugăm elemente noi cu fiecare iterație în parte până la atingerea pragului stabilit.
Reprezentarea grafică este generată pe baza listei de variabile ordonată după varianța acestora.
Graficul este unul cumulativ, însumând toate valorile de la cea mai mare în jos până la atingerea
pragului. Oprim adăugarea de elemente noi atunci când curba valorilor cumulative indică faptul
că impactul elementelor suplimentare este nesemnificativ.
Analiza Cluster
Caracteristicile care definesc fiecare grup în parte, obligatoriu împărtășite de către obiectele
aparținătoare, sunt stabilite de către cercetător. Fiecare grup în parte poate fi descris de către
oricare dintre obiectele componente.
O alternativă mai puțin sensibilă la valori extreme este PAM (partitioning around medoids sau
K-medoids clustering). În acest caz fiecare grupeste reprezentat de către unul dintre obiectele din
clusterul analizat.
Pentru baze de date de mari dimensiune este Recomandat CLARA (clustering for large
applications), o extensie a modelului PAM.
Metodele ierarhice aglomerative (HCA) consideră pentru început că fiecare obiect din setul
inițial este un grup și la fiecare iterație sunt fuzionate două grupuri apropiate până când rămân
doar două grupuri (root/single cluster).
Probabilitatea ca un element să aparțină unui anumit grup este dată de o valoare cuprinsă între
zero și unu.
FCM (fuzzy c-means), cel mai popular algoritm de grupare din această categorie, Calculează
poziția centroidului ca medie a tuturor punctelor (elementelor) ponderatăcu ajutorul probabilității
de apartenență la grupul respectiv. Gruparea pe bază de model consideră că datele de intrare
provin dintr-o distribuție compusă dintr două sau mai multe grupuri și folosește asocierea
probabilistică (similar fuzzy clustering). Fiecare grup este modelat pe baza distribuției normale
(Gauss).
Cel mai bun model de reprezentare este selectat folosind BIC (Bayesian Information Criterion).
Un scor BIC mare indică un model corespunzător.
Specificul geometric al fiecărui grup (formă, volum, orientare) este determinat pe baza matricei
de covarianță.
Grupurile sunt definite ca regiuni cu densitate mare din spațiul grafic de reprezentare separate
prin zone de densitate redusă.
Pentru fiecare punct care aparține grupului în imediata sa vecinătate (rază) trebuie să existe un
număr minim de puncte.
Oferă rezultate excelente pentru grupuri non-sferice precum și atunci când separarea nu este
evidentă. Izolează foarte binevalorile extreme și distorsiunile.
Scalarea multidimensionala
Definește harta perceptuală a poziționării relative a obiectelor în funcție de două sau mai multe
dimensiuni. Analiza se bazează pe evaluări de similaritate/preferințe ale respondenților
transformate în distanțe între obiecte.
Utilitatea acestei metode de analiză este remarcabilă prin prisma generării pozițiilor relative ale
produselor/serviciilor/companiilor în preferințele consumatorilor. Spațiul perceptual în care
aceste obiecte sunt definite este constituit pe baza judecăților pe care respondenții le fac în relație
cu aceste obiecte investigate.
Pe baza acestor caracteristici putem descoperi structura ascunsă a datelor prin intermediul unei
hărți perceptuale realizată prin marcarea obiectelor în spațiul bi, tri sau multidimensional definit
de către setul de caracteristici identificate.
Putem folosi culori acolo unde straturile se suprapun. Se recomandă minim 10 obiecte pentru
hărți bidimensionale și minim 20-25 pentru tridimensionale.
Această tehnică de reducere a setului inițial de elemente putem identifica dimensiunile latente
caracteristice grupului inițial obiecte așa cum a fost el definit de către respondenți. Este
recomandat ca numărul de obiecte evaluate să fie de 4-5 ori mai mare decât cel al
caracteristicilor utilizate pentru definirea spațiului multidimensional.
Obiectele avute în vedere vor fi în mod obligatoriu comparabile pe baza setului complet de
caracteristici comune.
Pentru ca respondenții să poată evalua fiecare obiect folosind aceste caracteristici este necesar să
ne asigurăm ca fiecare obiect poate primi valori pentru toți parametrii considerați.
În același timp este important că toți respondenții să fie capabili și dispuși să evalueze acele
obiecte pe baza caracteristicilor considerate.
Putem utiliza și criterii subiective de evaluare sau ușor neconvenționale atunci când aceste sunt
indicate de către respondenți, chiar dacă nu se regăsesc în fișa tehnică a produsului.
De multe ori respondenții nu dețin cunoștințe de specialitate pentru o evaluare corectă din punct
de vedere tehnic însă folosesc interpretări simplificate ale caracteristicilor (populare). Evaluările
metrice sunt de multe ori înlocuite cu expresii superficiale, subiective (bun, satisfăcător,
suficient...) pe care nu le pot explica/defini cu precizie.
În multe situații, obiectele foarte asemănătoare vor fi departajate pe baza acestor caracteristici
subiective, făcând imposibilă eliminarea acestora.
Analiza de corespondenta
Analizează relațiile de asociere dintre variabilele calitative și dintre categoriile acestora generând
o formă de reprezentare grafică ce grupează categoriile în funcție de similaritatea acestora.
Metoda urmărește descoperirea structurii aferente unui set complex de date reprezentat prin
intermediul unui tabel de contingență. Datele respective sunt transformate în coordonate ce
corespund categoriilor de răspuns specifice celor două variabile analizate.
Acestea vor fi reprezentate grafic într-un spațiu cu două dimensiuni pentru evidențierea
categoriilor cu poziții similare (categoriile variabilelor diferite care sunt afișate pe poziții
apropiate în spațiu).
Inițial, pe baza datelor din tabelul de contingență, fiecare variantă predefinită a unei variabile
este definită prin intermediul unui set de coordonate egal cu numărul de categorii ale celeilalte
variabile.
Astfel este posibilă reprezentarea simultană a variantelor de răspuns specifice ambelor variabile
în același spațiu. Opțional, diametrul simbolului de reprezentare folosit pentru fiecare categorie
în parte va fi proporțional cu frecvența sa absolută din tabelul de contingență.
Analiza de omogenitate
În cadrul acestei analize se caută cuantificări optime pentru categorii în vederea obținerii unei
separări cât mai clare între acestea prin atribuirea unor valori numerice pentru cazuri și atributele
lor (folosind metoda celor mai mici pătrate alternante).
Această metodă este deosebit de utilă atunci când ne confruntăm cu variabile caracterizate printr-
un grad ridicat de omogenitate.
CURS 12
Previziuni de marketing
Previziunile de marketing reprezintă estimări ale nivelurilor variabilelor endogene sau exogene
pentru perioadele viitoare realizate pe baza examinării trecutului acestora și a identificării unui
tipar repetitiv în evoluția lor.
Pe baza acestor estimări se stabilesc performanțele anticipate ale organizației și linia strategică
necesară optimizării activității acesteia pe termen mediu și lung.
În funcție de tipul datelor disponibile pentru realizarea previziunilor de marketing metodele sunt
împărțite în cantitative (bazate pe metode statistice) și calitative (bazate pe judecata și experiența
specialiștilor).
Metoda potrivită este selectată în funcție de datele disponibile și de expertiza acumulată de către
experți în domeniul respectiv.
După tipul modelelor cantitative utilizate metodele cantitative de previzionare pot fi:
Metode de analiză a seriilor dinamice (endogene): se bazează pe analiza evoluției în trecut a
variabilei și/sau a erorilor de previziune pentru descoperirea configurației specifice a seriei
dinamice fără a considera în mod explicit factorii de influență; există 4 tipuri de configurații de
bază:
configurație orizontală (staționară în jurul unei medii);
configurație tendință (trend, creștere/descreștere pe termen lung);
configurație sezonieră (fluctuații determinate de factori sezonieri);
configurație ciclică (variabilă pe lungime si amplitudine pe orizonturi mai mari de timp).
Metode cauzale (exogene): presupun existența unei legături cauză-efect și se elaborează
previziunea pe baza acesteia presupunând că relația identificată rămâne constantă.
1. Metode bazate pe analiza seriilor dinamice (nu sunt riguroase statistico-matematic dar sunt
flexibile, ușor de utilizat, ieftine cu precizie acceptabilă)
Metode naive (se bazează pe cele mai recente date și indicele de sezonalitate);
Metoda modificării procentuale (pe baza unui indice de modificare anuală pe baze
sezoniere);
Metoda modificării procentuale mobile (se utilizează mediile mobile ale schimbărilor
procentuale);
Metoda mediilor mobile (folosește valorile medii pentru un număr fix de date istorice și
previzionează etapa viitoare pe baza mediilor celei mai recente observări);
Metoda nivelării exponențiale (Brown, Holt sau Winter);
Metode de descompunere a seriilor dinamice (funcție de tendință, sezonalitate și
ciclicitate plus eroarea aleatoare);
Metode autoregresive.
2. Metode cauzale
Mult mai riguroase, cu complexitate ridicată și precizie sporită de previzionare au la bază
considerarea explicită a relației cauză-efect între variabila previzionată și un număr de variabile
independente.
Tehnica Delphi (realizarea unui consens în eșantionul de specialiști care evaluează independent
și anonim variabila previzionată);
Analogiile (compararea prezentului cu situații istorice);
Metoda PERT-derivat (previziunea optimistă, pesimistă și probabilă);
Metoda bazată pe teoria utilităților;
Teoria deciziilor (clasică sau bayesiana);
Estimările de grup (atingerea unui consens prin interacțiunea experților);
Previziunile dinamice ale cotei de piață (metoda lanțurilor Markov).
Tehnica Delphi
Este investigată opinia unui număr relativ mare de experți independenți prin intermediul unor
chestionare aplicate în mod repetitiv, care sunt îmbunătățite la fiecare iterație.
Nu este necesar ca, în primă fază, experții să fie de acord cu privire la valoarea previzionată. Prin
intermediul mai multor runde de consultări aceștia rafinează propriile previziuni până când
reușesc să convină asupra unor variante foarte probabile acceptate de comun acord.
Analogiile
Previziunile pornesc de la identificarea unui scenariu foarte asemănător în istoria recentă a
organizației/mediului de marketing.
Se pornește de la premisa că evoluția viitoare va respecta același tipar (de exemplu ciclul de
viață al unui produs: creștere, maturitate, declin).
Metoda este foarte sensibilă la intervenția factorilor perturbatori care pot accelera sau întârzia
evoluția pe baza trendului observat (în cel mai bun caz) sau pot genera evoluții atipice, în afara
acestui model istoric identificat (în cel mai rău caz).
Aceste previziuni vor fi atent monitorizate în timp pentru a ne asigura că fenomenul de interes
respectă trendul istoric utilizat.
Metoda PERT-derivat
Metoda generează rezultate bune atunci când evenimentul previzionat este puternic afectat de
incertitudini, fiind foarte dependent de evoluția altor elemente specifice (factori).
Estimatea PERT este considerată mai exactă deoarece are în vedere mai multe scenarii cuprinse
într-o plajă bine definită (de la cel mai nefavorabil la cel mai favorabil).
Metoda bazată pe teoria utilităților
Teoria utilității descrie modul în care consumatorii se vor comporta dacă își bazează procesul
decizional pe anumite necesități și dau dovadă de gândire rațională/obiectivă.
Această metodă nu este recomandată atunci când consumatorii vizați achiziționează produse și
servicii pe principii subiective, emoționale.
Teoria deciziilor
Aceste previziuni au la bază selectarea unei alternative decizionale dintr-un set de două
sau mai multe alternative posibile pe baza unui set de criterii de selecție.
Aceasta metodă de previziune se bazează pe existența unui decident apt, bine informat, complet
rațional, calculat.
Estimările de grup
Vizează atingerea unui consens cu privire la cel mai probabil scenariu viitor (alternativă
prognozată unanim acceptată) prin interacțiunea experților ce formează un grup.
Se bazează pe teoria schemei decizionale sociale (SDST – social decision scheme theory) și
excelează în scenariile în care precizia estimării este radical influențată de abordarea
multidisciplinară a problemei decizionale.
Această metodă este deseori utilizată în ședințele care aduc împreună managementul de top al
organizației.
Pentru atingerea unui consens este necesar ca fiecare membru al echipei de specialiști să
argumenteze propria opinie pe baze obiective, folosind datele disponibile din surse
credibile/acceptate.
Previziunile dinamice ale cotei de piață se bazează pe metoda lanțurilor Markov. Pornim astfel
de la o serie de evenimente înlănțuite care depind unul de celălalt.
Astfel, ceea ce urmează să se întâmple în viitorul imediat apropiat depinde în foarte mare măsură
de
ceea ce se întâmplă în prezent (orice schimbare care modifică situația actuală nu poate aduce
modificări radicale bruște).
Practic, condițiile preexistente ale pieței limitează numărul de alternative posibile separând
alternativele foarte puțin probabile de cele cu probabilitate mare de materializare.
CURS 13
Permite realizarea unui volum mare de activități cu efort minim și în timp record;
Ușurează semnificativ munca în cazul cercetărilor longitudinale și atunci când suntem
nevoiți să realizăm raportări intermediare;
Nu sunt necesare cunoștințe de programare;
Codul SPSS Syntax este ușor de citit și intuitiv;
SPSS generează automat codul aferent fiecărei comenzi realizate prin interfața vizuală
(atât pentru prelucrare cât și pentru analiză);
Codul generat de SPSS poate fi editat în totalitate prin schimbarea variabilelor țintă și a
parametrilor;
Utilizatorii cu experiență limitată pot progresa gradual de la copy-paste către introducerea
manuală a comenzilor;
Editorul Syntax ajută utilizatorul prin intermediul funcției auto-complete;
Acest ghid este inclus in kitul de instalare al SPSS și conține toate comenzile Syntax grupate
după scopul acestora în:
Import de date;
Salvare și export date;
Adaptare date în format SPSS;
Definirea datelor;
Transformarea datelor;
Editarea proprietăților documentului;
Transformarea fișierului;
Structuri logice de programare;
Utilități de programare și generale;
Operații cu structuri tabelare;
Afișarea rezultatelor;
Generarea Graficelor;
Serii de timp.
Pentru început utilizatorul trebuie să abordeze cu încredere salvarea codurilor sintaxă generate
automat, modificarea codurilor variabilelor și rularea acestor coduri.
Ulterior se poate face tranziția către adăugarea de parametrii noi sau eliminarea unora din cei
existenți din comenzile autogenerate pe baza sintaxei comenzii respective.
Următorul pas firesc este editarea manuală a comenzilor sintaxă, activitate pentru care este
suficient să cunoască numele comenzii necesare.
Funcția de autocompletare împreună cu mecanismul de validare a codului ne vor ajuta să definim
corect comenzile și parametrii acestora.
Principii de funcționare
1. Începutul liniilor cu comentarii va fi marcat cu ”*” iar sfârșitul cu ”.” (textul va fi afișat
cu caractere de culoare gri);
2. Comentariile la sfârșit de linie vor fi precedate de”/*” și încheiate cu ”.”
3. Atunci când vor fi analizate mai multe variabile similare în același timp codul acestora va
fi separat printr-un caracter spațiu;
4. SPSS este ”case sensitive”, evitați utilizarea majusculelor;
5. Nu folosiți indentații (stații libere la început de linie);
6. Momentan diacriticele nu sunt acceptate;
7. Fiecare comandă va începe pe o linie nouă de la capăt de rând și poate continua pe câte
rânduri este nevoie până la întâlnirea caracterului ”.”;
8. Pentru a rula o comandă aceasta trebuie în prealabil selectată iar apoi apăsat butonul
săgeată verde Run (Ctrl+R);
9. Fișierele sintaxă vor avea extensia .sps și pot fi editate utilizând orice editor text/web
(notepad, notepad++...);
Comprimarea comenzilor
Python este un limbaj de programare dinamic high-level, printre cele mai importante limbaje de
programare utilizate în prezent. Proiectat inițial la începutul anilor 1980 a început să fie folosit
10 ani mai târziu iar filozofia sa se bazează pe următoarele valori:
De ce Python?
Este printre cele mai importante limbaje de programare utilizate în acest moment;
Utilizatorii nu au nevoie de experiență în programare pentru utilizarea comenzilor de
bază și redactarea de secvențe scurte;
Este disponibil sub licență Open Source;
Este dezvoltat în permanență de către comunitate;
Este un limbaj intuitiv și foarte ușor de învățat (comparabil cu Visual Basic for
Applications utilizat de MS Office pentru macro);
Permite editarea de secvențe de cod scurte precum și a unor programe cu un grad ridicat
de complexitate (inaccesibil sintaxei SPSS);
Este ușor de integrat în alte aplicații;
Nu implică costuri suplimentare pentru utilizatori;
Utilizatorii au acces gratuit către nenumărate surse de informare și exemple disponibile
online;
1. Copy-Paste: sintaxa din fereastra Output a SPSS rezultată în urma unei acțiuni realizate
prin intermediul interfeței utilizator poate fi copiată, editată și rulată din nou;
2. Editarea propriei sintaxe: odată cu acumularea experienței utilizatorii își pot scrie propria
sintaxă similară celei generate automat de SPSS;
3. Editarea propriilor funcții: seturile de comenzi utilizate frecvent pot fi salvate sub forma
unor funcții personalizate ce primesc anumiți parametrii (nume de variabile, indicatori
solicitați...);
4. Editarea propriului modul de cod: utilizatorii experimentați care au cunoștințe de bază în
programare pot scrie propriul modul în cos Python (fără a mai depinde de sintaxa SPSS);
5. Crearea de ferestre de dialog și instrumente proprii: nivelul superior rezervat celor cu
aptitudini de programare și experiență în domeniu.
Programare Python v.s Python Scripting
Script Python - utilizat în principal pentru modificarea obiectelor din fereastra Output a SPSS
Obiectele existente in fereastra Output sunt editate prin setul de proprietăți definite pentru
acestea;
SPSS este folosit ca interfață in/out;