M RosanuLaura TudoseClara

UNIVERSITATEA ”AL. I.
CUZA”, IAȘI
FACULTATEA DE ECONOMIE ȘI ADMINISTRAREA AFACERILOR
SPECIALIZAREA: DATA MINING
Analiza statistică a calității

vinului
Coordonator : Prof. Dr. Laura Asandului
Studenți : Roșanu Laura-Georgiana

Tudose Maria Clara
Cuprins
1. Scopul, obiectivele și ipotezele analizei ................................................................................................ 3
Introducere ............................................................................................................................................... 3
Scop ........................................................................................................................................................... 3
Obiective ................................................................................................................................................... 3
Ipoteze ...................................................................................................................................................... 3
2. Prezentarea variabilelor înainte de transformare ................................................................................ 4
3. Verificarea și curățarea bazei de date, transformări ale variabilelor, outlieri ...................................... 4
4. Statistica descriptivă ............................................................................................................................. 9
Tabele cu variabilele în marimi relative .................................................................................................... 9
Reprezentarea grafică a variabilelor ....................................................................................................... 12
Mărimi descriptive .................................................................................................................................. 14
5. Modelarea econometrică.................................................................................................................... 16
5.1 Regresia logistică binomială multiplă ......................................................................................... 16
Interpretarea rezultatelor ....................................................................................................................... 18
5.2 Regresia logistica multinomiala multipla ........................................................................................ 22
Interpretarea rezultatelor ....................................................................................................................... 24
Curba ROC ............................................................................................................................................... 26
Conluzii ........................................................................................................................................................ 28
1. Scopul, obiectivele și ipotezele analizei
Introducere
Odată cu trecerea timpului, vinul a devenit un bun de lux, iar în prezent acesta se bucură tot
mai mult de o gamă largă de consumatori. În ultimii ani, Portugalia a prezentat o creștere
uimitoare privind exportul vinului său vinho verde ( din regiunea de nord-vest). Pentru a-și
susține creșterea, această industrie investește în noi tehnologii atât pentru procesele de
vinificație, cât și pentru vânzări.
Certificarea vinului și evaluarea calității sunt elemente cheie în acest context. Evaluarea
calității vinului este un proces important deoarece identifică cei mai importanți factori de
influență, ajutând astfel la îmbunătățirea producției vinurilor.
Certificarea vinurilor este în general evaluată prin teste fizico-chimice de laborator utilizate
în mod obișnuit pentru a caracteriza vinul prin determinarea densității, volumul alcoolului sau
valorile pH-ului, în timp ce testele senzoriale se bazează în special pe experți umani.
Scop
Scopul aceste lucrări este analiza diferențelor cu privire la calitatea vinului alb din
Portugalia, în funcție de volumul alcoolului (small, medium, high) , pH-ul acestuia, densitatea,
sulfiții din vin și zahărul rămas în vin.
Obiective
Pentru a atinge scopul propus, vom folosi modelarea econometrică care constă în :
regresia logistică binomială multiplă și regresia logistică multinomială multiplă. Folosim regresia
logistică binomială multiplă pentru a compara valorile observate ale variabilei răspuns dummy
(quality2, cu valori de -1 și 1), cu valorile prognozate. Regresia logistică multinomială multiplă o
folosim pentru a analiza factori de influență a calității vinului în funcție de cantitatea sulfiților
(small, medium, high) și pH-ul vinului.
Ipoteze
Pe parcursul acestei lucrari dorim sa aflam daca calitatea vinului este influentata de
urmatoarele variabile: pH, residual sugar, density si sulphates.
2. Prezentarea variabilelor înainte de transformare
Datele din această lucrare provin din regiunea de nord-vest a Portugaliei, numită Minho,
iar setul de date a fost preluat de pe https://archive.ics.uci.edu/ml/datasets/Wine+Quality . Datele
au fost colectate din mai 2004 pana în februarie 2007. Baza de date conține 4898 de înregistrări,
iar variabilele sunt : sulphates, pH, alcohol, residual sugar, density și quality.
3. Verificarea și curățarea bazei de date, transformări ale variabilelor,

outlieri
Primul pas a fost verificarea tipului variabilelor folosite în analiză.
După cum se poate observa variabila quality este integer, de aceea am transformat-o în
variabilă numerică pentru a nu întâmpina probleme în analiză.
Următorul pas a constat în transformarea variabilelor : quality în variabilă categorială cu
două categorii (sub_medie și peste_medie), quality în variabilă dummy (-1,1) , alcohol în
alcohol.vol(small, medium, high) și sulphates în sulphates.qty(small, medium, high)
Pentru crearea variabilelor cu 3 categorii, am folosit minimul, Q1, Q3 și maximul.
Detectarea valorilor extreme in setul de date am făcut-o cu ajutorul funcției outlier

remover.
Apelarea funcției pentru variabilele pH, density și residual.sugar.

Prin apelarea acestei functii se genereaza o reprezentare grafica a tuturor valorilor din setul
de date urmand sa dau click pe fiecare valoare extrema iar dupa ce apasam “Finish” fuctia
inlocuieste valorile selectate cu NA si afiseaza un grafic de tip normal QQ plot.
Variabila pH
După cum se poate observa din graficul de mai sus, această variabilă nu are valori extreme.
Variabila density
La această variabilă au fost eliminate două valori extreme.
Variabila residual.sugar
Din această variabilă am eliminate 4 valori.
După înlocuirea valorilor extreme cu NA, am folosit funcția na.omit pentru a elimina toate
cazurile ce conțin valorile lipsă.
4. Statistica descriptivă
Tabele cu variabilele în marimi relative
 Tabel bidimensional
quality1 * alcohol.vol Crosstabulation
alcohol.vol Total
high medium small

Count 1041 1575 637 3253
quality1 peste_medie
% within quality1 32.0% 48.4% 19.6% 100.0%
% within alcohol.vol 92.2% 68.1% 44.6% 66.8%
% of Total 21.4% 32.3% 13.1% 66.8%
Count 88 739 792 1619
% within quality1 5.4% 45.6% 48.9% 100.0%

sub_medie
% of Total 1.8% 15.2% 16.3% 33.2%

Count 1129 2314 1429 4872
% within quality1 23.2% 47.5% 29.3% 100.0%

Total
% of Total 23.2% 47.5% 29.3% 100.0%
După cum se poate observa din tabelul de mai sus, din totatul de 4872 de valori analizate,
66.8% au calitatea peste medie, iar 33.2% au calitatea sub medie. Din totatul volumului de
alcool, 23.2% reprezintă vinurile cu un volum ridicat de alcool, 47.5% cu un volum mediu de
alcool și restul de 29.3% sunt vinurile cu volumul cel mai mic de alcool.
Din totalul vinurilor cu o calitate peste medie, cele mai multe vinuri sunt cele care au un
volum mediu de alcool, reprezentând 48.4%, iar în cazul vinurilor cu o calitate sub medie au un
volm al alcoolului scazut, avand un procent de 48.9%.
 Tabelul tridimensional
alcohol.vol * sulphates.qty * quality1 Crosstabulation

quality1: Total
sulphates.qty Total
high medium small
Count 278 408 443 1129

high
% within sulphates.qty 24.3% 16.9% 33.8% 23.2%
% of Total 5.7% 8.4% 9.1% 23.2%
alcohol.vol Count 627 1140 547 2314

medium
% of Total 12.9% 23.4% 11.2% 47.5%

small Count 240 867 322 1429
% of Total 4.9% 17.8% 6.6% 29.3%

Count 1145 2415 1312 4872

Total
% of Total 23.5% 49.6% 26.9% 100.0%
Acest tabel a fost realizat pe baza cazurilor cu o calitate a vinului peste medie.
Se poate observa faptul că din totalul vinurilor cu un volum ridicat de alcool cele mai
multe au o cantitate de sulfiți scazută, având un procent de 39.2%. Vinurile care au un volum
mediu sau mic de alcool, au o cantitate medie de sulfiți, cu un procent de 49.3% , respectiv
60.7%.
Reprezentarea grafică a variabilelor
Cele mai multe vinuri care au o calitate peste medie sunt în număr de 3252, iar restul de
1619 sunt reprezentate de vinurile cu o calitate sub medie.
Din totalul vinurilor, cele mai multe au un volum al alcoolului mediu, urmat de un volum
mic, iar cele mai puține cazuri au un volum ridicat de alcool.
Graficul de mai sus ne arată că variabila residual.sugar prezintă o distribuție asimetrică la
dreapta.
Putem observa faptul că în cazul variabilei pH, distribuția este ușor asimetrică la dreapta.
Variabila density prezintă o distribuție ușor la dreapta.
Mărimi descriptive
Variabila pH are o medie de 3.188 și mediana de 3.18. În cazul variabilei density, putem
observa că aceasta are media și media de 0.994, respectiv 0.993. Pentru variabila residual.sugar,
valorile mediei si medianei sunt de 6.36 și 5.2.
Pentru aflarea modului variabilelor, am folosit funcția getmode.
În cazul variabilei quality1, cea mai mare frecvență de apariție o are categoria
peste_medie, iar în cazul variabilei alcohol.vol , frecvența de apariție cea mai mare o are
categoria medium.
Coeficientul de variație
Putem observa faptul că în cazul variabilei residual.sugar, seria este eterogenă, pe când în
cazul variabilelor density și pH, seria este omogenă.
5. Modelarea econometrică
5.1 Regresia logistică binomială multiplă
Pentru a realiza o regresie ligistică binomială multiplă, trebuie să parcurgem următorii pași :
1)Analyze->Regression->Binary logistic:
2) Introducerea variabilelor:
Variabila raspuns este variabila dummy quality2, iar variabilele explicative sunt pH,
density, residual.sugar si sulphates.qty.
3) Urmatorul pas este separarea variabilelor explicative in numerice si categoriale :
4) Selectarea statisticilor
5) Ultimul pas consta in salvarea probabilitatilor ce urmeaza a fi folosite in constructia curbei
ROC.
Interpretarea rezultatelor
Case Processing Summary
Unweighted Casesa N Percent
Included in Analysis 4872 100.0
Selected Cases Missing Cases 0 .0
Total 4872 100.0

Unselected Cases 0 .0
Total 4872 100.0
a. If weight is in effect, see classification table for the total number of

cases.
Primul output ne arata ca in aceasta analiza au fost introduse toate cazurile.

Dependent Variable Encoding
Original Value Internal Value
-1 0
1 1
Acest output ne arata codificarea SPSS-ului a variabilei raspuns.
Block 0
Classification Tablea,b
Observed Predicted
quality2 Percentage
-1 1 Correct
-1 3253 0 100.0
quality2
Step 0 1 1619 0 .0
Overall Percentage 66.8
a. Constant is included in the model.

b. The cut value is .500
Din totalul clasificarilor, 66.8% au fost clasificate corect.
Variables in the Equation
B S.E. Wald df Sig. Exp(B)
Step 0 Constant -.698 .030 526.316 1 .000 .498
Se poate observa faptul ca in ecuatia initiala a modelului este introdusa numai constanta.
Avand in vedere faptul ca valoarea sig-ului este mai mica decat pragul de semnificatie (0.05),
putem afirma faptul ca variabila raspuns este semnificativa din punct de vedere statistic.
Variables not in the Equation
Score df Sig.
pH 35.013 1 .000
density 383.445 1 .000
residual.sugar 48.017 1 .000

Variables
Step 0 sulphates.qty 40.368 2 .000
sulphates.qty(1) 28.552 1 .000
sulphates.qty(2) 33.735 1 .000
Overall Statistics 772.505 5 .000
In acest tabel sunt prezentate toate variabilele care nu au fost incluse in modelul initial.
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 49.367 2 .000
Step 4 Block 875.495 5 .000
Model 875.495 5 .000
Testele Omnibus ale coeficienților de model sunt utilizate pentru a verifica daca noul
model (cu variabile independente incluse) reprezinta o imbunatatire fata de modelul initial.
Acesta utilizeaza teste chi-patrat pentru a vedea daca exista o diferenta semnificativa intre
probabilitatile Log-likelihoods ale modelului initial si modelul nou-creat. Daca noul model are
o valoare semnificativ mai redusă de -2LL comparativ cu linia de baza, atunci sugerează ca noul
model explica mai mult varianta rezultatului, ceea ce inseamna ca este o imbunatatire. Aici chi-
patratul este semnificativ (chi-square = 875.495, df = 5, p <.000), astfel că noul nostru model
este semnificativ mai bun.
Block 1
Model Summary
Step -2 Log likelihood Cox & Snell R Nagelkerke R

Square Square
4 5319.745a .164 .229
a. Estimation terminated at iteration number 5 because

parameter estimates changed by less than .001.
Putem observa faptul ca R2 are o valoare de 0.229, ceea ce inseamna ca modelul explica
22.9% din variatia rezultatului.
Classification Tablea
Observed Predicted
quality2 Percentage
-1 1 Correct
-1 2758 495 84.8

quality2
Step 4 1 1005 614 37.9
Overall Percentage 69.2
a. The cut value is .500
In urma analizei, putem observa faptul ca modelul a fost imbunatatit cu 2.4%, cea ce
inseamna ca 69.2% din cazuri au fost clasificate corect.
5.2 Regresia logistica multinomiala multipla
Pentru realizarea acestei analize am folosit urmatorii pasi:

1)Analyze->Regression->Multinomial logistic:
2) Introducerea variabilelor:
Ca variabila raspuns am folosit am folosit variabila quality1 folosind categoria “Peste_medie” iar
ca variabile explicative am folosit sulphates.qty si pH.
3) Alegerea statisticilor:
4) Salvarea probabilitatilor ce vor fi folosite pentru curba ROC

Interpretarea rezultatelor
Model Fitting Information
Model Model Fitting Likelihood Ratio Tests

Criteria
-2 Log Chi-Square df Sig.

Likelihood
Intercept Only 1100.787

Final 1027.818 72.969 3 .000
Pe baza valorii sig-ului, din tabelul de mai sus, putem afirma ca modelul final prezice mai
bine variabila dependenta fata de modelul fara constanta.
Goodness-of-Fit
Chi-Square df Sig.
Pearson 392.136 255 .000

Deviance 419.554 255 .000
Deoarece valoarea sig-ului este mai mica decat pragul de seminificatie putem afirma
faptul ca modelul se potriveste datelor.
Likelihood Ratio Tests
Effect Model Fitting Likelihood Ratio Tests

Criteria
-2 Log Chi-Square df Sig.

Likelihood of
Reduced Model
Intercept 1027.818a .000 0 .

pH 1059.884 32.066 1 .000
sulphates.qty 1065.299 37.480 2 .000
The chi-square statistic is the difference in -2 log-likelihoods between the

final model and a reduced model. The reduced model is formed by omitting
an effect from the final model. The null hypothesis is that all parameters of
that effect are 0.
a. This reduced model is equivalent to the final model because omitting the
effect does not increase the degrees of freedom.
Cu o probabilitate de 95% putem afirma ca variabilele explicative sunt semnficative din
punct de vedere statistic.
Parameter Estimates
quality1a B Std. Error Wald df Sig. Exp(B) 95% Confidence Interval for
Exp(B)
Lower Bound Upper Bound
Intercept -2.951 .665 19.673 1 .000
pH 1.180 .210 31.462 1 .000 3.253 2.154 4.913
peste_medie [sulphates.qty=high] .167 .090 3.404 1 .065 1.182 .990 1.411
[sulphates.qty=medium] -.282 .073 14.796 1 .000 .754 .653 .871
[sulphates.qty=small] 0b . . 0 . . . .
a. The reference category is: sub_medie.

b. This parameter is set to zero because it is redundant.
Din tabelul de mai sus putem afirma ca variabila pH are valori cuprinse intre 2.154 si
4.913.
Pe baza valorii sig-ului categoria “high” a variabilei sulphates.qty nu este semnficativa
din punct de vedere statistic, restul variabilelor fiind semnificative cu un sig de 0.
Classification
Observed Predicted
peste_medie sub_medie Percent Correct
peste_medie 3251 2 99.9%

sub_medie 1619 0 0.0%
Overall Percentage 100.0% 0.0% 66.7%
Rezultatele obtinute ne arata faptul ca 66.7% din cazuri au fost clasificate corect.
Curba ROC
Case Processing Summary
quality2 Valid N
(listwise)
Positivea 1619
Negative 3253
Larger values of the test

result variable(s) indicate
stronger evidence for a
positive actual state.
a. The positive actual state is
1.
Din primul tabel rezultat putem observa ca sunt 1619 de cazuri positive si 3253 de cazuri
negative.
Area Under the Curve
Test Result Variable(s): Estimated Cell Probability for Response Category:
peste_medie
Area Std. Errora Asymptotic Sig.b Asymptotic 95% Confidence

Interval
Lower Bound Upper Bound
.425 .009 .000 .408 .441
The test result variable(s): Estimated Cell Probability for Response Category:
peste_medie has at least one tie between the positive actual state group and the
negative actual state group. Statistics may be biased.
a. Under the nonparametric assumption
b. Null hypothesis: true area = 0.5
Area ne indica faptul ca modelul este semnificativ statistic lucru care il putem observa si
cu ajutorul valorii sig-ului.
Conluzii
In urma analizei efectuate putem afirma faptul ca variabila raspuns, calitatea vinului, este
influentata cel mai mult de pH-ul acestuia si de categoriile sulfitilor “small” si “medium”.
Prin urmare scopul si obiectivele au fost in concordanta cu rezultatele obtinute iar
ipotezele au fost indeplinite

M RosanuLaura TudoseClara

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

M RosanuLaura TudoseClara

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSITATEA ”AL. I.

Analiza statistică a calității

Coordonator : Prof. Dr. Laura Asandului

Studenți : Roșanu Laura-Georgiana

3. Verificarea și curățarea bazei de date, transformări ale variabilelor,

Primul pas a fost verificarea tipului variabilelor folosite în analiză.

Pentru crearea variabilelor cu 3 categorii, am folosit minimul, Q1, Q3 și maximul.

Detectarea valorilor extreme in setul de date am făcut-o cu ajutorul funcției outlier

Apelarea funcției pentru variabilele pH, density și residual.sugar.

Tabele cu variabilele în marimi relative

quality1 * alcohol.vol Crosstabulation

high medium small

% of Total 21.4% 32.3% 13.1% 66.8%

Count 88 739 792 1619

% within quality1 5.4% 45.6% 48.9% 100.0%

% of Total 1.8% 15.2% 16.3% 33.2%

% within quality1 23.2% 47.5% 29.3% 100.0%

% of Total 23.2% 47.5% 29.3% 100.0%

alcohol.vol * sulphates.qty * quality1 Crosstabulation

high medium small

Count 278 408 443 1129

% within alcohol.vol 24.6% 36.1% 39.2% 100.0%

% of Total 5.7% 8.4% 9.1% 23.2%

alcohol.vol Count 627 1140 547 2314

% within alcohol.vol 27.1% 49.3% 23.6% 100.0%

% of Total 12.9% 23.4% 11.2% 47.5%

% within sulphates.qty 21.0% 35.9% 24.5% 29.3%

% of Total 4.9% 17.8% 6.6% 29.3%

% within alcohol.vol 23.5% 49.6% 26.9% 100.0%

% of Total 23.5% 49.6% 26.9% 100.0%

5.1 Regresia logistică binomială multiplă

Case Processing Summary

Unweighted Casesa N Percent

Included in Analysis 4872 100.0

Selected Cases Missing Cases 0 .0

Total 4872 100.0

a. If weight is in effect, see classification table for the total number of

Primul output ne arata ca in aceasta analiza au fost introduse toate cazurile.

Original Value Internal Value

Acest output ne arata codificarea SPSS-ului a variabilei raspuns.

Overall Percentage 66.8

a. Constant is included in the model.

Din totalul clasificarilor, 66.8% au fost clasificate corect.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant -.698 .030 526.316 1 .000 .498

density 383.445 1 .000

residual.sugar 48.017 1 .000

sulphates.qty(1) 28.552 1 .000

sulphates.qty(2) 33.735 1 .000

Overall Statistics 772.505 5 .000

Omnibus Tests of Model Coefficients

Step 49.367 2 .000

Step 4 Block 875.495 5 .000

Model 875.495 5 .000

Step -2 Log likelihood Cox & Snell R Nagelkerke R

4 5319.745a .164 .229

a. Estimation terminated at iteration number 5 because

-1 2758 495 84.8

Overall Percentage 69.2

a. The cut value is .500

Pentru realizarea acestei analize am folosit urmatorii pasi:

4) Salvarea probabilitatilor ce vor fi folosite pentru curba ROC