Sunteți pe pagina 1din 5

Un distribuitor angro care operează în diferite regiuni ale Portugaliei are informații despre cheltuielile

anuale ale mai multor articole din magazinele sale din diferite regiuni și canale. Datele constau în cheltuielile
anuale ale 440 de mari comercianți cu amănuntul pe 6 varietăți diferite de produse în 3 regiuni diferite
(Lisabona, Porto, Altele) și pe diferite canale de vânzări (Hotel, Retail).

1.1 Utilizați metode de statistici descriptive pentru a rezuma datele. Ce regiune și ce canal a cheltuit cel mai
mult? Ce regiune și ce canal au cheltuit cel mai puțin?

a. Folosind funcția de descriere în python ne-am uitat mai întâi la statisticile descriptive de bază ale
setului de date.

Soluție:

Exemplu din setul de date:

Analiza datelor exploratorii

Să verificăm tipurile de variabile și valorile lipsă din cadrul de date

Grafic de corelare
b. Ce regiune și ce canal au cheltuit cel mai mult? Ce regiune și ce canal au cheltuit cel mai puțin?

Folosind graficul cu bare cu Regiune și Canal, am reușit să identificăm regiunea cu cheltuieli maxime și
cheltuieli minime. Cele mai mari cheltuieli din regiune sunt de la alții , iar cele mai mici cheltuieli din
regiune sunt de la Porto , în timp ce cele mai mari cheltuieli din Canalul Mânecii sunt de la Hotel și
cele mai mici cheltuieli din Canalul Mânecii sunt de la Retail.

1.2 Există 6 varietăți diferite de articole care sunt luate în considerare. Descrieți și comentați / explicați
toate soiurile din regiune și canal? Furnizați o justificare detaliată a răspunsului dumneavoastră.

Măsurarea tendinței centrale - medie, mediană, mod Măsura dispersiei - interval, IQR, deviație standard

Din cele două funcții descrise mai sus, putem deduce următoarele

 Canalul are două valori unice, "Hotel" fiind cel mai frecvent, cu 298 din 440 de tranzacții. adică 67,7%
din cheltuieli provin de la canalul "Hotel".

 Comerțul cu amănuntul are trei valori unice, "Altele" fiind cel mai frecvent, cu 316 din 440 de
tranzacții. adică 71,8% din cheltuieli provin din regiunea "Altele".

 Articolul proaspăt are o medie de 12000,3, abaterea standard de 12647,3, cu valoarea minimă de 3 și
valoarea maximă de 112151. Celălalt aspect este Q1(25%) este 3127.75, Q3(75%) este 16933.8, cu
Q2(50%) 8504 interval = max-min = 112151-3=112,148 & IQR = Q3-Q1 = 16933.8-3127.75 = 13,806.05

 Produsul din lapte are o medie de 5796,27, abaterea standard de 7380,38, cu o valoare minimă de 55
și o valoare maximă de 73498. Celălalt aspect este Q1(25%) este 1533, Q3(75%) este 7190.25, cu
Q2(50%) 3627. Interval = max-min = 73498-55 = 73443 & IQR = Q3-Q1 = 7190.25-1533 = 5657.25
 Articolul alimentar are o medie de 7951,28, abaterea standard de 9503,16, cu valoarea minimă de 3 și
valoarea maximă de 92780. Celălalt aspect este Q1(25%) este 2153, Q3(75%) este 10655.8, cu
Q2(50%) 4755.5. Interval = max-min = 92780-3 = 92777 & IQR = Q3-Q1 = 10655.8-2153 = 8502.

 Frozen are o medie de 3071,93, abatere standard de 4854,67, cu valoare min de 25 și valoare maximă
de 60869. Celălalt aspect este Q1(25%) este 742.25, Q3(75%) este 3554.25, cu Q2(50%) 1526 Interval
= max-min = 60869-25=60844 & IQR = Q3-Q1 = 3554.25-742.25 = 2812

 Hârtia pentru detergenți are o medie de 2881,49, abaterea standard de 4767,85, cu valoarea minimă
de 3 și valoarea maximă de 40827. Celălalt aspect este Q1(25%) este 256.75, Q3(75%) este 3922, cu
Q2(50%) 816.5.Interval = max-min =40827-3=40824 & IQR = Q3-Q1 = 3922-256.75 = 3665.25

 Delicatessen are o medie de 1524,87, abaterea standard de 2820,11, cu o valoare minimă de 3 și o


valoare maximă de 47943. Celălalt aspect este Q1(25%) este 408.25, Q3(75%) este 1820.25, cu
Q2(50%) 965.5. Interval = max-min = 47943-3 = 47940 & IQR = Q3-Q1 = 1820.25-408.25 = 1412

1.3 Pe baza unei măsuri descriptive a variabilității, care element prezintă cel mai inconsecvent
comportament? Care elemente prezintă cel mai puțin comportament inconsecvent?

Soluție:

Utilizarea coeficientului de variație

Articolul proaspăt are cel mai mic coeficient de variație, deci este consecvent și articolul delicat are cel
mai mare coeficient de variație, deci este inconsistent.

1.4 Există valori aberante în date? Faceți o copie de rezervă a răspunsului cu un complot / tehnică adecvată
cu ajutorul comentariilor detaliate.

Soluție:

Pentru a afla valorile aberante, am trasat boxplot și da, există valori aberante în toate articolele din gama de
produse (proaspete, lapte, alimente, congelate, detergenți, hârtie și delicatese)
1.5 Pe baza analizei dvs., care sunt recomandările dvs. pentru afacere? Cum poate analiza dvs. să ajute
afacerea să-și rezolve problema? Răspuns din perspectiva afacerii

Conform analizei, constat că există inconsecvențe în cheltuirea diferitelor elemente (prin calcularea
coeficientului de variație), care ar trebui reduse la minimum. Cheltuielile canalului hotelier și de vânzare cu
amănuntul sunt diferite, ceea ce ar trebui să fie mai mult sau mai puțin egal. Și, de asemenea, cheltuit ar trebui
să fie egal pentru diferite regiuni. Trebuie să vă concentrați și pe alte articole decât "Proaspete" și "Alimente"

S-ar putea să vă placă și