Documente Academic
Documente Profesional
Documente Cultură
12-14-2021
—
Metode statistice pentru luarea
deciziilor
—
Declarație problema 1:
Un distribuitor angro care operează în diferite regiuni ale Portugaliei are informații despre cheltuielile
anuale ale mai multor articole din magazinele lor din diferite regiuni și canale. Datele constau în
cheltuielile anuale ale a 440 de mari comercianți cu amănuntul pentru 6 soiuri diferite de produse în 3
regiuni diferite (Lisabona, Porto, Altele) și pe diferite canale de vânzare (Hotel, Retail).
Datele sunt furnizate în fișierul „Engros+Clienți+Date.csv”, așa cum se arată mai jos.
EDA de bază
Datele au 440 de instanțe cu 9 atribute. 7 tip întreg și 2 tipuri de obiect (șiruri în coloană), așa cum se
vede din rezultatul de mai jos.
Setul de date are 9 variabile Cumpărător/Spender”, „Canal”, „Regiune”, „Proaspăt”, „Lapte”, „Băcănie”,
„Congelat”, „Hârtie_detergenți” și „Delicatessen”. Canalul și Regiunea sunt ambele coloane categorice,
în timp ce toate celelalte sunt de tip întreg.
Următorul tabel este derivat folosind Statistica descriptivă pentru a rezuma datele.
Graficul cu bare de mai jos reprezintă cheltuielile totale ale tuturor regiunilor.
Din graficul de mai sus se poate concluziona că regiunea Altele are cele mai mari cheltuieli, iar regiunea
Porto are cele mai mici cheltuieli.
Tabelul de mai sus reprezintă distribuția în funcție de canal a Cheltuielilor totale pentru toate produsele
alimentare. Aici se poate observa că cheltuielile sunt repartizate pe două canale Hotel și Retail ..
Graficul cu bare de mai jos reprezintă cheltuielile totale ale ambelor canale.
Se poate observa că în regiunea Lisabona produsul Hârtie Detergentă are coeficient maxim de
variabilitate, deci este foarte inconsecvent în Lisabona , urmat de Produse alimentare . În cazul în
care la Oporto, produsele congelate prezintă cel mai mare comportament inconsecvent, urmate de
hârtia detergentă . Pe de altă parte, în Regiunea Other Delicatessen prezintă cea mai mare
inconsecvență, urmată de Hârtia Detergentă.
În regiunea Lisabona , produsul Delicatessen are cel mai mic coeficient de variabilă, deci este cel
mai consistent produs din Lisabona , unde, ca și în Porto, Fresh și Delicatessan sunt cele mai
consistente. Pe de altă parte, în Altă regiune, numai proaspăt este cel mai consistent.
Se poate observa ca in canalul Hotel produsul Delicatessen are coeficient de variabil maxim deci este
foarte inconsecvent in Hotel urmat de Frozen . Pe de altă parte, în canalul Retail Detergent Paper
prezintă cea mai mare inconsecvență, urmată de Milk .
În canalul Hotel , produsul Hârtie Detergentă are cel mai mic coeficient de variabilă, deci este cel
mai consistent produs din Canalul Hotel , unde, ca și în Retail , produsele congelate sunt cele mai
consistente.
Pe baza analizei de mai sus se poate concluziona că luând în considerare toate cele 6
varietăți de articole, toate soiurile nu prezintă un comportament similar în regiune și
canal.
1.3 Pe baza unei măsuri descriptive a variabilității, care element prezintă cel
mai inconsecvent comportament? Care elemente arată cel mai puțin
comportament inconsecvent?
Tabelul de mai sus reprezintă statisticile descriptive ale tuturor celor șase produse alimentare proaspete,
lapte, produse alimentare, congelate, detergenți_hartie și delicatese.
Aici, consistența oricărui aliment poate fi calculată folosind Coeficientul de variație (CV). Cu cât
coeficientul de variație este mai mare, cu atât este mai mare nivelul de inconsecvență și invers.
Unde:
σ = abaterea standard
μ = medie
Pentru a determina prezența Outlierilor în Date, cea mai bună metodă este crearea unui diagramă cu casete
pentru toate variabilele, așa cum se arată mai jos.
Pe baza analizei, se poate observa că regiunea Altele și canalul Retail au cheltuieli mai mari decât alte
Canale și Regiuni. Prin urmare, din perspectiva afacerii, dacă urmează să fie deschisă o nouă afacere,
aceasta ar trebui să fie deschisă în Cealaltă regiune cu Channel Retail , deoarece Cealaltă regiune
absoarbe volumul maxim de vânzări și acest lucru se poate lăuda cu veniturile mai mari în comparație
cu deschiderea unei noi afaceri în Lisabona sau Porto și cu Hotelul Channel.
De asemenea, produsul alimentar Delicatessen prezintă un comportament cel mai puțin inconsecvent
în toate regiunile și canalele. Deci Delicatessen-ul este de asemenea recomandat să fie disponibil în
orice moment în toate Afacerile.
Problema 2:
Student News Service de la Clear Mountain State University (CMSU) a decis să culeagă date despre studenții
care participă la CMSU. CMSU creează și distribuie un sondaj de 14 întrebări și primește răspunsuri de la 62 de
studenți.
Datele sunt stocate în setul de date sondaj , după cum urmează:
2.5.1. Găsiți probabilitatea ca un student ales aleatoriu să fie fie bărbat, fie
să aibă un loc de muncă cu normă întreagă?
Probabilitatea ca un student ales aleatoriu să fie fie bărbat, fie să aibă un loc de muncă cu normă întreagă
= Probabilitatea ca un student să fie bărbat + Probabilitatea ca un student să aibă un loc de
muncă cu normă întreagă - Probabilitatea ca un bărbat să aibă un loc de muncă cu normă
întreagă
Probabilitatea ca un student ales aleatoriu să fie fie bărbat, fie să aibă un loc de muncă cu
normă întreagă 79,87 %
Probabilitatea condiționată ca, având în vedere că o studentă este aleasă aleatoriu, ea este
specializată în afaceri internaționale sau management este de 24,242 %
2X2 Tabel de contingență de gen și intenție de absolvire fără a lua în considerare studenții
nehotărâți
Două evenimente A și B pot fi dovedite a fi evenimente independente atunci când îndeplinesc condiția:
În acest caz, dacă a fi femeie și intenția absolventă sunt independente, se poate dovedi prin verificarea
condiției:
Unde F = Femeie
Da = Intenția de absolvire fiind Da
2.6.1. Dacă un student este ales aleatoriu, care este probabilitatea ca GPA
să fie mai mic de 3?
Deoarece GPA este o variabilă continuă, probabilitatea unui student a cărui GPA este mai mică de 3 poate fi
calculată utilizând distribuția Poisson.
Pentru a calcula probabilitatea GPA 3 sau mai mică vom adăuga probabilitatea de 0,1,2 și 3 GPA obținută în
distribuția Poisson.
Dacă un student este ales aleatoriu, care este probabilitatea ca GPA să fie mai mic de 3
este de 39,49%
După cum putem vedea, este distribuit în mod normal, deci probabilitatea condiționată ca un bărbat selectat
aleatoriu să câștige 50 sau mai mult poate fi calculată folosind distribuția normală.
Pentru a calcula acest lucru, vom calcula probabilitatea cumulativă pentru mai puțin de 50 folosind distribuția
normală și apoi vom scădea din 1.
După cum putem vedea, este distribuit în mod normal, deci probabilitatea condiționată ca o femeie selectată
aleatoriu să câștige 50 sau mai mult poate fi calculată folosind distribuția normală.
Pentru a calcula acest lucru, vom calcula probabilitatea cumulativă pentru mai puțin de 50 folosind distribuția
normală și apoi vom scădea din 1.
Problema 3
O caracteristică importantă de calitate folosită de producătorii de șindrilă de asfalt ABC este
cantitatea de umiditate pe care o conține șindrila atunci când este ambalată. Clienții pot simți că au
achiziționat un produs lipsit de calitate dacă găsesc umezeală și șindrilă umedă în interiorul
ambalajului. În unele cazuri, umiditatea excesivă poate face ca granulele atașate de șindrilă în
scopuri de textură și colorare să cadă de pe zona zoster, ceea ce duce la probleme de aspect. Pentru a
monitoriza cantitatea de umiditate prezentă, compania efectuează teste de umiditate. Se cântărește
șindrila și apoi se usucă. Șindrila este apoi cântărită din nou și, pe baza cantității de umiditate scoasă
din produs, se calculează kilogramele de umiditate pe 100 de picioare pătrate. Compania ar dori să
arate că conținutul mediu de umiditate este mai mic de 0,35 lire la 100 de metri pătrați.
Fișierul (A & B shingles.csv) include 36 de măsurători (în lire pe 100 de picioare pătrate) pentru
șindrila A și 31 pentru șindrila B.
Pentru sindrila A, se oferă ipoteza nulă și alternativă pentru a testa dacă conținutul mediu de umiditate al
populației este mai mic de 0,35 lire la 100 de metri pătrați:
Eșantionul nu este un eșantion mare. Deci utilizați distribuția t și statistica testului tSTAT
Deoarece testăm numai pentru proba A, folosim testul T cu o probă. De asemenea, ca python
implicit în Python, ttest_1samp arată rezultatul 2-sided este împărțit la 2, deoarece este un
test !_Sided.
Nu avem dovezi care să respingă ipoteza nulă, deoarece valoarea p > Nivel de
semnificație
Pentru sindrila B, se oferă ipoteza nulă și alternativă pentru a testa dacă conținutul mediu de umiditate al
populației este mai mic de 0,35 lire la 100 de metri pătrați:
Eșantionul nu este un eșantion mare. Deci utilizați distribuția t și statistica testului tSTAT
Deoarece testăm numai pentru proba A, folosim testul T cu o probă. . De asemenea, ca python
implicit în Python, ttest_1samp arată rezultatul 2-sided este împărțit la 2, deoarece este un
test !_Sided.
Avem dovezi pentru a respinge ipoteza nulă deoarece valoarea p < Nivelul de
semnificație
Probele nu sunt mostre mari. Deci utilizați distribuția t și statistica testului tSTAT
Nu avem suficiente dovezi pentru a respinge ipoteza nulă în favoarea ipotezei alternative ,
deoarece valoarea p > Nivel de semnificație
Prin urmare, se poate concluziona că media populației pentru zona zoster A și B este egală.