Sunteți pe pagina 1din 12

Dezvoltare Software pentru Analiza Datelor

ANALIZEI ÎN COMPONENTE
PRINCIPALE PENTRU ANALIZA
CRIMELOR

Coordonator
-----

Student

1
Cuprins
1. Prezentare generală.........................................................................................................................3
1.1. Descrierea datelor.....................................................................................................................3
1.2. Sistemul de clasificare..............................................................................................................3
1.3. Concepte și definiții statistice...................................................................................................3
1.3.1. Omucidere..........................................................................................................................3
1.3.2. Tentativă de omucidere.....................................................................................................3
1.3.3. Agresiune............................................................................................................................3
1.3.4. Răpire.................................................................................................................................4
1.3.5. Viol......................................................................................................................................4
1.3.6. Agresiune sexuală..............................................................................................................4
1.3.7. Tâlhărie..............................................................................................................................4
1.3.8. Efracție...............................................................................................................................4
1.3.9. Spargerea spațiilor rezidențiale private...........................................................................4
1.3.10. Furt...................................................................................................................................4
1.3.11. Furtul unui vehicul terestru motorizat...........................................................................5
1.3.12. Infracțiuni legate de droguri...........................................................................................5
2. Analiza componentelor principale..................................................................................................5
2.1. Introducere................................................................................................................................5

2
1. Prezentare generală
1.1. Descrierea datelor
Cifrele din 2019 pentru infracțiunile înregistrate de poliție se bazează pe colectarea de
date comună Eurostat-UNODC. Sunt disponibile la nivel de țară pentru statele membre ale
Uniunii Europene, țările EFTA, țările candidate la UE și potențialii candidați UE.

Statisticile includ infracțiunile înregistrate de poliție prin infracțiuni, cum ar fi:


omucidere, tentativă de omucidere, agresiune, răpire, viol, agresiune sexuală, tâlhărie,
efracție, spargerea spațiilor rezidențiale private, furt, furtul unui vehicul terestru motorizat și
infracțiuni legate de droguri.

1.2. Sistemul de clasificare


Infracțiunile sunt clasificate de International Classification of Crime for Statistical
Purposes (ICCS).

Regiunile sunt clasificate după Nomenclature of territorial units for statistics (NUTS).

Statutul juridic este clasificat conform definițiilor Oficiului Națiunilor Unite pentru
Droguri și Crimă.

1.3. Concepte și definiții statistice


1.3.1. Omucidere

Definiție: Moarte ilegală cauzată unei persoane. Datele privind omuciderea includ, de
asemenea, omor, crime de onoare, agresiune gravă care duce la moarte, deces ca urmare a
activităților teroriste, crime legate de zestre, feminicid, pruncucidere, omucidere voluntară,
crime extrajudiciare, crime cauzate de utilizarea excesivă a forței de către forțele de
ordine/funcționari de stat. Datele exclud moartea cauzată de intervenții legale, omucidere
justificată în legitimă apărare, tentative de omucidere, omucidere neintenționată, omucidere
din culpă involuntară, asistare la sinucidere sau instigare la sinucidere, feticid ilegal,
eutanasie.

1.3.2. Tentativă de omucidere

Definiție: Încercarea de a provoca o moarte ilegală unei persoane. Datele privind


tentativa de omucidere includ, de asemenea, tentativa de omor, tentativa de a provoca
moartea ca urmare a activităților teroriste, tentativa de pruncucidere, tentativa de feminicid și
excluderea conspirației pentru a obține sau a comite feticid ilegal.

1.3.3. Agresiune

Definiție: Atacul fizic împotriva corpului altei persoane care are ca rezultat vătămare
corporală gravă, rănire, agresiune gravă, vătămare corporală în circumstanțe agravante,
baterie, atacuri cu acid, mutilare genitală feminină, otrăvire, agresiune cu armă, sterilizare

3
forțată, prelevare de sânge uman, organe sau țesuturi prin folosirea violenței. Se exclude
„asaltul” care duce la moarte, agresiune sexuală/indecentă, amenințări, tortură și
palme/pumni.

1.3.4. Răpire

Definiție: Deținerea ilegală a unei persoane sau a unor persoane împotriva voinței lor
(inclusiv prin folosirea forței, amenințării, fraudei sau ademenirii) în scopul de a cere pentru
eliberarea acestora un câștig ilicit sau orice alt câștig economic sau alt beneficiu material sau
pentru a obliga pe cineva să facă sau să nu facă ceva. „Răpirea” exclude disputele privind
custodia copiilor, răpirea unui minor, adopția ilegală, luarea de ostatic.

1.3.5. Viol

Definiție: Penetrare sexuală fără consimțământ valid sau cu consimțământ ca urmare a


intimidării, forței, fraudei, constrângerii, amenințării, înșelăciunii, consumului de droguri sau
alcool, abuzului de putere sau a unei poziții de vulnerabilitate sau acordarea sau primirea de
beneficii.

1.3.6. Agresiune sexuală

Definiție: Violența sexuală nu echivalează cu viol. Include un act sexual nedorit, o


încercare de a obține un act sexual sau contact sau comunicare cu atenție sexuală nedorită
care nu echivalează cu viol. Include, de asemenea, agresiunea sexuală cu sau fără contact
fizic, inclusiv agresiunea sexuală facilitată de droguri, agresiunea sexuală comisă împotriva
partenerului conjugal împotriva voinței acestuia, agresiunea sexuală împotriva unei persoane
neajutorate, mângâierile nedorite, hărțuirea și amenințarea de natură sexuală.

1.3.7. Tâlhărie

Definiție: Furtul de proprietate de la o persoană, depășirea rezistenței prin forță sau


amenințare cu forța. Acolo unde este posibil, include smulsul de pungi și furtul cu violență,
dar exclude furtul din buzunare și extorcarea.

1.3.8. Efracție

Definiție: Obținerea accesului neautorizat la o parte a clădirii/locuinței sau a altor


incinte, inclusiv prin folosirea forței, cu intenția de a fura bunuri (efracție și intrare). Include
furtul dintr-o casă, apartament sau alt loc de locuit, fabrică, magazin sau birou, dintr-o unitate
militară sau prin folosirea de chei false. Exclude furtul dintr-o mașină, dintr-un container, de
la un automat, de la un parchimetru și de pe pajiște/combinat împrejmuit.

1.3.9. Spargerea spațiilor rezidențiale private

Definiție: spargerea unei case, apartament sau alt spațiu de locuit.

4
1.3.10. Furt

Definiție: Luarea sau obținerea ilegală cu intenția de a o reține permanent a


proprietății unei persoane sau organizații fără consimțământ și fără utilizarea forței,
amenințarea cu forța sau violența, constrângerea sau înșelăciunea. Exclude tâlhăria și efracția,
care sunt înregistrate separat. Exclude deținerea de bunuri sau bani furați; primirea,
manipularea, eliminarea, vânzarea sau traficul de bunuri furate; utilizarea pieselor furate
pentru producerea altor bunuri; ascunderea bunurilor furate, obținerea de bani sau alte
beneficii sau sustragerea unei răspunderi prin înșelăciune sau comportament necinstit, jaf,
daune proprietății, furt după acces neautorizat în spații, furtul de proprietate intelectuală,
furtul de identitate.

1.3.11. Furtul unui vehicul terestru motorizat

Definiție: Îndepărtarea unui autovehicul fără acordul proprietarului vehiculului.


Autovehiculele includ toate vehiculele terestre cu un motor care rulează pe drum, cum ar fi
mașinile, motocicletele, autobuzele, camioanele, vehiculele de construcții și agricole. Exclude
jaful unei mașini sau unui vehicul.

1.3.12. Infracțiuni legate de droguri

Definiție: Manipularea, deținerea, cumpărarea, utilizarea, traficul, cultivarea sau


producerea ilegală de droguri controlate sau precursori pentru consumul personal și pentru
consum nepersonal. Deținerea, cultivarea, producția, furnizarea, transportul, importul,
exportul, finanțarea etc. ilegale de operațiuni cu droguri care nu au legătură exclusiv cu
consumul personal. Exclude conducerea unui vehicul sub influența substanțelor psihoactive,
provocând moartea prin conducerea sub influența drogurilor sau alcoolului.

2. Analiza componentelor principale


2.1. Introducere
Analiza componentelor principale (ACP) este cea mai utilizată metodă de analiză a
datelor. A fost propusă de Hotteling în 1938, dar necesitând numeroase și laborioase calcule
s-a impus în practică abia începând cu anii 70 odată cu apariția calculatoarelor.

ACP sintetizează informația conținută în tabelele de date cantitative de mari


dimensiuni, cu un mare număr de instanțe și de variabile. O colectivitate statistică descrisă
printr-un număr mare de variabile este greu de studiat. ACP determină un număr mai mic de
variabile noi, numite componente principale, care concentrează informația, variabilitatea
existentă la nivelul colectivității studiate. Componentele principale sunt construite sub formă
de combinație liniară de variabile inițiale, care concentrează o cât mai mare parte din
varianță. Astfel, prima componentă principală preia maximul din varianța variabilelor
originale, a doua componentă preia maximul de varianță rămasă după eliminarea primei
componente ş.a.m.d.

5
2.2. Prezentarea rezultatelor și interpretarea lor
Pentru a realiza analiza în componente principale în mod programatic, am utilizat
codul dezvoltat de-a lungul seminariilor, care conține clasa de model ACP, un fișier cu funcții
pentru grafice și fișierul dirijor al aplicației, main.py. În proiect sunt prezente și fișierele .csv,
unul cu date de intrare și mai multe cu date de ieșire, în care se păstrează diferite rezultate
calculate în demersul analizei prezentate.

Pentru început,am importat librăriile necesare (pandas și fișierele cu funcții), am citit


datele din fișier într-un pandas, am extras indexii și coloanele pentru o prelucrare ulterioară
facilă și am creat modelul ACP.

tabel = pd.read_csv('dataIN/CrimeData.csv', index_col=0)


varNume = list(tabel.columns)[0:]
obsNume = list(tabel.index)
X = tabel[varNume].values
acp_model = acp.ACP(X)

Ulterior, am nivelat matricea model ACP în componentele sale standardizate, pe care


am afișat-o la consolă și am salvat-o într-un fișier csv din directorul dataOUT.

Xstd = acp_model.getXstd()

Așa arată o parte din date –

2.2.1. Valorile Proprii

6
În primul
grafic generat se ilustrează valorile proprii ale modelului. Aici se află varianța componentelor
din cadrul modelului. Componentele principale sunt în fapt combinații liniare ale variabilelor
inițiale, care conțin o parte din varianță. Fiecare componentă preia o parte din varianța ramasă
neexplicată de cele precedente. Cea mai mare varianță se observă pe primele două
componente principale, Omucidere și tentativă de omucidere, dar la limită s-ar fi aflat și
Agresiunea. Acestea concentrează un procent mai mare din varianță față de celelalte
componente.

2.2.2. Factorii de corelație

În continuare, urmează factorii de corelație, în cadrul cărora dacă o valoare este mai
apropiată în modul de 1, cu atât aceasta este mai semnificativă pentru componenta aleasă. Pot
observa că Tentativa de omucidere are cea mai mare corelație, de 97% pentru componenta 1.
Astfel, ne așteptăm ca variabilele cu valori mari ale acestui indicator să fie în dreapta plotului
instanțelor care au componenta 1 pe axa OX ( cercul corelațiilor), precum Franța și
Germania, restul concentrându-se spre originea axelor.

7
Cel de-al doilea cerc ilustrează aceste componente principale, mai exact primele două,
pe axele ox și oy. Se observă că IntentionalHomicide foarte în dreapta ( având C1 mare ) și
ușor sub oy, având C2 de -0.08.

8
2.2.3. Scorurile

Scorurile sunt componentele principale standardizate, care sunt calculate ca raport


între componente ( standardizarea valorilor înmulțite matriceal cu vectrul de valori proprii) și
rădăcina valorilor proprii.Aceste componente principale sunt salvate în csv, o parte din ele

fiind

De asemenea, am salvat și scorurile, care arată astfel

9
Iar graficul lor este ilustrat mai sus. În el, se observă legătura componentelor cu
observațiile. Astfel, se observă cel mai mare scor (5.5) pentru Spania, la componenta C4
( Kidnapping ). Scorurile factoriale sunt scoruri prezise ale dimensiunii latente, putând fi
folosite ca scale in ecuațiile de regresie.

10
2.2.4. Calitățile

Calitățile reprezintă cât de bine sunt reprezentate observațiile, țările, pe axele


componentelor principale. Practic, în ce măsură justifică respectiva componentă o anumită
țară. Cu cât ne îndepărtăm pe axa componentelor, scad semnificativ aceste valori. Din nou,
prima componentă este cea mai proeminentă.

2.2.5. Contribuțiile

Contribuțiile reprezintă un alt atribut al modelului ACP. Formula de calcul este -


self.betha = C2 / (self.alpha * self.X.shape[0])

Practic, pătratul componentelor principale se împarte la produsul dintre valorile proprii și


numărul de observații. Din graficul de mai jos, se observă din nou că Spania prezintă o
contribuție semnificativă pe categoroa Assault.

11
2.2.6. Comunalitățile

Aceasta reprezintă cantitatea de varianță explicată în comun de către un grup din


componentele principale și manifestă procentul varianței unei variabile explicată de factorii
reuniți, putând fi interpretată ca siguranța indicatorului reprezentat de acea variabilă.
O valoare mică a comunalității indică faptul că o caracteristică nu este bine
reprezentată de acea componentă. Se poate observa și din graficul de mai jos că în afară de 4
componente, toate au valori extrem de mari și chiar aproape toate sunt maxime. Tentativa de
omucidere prezintă din nou cel mai mare coeficient pentru prima componentă.

12

S-ar putea să vă placă și