Sunteți pe pagina 1din 13

Capitolul 1

NOȚIUNI DE STATISTICĂ MATEMATICĂ ȘI PROBABILITĂȚI UTILIZATE ÎN


TRAFICUL RUTIER

Evaluările de perspectivă efectuate pentru caracterizarea traficului rutier sunt de cele mai multe
ori bazate pe prognoze și estimări. În aceste condiții se pune problema obținerii datelor de pornire
(intrare în algoritm) care să ofere credibilitate maximă și să fie suficient de reprezentative pentru
fenomenul de trafic analizat.

În ce măsură datele pe care le utilizăm sunt de “încredere”? La această întrebare se poate


răspunde numai apelând la instumentul statistic de analiză , capabil să asigure extrapolarea unor
observații punctuale la întreg fenomenul sau la evenimentul analizat. Astfel evaluarea statistică,
rezultat al investigării stării de trafic la un moment dat , sau într-un interval de timp determinat,
constitue un instrument necesar și de neeludat în dezvoltarea prognozelor și estimărilor.

Necesitatea de a obține valori credibile și în același timp reprezentative pentru starea traficului la
un moment dat, a impus acest instrument de lucru. Este importantă caracterizarea statistică a traficului,
pentru a obține datele de pornire pertinente, care să asigure o dezvoltare credibilă a studiilor sau
programelor destinate modelării fluxurilor de vehicule sau ierarhizării acceselor într-o intersecție dată.

În acest sens, datele obținute prin observații (sondaj) sau prin colectare automată trebuie supuse
unui proces de prelucrare statistică, care are în vedere atât identificarea unor tendințe probabile a
șirurilor de valori, cât și gruparea lor funcție de tendințele probabile demonstrate prin criterii
matematice stabile.

1.1 INDICATORI STATISTICI

Șirurile de date obținute în urma monitorizării traficului constitue eșantioane ce cuprind valori
înregistrate în intervale de timp impuse . Prelucrarea statistică a acestor eșantioane de valori constă în
identificarea tendințelor principale de evoluție a fenomenelor observate (monitorizate).

Sunt evidențiate trei importante categorii de parametrii statistici, care pot fi utilizați în evaluarea
datelor de trafic, astfel:

(a) parametrii de grupare (denumiți și de tendință) care exprimă tendința șirului de a coverge
crescător sau descrescător spre o anumită valoare, inclusă în șirul de date.
(b) parametrii de împrăștiere (denumiți și de dispersie) care arată proprietatea naturală a șirului
de date de ase distribui în mod aleatoriu sau predilect în intervalul în care șirul ia valori.
(c) parametrii speciali destinați caracterizării coplexe a șirului de date, în scopul identificării
tendințelor de probabilitate a șirului.

1
Eșantionul de date rezultat în urma monitorizării indicatorilor de trafic formează un șir de valori
caracterizat prin:

- valoarea minimă " xmin " care reprezintă cea mai mică înregistrare numerică a șirului de date.
- valoarea maximă " x max " care reprezintă înregistrarea cu valoarea cea mai mare din șirul de
date format de eșantion.
- lungimea șirului de date "n" reprezintă numărul de date din eșantion.
- domeniul de valori al eșantionului limitat superior și inferior de x max , respective de xmin .

Parametrii de grupare sau de tendință sunt urmărtorii:

- media de sondaj "m" a șirului de date, care reprezintă valoarea ponderată a datelor din șir. Sunt
definite matematic și au utilitate în evaluările de trafic rutier, următoarele medii statistice:

- media aritmetică de sondaj este un indicator de poziție, care oferă o informare globală privind
valoarea cea mai credibilă a șirului de date, spre care tind crescător sau descrescător celelalte date
dinșir și se determină cu relația:

1 n
m  xi ,
n i 1
(1)

unde n - estenumărul de date din eșantion supus prelucrării statistice, x i -valoare a șirului de
date din eșantion, i  1, n .

Media aritmetică de sondaj reprezintă valoarea cea mai utilizată în evaluările specifice traficului
rutier și permite evidențierea caracteristicei predominante de raportare a indicatorilor de trafic
analizați.Acest indicator are proprietatea că suma algebrică a abaterilor diferitelor valori de la medie
este nulă.

- media geometrică – reprezintă un indicator caracteristic seriilor de numere positive și permite


evaluarea șirului de date în raport cu produsul acestora , conform relației:

1
 n n n
g    xi   n x i . (2)
 i 1  i 1

- media armonică – reprezintă inversul mediei artitmetice de sondaj și arată caracterul de


variație al valorilor inverse din șir , fiind dată de:

n
h n
. (3)
1

i 1 xi

2
- media de așteptare – reprezintă valoarea combinată a parametrului evaluat statistic de un
indicator ce definește puterea valorii medii. Se determină cu relația:

x k i i
mp  i 1
n
. (4)
k
i 1
i

În cazul evaluărilor de trafic rutier, media de așteptare poate reprezenta rezultatul evaluării
simultane a:

- timpilor de sosire într-un punct de traseu cu viteza înregistrată de fiecare vehicul.


- durata parcursului și viteza medie înregistrată.
- durata staționărilor și numărul de vehicule staționate într-un areal determinat.

Acest indicator se exprimă în unități de măsură specifice variabile, factorul de așteptare având o
contribuție materializată în cuantificarea valorii variabile.

- Mediana de sondaj a șirului de date M e este considerată ca fiind valoarea față de care frecvența
valorilor mai mici decât aceasta , este egală cu frecvența valorilor mai mari decât aceasta. Practic
mediana de sondaj divide șirul inițial în două subșiruri care conțin același număr de date . Pentru
determinarea medianei de sondaj, valorile se distribuie în ordine crescătoare sau descrescătoare .
Mediana de sondaj este un indicator al șirului ordonat de valori. Se determină cu relații distincte,
funcție de caracterul șirului (par sau impar) astfel:

- pentru n număr impar: M e  x n 1 , (5)


2

1 
- pentrun număr par: Me   xn  xn  . (6)
2  2 1 
2 

-Modul de sondaj M o al șirului de date, exprimă legătura statistică a tendinței de


grupare,existentă între media de sondaj și mediană, exprimată prin relația:

M o  m  3M e  m . (7)

-Valoarea centrală xc împarte domeniul în care șirul de date ia valori, în două zone egale, în care
însă frecvența de repartiție a valorilor nu este aceeași. Se determină cu relația:

3
xc 
1
xmax  xmin  . (8)
2
Referitor la parametrii tendinței de grupare, analiza comparată a acestora oferă o imagine de
ansamblu privind caracterul simetric al repartiției dispunerii datelor din șir, constituind din acest punct
de vedere un instrument valoros în evaluarea legii de distribuție probabile ce guvernează fenomenul
analizat.

Parametrii tendinței de împrăștiere sunt în măsură să arate modul în care valorile din eșantion
sunt distribuite în întreg domeniul corespunzătorșirului. În mod curent, acești indicatori arată poziția
datelor din eșantion, față de valoarea mediei aritmetice de sondaj. Principalii parametrii statistici ai
ascestei tendințe sunt:

- Abaterea medie pătratică de sondaj  se determină cu relația:

1 n
  xi  m2 . (9)
n i 1

Dacă se consideră un șir din n valori (fig.2.1), a căror dispunere într-un sistem de coordonate
indică un nivel de împrăștiere aleatoriu, abaterea medie patratică (sau deviația standard) oferă o
imagine orientativă a “degenerării grupării”datelor.

În practica curentă statistică, deviația standard arată cu nivel de încredere ridicat, în ce măsură
datele din eșantion sunt “credibile”,adică pot fi luate în considerare la evaluarea fenomenelor
observate.

Dispersia șirului de date D sau dispersia de sondaj se determină cu relația:

1 n
D   x i  m 2 . (10)
n i 1

Dispersia de sondaj poate fi utilizată și ca estimare a dispersiei din populația originară,


considerându-se în acest caz relația:

1 n
D   x i  m 2 . (11)
n  1 i 1

În mod analog, se definește și abaterea medie pătratică, corespunzătoare estimației din populația
originară cu relația:

4
1 n
   xi  m  .
2
(12)
n  1 i 1

Amplitudinea șirului de date A este dată de diferența dintre valoarea cea mai mare x max și
valoarea cea mai mică xmin din șirul de date:

A  x max  x min . (13)

PARAMETRII SPECIALI oferă informații suplimentare privind tendința de încadrare a


observației efectuate în legi de distribuție discrete sau continue. Totodată arată în ce măsură sunt
fezabile abordări privind caracterul aleatoriu sau predictibil al fenomenului analizat. Această grupă de
parametrii stabilește conexiuni între cele două grupe statistice și permite analiza concomitentă a
influenței parametrilor din grupele de indicatori detaliați anterior.
Acești parametri permit estimarea cu un grad mai bun de aproximare a prognozei de trafic
(distribuția fluxului de autovehicule).

Momentul de ordin r M r reprezintă o modalitate de caracterizare (în anumite condiții) a


distribuției variabilei aleatoare evaluate statistic. Se determină cu relația:

1 n
Mr    x i r . (14)
n i 1

Coeficientul de variație al șirului de sondaj C v , face legătura între cei doi indicatori de bază ce
exprimă tendințele opuse ale șirurilor de valori (convergența crescătoare-descrescătoare spre valoarea
medie și dispersia în întreg domeniul în care șirul ia valori). Se determină cu relația:


Cv  . (15)
m

Raportat la teoria traficului rutier, acest indicator este utilizat la determinarea “zgomotului”
parametrilor dinamici ai autovehiculului singular.

Abaterea medie absolută Am a șirului de date este determinată cu relația:


1 n
Am   k i xi  m ,
n i 1
(16)

unde k i -este frecvența absolută a valorii x i în intervalele de observare.

5
Abaterea normată z i este un indicator de observare punctuală a unor intervale din eșantion. Se
determină cu relația:

xi  m
zi  . (17)

Coeficientul de asimetrie  1 , definește tendința de asimetrie a dispunerii valorilor în interval,


prin evaluarea gradului de înclinare a pantei curbei densității de probabilitate în vecinătatea modului de
sondaj . Se determină cu relația:
 3  2
1   3 , (18)
  2 3

unde  3 - reprezintă momentul centrat de ordinul trei, determinat cu relația:

1 n
3   ni  x i  m  .
3
(19)
n i 1

Coeficientul de boltire  2 se obține prin particularizarea relației coeficientului de asimetrie:

 4  2
2  , (20)
 2 3

 4 -fiind momentul centrat de ordinul patru.

Algoritm de rezolvare

O primă remarcă referitoare la șirul de date este aceea că reprezintă rezultatul unei observări
discrete. În consecință nu există o localizare în timp a valorilor măsurate și conform enunțului, nu se
face referire la identificarea continuității momentului înregistrării vitezelor. Asfel în vederea
prelucrării statistice a datelor este necesară o ordonare crescătoare a valorilor din șir, obținându-se un
nou șir de valori care are o proprietate distinctă: valorile au pierdut semnificația momentului
înregistrării în timp, dar sunt ordonate după un criteriu statistic.

Calcul mediei statistice de sondaj nu necesită această ordonare a valorilor.De altfel, cu excepția
medianei de sondaj, nici ceilalți indicatori statistici nu ar necesita operația efectuată.Totuși, în virtutea
celor enunțate anterior, operația nu aduce prejudicii evaluării setului de date și proprietăților șirului
inițial.Grafic, cele două șiruri de valorisunt prezentate.
6
Indicatorii statistici calculați se prezintă împreună cu observațiile aferente înlocuirii numerice
necesare, în talelul

Table trzultate

Analiza indicatorilor statistici oferă o serie de informații utile privind particularitățile


fenomenului observat. Compararea valorilor obținute după anumite criterii oferă posibilitatea orientării
etapelor următoare de prelucrare matematică în vederea determinării legii de variație a observării și
caracterizării ( în acest caz : tendința de distribuție a vitezei pe artera de drum monitorizată )
tendințelor specifice șirului de valori.

O primă cocluzie ce reiese din compararea rezultatelor este că indicatorii tendinței de grupare
sunt mai apropiați de media geometrică decât de cea aritmetică, fapt ce denotă că fenomenul observat
nu are caracterul de normalitate ce indică un trafic fluent și stabil.
De asemenea există o suspiciune că sondajul de trafic nu este suficient pentru a caracteriza
regimul de viteză. Dacă analizăm valorile indicatorilor tendinței de grupare, abaterea maximă față de
media de sondaj este de 4,5 și aceasta este simetrică atât superior cât și inferior.

7
1.2 GRUPAREA DATELOR STATISTICE SI FRECVENȚE CARACTERISTICE

Indicatorii statistici nu oferă în totalitate informații privind evaluarea eșantionului rezultat în


urma observării de trafic. Determinările bazate pe observații discrete, permit efectuarea unor asocieri,
care nu alterează setul de valori sau interpretarea rezultatelor. Identificarea unei normalități a
distribuției valorilor, este necesară pentru a putea fi intrepretate seturi mari de date.

În acest scop, datele sunt grupate, în așa numitele clase de valori. Caracteristic acestor grupări
este tendința tuturor valorilor din interiorul unei clase de a converge spre o valoare centrală din
interiorul intervalului de clasă. În cele mai multe cazuri, statistica de trafic, face raportarea directă la
variația orară sau în intervale de timp mai mici de ordinul a 10, 15, sau 30 de minute.

Acest gen de reprezentare a variațiilor de trafic rutier sunt cele mai comune și predomină în toate
activitățile ce sunt destinate modelării fluxurilor rutiere sau în vederea optimizării acceselor în
intersecții semaforizate. Spre exemplificare să considerăm rezultatul unei monitorizări de viteze pe o
arteră urbană. Datele furnizate prin intermediul observării radar sunt prezentate în Anexa 1.

Sunt însă situații în care pentru o evaluare corectă și în scopul obținerii unor date primare cât mai
credibile, necesare modelărilor de trafic, acest gen de evaluare statistică nu este cel mai potrivit și dă
naștere la erori de proiect care au repercursiuni asupra acțiunilor de normalizare a traficului.

Desigur, ase lucra direct pe setul de date colectate în urma observării-monitorizării de trafic este
facil și mai rapid, eliminându-se însă astfel o importantă etapă din “ pregătirea statistică” a
eșantionului: gruparea lor funcție de tendințe și valori de referință. Aceasta poate aduce prejudicii
privind identificarea corectă a valorilor ce indică reala tendință privind variația parametrului (sau
parametrilor) de trafic analizat.

Îndeosebi când eșantioanele de date provin din observații discrete, ce au fost efectuate în
perioade de timp dispersate de-a lungul unui an calendaristic, sau în cazul necesității identificării
tendințelor de macrofluctuație a traficului, gruparea în clase de distribuție a șirurilor de valori,
constitue o etapă obligatorie în evaluarea eșantioanelor de date.

Aceste tendințe constitue și un bun indicator privind legea de distribuție probabilă, care
modelează cât mai fidel evoluția parametrilor măsurați.

Particularitatea este din plin exploatată în cazul determinărilor efectuate pentru un anumit regim
stabil de trafic (pentru care, se spune că artera de circulație prezintă o tendință de încărcare normală).

Ordonarea și gruparea datelor, se face prin distribuirea acestora în clase de valori, care cuprind
toate rezultatele observației sau măsurătorilor efectuate, ce se încadrează într-un interval de mărime
impus și corelat cu volumul de date disponibil.

8
Numărul k de clase în care se grupează valorile supuse unei prelucrări statistice se determină
funcție de mărimea na eșantionului. Relația recomandată pentru determinarea numărului de clase este:

k  1  3,322  lgn . (21)

Din valoarea calculată cu relația (21), se extrage partea întreagă, fără a se efectua rotunjiri
inferior sau superior, indiferent de tendința părții zecimale.

Pentru un număr redus de date (sub 25 de valori), gruparea în clase este puțin semnificativă,
suplimentul de informație obținut fiind neconcludent.

În cazul în care setul de valori este relativ ridicat (>100), este recomandată pentru determinarea
numărului de clase relația:

 .
1
k1  4  0,75  n  1
2 5
(22)

Shapiro-Wald, recomandă în cazul eșantioanelor statistice de volum mare, relația:

n
k2  . (23)
5
Valori orientative ale numărului de clase, determinat funcție de dimensiunea na eșantionului
prelucrat, pentru seturi de date de volum distinct.

Valorile din tabel trebuie acceptate în contextul tehnicii de stabilire a numărului de clase,
menționate anterior.
Alegerea uneia din cele trei valori recomandate pentru numărul claselor de grupare, se face
funcție de dimensiunea N a eșantionului .
Uzual,sunt agreate valorile k și k1 , valorile k 2 fiind mai rar utilizate în determinările de trafic,
lipsind observațiile macro ce pot constitui argument al unui management global de trafic rutier.
Gruparea valorilor în clase de repartiție necesită stabilirea unor intervale restrictive, în care
datele din eșantion vor fi încadrate.
Intervalele astfel determinate exprimă o tendință a valorilor de a coverge local, spre valoarea
centrală a fiecărei clase.
Gruparea valorilor în clase de repartiție necesită stabilirea unor intervale restrictive în care datele
din eșantion vor fi încadrate. Intervalele astfel determinate exprimă o tendință a valorilor de a coverge
local crescător sau descrescător, spre valoarea centrală a fiecărei clase.
Amplitudinea a (distanța intervalului de clasă), ce caracterizează intervalul unei clase, se
determină cu relația:
x  xmin
a  max , (25)
k
unde : x max - este valoarea cea mai mare din șirul ordonat de date;
xmin - valoarea cea mai mică din șirul de date.

9
Intervalul unei clase va fi deci mărginit de două valori: limita inferioară și superioară, care se
determină cu relații de forma:

j 1
linfj  lsup ;
(26)
j
l sul  linfj  a  j ,
unde j  1,..., k reprezintă ordinul clasei.
Valoarea centrală l cj a clasei de repartiție de ordin jse determină cu relația:

l cj  l infj    j  1  a .
a
(27)
2
Se face specificarea că limita inferioară a primului interval este identică cu valoarea minimă din
șir, iar limita superioară a ultimului interval este valoarea maximă din șirul ordonat de valori.
Dezvoltarea acestei grupări în clase de repartiție, permite identificarea valorilor de referință față
de care se va interpreta șirul de date conținut în eșantion . Asfel devin mai puțin importante valorile
efective (conținute în eșantion), cât tendința pe care acestea o exprimă, în raport cu grupările
realizate pe criterii statistice. Tendința, este evaluată față de valorile centrale ale fiecărui intrerval, fapt
ce dă noi valențe analizei datelor din eșantion, constituind o primă abordare probabilistică a
observațiilor efectuate. Din acest punct de vedere se poate spune că devin mai puțin importante datele
efective, crescând semnificația intervalelor în care acestea se grupează, precum și valoareacentrală a
acestor intervale.
Efectiv, gruparea în clase de repartiție arată câte din valorile eșantionului (observațiilor) se
încadrează în fiecare din aceste intervale predefinite.
În cazul obsevațiilor de trafic prezentată în graficul din fig.2.6., gruparera în clase de repartiție
arată o distribuție de valori conform reprezentării grafice din fig.2.8.
După cum se poate observa din graficul menționat, se constată că există deja o ordonare logică a
datelor și sunt create premizele formulării unor aprecieri preliminarii, argumente de valorile conținute
în fiecare interval de grupare.
Modul de variație a unui fenomen analizat prin evaluări statistice este dat de indicatorul fecvență
de repartiție. Sunt două tipuri de frecvențe care oferă informații distincte privind comportarea șirului
de date :
- frecvența de repartiție a datelor (valori aleatorii);
- frecvența cumulată de repartiție a datelor.

Numărul de date n j de date conținute într-o clasă, reprezintă frecvența de apariție în clase a
valorilor.

f j  nj . (28)

Raportul dintre numărul de date conținut în clasă și numărul total al datelor din eșantion
reprezintă frecvența relativă. Se determină cu relația:

fj
f rj  . (29)
n

10
În statisticăse utilizează frecvent și noțiunea de frecvență relativă procentuală, care se
determinăcu relația:

fj
f pr j   100 %. (30)
n

Referitor la frecvențele de grupare în clase, proprietatea acestora de a reprezenta toate datele din
șir permite dezvoltarea relațiilor de evaluare- verificare globală, relații care constitue în același timp
pentru utilizator o modalitate de verificare a corectitudinii calculelor efectuate, astfel:

f
j 1
j  n;

f
j 1
rj  1; (31)

f
j 1
pr j  100%

Frecvevența cumulată reprezintă un indicator ce permite evaluarea repartiției de valori, în


contextul global, al întregului set de date dispuse în interval.

Ca și în cazul frecvențelor de repartiție în clase se disting următoarele frecvențe cumulate


caracteristice:
-frecvența cumulată absolută, determinată cu relația:

r
fcq   f q ; r  1,..., k ; (32)
q 1

-frecvența cumulată relativă, determinată după un criteriu similar, cu deosebirea că raportarea


se face la numărul total de valori din șir, prin relația:

r
; r  1,..., k ; (33)
1
fcq 
N
f
q 1
q

-frecvența cumulată procentuală, exprimare mai aproape de domeniu statistic decât cel al
probabilităților, este dată de relația:

1 r 
fcq    f q   100%; r  1,..., k . (34)
 n q 1 

11
După cum se poate observa indiferent de modalitatea de exprimare cantitativă (numeric în valori
absolute, procentual sau în valori relative), repartițiile sunt identice ca evoluție pentru fiecare frecvență
caracteristică (absolută și cumulată).

În cazul monitirizării de trafic reprezentată grafic . să se efectueze gruparea în clase și să se


determine frecvențele caracteristice pentru grupul de parametrii înregistrați:viteza de trafic,
caracteristica de lungime a :”țintei radar” și intervalul de succesiune. Șirul de date înregistrate de
către radar (cele 150 de valori), însoțite de elementele de identificare a înregistrării (variabila de timp
și caracteristica de lungime a vehiculului), sunt redate integral în Anexa 1, acest șir fiind utilizat și
pentru aplicația 1.

Astfel, pot fi formulate aprecieri privind distribuția câmpului de viteze, corelat cu condițiile de
trafic din teren: de regulă vitezele de deplasare cuprinse în intervalul 35-45 km/h au cea mai mare
pondere și peste 60% din totalul înregistrărilor, corespunzând domeniului de viteze admis în ciclul de
deplasare urban.

Există însă și valori extreme cauzate de :


- valorile inferioare sunt caracteristice reducerii vitezei de deplasare în apropierea de semafor;
- valorile superioare sunt specifice tendinței de trecere în perioada de final a unui verde-galben la
semaforul situat în apropierea punctului de observare.

Este deci important în analiza câmpului de variație a mărimilor înregistrate, corelarea datelor
prelucrate statistic cu condițiile efective de trafic din teren, aceasta permițând formularea unor
aprecieri pertinente, ce asigură decizii corecte în optimizarea sau organizarea circulației vehiculelor.

În tabelul menționat s-a considerat ca fiind importanți în ghidarea mersului rezolvării aplicației,
doar pașii de referință parcurși, astfel:

- determinarea numărului de clase k ;


- media statistică de sondaj, pentru a se putea observa poziția intervalelor cu reprezentare majoră
de valori față de acest indicator al tendinței de grupare;
- deviația standard, la care se constată o valoare apropiată de cea calculată pentru amplitudinea
intervalelor de grupare, constatare importantă din punct de vedere al concludenței șirului de
date analizat și al observării efectuate.

12
Indicatorul U.M. Valoare Observatii
1 n
Media de sondaj(m) km/h 63.525 m   xi
n i 1
1
 n
 n
g    xi   n x
n
Media geometrică(g) km/h 9.807 i
 i 1  i 1

n
h n
Media armonică(h) 1
x
h/km 61.668
i 1 i

1 
Mediana de sondaj(Me) km/h 62 Me   xn  xn 
2  2 1 
2 

Modul de sondaj(Mo) km/h 58.95 M o  m  3M e  m

xc   x max  x min 
1
Valoareacentral(xc) km/h 69
2
Abatereamediepătratică 1 n
( )
km/h 11.209   xi  m2
n i 1
1 n
Dispersia(D) km²/h 125.649 D   x i  m 2
n i 1
Amplitudineașirului(A) km/h 48 A  x max  x min
Coeficientul de 
variație(Cv)
km/h 0.176 Cv 
m
n

 xi
1

i1
Mr 
n

Mr 63.525
Momentelecentrate km/h
Mr2 2.813 10^5 n

 xi
3

i1
Mr2 
n

13