Probabilita

Università degli Studi di Torino
A. Durio, E. D. Isaia
Calcolo delle Probabilità

e Variabili Casuali
a.a 2009/10
Dipartimento di Statistica e Matematica Applicata Diego de Castro
E` senza dubbio inevitabile che questi appunti presentino errori materiali; inoltre,
seppur gli autori si siano sforzati di conciliare il rigore con la chiarezza espositiva,
alcune parti del testo possono risultare poco comprensibili.
Saremo grati a tutti coloro, e specialmente agli Studenti, che vorranno segnalarci qualunque problema, dai più banali errori tipografici alle oscurità
nellesposizione.
Avvertenza
Tutti i diritti di questa pubblicazione sono degli autori.
Viene consentita la riproduzione integrale di questa pubblicazione a titolo gratuito. Altres` e` permessa, sempre a titolo gratuito, lutilizzazione di parti di questa
pubblicazione in altra opera allinderogabile condizione che ne venga citata la
provenienza e che della nuova opera nella sua interezza vengano consentite la riproduzione integrale a titolo gratuito e lutilizzazione di parti a queste stesse condizioni. Luso di questa pubblicazione in qualsiasi forma comporta laccettazione
integrale e senza riserve di quanto sopra.
D IPARTIMENTO DI S TATISTICA E M ATEMATICA A PPLICATA D IEGO DE C ASTRO

Corso Unione Sovietica, 218/bis
10134, Torino (Italy)
c D URIO A. E I SAIA E. D., Calcolo delle Probabilità e Variabili Casuali, 20042010
Indice
10 Introduzione al calcolo delle probabilità
10.1 Introduzione e cenni storici . . . . . . . . . . . . . . . . . . . . . . .
10.2 Esperimenti casuali, spazio dei possibili esiti ed eventi . . . . . . . .
10.3 Le diverse concezioni della probabilità . . . . . . . . . . . . . . . . .
10.3.1 La concezione classica . . . . . . . . . . . . . . . . . . . . .
10.3.2 La concezione frequentista . . . . . . . . . . . . . . . . . . .
10.3.3 La concezione soggettivista . . . . . . . . . . . . . . . . . .
10.4 Appendice: richiami di teoria degli insiemi e di calcolo combinatorio .
10.5 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
255
255
256
259
260
261
262
263
266
.
.
.
.
.
.
.
.
267
267
268
270
274
280
288
293
300
.
.
.
.
.
.
.
305
305
310
313
317
324
328
334
13 Alcune variabili casuali notevoli

13.1 Variabili casuali discrete . . . . . . . . . . . . . . . . . . . . . . . . . .
13.1.1 V.c. di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . .
339
339
339
11 Cenni di teoria della probabilità

11.1 La probabilità come funzione dinsieme . . . . .
11.1.1 Lo spazio probabilizzabile . . . . . . . .
11.1.2 La misura di probabilità e gli assiomi . .
11.1.3 Lo spazio probabilizzato . . . . . . . . .
11.2 Probabilità condizionata e indipendenza tra eventi
11.3 Teorema di Bayes . . . . . . . . . . . . . . . . .
11.4 Prove ripetute . . . . . . . . . . . . . . . . . . .
11.5 Esercizi . . . . . . . . . . . . . . . . . . . . . .
12 Variabili casuali
12.1 Definizione di variabile casuale . . . . . . . . .
12.1.1 Variabili casuali discrete . . . . . . . .
12.1.2 Variabili casuali continue . . . . . . . .
12.2 Valore atteso e momenti di una variabile casuale
12.3 La funzione generatrice dei momenti di una v.c.
12.4 Funzioni di una variabile casuale . . . . . . . .
12.5 Esercizi . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE
254
13.1.2 V.c. uniforme . . . . . . . . . . . . . . . . . . . . .

13.1.3 V.c. binomiale . . . . . . . . . . . . . . . . . . . .
13.1.4 V.c. ipergeometrica . . . . . . . . . . . . . . . . . .
13.1.5 V.c. di Poisson . . . . . . . . . . . . . . . . . . . .
13.1.6 V.c. geometrica . . . . . . . . . . . . . . . . . . . .
13.2 Variabili casuali continue . . . . . . . . . . . . . . . . . . .
13.2.1 V.c. uniforme o rettangolare . . . . . . . . . . . . .
13.2.2 V.c. Normale . . . . . . . . . . . . . . . . . . . . .
13.2.3 V.c. gamma . . . . . . . . . . . . . . . . . . . . . .
13.2.4 V.c. esponenziale negativa . . . . . . . . . . . . . .
13.2.5 V.c. chi-quadrato . . . . . . . . . . . . . . . . . . .
13.3 Appendice: tavola della distribuzione normale standardizzata
13.4 Esercizi . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
340
343
349
353
355
359
359
362
373
376
381
383
385
C APITOLO 10
I NTRODUZIONE AL CALCOLO DELLE PROBABILIT A`
Iniziamo con questo capitolo la parte dedicata al calcolo delle probabilità. Se

nellintroduzione diamo brevi richiami sulla genesi di tale disciplina, nei paragrafi successivi introduciamo i primi concetti fondamentali quali la definizione di
esperimento casuale e di insieme dei suoi possibili esiti nonchè quella di evento.
Rimandando al capitolo successivo per la definizione di probabilità, forniamo altres` una breve rassegna di quelle che sono stati i diversi approcci alla definizione
di probabilità.
10.1.
I NTRODUZIONE E CENNI STORICI
Se, come ampiamente illustrato nei capitoli precedenti, la statistica descrittiva ha per fine
la sintesi dellinformazione contenuta nellinsieme dei dati rilevati su una popolazione,
la statistica inferenziale fornisce i metodi per estendere le informazioni contenute in un
campione alla popolazione da cui esso e` tratto.
Poche i metodi della statisitca inferenziale sfruttano la formulazione matematica delle leggi che regolano gli esperimenti casuali, prima di poter trattare di inferenza e` necessario
conoscere la teoria della probabilità.
Se la data di nascita del calcolo delle probabilità come disciplina e scienza autonoma e` ufficialmente fissata al 1654 con padri fondatori Pierre de Fermat e Blaise Pascal, già dalla seconda metà del XVI secolo studiosi quali Johannes Kepler e Galileo Galilei si occuparono
di risolvere problemi legati alle leggi del caso.
La Storia racconta che la teoria della probabilità sia nata da un quesito che lincallito giocatore dazzardo Cavalier de Mere pose al suo amico Pascal. Si trattava, appunto, di un
gioco dazzardo in cui due giocatori pongono entrambi sul tavolo la posta di 32 pistoles (le
monete francesi dellepoca) e giocano fino a quando uno dei due non avrà vinto 20 partite
e ritirerà le 64 pistoles. Il Cavaliere voleva sapere come avrebbe dovuto essere suddivisa
la posta se i due giocatori avessero deciso di comune accordo di interrompere il gioco al
Capitolo 10. Introduzione al calcolo delle probabilità
256
momento in cui un giocatore si trovasse con 19 partite vinte e laltro con 18. I problemi di divisione della posta ed altri sui giochi dazzardo vennero studiati dagli scienziati
dellepoca che posero le basi della nuova disciplina, fino a quando lolandese Christiaan
Huygens nel 1657 pubblicò il primo trattato sulla probabilità De Ratiociniis in Ludo Aleae.
Una successiva pietra miliare della storia del calcolo delle probabilità e` il celeberrimo Torema di Bernoulli pubblicato da Jakob nel 1713. Nellopera di Abraham De Moivre The
Doctrine of Chances appaiono i primi concetti di quella che verrà successivamente definita
concezione classica e attribuita a Pierre-Simon de Laplace. Se il reverendo Thomas Bayes
nel 1763 dimostra il suo teorema sugli eventi condizionati nello stesso periodo incomincia ad entrare nella teoria della probabilità il calcolo infinitesimale che verrà sviluppato
con il contributo di studiosi quali Daniel Bernoulli, Joseph Louis Lagrange, Carl Friedrich
Gauss e Daniel Poisson nel corso del XIX secolo. Il matematico russo Andrej Nikolaevic
Kolmogorov nellopera Grunbegriffe der Wahrscheinlichkeitsrechnung, pubblicata a Berlino nel 1933, pose le basi della moderna teoria delle probabilità fondata sullimpostazione
assiomatica.
10.2.
E SPERIMENTI CASUALI , SPAZIO DEI POSSIBILI ESITI ED EVENTI
Poiche la teoria della probabilità e` una scienza matematica che modellizza gli esperimenti
casuali dobbiamo chiederci cosa si intende per esperimento casuale. Se mettiamo 100 g di
zucchero raffinato in un litro di acqua distillata otteniamo una soluzione con concentrazione
al 10%. Questo e` un esperimento deterministico; il suo esito e` regolato da leggi chimiche
e fisiche e ripetendo lesperimento il risultato non muta se le condizioni sperimentali (tipo
di zucchero, tipo di acqua, temperatura ambientale, ecc . . .) rimangono le stesse.
Gli esperimenti casuali possono non avere lo stesso esito se ripetuti sotto le medesime condizioni sperimentali. In esperimenti quali ad esempio il lancio di una moneta non siamo in
grado di prevedere un risultato che sarà lo stesso ogni qualvolta si lanci la medesima moneta con la medesima forza ed alla medesima pressione atmosferica perche sullesperimento
agiscono molteplici cause che non permettono di individuare una legge chimico fisica che
regola lesperimento.
ESEMPIO 10.1
Sono esempi di esperimenti casuali i seguenti:
E1 si lancia in aria una moneta e si prende nota del simbolo impresso sulla
faccia rivolta verso lalto quando la moneta e` ferma sul tavolo.
E2 si lancia in aria una moneta e si prende nota di quanto essa dista da un
preciso punto del tavolo su cui si e` fermata.
257
10.2. Esperimenti casuali, spazio dei possibili esiti ed eventi
E3 si sorteggia da un database di clienti un nominativo a cui inviare un

volantino pubblicitario se il suo ultimo acquisto risale a meno di un mese prima.
E4 si sorteggia da un database di clienti un nominativo per conoscere limporto del suo ultimo acquisto.
E5 da una linea di produzione si collaudano i pezzi in uscita e si arresta la
produzione non appena si rilevano 4 pezzi consecutivi non conformi.
E6 si lancia un dado a sei facce si prende nota del numero di puntini impressi
sulla faccia rivolta verso lalto quando il dado e` fermo sul tavolo.
I concetti di teoria della probabilità che verranno illustrati nel seguito saranno utili alla
modellizzazione di esperimenti definiti dalla seguente
Definizione 10.1 (Esperimento casuale)
Un esperimento E verrà detto casuale se
può essere ripetuto indefinitamente sotto condizioni sostanzialmente identiche;
e` possibile descrivere, in modo esaustivo prima di eseguirlo, i suoi possibili esiti, ma
non e` possibile conoscere con certezza quale di essi si verificherà.
!
Quando ci accingiamo a definire un esperimento casuale dobbiamo aver ben chiaro quale
grandezza ci prefiggiamo di osservare; dobbiamo definire infatti quale e` lo scopo delle azioni che si attueranno, perche il primo passo nella modellizazione dellesperimento consiste
nellindividuare linsieme dei suoi possibili risultati.
Se per un esperimento casuale risulta impossibile prevederne lesito, tuttavia dalla sua
definizione sappiamo che deve essere possibile individuare il suo insieme dei possibili
esiti.
Definizione 10.2 (Insieme dei possibili esiti, eventi elementari ed eventi)
Linsieme , costituito dai possibili risultati di un esperimento casuale E viene detto
insieme dei possibili esiti dellesperimento.
I singoli elementi , possibili risultati dellesperimento, verranno detti eventi
elementari.
Si dirà evento un qualsiasi sottoinsieme proprio o improprio di .
!
258
ESEMPIO 10.2
Per ciascuno degli esperimenti casuali dellesempio (10.1) siamo in grado, senza
doverli eseguire, di elencare il loro insieme dei possibili esiti, infatti
1 = {Testa, Croce} = {T, C} = {1 , 2 }, due sono gli eventi elementari;
2 = [0, x], dove x sarà la lunghezza massima del tavolo, infiniti sono gli eventi
elementari;
3 = {S`, No} = {1 , 2 }, dove con S` si intende che lultimo acquisto risale

a meno di un mese prima viceversa No; due sono gli eventi elementari;
4 = [0, x], dove x sarà limporto massimo delle fatture clienti, infiniti sono gli
eventi elementari;
5 = {DDDD, BDDDD, DBDDDD, . . .} = {1 , 2 , . . .}, dove si e` posto D per pezzo non conforme e B per conforme; esso e` costituito infinità
numerabile di eventi elementari;
6 = {1, 2, . . . , 6} = {1 , 2 , . . . , 6 }, sei sono gli eventi elementari.
Osserviamo che gli esperimenti E1 ed E2 , si attuano con la medesima azione del lancio
della moneta ma hanno insieme dei possibili esiti differente. Lo stesso vale per gli
esperimenti E3 ed E4 .
Se consideriamo, ad esempio lesperimento del lancio del dado E6 , possiamo definire
levento A =il numero di puntini impresso sulla faccia rivolta verso lalto e` pari che
per definizione di evento sarà un sottoinsieme di , precisamente A = {2, 4, 6} =
{2 , 4 , 6 }.
Diremo che levento A si realizza se lesito del lancio del dado e` uno qualunque degli
eventi elementari che appartengono al sottoinsieme A, cioè se la faccia rivolta verso
lalto presenta due puntini o quattro puntini oppure sei.
Dagli esempi precedenti si comprende come nel definire un esperimento casuale sia necessario descrivere non solo le operazioni che devono essere poste in atto per dar vita allesperimento stesso, ma anche le grandezze sulle quali si concentra linteresse del ricercatore
che, in un certo senso, riassumono lesito dellesperimento.
Soffermandoci poi sugli elementi che compongono , gli eventi elementari, ci pare non
privo di interesse sottolineare che non sempre essi sono numeri. Altra caratteristica peculiare dellesperimento e` la cardinalità di . Come si evince dagli esempi proposti linsieme
dei possibili esiti può essere finito, infinito numerabile o può possedere la potenza del
continuo.
Nel seguito diremo che si e` realizzato levento A , se lesito dellesperimento casuale
e` coinciso con uno qualsiasi degli elementi A.
10.3. Le diverse concezioni della probabilità
259
Useremo come intercambiabili i termini evento e sottoinsieme di e li indicheremo generalmente con lettere latine maiuscole A, B, C, . . . (indicizzate o meno).
Data la stretta corrispondenza tra eventi e sottoinsiemi di , rimandando il Lettore allAppendice di questo capitolo che fornisce un breve glossario delle operazioni sugli insiemi,
qui di seguito interpretiamo alcune espressioni insiemistiche in termini di linguaggio di
eventi. Precisamente:
Lespressione A1 A2 significa che il verificarsi dellevento A2 implica il verificarsi
dellevento A1 .
Lespressione A1 = implica che levento A1 non si verifica mai; levento A1 viene
detto impossibile. A1 e` un sottoinsieme improprio di .
Lespressione A1 = implica che levento A1 si verifica sempre; levento A1 viene
detto certo. A1 e` un sottoinsieme improprio di .
Si verifica levento complementare A quando non si verifica levento A.
Lintersezione A1 A2 indica levento costituito dal verificarsi di entrambi gli eventi
A1 e A2 .
Lunione A1 A2 indica levento costituito dal verificarsi di uno almeno dei due
eventi A1 e A2 .
La differenza A1 A2 = A1 A2 indica levento costituito dal verificarsi dellevento
A1 congiuntamente al non verificarsi dell evento A2 .
Lespressione A1 A2 = implica che il verificarsi delluno esclude il verificarsi
dellaltro, in questo caso gli eventi A1 e A2 si dicono incompatibili.
10.3.
L E DIVERSE CONCEZIONI DELLA PROBABILIT A`
Se nel prossimo capitolo con limpostazione assiomatica forniremo un metodo di calcolo

della probabilità degli eventi di interesse, in questo paragrafo diamo una breve rassegna di
quelli che sono stati i diversi approcci alla definizione di probabilità.
A tal fine sarà bene tenere presente che si tratta di un argomento al tempo stesso complesso ed affascinante e sul quale studiosi di grande valore hanno riflettuto lungo un arco
temporale che abbraccia molti secoli.
In particolare, nel corso degli ultimi quattro secoli, si e` assistito ciclicamente al sorgere ed
al declinare di più teorie sullargomento; ciascuna di esse, come spesso accade nella ricerca
scientifica, si dimostra inizialmente in grado di spiegare i fenomeni dai quali ha tratto
260
origine, salvo poi a divenire inadeguata, successivamente, quando si tenta di allargarne

lambito di applicazione.
10.3.1
LA
CONCEZIONE CLASSICA
A partire dal XVII secolo si assiste in Europa ad una rapida diffusione, tra larghi strati della
popolazione, della moda dei cosiddetti giochi di sorte, sempre presenti fin dallantichità,
nelle tradizioni popolari.
Si tratta di giochi esercitati con strumenti (dadi, tavolette, carte, palline, ecc...) caratterizzati da una notevole sofisticazione costruttiva ed in grado quindi di assicurare una uguale
possibilità di uscita agli esiti elementari.
Di pari passo si consolida tra i giocatori limpiego di una semplice regola:
laspettativa di ottenere la vincita su di una certa giocata può essere valutata eseguendo il rapporto tra il numero degli esiti favorevoli alla giocata ed il
numero degli esiti possibili (favorevoli e non favorevoli alla giocata stessa).
Tale regola e` attribuita a molti autori quali ad esempio G. Cardano (1501-1576), G. Galileo
(1564-1642), P. Fermat (1601-1665), B. Pascal (1623-1662),... molti dei quali lenunciano
luno allinsaputa dellaltro. Di certo risulta che il Cardano la propone esplicitamente nel
suo trattato De Ludo Aleae che però vede la luce solo nel 1663.
La moda di questi giochi si diffonde sempre più e parallelamente, su sollecitazione degli appassionati giocatori, numerosi matematici cominciano a studiare le leggi che ne
governano il funzionamento.
Ad esempio J. Bernoulli (1654-1705) nel suo trattato De Ars Conjectandi del 1713 dà
una prima chiara definizione del teorema della probabilità totale, nel caso di eventi incompatibili, e più tardi T. Bayes (1702-1761) fornisce la prima dimostrazione del teorema
della probabilità composta unitamente al celebre teorema, allora chiamato delle probabilità
a posteriori o delle probabilità delle cause e che ora porta il suo nome.
Successivamente il grande matematico francese P. S. Laplace (1749-1823) elabora una
teoria organica sullargomento, fondandola sullipotesi di equipossibilità degli eventi elementari che consente di definire la probabilià di un qualsiasi evento quale rapporto tra il
numero degli eventi elementari ad esso favorevoli ed il numero del possibili esiti.
La concezione proposta dal Laplace, che ora qualifichiamo con laggettivo classica, raccoglie vasti consensi tra gli studiosi che subito ne tentano lapplicazione ad altri campi
disciplinari.
Questi tentativi si concludono però con la messa in discussione della teoria stessa, alla quale viene rimproverata limpossibilità di determinare se gli esiti di un esperimento debbano
10.3. Le diverse concezioni della probabilità
261
considerarsi equipossibili oppure no. Inoltre equipossibilità era allora, ed e` tuttora, sinonimo di equiprobabilità, quindi la definizione di probabilità di un evento, su cui si fonda la
teoria, contiene lo stesso termine che pretende di definire.
10.3.2
LA
CONCEZIONE FREQUENTISTA
Nella seconda metà del XIX secolo viene progressivamente meno linteresse per la concezione classica di Laplace e aumenta per contro il consenso verso una definizione di probabilità basata sulla ripetizione degli esperimenti casuali e sulla osservazione del numero di
volte (oseremo dire la frequenza) con cui appare levento di interesse del ricercatore.
La nuova concezione, detta frequentista, ha il suo massimo sostenitore, in epoca recente, in
R. Von Mises, che nel 1928 espone nellopera Wahrscheinlickeit, Statistik und Wahrheit
una teoria basata sulla frequenza relativa di un evento; teoria che per qualche tempo, porta
allabbandono di quella formulata da Laplace.
Più precisamente, nella concezione frequentista, la probabilità di un evento A viene definita
essere il limite a cui tende la frequenza relativa fn (A), cioè il numero di volte che si verifica
levento A diviso il numero delle prove stesse, in una serie infinita di prove ripetute ed
indipendenti dellesperimento in oggetto, in simboli
P (A) = lim fn (A)
n
Come nel caso precedente la nuova concezione riscosse inizialmente un notevole successo;
possono considerarsi conferme empiriche di tale concezione le celebri esperienze di
G. L. Buffon (1707-1788) che lancia 4040 volte una stessa moneta ottenendo
2048 volte levento Testa; P(A) = 0.5069
e di
K. Pearson (1857-1936) che in una sequenza di 24000 lanci di una stessa

moneta ottiene 12012 volte levento Testa; P(A) = 0.5005
Anche in questo caso il successo raggiunto dalla teoria attira lattenzione di numerosi studiosi, alcuni dei quali, sostenendo che non sia possibile ripetere un esperimento un numero illimitato di volte mantenendo le condizioni sperimentali immutate, criticano tale
approccio.
262
10.3.3
LA
CONCEZIONE SOGGETTIVISTA
Le concezioni precedentemente esposte, classica e frequentista, hanno fornito strumenti

adeguati per affrontare problemi in ambiti ben delimitati (ad esempio: teoria dei giochi,
fisica, genetica, demografia, ecc...) ma entrambe si sono dimostrate inadeguate nellaffrontare problemi connessi con la vita delluomo e nei quali risultino rilevanti stati danimo ed
informazioni personali; si pensi ad esempio a problemi di scelte aziendali in condizioni di
incertezza.
Si diffonde, allinizio del XX secolo, un atteggiamento di rifiuto verso una definizione di
probabilità legata unicamente allinsieme dei casi favorevoli del generico evento.
Più esattamente, fissato comunque un evento, si riconosce a ciascun soggetto la possibilità
di esprimere una propria personale valutazione sulla probabilità che si verifichi levento
in questione e si suggerisce che tale valutazione coincida con la posta che il soggetto e`
disposto a rischiare a fronte di una vincita unitaria.
Si aggiunge tuttavia che, in questa valutazione, il soggetto deve avere un comportamento
coerente, ad esempio accettando, dopo aver emesso la valutazione di probabilità, indifferentemente sia la posizione di scommettitore che quella di banco.
Una simile impostazione, denominata soggettivista, ha avuto quale esponente di rilievo il
triestino B. De Finetti che ha iniziato a sostenerla fin dallinizio degli anni 30 a partire dal
saggio Sul significato soggettivo della probabilità, pubblicato nel 1931.
Anche tale concezione, come le precedenti, non e` esente da critiche e una delle principali e`
quella secondo cui la libertà concessa al soggetto nellesprimere valutazioni di probabilità
rende le stesse prive di un qualsiasi valore oggettivo.
Ad esempio si ammette che due soggetti, pur essendo in possesso delle stesse informazioni
e conoscenze, assegnino differenti probabilità allo stesso evento. Ciò infatti può avvenire
per svariati motivi, quali ad esempio:
i due soggetti hanno una diversa disponibilità economica;
i due soggetti, pur avendo una pari disponibilità economica, hanno una diversa propensione al rischio
i due soggetti utilizzano in modo diverso lo stesso patrimonio informativo.
Il discorso e` tuttora aperto e la concezione soggettivista, ricca di almeno tre principali correnti di pensiero a loro volta molto variegate al proprio interno, possiede attualmente numerosi e agguerriti sostenitori; tra gli altri F .P. Ramsey, per la corrente definettiana, D. Kranz
per la corrente personalistica e F. Ascombe, R. Aumann per la corrente decisionistica.
263
10.4. Appendice: richiami di teoria degli insiemi e di calcolo combinatorio
10.4.
A PPENDICE : RICHIAMI DI TEORIA DEGLI INSIEMI E DI CALCO LO COMBINATORIO
In questa appendice diamo un breve glossario dei più comuni termini del linguaggio della teoria degli insiemi, successivamnete proponiamo alcuni cenni su elementi di calcolo
combinatorio che verranno sfruttati nel seguito.
Sia {Ai }i=1,2,... una generica famiglia di sottoinsiemi di , sugli elementi di tale famiglia
definiamo:
complemento
Dato linsieme A1 , definiamo complemento di A1 in (in simboli A1 ) linsieme
costituito da tutti gli elementi di che non appartengono ad A1 .
differenza
Dati gli insiemi A1 , A2 , definiamo differenza di A1 , A2 (in simboli: A1 A2 ) linsieme costituito da tutti gli elementi di A1 non appartenenti ad A2 (in simboli A1 A2 =
A1 A2 ).
equivalenza
Gli insiemi A1 , A2 vengono detti insiemi equivalenti (in simboli A1 = A2 ) se A1 e`
incluso in A2 e viceversa (in simboli se A1 A2 e A1 A2 ).
famiglie monotone
La famiglia {Ai }i=1,2,... e` detta monotona non decrescente se accade che:
!
A1 A2 . . . An . . .; in tal caso si ha: lim Ai =
Ai .
i
i=1
Viene detta monotona non crescente se accade che:
A1 A2 . . . An . . .; in tal caso si avrà lim Ai =

i
inclusione
"
Ai .
i=1
Se per ogni elemento a A1 risulta a A2 , diciamo che linsieme A1 e` incluso

nellinsieme A2 (in simboli: A1 A2 o A2 A1 ).
insieme delle parti di
La famiglia formata da tutti i possibili sottoinsiemi (propri ed impropri) di viene
detta insieme delle parti (in simboli P ()).
264
insieme nullo
Linsieme A1 viene detto insieme nullo o insieme vuoto (in simboli A1 = ) se
esso non contiene alcun elemento. E` bene ricordare che linsieme nullo risulta un
sottoinsieme improprio di .
insiemi disgiunti
Gli insiemi A1 , A2 vengono detti disgiunti se non posseggono alcun elemento in
comune, ossia se A1 A2 = .
intersezione
Dati gli insiemi A1 , A2 , definiamo intersezione di A1 , A2 (in simboli A1 A2 ) linsieme costituito da tutti gli elementi di che appartengono ad entrambi gli insiemi
A1 e A2 .
partizione di un insieme
La famiglia di sottoinsiemi {Ai }i=1,2,...,n e` detta partizione di se sono soddisfatte
le seguenti condizioni:
i sottoinsiemi Ai sono non vuoti;
i sottoinsiemi Ai sono mutuamente disgiunti;
lunione di tutti i sottoinsiemi Ai coincide con .
proprietà degli operatori , e
commutativa dellunione A1 A2 = A2 A1
commutativa dellintersezione A1 A2 = A2 A1
associativa dellunione (A1 A2 ) A3 = A1 (A2 A3 )
associativa dellintersezione (A1 A2 ) A3 = A1 (A2 A3 )

distributiva (I legge) (A1 A2 ) A3 = (A1 A3 ) (A2 A3 )
distributiva (II legge) (A1 A2 ) A3 = (A1 A3 ) (A2 A3 )

De Morgan (I legge) A1 A2 = A1 A2
De Morgan (II legge) A1 A2 = A1 A2

unione
Dati gli insiemi A1 , A2 , definiamo unione di A1 , A2 (in simboli: A1 A2 ) linsieme

costituito da tutti gli elementi di che appartengono ad almeno uno degli insiemi
A1 e A2 .
10.4. Appendice: richiami di teoria degli insiemi e di calcolo combinatorio
265
Come vedremo in seguito, in ambito di calcolo delle probabilità e` utile saper contare i modi
possibili con cui possono essere scelti k oggetti tra possibili n oggetti.
Il calcolo combinatorio fornisce semplici metodi di calcolo del numero delle possibili composizioni che dipendono dal modo in cui i k oggetti vengono scelti. Pertanto si
definiscono:
Disposizioni con ripetizione di n oggetti a gruppi di k quando i k oggetti sono scelti
con reinserimento e si tiene conto dellordine in cui essi si dispongono. Il numero
(r)
(r)
Dn,k delle possibili disposizioni con ripetizione e` Dn,k = nk .
Disposizioni senza ripetizione di n oggetti a gruppi di k quando i k oggetti sono
scelti senza reinserimento e si tiene conto dellordine in cui essi si dispongono. Il
numero Dn,k delle possibili disposizioni senza ripetizione e`
Dn,k =
n!
(n k)!
dove, come noto, con n! si intende il fattoriale di n, cioè n! = 1 2 . . . (n 1) n.

Permutazioni di n oggetti le disposizioni senza ripetizione di n oggetti a gruppi di
k = n. Nel caso particolare in cui k = n le disposizioni che si ottengono sono
tali che ciascuna contiene tutti gli oggetti e luna differisce dallaltra solamente per
lordine in cui gli oggetti si presentano. Il numero Pn delle possibili permutazioni e`
Pn = n!.
Si osservi che Pn si ottiene dalla formula per Dn,k ponendo k = n e ricordando che,
per convenzione, 0! = 1.
Combinazioni di n oggetti a gruppi di k quando i k oggetti sono scelti senza reinserimento e non si tiene conto dellordine in cui essi si dispongono. Il numero Cn,k
delle possibili combinazioni e` dato dal coefficiente binomiale n su k, cioè
Cn,k
# $
n!
n
=
=
k
k! (n k)!
Si osservi che il numero delle combinazioni si ottiene dividendo il numero delle disposizioni senza ripetizione per il numero delle permutazioni di k oggetti, cioè in simboli
Cn,k = Dn,k /Pk .
266
10.5.
E SERCIZI
ESERCIZIO 10.1
Da unurna contenente 4 palline indistinguibili al tatto e numerate da 10 a 13 vengono
estratte casualmente due palline.
Individuare linsieme dei possibili esiti nei casi in cui lestrazione sia eseguita:
senza rimettere la prima pallina nellurna prima di estrarre la seconda;
rimettendo la prima pallina nellurna prima di estrarre la seconda;
estraendo simultaneamente le due palline.
ESERCIZIO 10.2
Si individui linsieme dei possibili esiti per lesperimento E =si lancia 4 volte successivamente una moneta e si prende nota della sequenza di Testa e Croce ottenuta.
Definiti gli eventi:
A : {la sequenza e` formata da facce tutte uguali }
B : {la sequenza contiene esattamente una testa}

C : {la sequenza contiene almeno due teste}
determinare se essi formano una partizione di , in caso contrario modificarne uno in

modo da ottenere una partizione.
ESERCIZIO 10.3
Da un comune mazzo di 52 carte da gioco (carte: 1, 2, . . . , 10, J, Q, K articolate su 4
semi) viene estratta casualmente una carta.
Definiti gli eventi:
A : {la carta estratta e` numerica pari}
B : {la carta estratta e` di picche}
C : {la carta estratta e` una figura}
determinare quando sono verificati gli eventi

E =BC
F = BC
G = A (B C)
H = A (B C)
C APITOLO 11
C ENNI DI TEORIA DELLA PROBABILIT A`
Dedichiamo il capitolo alla presentazione della teoria della probabilità basata sullimpostazione assiomatica di Kolmogorov. Definita la misura di probabilità, introduciamo i concetti di probabilità condizionata e di indipendenza stocastica tra
eventi sino a giungere al teorema di Bayes. Nellultimo paragrafo diamo alcuni
cenni di prove ripetute indipendenti e dipendenti.
11.1.
L A PROBABILIT A` COME FUNZIONE D INSIEME
Nel secolo scorso, allinizio degli anni 30, in una situazione caratterizzata da un vivace
dibattito sui fondamenti della probabilità, il russo A .N. Kolmogorov propone nellopera
fondamentale, pubblicata in tedesco, Grundbegriffe der Wahrscheinlichkeitrechung un
nuovo approccio. Questo autore si pone in un certo senso al di sopra delle parti, in quanto
sviluppa una teoria della probabilità in termini puramente matematici, partendo dal presupposto, come afferma nella stessa opera successivamente pubblicata in inglese Foundation
of the Theory of Probability (1950) ... The theory of probability as a mathematical
discipline, can be and should be developed from axioms as geometry and algebra....
In effetti limpostazione di Kolmogorov consiste nel considerare la probabilità come una
funzione dinsieme avente dominio unalgebra (o algebra) associata a ed operante in
modo da soddisfare tre assiomi.
In estrema sintesi, la nuova impostazione, detta assiomatica, afferma che la probabilità e`
una funzione dinsieme sigma-additiva e normalizzata.
Con ciò egli svincola il termine probabilità da ogni significato empirico e fornisce agli
studiosi una solida base di partenza per costruire un calcolo delle probabilità formalmente
coerente e privo di antinomie.
Nei paragrafi che seguono ci proponiamo di approfondire limpostazione assiomatica di
Kolmogorov; in particolare, dalla definizione di algebra giungeremo allo spazio probabilizzabile e, definita la probabilità, otterremo lo spazio probablizzato.
Capitolo 11. Cenni di teoria della probabilità
268
11.1.1
LO
SPAZIO PROBABILIZZABILE
Definito un esperimento casuale e individuato linsieme dei suoi possibili esiti, linteresse
sarà quello di attribuire la probabilità agli eventi. Sebbene la definizione di evento quale
sottoinsieme di sia ben data ed esaustiva, limpostazione assiomatica del calcolo delle
probabilità ci impone di ben definire ed elencare a priori tutti gli eventi per cui potremmo
essere interessati alla probabilità.
Si tratta di associare a un insieme di suoi sottoinsieni che racchiuda in se tutti i possibili
modi con cui si vorrà interpretare lesito dellesperimento.
ESEMPIO 11.1
Un medesimo esperimento casuale può essere condotto con diversi intenti, si può
essere interessati cioè a diversi insiemi di sottoinsiemi di .
Nel lancio di un dado regolare a sei facce si può definire un gioco che consenta di
vincere se si verifica, ad esempio, levento A=il numero impresso sulla faccia esposta e` pari. Un eventuale giocatore sarà interessato a conoscere unicamente quale
sia la probabilità di vincita o di perdita, cioè la probabilità dellevento definito dal
sottoinsieme A = {2, 4, 6} e quella del suo complementare A = {1, 3, 5}.
Se il gioco fosse più complesso e consistesse nel vincere una somma di denaro proporzionale al numero pari impresso sulla la faccia esposta verso lalto, gli eventi
di interesse per il giocatore corrisponderebbero ai quattro sottoinsiemi: A1 = {2},
A2 = {4}, A3 = {6} e A4 = {1, 3, 5}.
In effetti linsieme di sottoinsiemi che deve essere associato a dovrà avere una struttura di algebra, cioè dovrà essere un insieme chiuso rispetto alle operazioni di unione e
complemento. In altri termini, la struttura sulla quale si dovrà operare oltre a contenere
gli elementi della famiglia iniziale (gli eventi di interesse) dovrà contenere anche la loro
unione e il loro complemento. A tal proposito valga la definizione che segue.
Definizione 11.1 (Algebra)
Dato un qualunque insieme , si dice algebra ad esso associata un qualsiasi insieme non
vuoto A di suoi sottoinsiemi che soddisfi le seguenti condizioni:
1. A A allora A A
2. A1 , A2 , . . . , An A allora ni=1 Ai A
A si dice sigma-algebra di Boole ( -algebra) qualora la condizione 2 sia verificata anche
per lunione infinita di suoi elementi.
!
269
11.1. La probabilità come funzione dinsieme
ESEMPIO 11.2
Riprendendo lesperimento casuale del lancio di un dado regolare a sei facce di cui
allesempio (11.1), lalgebra costruita a partire dai due eventi A = {2, 4, 6} e A =
{1, 3, 5} sarà linsieme contenetente i due sottoinsiemi A e A, la loro unione (cioè
stesso) nonche linsieme complementare di (cioè linsieme vuoto ). In simboli
possiamo scrivere che unalgebra associabile allinsieme dei possibili esiti di tale
esperimento casuale e`
A = {{2, 4, 6}, {1, 3, 5}, , }
Come vedremo in seguito, modellizzare lesperimento casuale in tal modo ci consentirà di attribuire la probabilità ai soli eventi che appartengono a questa particolare
algebra.
Unalgebra che contenga gli eventi di interesse per il giocatore del secondo caso definito nellesempio (11.1) e` quella generata a partire dai quattro eventi A1 = {2},
A2 = {4}, A3 = {6} e A4 = {1, 3, 5} che, secondo la definizione, contiene tutti i
loro insiemi complementari, gli insiemi unione a due a due a tre a tre ecc. . . nonche i
complementari delle unioni. Una seconda possibile algebra associabile a e` dunque
linsieme formato dai 24 = 16 sottoinsiemi di
A ={{2}, {4}, {6}, {1, 3, 5},
{1, 3, 4, 5, 6}, {1, 2, 3, 5, 6}, {1, 2, 3, 4, 5}, {2, 4, 6},
{2, 4}, {2, 6}, {1, 2, 3, 5}, {4, 6}, {1, 3, 4, 5}, {1, 3, 5, 6}
, }
Come abbiamo avuto modo di intuire dallesempio precedente, la coppia (, A) non risulta
univocamente determinata da , nel senso che sono molteplici le algebre associabili ad uno
stesso insieme dei possibili esiti.
Se ad esempio linsieme dei possibili esiti = {1 , 2 , 3 } costituito da tre eventi elementari e` unalgebra linsieme
A1 = {{1 }, {2 }, {3}, {1 , 2 }, {1, 3 }, {2 , 3}, , }
che e` generata a partire dalla famiglia degli eventi elementari. Essa coincide con linsieme
delle parti P() ed e` dunque costituita da tutti gli 8 = 23 possibili sottoinsiemi di .
Allo stesso insieme e` possibile tuttavia associare anche, ad esempio, lalgebra generata
a partire dai due eventi A1 = {3 } e A2 = {1 , 2 } che risulta essere
A2 = {{3 }, {1 , 2 }, , }
270
e che si dice essere meno fine della precedente.

Se lalgebra coincidente con linsieme delle parti di e` la più fine, la più piccola algebra, e dunque la meno fine, di tutte le possibili algebre associabili a e` quella costituita
solamente da e dal suo complementare, cioè A = {, }.
Si noti che qualsiasi algebra contiene sempre linsieme vuoto e stesso e che la definizione
di algebra implica, seppur implicitamente, che essa e` chiusa rispetto alloperazione di intersezione, nel senso che in essa sono presenti sempre anche le intersezioni di k qualunque
suoi elementi.
ESEMPIO 11.3
Allesperimento casuale E= Lancio di un dado regolare a sei facce, con insieme dei
possibili esiti = {1, 2, 3, 4, 5, 6}, costruiamo lo spazio probabilizzabile associando
ad lalgebra coincidente con linsieme delle parti P() che risulta essere formata
da 26 = 64 elementi:
A = {{1}, {2}, . . . , {6},
{1, 2}, . . . , {5, 6},
{1, 2, 3}, . . . , {4, 5, 6},
{1, 2, 3, 4}, . . . , {3, 4, 5, 6},
{1, 2, 3, 4, 5}, . . . , {2, 3, 4, 5, 6},
, }
Nel seguito, ogni qualvolta sia finito (o infinito numerabile), lalgebra (o la -algebra)
che verrà ad esso associata sarà linsieme delle parti A = P().
Quando altrimenti tratteremo = R la -algebra BR sarà quella generata a partire dagli
intervalli del tipo ]a, b] che e` nota come -algebra di Borel e che e` meno fine dellinsieme
delle parti di R, cioè BR P(R).
Riassumendo, dato un esperimento casuale E, individuato linsieme dei possibili esiti, associando ad esso unalgebra (o una -algebra) si costruisce quello che viene comunemente
detto spazio probabilizzabile (, A) sul quale sarà possibile definire la probabilità .
11.1.2
LA
` E GLI ASSIOMI
MISURA DI PROBABILIT A
Stabilito linsieme degli eventi di cui si desidera misurare la probabilità, si tratta ora di
definire cosa si intende per probabilità di un evento secondo limpostazione assiomatica di Kolmogorov. Sullo spazio probabilizzabile (, A) viene definita una funzione P
271
che, fornendo una misura per tutti i sottoinsiemi dellalgebra, probabilizza gli eventi di
interesse.
Consideriamo allora un generico esperimento casuale, avente insieme dei possibili risultati
, ed una generica -algebra A associata a e diamo la seguente
Definizione 11.2 (Misura di probabilità)
Dato lo spazio probabilizzabile (, A), definiamo misura di probabilità una qualsiasi funzione dinsieme P, avente dominio A e codominio linsieme dei numeri reali R,
P :
A R
che soddisfi i seguenti tre assiomi:

1. assioma della non negatività: la probabilità di un evento e` sempre maggiore o uguale
a zero, cioè
A A
P(A) 0.
2. assioma della sigma-addittività: se {Ai }i=1,2, , costituisce una famiglia, infinita

numerabile, di insiemi mutuamente disgiunti dellalgebra A la probabibiltà della
loro unione corrisponde alla somma delle loro probabilità, cioè
% '
&
(
P
Ai =
P (Ai )
i=1
i=1
3. assioma della norma: la probabilità dellevento certo e` uno, cioè

P() = 1
!
Osserviamo che il secondo assioma applicato al caso particolare di due soli sottoinsiemi
disgiunti si riduce a
A1 , A2 A con A1 A2 = P (A1 A2 ) = P (A1 ) + P (A2 )
Nel caso in cui linsieme dei possibili esiti sia finito quale secondo assioma si può semplicemente adottare quello della additività finita, cioè: per qualsiasi famiglia {Ai }i=1,2, ,k di
272
k insiemi mutuamente disgiunti dellalgebra A la probabibiltà della loro unione e` la somma

delle loro probabilità, cioè
P
k
&
i=1
Ai
'
k
(
P (Ai )
i=1
Dai tre assiomi sono deducibili molte proprietà della funzione di probabilità; nel seguito ne riportiamo alcune dando un cenno della loro dimostrazione invitando il Lettore a
tradurre quanto scritto formalmente in termini di diagrammi di Venn per una migliore
comprensione.
Proprietà 11.1 la probabilità del complementare di A e` uno meno la probabilità di A
= 1 P(A)
A A P(A)
Dimostrazione: essendo = A A ed essendo, per definizione di insieme complemen da cui per il 3 assioma si ha
tare, A A = si ha per il 2 assioma P() = P(A) + P(A)
la tesi.
!
Proprietà 11.2 la probabilità dellinsieme vuoto e` nulla, cioè P() = 0
dalla proprietà (11.1) e dal 3 assioma si ha

Dimostrazione: osservando che =
= 1 P() = 0
P() = P()
!
Proprietà 11.3 la probabilità di un qualsiasi evento A e` sempre minore o uguale di uno
A A P(A) 1
ed essendo per il 1 assioma

Dimostrazione: dalla proprietà (11.1) P(A) = 1 P(A)
P(A) 0 si ha la tesi.
!
273
Proprietà 11.4 se il verificarsi dellevento A2 implica il verificarsi dellevento A1 allora

la probabilità di A1 e` minore o uguale a quella di A2
A1 , A2 A tali che A1 A2 P(A1 ) P(A2 )
Dimostrazione: consideriamo linsieme A2 A1 = A2 A1 formato da tutti gli elementi

di A2 che non appartengono ad A1 , esprimiamo A2 come unione di sottoinsiemi disgiunti
cioè A2 = A1 (A2 A1 ) con A1 (A2 A1 ) = , allora per il 1 e per il 2 assioma si
ha P [A2 ] = P [A1 ] + P [A2 A1 ] P [A1 ].
!
Proprietà 11.5 se il verificarsi dellevento A2 implica il verificarsi dellevento A1 allora
la probabilità che si verifichi A2 ma non si verifichi A1 , cioè P(A2 A1 ), e` data dalla
probabilità di A2 meno la probabilità di A1
A1 , A2 A tali che A1 A2 P(A2 A1 ) = P(A2 ) P(A1 )
per la dimostrazione si osservi quella della proprietà immediatamente precedente.
La proprietà che segue riguarda lunione di due eventi e sarà nel seguito molto utilizzata.
Poiche gli Studenti spesso la confondono con il terzo assioma si invita il Lettore a prestare
attenzione al suo enunciato e a verificare che essa non e` in disaccordo con lassioma stesso.
Proprietà 11.6 la probabilità dellunione di due qualsiasi eventi appartenenti allalgebra e`
data dalla somma delle loro probabilità meno la probabilità della loro intersezione
A1 , A2 A P(A1 A2 ) = P(A1 ) + P(A2 ) P(A1 A2 )
Dimostrazione: A1 A2 può essere espresso come unione di insiemi disgiunti infatti,

A1 A2 = A1 (A2 (A1 A2 )) allora per il 2 assioma e per la proprietà 11.5 si ha
P(A1 A2 ) = P(A1 ) + P(A2 (A1 A2 )) = P(A1 ) + P(A2 ) P(A1 A2 )
!
Ripetendo il procedimento di questultima dimostrazione, nel caso di tre eventi si giunge
alla seguente
274
Proprietà 11.7 la probabilità dellunione di tre qualsiasi eventi appartenenti allalgebra e`

data dalla somma delle loro probabilità meno la probabilità delle loro intersezione a due a
due più la probabilità della loro intersezione, A1 , A2 , A3 A
P(A1 A2 A3 ) = P(A1 ) + P(A2 ) + P(A3 )
P(A1 A2 ) P(A1 A3 ) P(A2 A3 )+
+ P(A1 A2 A3 )
Generalizzando a k eventi si può dimostrare che vale la

Proprietà 11.8 A1 , A2 , . . . , Ak A si ha:
%k
'
k
&
(
(
P(Ai Aj ) + . . .
P
Ai =
P(Ai )
i=1
i=j
i=1
. . . + (1)
k1
P(A1 A2 . . . Ak )
Enunciamo infine una proprietà nota con il nome di diseguaglianza di Boole, la cui dimostrazione, piuttosto tecnica, la si può trovare ad esempio in DallAglio (1987).
Proprietà 11.9 (Diseguaglianza di Boole)
A1 , A2 , . . . , Ak A si ha:
%k
'
k
&
(
P
Ai
P(Ai )
i=1
11.1.3
LO
i=1
SPAZIO PROBABILIZZATO
Ora che abbiamo dato la definizione di probabilità come funzione operante tra lalgebra
associata allinsieme dei possibili esiti e linsieme dei numeri reali e soddisfacente i tre assiomi, resta il problema di scegliere quale funzione di probabilità utilizzare per misurare
gli eventi dellalgebra.
In altri termini, dato un esperimento casuale E e definito lo spazio probabilizzabile (, A),
si tratta di individuare la misura di probabilità P che si intende adotattare in modo da
definire univocamente la terna ordinata (, A, P) detta spazio probabilizzato.
275
Qualora linsieme dei possibili esiti sia finito e lalgebra ad esso associata coincida con
il suo insieme delle parti, per dotare lo spazio probabilizzabile (, A) di una probabilità
si procede attribuendo la probabilità agli eventi elementari in modo da rispettare gli assiomi e successivamente si potrà attribuire la probabilità ad un qualsiasi evento dellalgebra
considerandolo come unione di eventi elementari.
Quando linsieme dei possibili esiti e` finito, cioè = {1 , 2 , . . . , n }, assegnamo la
probabilità a ciscun evento elementare ponendo, per ogni i = 1, . . . , n, P(i ) = pi in
modo che:
1. i = 1, . . . , n
pi 0
)!
* +
+k
k
k
2. P
i=1 i =
i=1 P (i ) =
i=1 pi
!
3. P() = P ( ni=1 i ) = 1
Con il seguente esempio si vuole illustrare come sia la conoscenza della natura dellesperimento stesso a determinare il modo di procedere nellattribuire la probabilità agli eventi
elementari di .
ESEMPIO 11.4
Si immagini di voler estrarre a sorte un nominativo tra i sei presenti in un elenco
alfabetico e si supponga, lanciando un dado a sei facce, di scegliere quello che risulta nella posizione corrispondente al numero impresso sulla faccia rivolta verso lalto.
Lesperimento ha come possibili risultati i primi sei numeri interi e pertanto il suo
insieme dei possibili esiti e` = {1 = 1, . . . , 6 = 6}. Se ammettiamo sia possibile ritenete il dado regolare possiamo attribuire a ciascun evento elementare la stessa
probabilità, per cui, se per ogni i = 1, . . . , 6, poniamo P(i ) = pi = p dovrà essere
p > 0 per soddisfare il primo assioma e imponendo anche il secondo e il terzo assioma
otteniamo
% 6
'
6
6
(
(
&
p = 6p
P (i ) =
1 = P() = P
i =
i=1
i=1
i=1
da cui si ricava p = 1/6 e quindi: P(1 ) = P(2 ) =, . . . , P(6 ) = 1/6.

Se tuttavia, per qualche ragione empirica o per conoscenze tecniche sulla costruzione
del dado, sappiamo che esso e` truccato in modo, ad esempio, che le facce si presentino
in modo proporzionale al numero su di esse impresso, dovremmo attribuire a ciascun
evento elementare i la probabilità P(i ) = pi = i c con c > 0 per soddisfare il
primo assioma e imponendo anche il secondo e il terzo assioma otteniamo
% 6
'
6
6
(
(
&
P (i ) =
i c = c (1 + . . . + 6) = 21 c
1 = P() = P
i =
i=1
i=1
i=1
276
da cui si ricava c = 1/21, e quindi le probabilità dei singoli eventi elementari risulteranno: P(1 ) = 1/21, P(2 ) = 2/21, . . . , P(6 ) = 6/21.
Assegnata la probabilità ad ogni evento elementare sarà possibile attribuire la probabilità ad

ogni elemento A dellalgebra facendo la somma delle probabilità pi degli eventi elementari
che appartengono ad A in simboli
(
AA
P(A) =
pi
i A
Procedendo cos`, risulta individuato lo spazio probabilizzato (, A, P), nel senso che la
funzione P() e` una misura di probabilità secondo la definizione (11.2), infatti per essa
valgono i tre assiomi se applicata ai generici eventi dellalgebra:
1. A A
P(A) 0
questo e` dimostrabile osservando che la probabilità di qualunque evento A risulta la

somma di quantità pi tutte positive.
2. data una generica famiglia {Ai }i=1,...,k di elementi di A mutuamente disgiunti si ha

P
k
&
i=1
Ai
'
!
j ki=1 Ai
pj =
k
(
(
i=1 j Ai
pj =
k
(
P(Ai )
i=1
3. P() = 1
+
!
infatti P() = P ( ni=1 i ) = ni=1 pi = 1
ESEMPIO 11.5
Riprendiamo la prima situazione descritta nellesempio (11.4), consideriamo cioè lo

spazio probabilizzato (, A, P), con = {1 = 1, . . . , 6 = 6}, lalgebra sia linsieme delle parti di A = P() e la misura di probabilità sia quella che associa a ciscun
evento elementare ugual valore p = 1/6.
Consideriamo levento A = il nominativo estratto si trova in una posizione pari dellelenco, che si verificherà, ovviamente, se lesito dellesperimento sarà indifferentemente uno qualunque degli eventi elementari 2 , 4 e 6 e proviamo a determinarne la probabilità. Si tratta di individuare la probabilità associata dalla misura P al
sottoinsieme A = {2 , 4 , 6 }.
277
Osservando che esso si può esprimere come lunione di tre eventi elementari, cioè
A = {2 , 4 , 4 } = {2 } {4 } {6 }, essendo gli eventi elementari disgiunti,
possiamo applicare il terzo assioma e ottenere la probabilità di A, infatti
P(A) = P({2 , 4 , 6 }) = P({2 } {4 } {6 }) =
= P({2 }) + P({4 }) + P({6 }) =
= 1/6 + 1/6 + 1/6 = 3/6 = 0.5
Nel secondo caso illustrato nellesempio (11.4), se cioè nello spazio probabilizzato
(, A, P) la misura P e` quella che associa agli eventi elementari le probabilità P(i ) =
i/21 per ogni i = 1, . . . , 6, la probabilità dellevento A risulta
P(A) = P({2 , 4 , 6 }) = P({2 } {4 } {6 }) =
= P({2 }) + P({4 }) + P({6 }) =
= 2/21 + 4/21 + 5/21 = 11/21 = 0.524

Ovviamente la probabilità dellevento A differisce nei due casi considerati poiche essi
riguardano due diverse scelte di misura di probabilità.
O SSERVAZIONE : la terna (, A, P), in cui la misura di probabilità assegna ugual probabilità ad ogni evento elementare i viene detta spazio di probabilità equiprobabile.
In uno spazio di probabilità equiprobabile ogni evento elementare i , (con i =

1, 2, . . . , n) ha probabilità costante P(i ) = 1/n pertanto la probabilità di un qualsiasi
evento A A, sarà data sempre dal rapporto, tra il numero di elementi del sottoinsieme A
e la numerosià di , cioè
P(A) =
Nu(A)
Nu()
Rimandiamo il Lettore allesempio precedente per una verifica esemplificativa di questultima affermazione invitandolo a notare che quanto affermato vale solo nel caso di spazi
equiprobabili.
O SSERVAZIONE : dora in avanti lespressione a caso verrà usata solo in relazione a
spazi equiprobabili; analogamente per convenzione le espressioni sorteggio di una unità
da una popolazione e estrazione semplice a caso di una unità da una popolazione
indicheranno sempre spazi equiprobabili.
278
Come premesso allinizio di questo paragrafo, la costruzione dello spazio probabilizzabile

fin qui illustrata riguarda il caso di insieme dei possibili esiti finito; una costruzione dello
spazio probabilizzato simile si ha nel caso di insieme dei possibili esiti di cardinalità infinita numerabile. Iniziando ad assegnare le probabilità agli infiniti eventi elementari, ossia
attribuendo ad ogni i (con
+i= 1, 2, . . . , ) la quantità P(i ) = pi in modo che siano soddisfatti i vincoli pi 0 e i=1 pi = 1, la si estendende successivamente ad ogni elemento
della -algebra in modo che:
AA
P(A) =
pi
i A
Anche in questo caso sarà possibile dimostrare la validità dei tre assiomi su qualsiasi elemento dellalgebra; in particolare il secondo varrà per lunione infinita di eventi e sarà
quello della -additività.
Quando linsieme dei possibili esiti di un esperimento ha la potenza del continuo, quando
cioè coincide con linsieme dei numeri reali o con un suo sottoinsieme, lattribuzione della
probabilità agli elementi della -algebra di Borel risulta unoperazione piuttosto complessa. Ci limitiamo qui ad accennare che il modo di procedere e` simile e quello visto per
gli altri casi; si assegna la probabilità alla famiglia di intervalli che genera la -algebra di
Borel per poi estenderla a tutti i suoi elementi.
Con lesempio che segue, tornando alla situazione di insieme dei possibili esiti finito, ci
proponiamo di calcolare le probabilità di alcuni eventi con lintento di riassumere il contenuto di questa prima parte del capitolo ed in particolare applicare alcune delle proprietà
della misura di probabilità.
ESEMPIO 11.6
Il responsabile marketing di una piccola azienda di servizi intende impostare una promozione pubblicitaria offrendo un premio ad un cliente estratto a caso da un database
formato da 10 clienti di entrambi i sessi e residenti in alcune provicie piemontesi. Linsieme dei possibili esiti di questo esperimento sarà formato da 10 eventi elementari
i che, supponendo i nominativi dei clienti posti nel seguente ordine, schematizziamo
con la tabella
279
progressivo
1
2
3
4
5
6
7
8
9
10
cod. cliente
M
N
O
P
Q
R
S
T
U
V
sesso
maschio
maschio
femmina
maschio
maschio
femmina
femmina
maschio
maschio
maschio
provincia
AT
T0
AT
AT
AL
TO
TO
AL
AL
AT
i
1
2
3
4
5
6
7
8
9
10
Se lestrazione avviene scegliendo il cliente posto in elenco alla posizione corrispondente al numero intero generato dalla routine di generazione di numeri pseudo casuali
di una comune calcolatrice tascabile, possiamo attribuire a ciascun evento elementare la stessa probabilità P(i ) = 1/10, e, associata a lalgebra corrispondente
allinsieme delle parti, opereremo nello spazio equiprobabile.
Definiti ora gli eventi A =il cliente e` maschio, B = il cliente risiede in provincia
di Asti, ci proniamo di determinare le seguenti probabilità: P(A), P(B), P(A B),
P(A B) e P(A B), per le prime due si hanno
P(A) = P({1 , 2 , 4 , 5 , 8 , 9 , 10 }) = 7/10
P(B) = P({1 , 3 , 4 , 10 }) = 4/10
levento A B si verifica se il cliente e` un maschio residente in provincia di Asti e la

sua probabilità e`
P(A B) = P({1 , 4 , 10 }) = 3/10
prima di procedere, verifichiamo che, essendo A B A, vale la proprietà (11.4)
infatti P(A B) = 3/10 P(A) = 7/10.
Quanto allevento AB e` possibile procedere in due modi differenti, il primo consiste
nellosservare che A B si verifica se il cliente e` un maschio o comunque risieda in
provincia di Asti per cui si dermina direttamente la sua probabilità come somma delle
probabilità degli eventi elementari che lo compongono, cioè
P(A B) = P({1 , 2 , 3 , 4 , 5 , 8 , 9 , 10 }) = 8/10
Il secondo modo di procedre e` quello di utilizzare la proprietà (11.6) che consente di
determinare la probabilità dellunione di due eventi conoscendo le loro probabilità e
la probabilità della loro intersezione, cioè
P(A B) = P(A) + P(B) P(A B) = 7/10 + 4/10 3/10 = 8/10
280
Ed infine, ora che conosciamo la probabilità dellunione tra A e B, ricaviamo, usando

la proprietà (11.1), la probabilità del suo complementare che semplicemente risulta
P(A B) = 1 P(A B) = 1 8/10 = 2/10
Lasciamo al Lettore individuare le caratteristiche del cliente quando dovesse verificarsi levento A B.
11.2.
P ROBABILIT A` CONDIZIONATA E INDIPENDENZA TRA EVENTI
Un concetto di grande rilievo nella teoria del calcolo delle probabilità e` quello di probabilità
condizionata, la ragione della introduzione della probabilità condizionata risiede nel fatto
che frequentemente occorre trattare eventi associati ad esperimenti casuali i cui esiti finali
risultano parzialmente noti. Per meglio comprendere che cosa si intende consideriamo il
seguente esempio.
ESEMPIO 11.7
Un luned` mattina, incontrando alcuni colleghi al bar durante la pausa caffè, scopro
di avere in tasca il biglietto del gioco del Lotto che testimonia una puntata da 1000
euro sul numero 53, effettuata il sabato precedente, quale primo estratto sulla ruota
di Venezia. Poiche lestrazione e` già avvenuta io certamente appartengo, in modo
definito ormai, o alla categoria dei perdenti (ho buttato al vento mille euro) o a quella
dei vincenti (presto incasserò 45000 euro). Tuttavia ignoro, al momento, a quale delle
due categorie appartengo ed il biglietto della giocata che mi ritrovo in mano, in quanto
esiste la possibilità che possa costituire un titolo di credito da 45 mila euro, possiede ai
miei occhi un certo valore venale. Quando cerco di quantificare detto valore, ritengo
di poter modellizzare la situazione aleatoria, definendo per lesperimento casuale E =
estrazione di una pallina dallurna della sede del Lotto di Venezia, la terna (, A, P):
= {numeri estraibili} = {1, 2, . . . , 90}
A = P(), insieme delle parti di
P misura di probabilità equiprobabile.

La probabilità di vincita e` la probabilità dellevento elementare A = {53 } = {53},
cioè 1/90, potrei pertanto attribuire al biglietto in mio possesso, un valore attuale
di circa 500 euro, nel senso che, valutando lammontare delleventuale vincita per la
probabilità che essa avvenga (45000 1/90), sono disposto a cederlo a terzi per 500
euro. Distinguiamo ora le due diverse situazioni:
281
11.2. Probabilità condizionata e indipendenza tra eventi
caso 1: supponiamo che uno dei colleghi al mio fianco dichiari di ricordare
bene che il primo estratto sulla ruota di Venezia sia un numero dispari. Evidentemente questa notizia modifica le mie apettative di vincita e questo fatto
fa di certo aumentare ai miei occhi il valore venale del biglietto in mio possesso. In altri termini, sapendo che levento B =il numero estratto e` dispari si
e` verificato, la probabilità che attribuisco allevento A = {53} e` maggiore di
1/90.
caso 2: viceversa supponiamo che sempre lo stesso collega abbia a dichiarare
di ricordare che il primo estratto sulla ruota di Venezia sia costituito da un
numero minore di 5. Evidentemente questa diversa notizia modifica in modo
ancora più stravolgente le mie apettative di vincita, nel senso che ai miei occhi
il valore venale del biglietto scende al di sotto di un soldo bucato. Anche in
questo caso, la conoscenza che si e` verificato levento B =il numero estratto e`
minore di 5 modifica ai miei occhi la probabilità dellevento A = {53}.
In entrambi i casi la misura di probabilità P dello spazio probabilizzato (, A, P)
precedentemente adottato si rivela del tutto inadatta a descrivere la situazione reale e
non e` daiuto ai fini di qualche futura decisione quale, ad esempio, quella di alienare
oppure no il biglietto in questione a fronte di una offerta di 2000 euro.
Per poter gestire situazioni di incertezza come quelle descritte nellesempio precedente,
occorre introdurre una nuova misura di probabilità, che ci consenta di determinare la
probabilità di un qualsiasi evento A nel caso in cui si possegga linformazione certa che
un secondo evento B si sia verificato. Tale misura di probabilità viene detta probabilità
condizionata.
Definizione 11.3 (Probabilità condizionata)
Dato uno spazio di probabilità (, A, P), fissato un qualsiasi evento B A di probabilità
non nulla, cioè P (B) = 0, si definisce probabilità condizionata la funzione dinsieme
P( |B) : A R
tale che, A A, sia

P(A|B) =
P(A B)
P(B)
(11.1)
!
Osserviamo che e` lecito chiamare tale funzione probabilità poiche si tratta di una funzione
che soddisfa i tre assiomi di Kolmogorov.
282
Per sincerarcene verifichiamo che la funzione P( |B) e` una misura di probabilità nel senso
della definizione (11.2), cioè:
1. A A
P(A|B) 0
e` sufficiente osservare che numeratore e denominatore della (11.1), essendo probabilità di eventi, non sono negative, infatti poiche la misura P soddisfa il primo assioma,
si ha P(A B) 0 e P(B) > 0.
2. Verifichiamo lassioma delladditività nella sua forma finita per soli due sottoinsiemi, rimandando ad esempio al testo di DallAglio (1987) per lestensione alla
-additività.
Si vuole dunque provare che A1 , A2 A con A1 A2 = si ha
P(A1 A2 |B) = P(A1 |B) + P(A2 |B)
dalla definizione di probabilità condizionata dovremo dunque verificare che

P(A1 B) P(A2 B)
P ((A1 A2 ) B)
=
+
P(B)
P(B)
P(B)
Per la proprietà distributiva dellintersezione rispetto allunione
(A1 A2 ) B = (A1 B) (A2 B)
essendo inoltre per ipotesi A1 A2 = , si avrà anche (A1 B) (A2 B) = ed
allora, poiche P soddisfa il 2 assioma, sarà
P((A1 A2 ) B) = P((A1 B) (A2 B)) = P(A1 B) + P(A2 B)
per cui ritornando alla probabilità condizionata dellunione dei due eventi e sostituendo questultima a numeratore si ha la tesi, infatti
P(A1 B) + P(A2 B)
P(A1 B) P(A2 B)
P ((A1 A2 ) B)
=
=
+
P(B)
P(B)
P(B)
P(B)
3. P(|B) = 1 osserviamo che B = B per cui, applicando la definizione di
probabilità condizionata, si ha
P( B)
P(B)
P(|P ) =
=
=1
P(B)
P(B)
La misura di probabilità condizionata, associata allinsieme dei possibili esiti ed allalgebra A individua un nuovo spazio di probabilità (, A, P(|B)) che può servire a modellizzare le situazioni di incertezza del tipo di quelle descritte nellesempio precedente,
quelle nelle quali sia necessario determinare la probabilità di eventi associati ad esperimenti
casuali i cui esiti finali risultano parzialmente noti.
283
ESEMPIO 11.8
Un rappresentante di utensili per macchine a controllo numerico ha 4 appuntamenti
ogni mattina, poiche ciascuno di essi potrà concludersi con un contratto di vendita
o con un nulla di fatto, pensiamo alle sue visite come a un esperimento casuale con
insieme dei possibili esiti formato da 24 = 16 eventi elementari che schematizziamo
con le sequenze di 4 simboli, V =vendita e V =non vendita, come segue
1
2
3
4
5
6
7
8
=
=
=
=
=
=
=
=
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
9 =
10 =
11 =
12 =
13 =
14 =
15 =
16 =
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
Ipotizzando che i suoi quattro clienti abbiano la stessa propensione allacquisto e` lecito
attribuire a ciscuna sequenza la stessa probabilità e decidere di operare nello spazio
equiprobabile.
Al termine del primo appuntamento di oggi il rappresentante e` interessato a conoscere
la probabilità di avere, a fine mattina, almeno tre ordinativi di vendita, poiche il primo
cliente ha acquistato egli dovrà operare con la probabilità condizionata.
Definiti, dunque, gli eventi
A = {le visite danno luogo ad almeno tre vendite} =
= {1 , 2 , 3 , 5 , 9 }
B = {la prima visita dà luogo ad una vendita} =

= {1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 }
dobbiamo determinare la probabilità di A condizionatamente al fatto che B e` certamente verificato, osservando che levento A B = {1 , 2 , 3 , 5 }, la probabilità
condizionata risulta
4/16
4
P(A B)
=
= = 0.5
P(A|B) =
P(B)
8/16
8
Ovviamente allinizio della mattina, in assenza cioè dellinformazione sul primo cliente, il rappresentante avrebbe previsto una mattinata di lavoro meno proficua valutando
P(A) = 5/16 = 0.3125.
Da questo esempio si evince che nel calcolo della probabilità condizionata, linformazione aggiuntiva induce in effetti un restringimento dellinsieme dei possibili esiti
ai soli eventi elementari che appartengono allevento B.
284
Prima di procedere, osserviamo che, dati due eventi A, B A entrambi a probabilità non
nulla, tra le probabilità condizionate sussiste la relazione seguente, detta delle probabilità
composte
P(A B) = P(B) P(A|B) = P(A) P(B|A)
(11.2)
Lasciamo al Lettore la verifica delle uguaglianze dellespressione (11.2) che potrà essere
fatta ricorrendo semplicemente alla definizione di probabilità condizionata.
Dallultima uguaglianza della (11.2) si ricava unimportante relazione tra le probabilità
condizionate di due eventi, infatti si ha:
P(A|B) = P(A)
P(B|A)
P(B)
(11.3)
Lequazione (11.3), che verrà nel seguito estesa al caso di piu di due eventi, consente di
determinare la probabilità condizionata di A dato B conoscendo la probabilità condizionata
di B dato A.
ESEMPIO 11.9
In un ufficio contabile in cui operano due addetti, Rag. Marco e Dott.ssa Rita, un
revisore dei conti estrae casualmente una pratica da quelle emesse nel mese di gennaio.
Si supponga che la conoscenza delloperato dellufficio consenta di affermare che il
tasso di violazione procedurale delle pratiche emesse dai due addetti e` dello 0.15%,
che la Dott.ssa Rita emette il 70% delle pratiche con un tasso di violazione procedurale
dello 0.2%. Volendo determinare la probabilità che avendo estratto una pratica errata
questa sia stata emessa dalla Dott.ssa Rita, definiti i due eventi
A = {la pratica e` stata emessa dalla Dott.ssa Rita}
B = {la pratica presenta violazioni procedurali}
traduciamo i dati in termini di probabilità, cioè P(A) = 0.7 , P(B) = 0.0015 e

che P(B|A) = 0.002, e valutiamo la probabilità di A condizionato a B utilizzando
lequazione (11.3) per cui
P(A|B) = P(A)
0.002
P(B|A)
= 0.7
= 0.933
P(B)
0.0015
Avendo estratto una pratica che presenta violazione procedurale, potremmo attenderci
con una certezza del 93.3% che essa sia stati emessa dalla Dott.ssa Rita.
285
Il concetto di probabilità condizionata, oltre che consentire la soluzione di problemi quali quelli descritti negli esempi precedenti, può essere di grande utilità nel determinare
particolari relazioni tra due eventi.
Confrontando la probabilità dellevento A con quella di A condizionato allevento B sarà
possibile determinare se linformazione parziale circa lesito dellesperimento influisca
sulla probabilità dellevento di interesse A facendone aumentare o diminuire la probabilità.
Tuttavia può accadere che la P(A|B) sia uguale a P(A), cioè che la conoscenza del fatto
che B si sia verificato non modifichi la probabilità di A; diremo in questo caso che levento
A e` stocasticamente indipendente da B.
ESEMPIO 11.10
Consideriamo lestrazione del Lotto sulla ruota di Torino e definiti gli eventi
A = {il primo estratto e` minore o uguale a 10}
B = {il primo estratto e` minore o uguale a 20}

C = {il primo estratto e` maggiore di 20}
D = {il primo estratto e` pari }
calcoliamo alcune probabilità condizionate e le confrontiamo con quelle non condizionate.

P(A|B) =
P(A B)
P(A)
10/90
1
=
=
=
P(B)
P(B)
20/90
2
>
P(A) =
1
9
levento B ha influenza sullevento A nel senso che sapendo che B si e` verificato la

probabilità di A muta crescendo;
P(A|C) =
0
P(A C)
=
=
=0
P(C)
P(B)
70/90
<
P(A) =
1
9
levento C ha influenza sullevento A nel senso che sapendo che C si e` verificato la

probabilità di A muta e diventa nulla;
P(A|D) =
P(A D)
{2, 4, 6, 8, 10}
5/90
=
=
= 1/9
P(D)
P(D)
45/90
1
= P(A)
90
levento D non ha influenza sullevento A nel senso che sapendo che D si e` verificato
la probabilità di A non muta. Diremo che A e` stocasticamente indipendente da D.
286
In termini formali, diamo la definizione di indipendenza tra eventi come segue.

Definizione 11.4 (Indipendenza stocastica)
Qualunque siano gli eventi A, B A, con P[B] = 0, levento A risulta stocasticamente indipendente dallevento B se la probabilità condizionata di A dato B e` uguale alla
probabilità di A, in simboli
AB
P(A|B) = P(A)
!
Nella pratica, verificata lindipendenza dellevento A da B si suole dire che i due eventi
sono indipendenti; una tale affermazione e` giustificata dalla proprietà seguente.
Proprietà 11.10 Dati due eventi A, B A entrambi a probabilità non nulla, cioè tali
che P(A) = 0 e P(B) = 0 , se A e` stocasticamente indipendente da B allora anche B e`
stocasticamente inidpendente da A, in simboli
AB
BA
Dimostrazione: Se AB allora per definizione P [A|B] = P [A] sotto tale ipotesi la

dimostrazione consiste nel verificare che P [B|A] = P [B], utilizzando lequazione (11.3),
scambiando opportunamente in essa il ruolo di A con B, otteniamo la tesi, infatti
P(B|A) = P(B)
P(A)
P(A|B)
= P(B)
= P(B)
P(A)
P(A)
Lasciamo al lettore la verifica dellimplicazione inversa.
!
Una seconda proprietà, utile ai fini pratici della verifica di indipendenza stocastica, anchessa derivante direttamente dalla definizione e` la seguente:
Proprietà 11.11 (di fattorizzazione) Due eventi A, B A entrambi a probabilità non
nulla, cioè tali che P(A) = 0 e P(B) = 0 , sono stocasticamente indipendenti se e soltanto
se la probabilità della loro intersezione e` uguale al prodotto delle loro rispettive probabilità,
in simboli:
AB
P(A B) = P(A) P(B)
287
Dimostrazione: si tratta di dimostrare una doppia implicazione, iniziamo a verificare che

AB P(A B) = P(A) P(B) ricordando che A e` indipendente da B se e solo se
P(A|B) = P(A) per lintersezione si ha
P(A B) = P(A|B)P(B) = P(A) P(B)
quanto allimplicazione inversa, AB P(A B) = P(A) P(B), dalla definizione di
probabilità condizionata si ha
P(A|B) =
P(A B)
P(A) P(B)
=
= P(A)
P(B)
P(B)
!
ESEMPIO 11.11
Riprendiamo la situazione del rappresentante di utensili per macchine a controllo numerico dellesempio (11.8) e, facendo riferimento allinsieme dei possibili esiti già
descritto, definiamo gli eventi
A = {la seconda visita dà luogo ad una vendita} =
= {1 , 2 , 3 , 4 , 9 , 10 , 11 , 12 }
B = {la prima visita da luogo ad una vendita} =

= {1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 }.
Con lintento di verificare lindipendenza stocastica tra questi ultimi due eventi confrontiamo P(A) = 8/16 = 0.5 con la probabilità condizionata
P(A|B) =
P(A B)
P({1 , 2 , 3 , 4 })
4/16
=
=
= 0.5
P(B)
8/16
8/16
essendo P(A|B) = P(A) concludiamo che A e B sono stocasticamente indipendenti.

In altri termini possiamo concludere che linformazione circa lesito della prima visita
non induce a modificare la probabilità di vendita per la seconda visita. Lasciando al
Lettore la verifica numerica della proprietà (11.10) osserviamo che per questi due
eventi che sono indipendenti vale la proprietà (11.11), infatti
P(A B) = P({1 , 2 , 3 , 4 }) = 4/16 = 0.25
P(A) P(B) = 8/16 8/16 = 1/4 = 0.25
Concludiamo questa breve esposizione sulla dipendenza tra eventi fornendo in figura (11.1)
un quadro sintetico delle possibili relazioni intercorrenti tra le probabilità dellunione e
dellintersezione di due eventi A e B qualsiasi.
288
Figura 11.1 Schema riassuntivo
11.3.
T EOREMA DI BAYES
Come accennato in precedenza in certi casi e` possibile esprimere una probabilità condizionata in funzione della probabilità condizionata in senso inverso. Tali casi sono generalmente tutti quelli che soddisfano il Teorema di Bayes che sarà loggetto di questo
paragrafo.
Prima di procedere con lenunciato del teorema ne illustriamo lambito di applicazione con
un esempio.
ESEMPIO 11.12
Si pensi di essere stati sottoposti allesame sierologico per laccertamento del virus
HVD e che il referto sia stato positivo; prima di cadere nello sconforto sarebbe bene
preoccuparsi di valutare quanto sia attendibile il responso dellanalisi.
Gli esperti del settore affermano che, in Italia, un soggetto su 5000 e` affetto da AIDS
e che il test preposto allindividuazione del virus fornisce una risposta corretta nel
99% dei casi di soggetti malati e nel 95% dei casi di soggetti sani. Dal nostro punto
di vista siamo interessati a conoscere la probabilità di essere effettivamente malati
avendo ricevuto un esito positivo del test.
Pensando di modellizare tale situazione empirica si può definire lesperimento casuale
E = Si esegue il test per lAIDS su uno dei 56 milioni di cittadini italiani.
289
11.3. Teorema di Bayes
Se si considera lo stato di salute di ogni italiano (A = affetto da AIDS e A = non

affetto da AIDS) congiuntamente al possibile responso del test ( P = positivo al test
e N = negativo al test), linsieme dei possibili esiti può essere schematizzato come
, AN , AN
. Inoltre, se, come
un insieme di 56 milioni di stringhe del tipo AP , AP
di consueto, A = P() e P e` la misura di probabilità equiprobaile, risulta definito lo
spazio di probabilità (, A, P) associato allesperimento.
Definiti dunque gli eventi
M = {il soggetto e` affetto da AIDS}
S = {il soggetto non e` affetto da AIDS}
TM = {il test sul soggetto esaminato dà esito positivo}
TS = {il test sul soggetto esaminato dà esito negativo}
in base al parere degli esperti sappiamo che P(M ) = 1/5000 = 0.0002 da cui la
probabilità del suo complementare P(S) = 4999/5000 = 0.9998, sempre in base ai
dati forniti dagli esperti conosciamo le probabilità condizionate P(TM |M ) = 0.99 e
P(TM |S) = 0.05.
Volendo conoscere la probabilità che il soggetto sia malato avendo ricevuto un esito
positivo del test dobbiamo determinare la probabilità P(M |TM ).
A tal fine osserviamo inizialmente che levento TM può essere visto come lunione di
due sottoinsiemi disgiunti di , cioè TM = (TM M ) (TM S), dove TM M
e` levento che si verifica se il soggetto estratto e` affetto da AIDS e risulta positivo
al test e TM S e` levento che si verifica se il soggetto estratto non e` affetto da
AIDS e risulta positivo al test. Per il secondo assioma risulterà dunque P(TM ) =
P((TM M ) (TM S)) = P(TM M ) + P(TM S).
Tornardo ora alla probabilità P(M |TM ) applicando la definizione di probabilità condizionata e ricordando la relazione delle probabilità composte (11.2) si ha
P(TM |M ) P(M )
P(M TM )
=
=
P(TM )
P(TM M ) + P(TM S)
P(TM |M ) P(M )
=
=
P(TM |M ) P(M ) + P(TM |S) P(S)
0.99 0.0002
= 0.0039
=
0.99 0.0002 + 0.05 0.9998
P(M |TM ) =
Tale confortante risultato afferma che la probabilità di essere effettivamente malati

avendo ricevuto un esito positivo del test e` inferiore allo 0.4%.
Nellesempio precedente si e` espressa la probabilità condizionata P(M|TM ) in funzione delle probabilità semplici P(M) e P(S) e delle probabilità condizionate P(TM |M) e
290
P(TM |S) per cui levento TM da condizionante e` divenuto condizionato, ciò e` risultato
possibile poiche gli eventi M ed S costituiscono una partizione di .
La situazione descritta nellesempio e` un caso particolare del teorema di Bayes.
Teorema 11.1 (di Bayes)

Dati gli eventi A1 , A2 , . . . , An A costituenti una partizione di e dato un qualsiasi
evento B A, qualunque sia Ai , con i = 1, . . . n, si ha
P(B|Ai ) P(Ai )
P(Ai |B) = +n
j=1 P(B|Aj ) P(Aj )
(11.4)
Figura 11.2 Le ipotesi del teorema di Bayes
Dimostrazione: le ipotesi del teorema sono schematicamente illustrate in figura (11.2) che
consente di verificare visivamente come linsieme
!n B possa essere espresso come lunione
dei sottoinsiemi disgiunti (Aj B), cioè B = j=1 (Aj B) dove per qualsiasi i diverso da
291
11.3. Teorema di Bayes
j si ha (Ai B) (Aj B) = . La probabilità di B, per il secondo assioma,

+ sarà pertanto
data dalla somma delle probabilità degli eventi (Aj B), cioè P(B) = nj=1 P(Aj B).
Ciò premesso e ricordando che, qualunque sia j = 1, . . . n, P(Aj B) = P(B|Aj )P(Aj )
si ha dalla definizione di probabilità condizionata
P(Ai |B) =
P(B|Ai ) P(Ai )
P(B|Ai ) P(Ai )
P(Ai B)
= +n
= +n
P(B)
j=1 P(Aj B)
j=1 P(B|Aj ) P(Aj )
ESEMPIO 11.13
In questo esempio riportiamo unapplicazione, realistica ma non reale, del teorema
di Bayes che lo studente Acotto Giuliano ha presentato nella sua tesina di fine corso.
Egli ha ipotizzato che lo Stato argentino pianifichi la ristrutturazione del debito attraverso i seguenti tre piani di rimborso a restituzione del capitale in maniera graduale
con due possibili forme di rimborso delle cedole
piano A: rimborso in tre anni nelle percentuali 40%, 30%, 30% con pagamento
a cedole dimezzate per il 55% e pagamento senza cedole per il 45%;
piano B: rimborso in tre anni nelle percentuali 50%, 25%, 25% con pagamento
a cedole dimezzate per il 35% e pagamento senza cedole per il 65%;
piano C: rimborso in tre anni nelle percentuali 60%, 20%, 20% con pagamento
a cedole dimezzate per il 20% e pagamento senza cedole per lo 80%.
Supponendo che i ministri argentini propendano al 30% al 40% e al 30% per i piani
rispettivamente A, B e C, si vuole calcolare la probabilità che il rimborso del capitale
senza cedole avvenga attraverso il piano C. Definiti gli eventi:
A = {il rimborso avverrà secondo il piano A}
B = {il rimborso avverrà secondo il piano B}

C = {il rimborso avverrà secondo il piano C}
SC = {il rimborso avverrà con pagamento seza cedole}

sapendo che
P(A) = 0.3
P(B) = 0.4
P(SC|A) = 0.45
P(C) = 0.3
P(SC|B) = 0.65
P(SC|C) = 0.80
292
ci proponiamo di calcolare la P(C|SC) che, con il teorema di Bayes risulta:

P(C|SC) =
P(C SC)
=
P(SC)
P(SC|C) P(C)
=
P(SC|A) P(A) + P(SC|B) P(B) + P(SC|C) P(C)
0.80 0.3
=
= 0.378
0.45 0.3 + 0.65 0.4 + 0.80 0.3
=
Cos`, nellipotesi di Giuliano, lipotetico debitore argentino che sia certo di ottenere
un rimborso senza cedole si aspetta al 37.8% che questo venga effettuato con il piano
di pagamento a lui più vantaggioso C.
Si invita il Lettore a determinare, interpretare e confrontare le probabilità: P(B|SC),
P(A|SC), P(A|CC), P(B|CC) e P(C|CC) ponendo CC uguale allevento il rimborso avverrà con pagamento seza cedole.
A ben vedere, lespressione ottenuta a denominatore della formula di Bayes (11.4) per la
probibilità di un evento B ha valenza propria e costituisce la tesi del seguente teorema.
Teorema 11.2 (delle probabilità totali)
Dati gli eventi A1 , . . . , An A costituenti una partizione di e un qualsiasi evento B A
si ha
P(B) =
n
(
j=1
P(B|Aj ) P(Aj )
Dimostrazione: si rimanda alla dimostrazione del teorema di Bayes
ESEMPIO 11.14
Un commercialista del Collegio Sindacale di unazienda di produzione nelleffettuare
una circolarizzazione invia la lettera di controllo ai fornitori suddivisi in tre categorie
(piccoli, medi e grandi) basandosi sullammontare del loro fatturato annuo. Sapendo
che il 40% sono piccoli fornitori la cui risposta perverrà al 60%, che il 40% sono medi
fornitori la cui risposta perverrà al 20% e che la risposta dei grandi fornitori perviene
al 10%, il sindaco e` interessato a conoscere la probabilità di ottenere risposta per una
lettera di circolarizzazione inviata a un fornitore scelto a caso.
(11.5)
293
11.4. Prove ripetute
Come di consueto, modelliziamo la situazione definendo gli eventi

P = {il ricevente e` un piccolo fornitore}
M = {il ricevente e` un medio fornitore}
G = {il ricevente e` un grande fornitore}

R = {il ricevente risponde}
Il problema consiste nel determinare la P(R) sapendo che:

P(P ) = 0.4
P(M ) = 0.4
P(R|P ) = 0.6
P(G) = 0.2
P(R|M ) = 0.2
P(R|G) = 0.1
applicando applicando il teorema delle probabilità totali si ha immediatamente

P(R) = P(R|P ) P(P ) + P(R|M ) P(M ) + P(R|G) P(G) =
= 0.6 0.4 + 0.2 0.4 + 0.1 0.2 = 0.34
11.4.
P ROVE RIPETUTE
Può capitare a volte di dover affrontare situazioni nelle quali linteresse e` rivolto allesito
di ripetizioni successive di uno stesso esperimento casuale. Si pensi ancora una volta al
gioco del Lotto nel quale la sequenza dei cinque estratti di una Ruota e` uno dei possibili
esiti dellesperimento che consiste nellestrarre per cinque volte consecutive una pallina
numerata da unurna. Per descrivere e modellizzare esperimenti che consistono in prove
ripetute ci serviamo degli esempi semplici ed intuitivi di estrazioni casuali di palline da
unurna. Molti casi reali di prove ripetute sono riconducibili a modelli di estrazione dallurna, si pensi ad esempio al sorteggio di nominativi da un database, allestrazione casuale
di pezzi prodotti da un processo produttivo o a quella di fatture emesse da un ufficio contabile ed altri casi ancora simili a quello descritto nellesempio (11.8) degli appuntamenti
del rappresentante.
Consideriamo dunque unurna composta da m = 4 palline indistinguibili al tatto e numerate da uno a 4 e definiamo due esperimenti casuali
E1 = estrazione successiva di due palline rimettendo la prima nellurna prima di
estrarre la seconda, diremo estrazione con rimessa;
E2 = estrazione successiva di due palline senza rimettere la prima nellurna prima di
estrarre la seconda, diremo estrazione senza rimessa.
294
A ben vedere si tratta in entrambi i casi dellesperimento E = estrazione di una pallina da

unurna ripetuto due volte. Tuttavia se nel caso di estrazione con rimessa lesperimento
E viene ripetuto le due volte nelle stesse condizioni, nel caso di estrazione senza rimessa, essendo il contenuto dellurna modificato alla seconda estrazione, lesperimeno E alla
seconda ripetizione e` soggetto a condizioni differenti.
Il primo obiettivo che ci poniamo e` , come di consueto, quello di individuare nei due casi
lo spazio probabilizzabile.
La prima sostanziale differenza che tra i due casi si ha nei loro rispettivi insiemi dei possibili esiti i cui elementi, pur essendo per entrambi coppie di possibili esiti dellesperimento
E, differiranno in numerosità. Posto = {1 , 2 , 3 , 4 } linsieme dei possibili esiti dellesperimento E, nel quale sottointendiamo che lindice corrispondente a ciascun evento
elementare corrisponde al numero impresso sulla pallina, linsieme di possibili esiti di E1
sarà dato dal prodotto cartesiano di con sestesso, cioè 1 = , mentre quello dellesperimento senza rimessa E2 non contiene le coppie del tipo (i ; i ), per ogni i = 1, . . . , 4,
e sarà pertanto 2 = {(i ; i )}i=1,...,4 . Schematicamente possiamo visualizzare gli
elementi dei due insiemi ora definiti utilizzando le tabelle seguenti dove i punitini indicano
la presenza dellevento nellinsieme:
2
3
4
1 1

1
2 1
2
3
4

1
Scegliendo quale algebra linsieme delle parti dellinsieme dei possibili esiti avremo nei
due casi A1 = P(1 ), A2 = P(2 ).
Per associare una misura di probabilità, diciamo P1 e P2 , ai rispettivi spazi probabilizzabili
(1 , A1 ) e (2 , A2 ), procediamo come di consueto ad attribuire la probabilità agli eventi
elementari considerando che gli esperimenti consistono in prove ripetute dellesperimento E al quale e` associato lo spazio probabilizzato (, A, P), con P misura di probabilità
qualunque per cui, per ogni i = 1, . . . , 4, P(i ) = pi .
Il caso dellesperimento E1 e` comunemente detto di prove ripetute indipendenti proprio
perche, come abbiamo già osservato, esso consiste nella successiva ripetizione dellesperimento E nelle stesse condizioni. Per ciascuna coppia del suo insieme dei possibili esiti definiamo la probabilità come il prodotto delle probabilità degli elementi di che la
compongono, in altri termini, per ogni i, j = 1, . . . , 4 sia
P1 ((i ; j )) = P(i ) P(j ) = pi pj
(11.6)
295
Si osservi che definire la misura di probabilità in tal modo fa s` che questa soddisfi la
relazione P1 (1 ) = 1, infatti
%4 4
'
4 (
4
4 (
4
&&
(
(
P1 (1 ) = P1
(i ; j ) =
P1 (i ; j ) =
P(i ) P(j ) =
i=1 j=1
4
(
i=1
P(i )
4
(
j=1
i=1 j=1
P(j ) =
4
(
i=1
i=1 j=1
P(i ) P() = P() P() = 1.
Avendo cos` definito lo spazio probabilizzabile (1 , A1 , P1 ) siamo in grado di attribuire

la probabilità a qualsiasi evento dellalgebra come somma delle probabilità degli eventi
elementari che lo compongono.
A titolo esemplificativo calcoliamo la probabilità dellevento A1 = le palline estratte
presentano un numero pari, cioè
P1 (A1 ) = P1 ((2 ; 4 ), (4; 2 )) = P1 ((2 ; 4)) + P1 ((4 ; 2 )) =
= P(2 ) P(4 ) + P(4 ) P(2 ) = 2 p2 p4
Prima di trattare il caso di prove ripetute non indipendenti vediamo che quanto fin qui
esposto per il caso particolare di due prove ripetute indipendenti dellesperimento E1 può
essere esteso a m prove ripetute indipendenti.
Diremo infatti che un esperimento che consista nel ripetere m volte sotto le medisime
condizioni un dato esperimento E a cui sia associato lo spazio probabilizzato (, A, P) dà
luogo ad un esperimento di prove ripetute indipendenti e ad esso verra associato lo spazio
probabilizzato ( , A = P( ), P ), dove e` il prodotto cartesiano di con se stesso
m volte e la probabilità di una qualsiasi m-upla che definisce un evento elementare di e`
data dal prodotto delle probabilità definite per gli eventi elementari dellesperimento E Ad
esempio, per la m-upla composta dai primi m eventi elementari di , si ha
P ((1 ; . . . ; m )) = P(1 ) P(2 ) . . . P(m )
ESEMPIO 11.15
Supponiamo di estrarre casualmente e con rimessa m = 3 palline indistinguibili al
tatto da unurna composta da 3 palline rosse, 2 nere e 5 bianche e di essere interessati
a conoscere la probabilità che le palline estratte siano tutte rosse.
Si tratta della ripetizione in condizioni identiche dellesperimento di estrazione di
una pallina il cui insieme dei possibili esiti e` formato da 10 eventi elementari, cioè
= {R1, R2, R3, N 1, N 2, B1, B2, B3, B4, B5}. Poiche le estrazioni avvengono
296
casualmente e le palline sono indistinguibili al tatto operiamo nel consueto spazio di

probabilità equiprobabile, per cui ogni pallina ha probabilità 1/10 di essere estratta.
Linsieme dei possibili esiti dellesperimento ripetuto e` formato in questo caso da
103 = 1000 elementi, le disposizioni con ripetizione di 10 oggetti a gruppi di 3, che
per semplicità indicheremo come sequenze di lunghezza 3 dei simboli sopra utilizzati.
La probabilità di interesse risulta essere quella dellevento A costituito dalle possibili
sequenze di palline tutte rosse, cioè dalle 33 = 27 disposizioni con ripetizione delle 3
palline rosse dellurna a gruppi di tre
A = {R1R1R1, R1R1R2, R1R1R3, . . . , R3R3R3} = {RiRjRl}i,j,l=1,...,3
Poiche, qualunque siano i, j, l = 1, . . . , n, levento elementare RiRjRl ha probabilità
1
P (RiRjRl) = P(Ri) P(Rj) P(Rl) = 3 , la probabilità cercata risulta
10
27
P (A) = 27 P (RiRjRl) = 3 = 0.027
10
Osserviamo che, essendo partiti dallo spazio equiprobabile, lo spazio probabilizzato
per lesperimento ripetuto risulta anchesso equiprobabile nel senso che la probabilità
P di ciscun evento elementare di cos` determinata a partire dal prodotto delle
probabilità P degli eventi elementari di che compaiono nella sequenza coincide con
1/N u( ).
Essendo interessati solamente allevento le tre palline sono rosse indipendentemente
dallordine in cui esse compaiono, si potrebbe definire semplicemente linsieme dei
possibili esiti = {R, N, B} ed associare agli eventi elementari le probabilità rispettivamnete P(R) = 3/10, P(N ) = 2/10 e P(B) = 5/10. Linsieme dei possibili esiti
dellesperimento ripetuto essendo il prodotto cartesiano di per se stesso tre volte,
sarebbe formato da 33 sequenze di lunghezza tre dei simboli R, N e B. Levento A
di interesse sarebbe costituito dalla sola unica sequenza RRR e avrebbe, ovviamente,
probabilità
27
3 3 3
= 3 = 0.027
10 10 10
10
In questo caso gli eventi elementari di non risultano avere la medesima probabilità, essendo partiti da uno spazio non equiprobabile, si invita il Lettore a verificarlo
numericamente determinando la probabilità dellevento N RN .
Questo secondo modo di modellizzare lesperimento ripetuto riduce la complessità
del calcolo della probabilità di interesse, tuttavia semplificando linsieme dei possibili
esiti , e di conseguenza lalgebra ad esso associabile, riduce gli eventi che possono essere probabilizzati. Non e` possibile, ad esempio, determinare la probabilità
di estrarre per tre volte la pallina R1 cos` come si può fare con il primo modo di
procedere.
P (A) = P (RRR) = P(R) P(R) P(R) =
297
Quando le prove consistono nel ripetere in condizioni identiche un esperimento che ha

solo due possibili esiti si parla di prove ripetute bernoulliane. Molti dei casi reali di prove
ripetute bernoulliane sono paragonabili allesperimento del lancio ripetuto di una moneta
che ha come come eventi elementari le sequenze dei due posibili esiti Testa e Croce.
ESEMPIO 11.16
Un esperimento casuale consiste nel ripetere m = 3 volte il lancio di una moneta.
Linteresse e` quello di conoscere la probabilità di ottenere due teste nelle due situazioni di moneta regolare e di moneta truccata in modo che la Testa abbia probabilità
pari al doppio di quella croce.
Figura 11.3 Diagramma ad albero per il lancio di tre monete
A ben vedere, essendo linsieme dei possibili esiti = {T, C} possiamo ricondurci
al modello di unurna contenente due palline e procedere come nellesempio precedente costruendo come prodotto cartesiano di con se stesso 3 volte e attribuendo la probabilità alle sequenze come prodotto delle probabilità degli elementi che in
esse compaiono che ovviamente dipenderà dal fatto che la moneta sia regolare o
truccata.
In figura (11.3) e` riprodotto il diagramma ad albero che fornisce in modo schematico
le 23 = 8 sequenze dellinsieme dei possibili esiti ; l evento di intersse consiste
nel sottoinsieme A = {T T C, T CT, CT T }.
298
Nel caso di moneta regolare lo spazio (, A = P(), P) risulta equiprobabile, per

cui P(T ) = P(C) = 1/2, pertanto avremo
P (A) = P (T T C) + P (T CT ) + P (CT T ) =
= P(T ) P(T ) P(C) + P(T ) P(C) P(T ) + P(C) P(T ) P(C) =
1
3
1 1 1
=3 =3 3 =
2 2 2
2
8
Nel caso di moneta truccata, attribuiamo la probabilità agli eventi elementari di ,
sapendo che P(T ) = 2 P(C) = 2 p, imponendo la condizione di normalizzazione
otteniamo
P() = P(T ) + P(C) = 2 p + p = 1 p = 1/3
P(T ) = 2/3
P(C) = 1/3
e la probabilità dellevento A diviene

P (A) = P (T T C) + P (T CT ) + P (CT T ) =
= P(T ) P(T ) P(C) + P(T ) P(C) P(T ) + P(C) P(T ) P(C) =
22 1
4
2 2 1 2 1 2 1 2 2
+ + =3 2 =
3 3 3 3 3 3 3 3 3
3 3
9
Si invita il Lettore a determinare la probabilità di tutti gli eventi elementari di nelle
due situazioni.
Si pensi che un esperimento reale consista nellestrarre casualmente con rimessa 3
pezzi prodotti da una processo di produzione e di verificare se essi sono difettosi. Si
tratta di 3 prove bernoulliane che possiamo modellizzare con il lancio ripetuto di una
moneta. Se definiamo Successo il fatto che un pezzo sia difettoso e nel lancio di
una moneta attribuiamo il Successo dellesperimento allevento Testa, la probabilità
dellevento A calcolata in precedenza sarà la probabilità che nei tre pezzi estratti ve
ne siano due difettosi. Per procedere operativamente al calcolo, conoscendo il tasso di
difettosità del processo di produzione, si dovrà porre P(T ) = e P (C) = 1 .
=
Riprendiamo ora la situazione descritta allinizio di questo paragrafo di prove ripertute

non indipendenti dellesperimento casuale E2 = estrazione successiva di due palline senza
rimettere la prima nellurna prima di estrarre la seconda. Per associare la misura di probabilità P2 , allo spazio probabilizzabile (2 , A2 ), procediamo come di consueto ad attribuire
la probabilità agli eventi elementari considerando che gli esperimenti consistono in prove
ripetute non indipendenti. Per ciascuna coppia dellinsieme dei possibili esiti 2 definiamo
la probabilità
pj
P2 ((i ; j )) = P(i ) P(j |i ) = pi
(11.7)
1 pi
299
Anche in questo caso la misura di probabilità soddisfa la relazione P2 (2 ) = 1, infatti

%4 4
'
&&
&
P2 (2 ) = P2
(i ; j ) (i ; i ) =
i=1 j=1
4 (
4
(
i=1 j=1
4 (
4
(
i=1 j=1
4 (
4
(
i=1 j=1
4
(
i=1
4
(
i=1
i=1
P2 (i ; j )
4
(
P2 (i ; j ) =
i=1
P(i ) P(j |i )
4
pi
4
(
i=1
P(i ) P(i |i ) =
(
pi
pj
pi
=
1 pi
1
p
i
i=1
4
4
(
pi (
pi
pj
pi
=
1 pi j=1
1 pi
i=1
4
(
pi
(1 pi ) =
pi = 1.
1 pi
i=1
Generalizzare a m prove ripetute dipendenti, seppur concettualmente immediato, risulta

piuttosto simbolicamente tedioso ci limitiamo ad osservare che nel caso di tre estrazioni
senza rimessa la (11.7) diviene
P ((i ; j ; l )) = P(i ) P(j |i ) P(l |i j ) =
pj
pl
= pi
.
1 pi 1 pi pj
ESEMPIO 11.17
Supponiamo di estrarre casualmente senza rimessa m = 3 palline indistinguibili al
tatto da unurna composta da 3 palline rosse, 2 nere e 5 bianche e di essere interessati
a conoscere la probabilità che le palline estratte siano tutte rosse.
Si tratta della ripetizione in dellesperimento di estrazione di una pallina con insieme
dei possibili esiti = {R1, R2, R3, N 1, N 2, B1, B2, B3, B4, B5}. Poiche le estrazioni avvengono casualmente e le palline sono inidstinguibili al tatto operiamo nel
consueto spazio di probabilità equiprobabile, per cui ogni pallina ha probabilità 1/10
di essere estratta.
Linsieme dei possibili esiti dellesperimento ripetuto e` formato in questo caso da
10 9 8 = 720 elementi, le disposizioni senza ripetizione di 10 oggetti a gruppi di 3.
300
La probabilità di interesse risulta essere quella dellevento A costituito dalle possibili

sequenze di palline tutte rosse, cioè dalle 3 ! = 6 permutazioni di tre elementi
A = {R1R3R2, R1R2R3, R2R1R3, R3R1R2, R2R3R1, R3R2R1}
Pochie, qualunque siano i, j, l = 1, 2, 3, levento elementare RiRjRl ha probabilità
P(Rj)
P(Rj)
=
1 P(Ri) 1 P(Ri) P(Rj)
pl
pj
= pi
=
1 pj 1 pi pj
1
1/10
1/10
1 1 1
1
=
=
=
10 1 1/10 1 1/10 1/10
10 9 8
720
P (RiRjRl) = P(Ri)
pertanto, la probabilità cercata risulta

P (A) = 6
1 1 1
6
=
= 0.0083
10 9 8
720
11.5.
E SERCIZI
ESERCIZIO 11.1
Si consideri quale esperimento casuale il lancio di un dado a sei facce.
In questo caso e` evidentemente = {1, 2, 3, 4, 5, 6}. Posto:
D1 = {1} D2 = {2, 3} D3 = {4, 5, 6}
,
costruire le algebre generate dalle partizioni C, C e {D1 , D2 , D3 }.
C = {1, 3, 5}
C = {2, 4, 6}
ESERCIZIO 11.2
Con riferimento al gioco della roulette, estrazione di un numero intero compreso tra 0
e 36, ed agli eventi
E1 = {esce un # pari}
E2 = {esce un # dispari}
si scrivano, in termini di eventi elementari, gli eventi della minima algebra che contiene gli eventi E1 e E2 .
301
11.5. Esercizi
ESERCIZIO 11.3
Nel gioco del Superenalotto vengono estratti sei numeri compresi tra 1 e 90 ed un
settimo numero detto jolly. Si scommette scegliendo n numeri compresi tra 1 e 90 e si
totalizza 6 se si indovinano i 6 numeri, 5+1 se si indovinano 5 dei sei numeri e il jolly.
Calcolare la probabilità di totalizzare 6 scommettendo su 6 numeri, di totalizzare 5+1
scommettendo su 6 numeri, di totalizzare 6 scommettendo su 12 numeri.
ESERCIZIO 11.4
Si immagini che un esperimento casuale consista nellestrazione, velatisi oculis, di
una pallina da unurna composta da dieci palline indistinguibili al tatto e numerate
progressivamente a partire da 1. Definiti gli eventi:
A = {il # impresso sulla pallina estratta e` pari}
B = {il # impresso sulla pallina estratta e` non minore di 9}
calcolare la probabilità degli eventi A B e A B.
ESERCIZIO 11.5
Da un comune mazzo di 52 carte da gioco (carte: 1, 2, ..., 10, J, Q, K articolate su 4
semi) viene estratta casualmente una carta. Definiti gli eventi:
A = {la carta estratta e` numerica pari}
B = {la carta estratta e` di picche}
C = {la carta estratta e` una figura}

calcolare la probabilità degli eventi A (B C) e A (B C).
ESERCIZIO 11.6
Supponiamo che linsieme dei possibili esiti asscociato ad un particolare esperimento casuale sia costituito da 20 elementi. Posto che che ciascun evento elementare
i (i = !
1, 2, . . . , 20) abbia probabilità doppia di verificarsi rispetto al precedente,
calcolare P( 5i=1 i ).
302
ESERCIZIO 11.7
Supponiamo che in un lotto costituito da 10 unità di prodotto vi siano 7 unità conformi ed 3 difettose. Da tale lotto vengono estratti casualmente ed in blocco 4
elementi. Calcolare la probabilità di osservare esattamente 2 elementi difettosi.
ESERCIZIO 11.8
Una ditta commissiona uno spot pubblicitario ad una televisione locale. In seguito,
per ogni cliente, viene rilevato se ha visto lo spot e se ha effettuato lacquisto. Si
indichi con B levento il cliente ha visto lo spot e con A levento il cliente ha effettuato
lacquisto. Essendo noto che in base alle rilevazioni e` risultato P(A) = 0.6, P(B|A) =
= 0.2, e` lecito affermare che la pubblicità e` risultata efficace?
0.7 e P(B|A)
ESERCIZIO 11.9
Si consideri unurna contenente una pallina bianca e tre rosse. Si lancia un dado con
sei facce numerate progressivamente da 1 a 6 e si ottiene il risultato n. A questo
punto si estraggono, casualemente e con rimessa, n palline dallurna. Calcolare la
probabilità che esse presentino colore alterno.
ESERCIZIO 11.10
Un esperimento casuale prevede il lancio di un dado regolare e, a seconda del numero impresso sulla faccia apparsa, limmissione di altrettante palline Rosse in unurna
inizialmente contenentene 5 Gialle, 5 Verdi e 2 Rosse. Da tale urna si estrae, successivamente, una pallina. Calcolare la probabilità che la pallina estratta non sia di colore
Rosso.
Calcolare, infine, la probabilità che, estratta una pallina Rossa, il numerso impresso
sulla faccia apparsa del dado fosse dispari.
303
11.5. Esercizi
ESERCIZIO 11.11
Siano A e B due eventi a probabilità non nulla definiti su un medesimo spazio di
= 0.7, P(A B)
= 0.5 e P(A B) = 0.1, calcolare
probabilità. Posto che P(A)
P(B) e P(A|B)
ESERCIZIO 11.12
Un esperimento prevede lestrazione casuale di una pallina da unurna composta da 6
palline Gialle numerate da 1 a 6 e da 4 palline Nere numerate da 3 a 6. Definiti gli
eventi:
A = {la pallina estratta e` Gialla}
B = {il # impresso sulla pallina estratta e` dispari}
C = {il # impresso sulla pallina estratta e` maggiore di 4}
e indicare se gli eventi A e B possono considerarsi

calcolare P(B|A) e P(C|B)
stocasticamente indipendenti.
ESERCIZIO 11.13
Da unurna, contenente tre monete, indistinguibili al tatto, di cui due regolari ed una
con Testa su entrambe le facce, si estrae casualmente una moneta e la si lancia.
Calcolare la probabilità di avere estratto la moneta truccata avendo osservato, a
lancio effettuato, Testa.
ESERCIZIO 11.14
Quale esperimento casuale si consideri il lancio di una moneta, supposta regolare,
ripetuto quattro volte. Definiti gli eventi:
A = {dal lancio si ottengono tante Teste quante Croci}
B = {dal lancio si ottengono almeno due Teste}
C = {dal lancio si ottengono non più di tre Croci}
e indicare se gli eventi A e C possono considerarsi

calcolare P(B|A) e P(C|B)
304
ESERCIZIO 11.15
Si immagini che un gioco consista nel lancio di un dado regolare e che questo abbia
termine non appena compare, per la prima volta, la faccia con impressovi il numero
sei. Calcolare la probabilità che il gioco abbia termine al primo lancio, al secondo
lancio ed al ventesimo lancio.
C APITOLO 12
VARIABILI CASUALI
In questo capitolo verrà introdotto il concetto di variabile casuale e si distinguerà

tra variabili casuali di tipo discreto e di tipo continuo. Verranno presentati i concetti di valore atteso e di momenti di una variabile casuale, nonche quello di funzione generatrice dei momenti di una variabile casuale che giuoca un ruolo fondamentale nello studio delle stesse. Un ultimo paragrafo sarà dedicato allo studio
di funzioni di una variabile casuale.
12.1.
D EFINIZIONE DI VARIABILE CASUALE
Una delle nozioni fondamentali della teoria delle probabilità e` senza dubbio quella di variabile casuale o variabile aleatoria, che possiamo definire come una grandezza che, a fronte
di un esperimento casuale, può assumere uno qualsiasi dei suoi valori possibili in modo
non prevedibile a priori. A grandi linee, una variabile casuale e` quindi una funzione a
valori reali definita sullo spazio di probabilità associato ad un dato esperimento casuale.
Prima di fornire una definizione rigorosa di variabile casuale, ci pare utile presentare un
semplice esempio introduttivo a tale nuovo concetto.
ESEMPIO 12.1
Sia E un esperimento casuale cos` definito: si lancia una moneta due volte e si prende nota della faccia esposta verso lalto ad ogni lancio. Lo spazio di probabilità
(, A, P) associato a tale esperimento casuale sarà costituito dallinsieme dei possibili
esiti = {1 = T1 T2 , 2 = T1 C2 , 3 = C1 T2 , 4 = C1 C2 }, da unalgebra di eventi
A definita su , eventualmente A = P(), e dalla misura di probabilità ad esempio
supponendo equiprobabili gli eventi elementari, P(i ) = 1/4, con i = 1, . . . 4.
Si supponga, ora, che allesperimento casuale E sia altres` associata la seguente scommessa tra un giocatore ed il Banco:
Capitolo 12. Variabili casuali
306
il giocatore vince 10 euro nel caso si verifichi levento 1 = T1 T2 ,

il giocatore perde 15 euro nel caso si verifichi levento 2 = C1 C2 ,
il giocatore non vince e non perde alcuna somma nei restanti casi.
A fronte di tale situazione, si rende necessario introdurre uno strumento che permetta
di trattare tale aspetto monetario. Intuitivamente possiamo associare a ciascuno degli
eventi elementari i un numero che indica lammontare di denaro che verrà incassato
o sborsato in corrispondenza del verificarsi di quellevento. Nel caso in questione, si
avrebbe
1 = T1 T2 +10
2 = T1 C2
3 = C1 T2
0
0
4 = C1 C2 15
Ciò facendo, abbiamo definito unapplicazione, che possiamo indicare con X, che ad
ogni evento elementare i dellinsieme associa uno ed un solo un numero reale
X(i ) = xi .
Data la natura casuale dellesperimento descritto nellesempio proposto, i valori che possono essere assunti dallapplicazione X sono anchessi numeri aleatori; X viene allora detta
variabile casuale, nel seguito indicata semplicemente con v.c., o variabile aleatoria.
Il codominio R di tale applicazione costituisce un nuovo spazio dei possibili esiti che
riassume attraverso X lo spazio associato allesperimento casuale E.
I valori distinti assunti dalla variabile casuale, ossia gli elementi del codominio dellapplicazione X, prendono il nome di realizzazioni o determinazioni della v.c. e vengono
indicate con la corrispondente lettera minuscola x, eventualmente indicizzata.
Perche si possa definire una misura di probabilità sul nuovo spazio dei possibili esiti,
occorre associare ad esso unalgebra di eventi.
Dal momento che la v.c X individua una corrispondenza tra linsieme dei possibili esiti
ed un sottoinsieme di R, al più coincidente con R stesso, lalgebra associata allinsieme
dei possibili esiti individuato da X sarà per noi lalgebra di Borel per la quale ricordiamo
che, dati a, b due numeri reali tali che a < b, vengono definiti eventi gli intervalli del
tipo B =]a; b] e, per definizione, sono elementi dellalgebra tutte le unioni, intersezioni e
complementi degli intervalli come B.
In sostanza una variabile casuale permette di trasportare la modellizzazione di un esperimento casuale E in un nuovo ambiente.
307
12.1. Definizione di variabile casuale
ESEMPIO 12.2
Con riferimento allesperimento casuale di cui allesempio (12.1), il codominio della variabile casuale X e` costituito da un sottoinsieme di R e più precisamente esso
corrisponde allinsieme {15; 0; 10}.
In tale ottica ha pertanto senso definire gli eventi:
la somma incassata e` pari a 10 euro, cioè lintervallo degenere [10];
la somma incassata non supera i 15 euro, cioè lintervallo aperto ] ; 15];
la somma incassata e` superiore o al più uguale a 0 euro, cioè lintervallo chiuso

a destra ed aperto a sinistra [0; +[;
la somma incassata e` compresa tra 0 e 20 euro, estremi inclusi, cioè lintervallo
chiuso [0; 20].
Figura 12.1 Variabile casuale X.
Ciò premesso (cfr. figura 12.1), volendo formalizzare quanto sopra, valga la seguente
definizione di variabile casuale.
308
Definizione 12.1 (Variabile casuale)

Dato lo spazio probabilizzato (, A, P) e lo spazio probabilizzabile (R, BR ), ove R e` linsieme dei numeri reali e BR e` lalgebra di Borel definita su R, si dice variabile casuale
unapplicazione
X :R
che ad ogni evento elementare , associa un numero reale X() = x, chiamato realizzazione, o determinazione, della variabile casuale e tale che valga la seguente proprietà
(detta di misurabilità):
B BR ,
X 1 (B) = A A,
dove X 1 (B) = { : X( ) B}.
Siamo ora in grado di munire il nuovo spazio (R, BR ) della misura di probabilità PX che
e` una misura di probabilità indotta dallapplicazione X, strettamente legata alla misura di
probabilità P definita sullo spazio (, A).
Definizione 12.2 (Spazio probabilizzato generato da una v.c.)
Lo spazio probabilizzato generato dalla variabile casuale X e` costituito dalla terna (R, BR , PX ),
ove B BR
PX (B) = P(X 1 (B)) = P({ : X( ) B})
ESEMPIO 12.3
Riprendendo lesempio del gioco descritto allinizio di questo paragrafo, la misura di
probabilità indotta da P sarà interamente determinata a partire dalla conoscenza della
PX in corrispondenza ai punti 15 , 0 , 10, cioè
PX (15) = P({ : X( ) = 15}) = P(4 ) = 1/4
PX (0) = P({ : X( ) = 0}) = P(2 3 ) = 1/2
PX (10) = P({ : X( ) = 10}) = P(1 ) = 1/4
Ovviamente, data la misurabilità di X, possiamo determinare la probabilità per qualsiasi altro evento di interesse contenuto in BR . Ad esempio, volendo attribuire una
probabilità allevento la vincita non supera 5 euro, si scriverà
PX ( ] ; 5] ) = P({ : X( ) 5}) = P(2 3 4 ) = 3/4.
309
Con la definizione di funzione di ripartizione introduciamo ora uno strumento analitico che
permette di valutare agevolmente la probabilità che una variabile casuale assuma valori non
superiori ad una data soglia.
Definizione 12.3 (Funzione di ripartizione)
Data la variabile casuale X e lo spazio di probabilità da essa generato (R, BR , PX ), si
definisce funzione di ripartizione della v.c. X lapplicazione FX : R R tale che x R
FX (x) = PX (] ; x]) = P({ : X( ) x})
(12.1)
!
Nel seguito, per non appesantire eccessivamente la notazione, con (X x) indicheremo

linsieme { : X( ) x} e pertanto, ogniqualvolta non sorga ambiguità, scriveremo
P(X x) in luogo di P({ : X( ) x}).
La funzione di ripartizione (brevemente f.d.r) di una generica v.c. X esprime, per ogni
valore x dellasse reale, la massa di probabilità cumulata nellintervallo ] , x].
Essa inoltre e` una funzione:
a variazione limitata in [0; 1], valendo i limiti lim FX (x) = 0 e lim FX (x) = 1;
x
continua a destra, infatti lim+ FX (x + h) = FX (x);

h0
. /
. /
monotona non decrescente, infatti FX x FX x , con x < x .
Inoltre, per ogni a, b R con a < b, la misura di probabilità indotta PX e la funzione di

ripartizione sono legate in modo univoco dalla relazione:
PX ( ]a; b] ) = PX ( ] ; b] ) PX (] ; a]) = FX (b) FX (a)
ESEMPIO 12.4
Con riferimento allesempio (12.1), la funzione di ripartizione della variabile casuale
X risulta essere definita come segue
0 se x < 15
1/4 se 15 x < 0
FX (x) =
3/4 se 0 x < 10
1 se x 10
In questo caso la funzione di ripartizione assume un andamento a scalini e presenta
dei salti in corrispondenza ai punti di discontinuità 15, 0, 10 (cfr. figura 12.2).
310
12.1.1
VARIABILI
CASUALI DISCRETE
La natura della funzione di ripartizione ci permette di classificare le variabili casuali distinguendo tra v.c. discrete e v.c. continue.
Definizione 12.4 (Variabile casuale discreta)
La v.c. X e` detta discreta se la sua funzione di ripartizione e` continua a tratti e possiede
punti di discontinuità in corrispondenza alle sue determinazioni xi , con i = 1, 2, . . ..
!
La probabilità p(xi ) = P(X = xi ), che esprime la probabilità che la variabile casuale in
esame X assuma una qualsiasi delle sue determinazioni xi , si ottiene come limite per h che
tende a zero della differenza tra FX (xi ) e FX (xi h), cioè, per qualsiasi i = 1, 2, . . .
lim [FX (xi ) FX (xi h)] = P(X = xi ) = p(xi )
h0+
Per una v.c. discreta e` possibile definire la funzione di distribuzione di probabilità p(x), la
funzione cioè che ad ogni determinazione xi associa la probabilità p(xi ) che la variabile X
assuma tale valore ed e` nulla altrove. A tal proposito valga la definizione che segue.
Definizione 12.5 (Funzione di distribuzione di probabilità)
Data una v.c. X discreta, posto {x1 , x2 , . . .} linsieme delle sue possibili determinazioni,
si dice funzione di distribuzione di probabilità la funzione p : R [0; 1] tale che per
qualsiasi i = 1, 2, . . . sia p(xi ) = P (X = xi ) ed e` nulla per ogni x diverso da xi .
!
Per la relazione intercorrente tra funzione di distribuzione di probabilità (f.d.p.) e funzione di ripartizione, risulta immediato verificare che, nota la prima e` possibile ricavare la
seconda e viceversa. Infatti, qualunque sia x R vale luguaglianza
(
PX ( ] ; x] ) = FX (x) =
p(xi )
xi x
Inoltre, dalla definizione stessa di funzione di distribuzione di probabilità discende lovvia

equivalenza, per qualsiasi i = 1, 2, . . .
(
p(xi ) = 1
(12.2)
i
Nel seguito adotteremo la forma compatta

4
5
xi
X
p(xi ) i=1,2,...
(12.3)
311
per indicare le determinazioni della variabile casuale X e i valori assunti dalla funzione di
distribuzione di probabilità in corrispondenza ad esse, cioè p(xi ) = P(X = xi ). In altri
termini, con la scrittura proposta in (12.3) indicheremo la distribuzione di probabilità della
variabile casuale discreta X.
ESEMPIO 12.5
Tornando nuovamente allesempio del gioco delle monete, introdotto allesempio (12.1),
la distribuzione di probabilità della variabile casuale X che descrive il gioco risulta
essere
4
5
4
5
xi
15 0
10
X
=
1/4 1/2 1/4
p(xi ) i=1,2,3
+3
i=1 p(xi )
= 1 e ciò in accordo alla (12.2).
P(X x)
0.0
0.0
0.1
0.2
0.2
0.4
0.3
P(X = x)
0.6
0.4
0.8
0.5
1.0
0.6
con, ovviamente,
20
10
0
x
10
15
20
10
10
15
Figura 12.2 Funzioni di distribuzione di probabilità e di ripartizione, esempio 12.1.
La figura (12.2) riporta il grafico della funzione di distribuzione di probabilità nonche

quello della corrispondente funzione di ripartizione.
312
ESEMPIO 12.6
FX(3)
P(X x)
P(2 X 3)
0.4
0.2
P(X = x)
0.6
0.3
0.8
1.0
0.4
Si immagini di disporre di unurna contenente quattro palline indistinguibili al tatto

e numerate progressivamente a partire da 1 e che, di fronte al semplice esperimento
casuale estrazione di una pallina dallurna, si sia interessati alla probabiltà attinente,
ad esempio, allevento A : {il # impresso sulla pallina estratta e` il 2 o il 3}.
Se introduciamo la v.c. X = {# impresso sulla pallina estratta}, e` immediato osservare che tale v.c. ha dominio linsieme = {j = j}j=1,...,4 e codominio linsieme
degli interi {xi = i}i=1,...,4 .
0.0
0.0
0.2
0.1
FX(1)
3
x
Figura 12.3 Funzioni di distribuzione di probabilità e di ripartizione, esempio 12.6.

Supposto di lavorare sullo spazio equiprobabile, la v.c. X sarà caratterizzata da una
funzione di distribuzione di probabiltà costante, e la sua distribuzione di probabiltà
sarà
4
5
4
5 4
5
xi
i
1
2
3
4
X
=
=
1/4 1/4 1/4 1/4
p(xi ) i=1,2,3,4
1/4 i=1,2,3,4
Data lequivalenza tra levento A e levento {2 X 3}, ricordando il secondo
assioma, avremo
P(2 X 3) = P(X = 2 X = 3) = P(X = 2) + P(X = 3) =
1
2
313
Allo stesso risultato saremmo giunti se avessimo ragionato in termini di funzione di

ripartizione; infatti
1
3 1
=
4 4
2
La figura (12.3) riporta il grafico della funzione di distribuzione di probabilità nonche
quello della corrispondente funzione di ripartizione.
P(2 X 3) = P(X 3) P(X 1) = FX (3) FX (1) =
12.1.2
VARIABILI
CASUALI CONTINUE
Quando il codominio di una variabile casuale ha la potenza del continuo, ossia e` un sottoinsieme di R al più coincidente con R stesso, la massa di probabilità si distribuisce su di
esso e la funzione di ripartizione cresce in modo continuo, tra zero ed uno, al tendere di x
allinfinito; in tali casi si parla di v.c. continue.
Se esiste una funzione reale non negativa che descrive come si distribuisce su R la massa di
probabilità definita da PX , allora tale funzione, detta densità di probabilità, coincide, quasi
ovunque, con la derivata della funzione di riaprtizione e la variabile casuale che la ammette
e` detta assolutamente continua.
Definizione 12.6 (Variabile casuale continua)
La variabile casuale X viene detta assolutamente continua, o più semplicemente, continua,
se esiste una funzione fX : R R tale che per qualsiasi x R
6 x
FX (x) = PX ( ] , x] ) =
fX (t) dt
La funzione fX (x) e` detta funzione di densità di probabilità della v.c. X .
Se la v.c. X e` continua allora la funzione di ripartizione FX (x) e` derivabile e la sua

derivata coincide quasi ovunque con la funzione di densità di probabilità fX (x), cioè vale
la relazione
d FX (x)
fX (x) =
dx
Inoltre il legame intercorrente tra la funzione di ripartizione e la funzione di densità di
probabilità di una v.c. continua ci consente di affermare che per ogni coppia di valori
a, b R con a < b si ha
6 b
6 b
6 a
PX ( ]a; b] ) =
fX (x) d x =
fX (x) d x
fX (x) d x = FX (b) FX (a)
a
314
In altri termini, possiamo dire che larea sottesa alla funzione fX (x) in un intervallo ]a; b]
rappresenta la probabilità che la v.c. X assuma valori appartenenti allintervallo stesso.
Quando lintervallo viene esteso a tutto lasse reale si ha ovviamente, in accordo con
lassioma della norma
6 +
fX (x) dx = 1
(12.4)
condizione del tutto equivalente alla (12.2) proposta per il caso di v.c. discrete.
Si osservi per una v.c. continua risulta P(X = x) = 0. Per definizione, infatti
fX (x) =
d FX (x)
FX (x + h) FX (x)
= lim
h0
dx
h
per cui
h fX (x) FX (x + h) FX (x)
Ora, per h 0 si ha h fX (x) 0 e poiche FX (x + h) FX (x) FX (x) = P(X = x) si
ha P(X = x) = 0. Si osservi che quanto detto non implica che levento {X = x} sia un
evento impossibile, ma semplicemente che ad esso viene associata una probabilità nulla.
Dal punto di vista pratico sussiste, quindi, luguaglianza tra le probabilità degli eventi
{X < a} e {X a}.
ESEMPIO 12.7
Si immagini che ad un dato esperimento casuale E sia associata la variabile casuale
continua X con funzione di densità di probabilità
3 x(1 1 x) se 0 x 2
fX (x) = 2
2
0
altrove
Integrando tra zero e x otteniamo la corrispondente funzione di riaprtizione, infatti
0
se x < 0
7
1 3 3 2
x
FX (x) =
se 0 x 2
0 fX (t) dt = 4 x + 4 x
1
se x > 2
Si noti che FX (0) = 0 e FX (2) = 1, coerentemente con il terzo assioma.
315
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
fX(x)
FX(x)
0.6
0.8
1.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Figura 12.4 Funzioni di densità di probabilità e di ripartizione, esempio 12.7.
La funzione fX (x) e` effettivamente una funzione di densità di probabilità in quanto,

entro il suo dominio di definizione cioè lintervallo reale [0; 2], e` non negativa e larea
ad essa sottesa e` unitaria, infatti
6
fX (x) dx =
2
0
8
1
1 3 3 2 882
3
x (1 x) dx = x + x 8 = 1
2
2
4
4
0
Per completezza, la figura (12.4) riporta il grafico delle funzioni di densità di probabilità e di ripartizione.
ESEMPIO 12.8
Si immagini che una certa routine di calcolo generi numeri X pseudocasuali appartenenti allintervallo reale [2; 3] e tali che per qualsiasi x [2; 3] risulti costante la
probabilità degli eventi {x h X x + h}, con h R piccolo a piacere.
Evidentemente ci troviamo in presenza di una v.c. X di tipo continuo con funzione di
densità di probabilità costante in [2; 3], diciamo fX (x) = k.
1.5
1.5
316
2.75
1.0
FX(2.75)
0.5
0.5
fX(x)
FX(x)
1.0
f (x)dx = 0.5
2.25 X
P(2.25 < X < 2.75)
0.0
0.0
FX(2.25)
1.5
2.0
2.5
3.0
3.5
1.5
2.0
2.5
3.0
3.5
Figura 12.5 Funzioni di densità di probabilità e di ripartizione, esempio 12.8.
Al fine di determinare il valore della costante

7 3 k, dovendo essere unitaria larea sottesa
a fX (x) in [2; 3], cioè dovendo risultare 2 fX (x) dx = 1, abbiamo
6 3
6 3
83
8
k dx = 1 k
dx = 1 k x8 = 1
2
per cui k = 1. In definitiva la variabile casuale X viene a possedere funzione di

densità di probalità costante fX (x) = 1 e funzione di ripartizione
6 x
8x
8
FX (x) =
fX (t) dt = t8 = x 2
2
Desiderando, ora, calcolare la probabilità che la routine generi un numero compreso,

poniamo, tra 2.25 e 2.75, cioè la probabilità dellevento E = {2.25 X 2.75}, si
tratterà di valutare larea sottesa alla funzione di densità di probabilità nellintervallo
[2.25; 2.75], cioè
6 2.75
82.75
8
= 0.50
P(E) = P(2.25 X 2.75) =
fX (x) dx = x8
2.25
2.25
Va da sè che nel caso in esame, essendo costante la densità di X nellintervallo [2, 3],
la valutazione del precedente integrale equivale al calcolo dellarea del rettangolo cos`
come evidenziato in figura (12.5).
317
12.2. Valore atteso e momenti di una variabile casuale
Allo stesso risultato (cfr. figura 12.5) saremmo giunti se avessimo ragionato in termini
di funzione di ripartizione, infatti
P(E) = P(2.25 X 2.75) = FX (2.75) FX (2.25) = 0.75 0.25 = 0.50
12.2.
VALORE ATTESO E MOMENTI DI UNA VARIABILE CASUALE
Nello studio delle variabili casuali può risultare utile definire delle grandezze sintetiche
atte a fornire informazioni sulle rispettive distribuzioni di probabilità.
Per poter definire tali grandezze nella loro più ampia accezione, premettiamo il concetto di
funzione di una variabile casuale.
Figura 12.6 Variabile casuale X e sua trasformata g(X).
Date la v.c. X e la funzione reale g, la quale goda di condizioni minime di regolarità, ad

esempio essa e` continua, la trasformata Y = g(X) e` a sua volta una variabile casuale con
una propria misura di probabilità PY , immagine di PX attraverso g.
Riferendoci allo schema di figura (12.6), sia X : R una v.c. e g : R R una
funzione continua, ci proponiamo di osservare che la funzione composta
g X = g(X) : R
e` a sua volta una variabile casuale.
318
Considerati gli spazi (, A, P) e (R, BR ), sarà sufficiente verificare che vale la proprietà di
misurabilità per la funzione g(X). In altri termini, per ogni boreliano B BR , si tratterà
di verificare che (g X)1 (B ) = A A. Per la proprietà di continuità della funzione g,
la controimmagine mediante g( ) di B , ossia g 1 (B ), e` un boreliano B dellalgebra BR
dello spazio probabilizzato (R, BR , PX ) indotto dalla v.c. X.
Pertanto, per la proprietà di misurabilità della v.c. X, si ha
.
/
(g X)1 (B ) = X 1 g 1(B ) = X 1 (B) = A A
Ad esempio, data la v.c X, risultano altrettante variabili casuali le trasformazioni seguenti:

g(X) = X, si tratta della trasformata identità; trasforma la v.c. X in se stessa;
g(X) = a X/X = a con a R; si tratta di una trasformazione degenere, in quanto
trasforma la v.c. X in una costante;
g(X) = a + b X, con a, b R; tale nuova v.c viene detta trasformata lineare X;
g(X) = X r , con 0 < r < +;
g(X) = (X a)r con 0 < r < + e a R;
g(X) = et X , con t R.
Per il ora, dal momento che la sua conoscenza non e` indispensabile ai fini di quanto verrà
discusso nel seguito, tralasciamo il problema dellindividuazione della distribuzione di
probabilità della variabile casuale Y = g(X), a cui sarà dedicato il paragrafo 12.4.
Siamo ora in grado di introdurre loperatore E che applicato ad una variabile casuale restituisce un numero detto valore atteso; il simbolo E e` ispirato dal corrispondente termine
anglosassone Expected value.
Definizione 12.7 (Valore atteso di una variabile casuale)

Data una v.c. X e una funzione continua g : R R, si definisce valore atteso, o speranza
matematica, della v.c. g(X) il numero reale, se esiste finito, E[g(X)] ottenuto come segue
+
se X e` una v.c. discreta

i g(xi ) p(xi )
E[g(X)] =
(12.5)
7 +
g(x) fX (x) dx se X e` una v.c. continua
Si osservi che:
319
qualora si ponga g(X) = X allora il valore atteso di g(X) viene a coincidere con il
valor medio, o semplicemente media, della v.c. X ed indicato con X ; in tal caso la
(12.5) diviene
+

i xi p(xi )
E[X] =
(12.6)
7 +
x fX (x) dx se X e` una v.c. continua
Si noti che in alcune situazioni può accadere che E(X) non sia finito; in tal caso
diremo che la v.c. non ammette valor medio.
qualora si ponga g(X) = (X E[X])2 , con E[X] finito, allora il valore atteso di
2
g(X) viene a coincidere con la varianza della v.c. X, indicata con X
; in tal caso la
(12.5) diviene
+
2

i (xi E[X]) p(xi )
2
E[(X E[X]) ] =
(12.7)
7 +
2
(x E[X]) fX (x) dx se X e` una v.c. continua
Dal momento che la varianza e` una misura di variabilità della v.c. X in esame, e
spesso ricorreremo ad essa, come spesso ricorreremo al valor medio quale misura
sintetica di posizione, utilizzeremo il simbolo Var [X] per indicare il valore atteso
E[(X E[X])2 ].
ESEMPIO 12.9
Quale esperimento casuale si consideri il lancio di una moneta ripetuto tre volte.
Linsieme dei possibili esiti può essere cos` rappresentato
= {T T T, T T C, T CT, CT T, CCT, CT C, T CC, CCC}
Se introduciamo la v.c. X = {# di Teste ottenute nella sequenza}, e` facile notare che
trattasi di una variabile casuale di tipo discreto che assume i valori interi 0, 1, 2, 3. Tale
v.c., supponendo lequiprobabilità di ciascun evento elementare, possiede la seguente
distribuzione di probabilità
X
xi
p(xi )
i=1,2,3,4
0
1
2
3
1/8 3/8 3/8 1/8
320
Desiderando calcolarne il valor medio, abbiamo

E[X] =
4
(
xi p(xi ) = 0
i=1
3
3
1
1
+ 1 + 2 + 3 = 1.5
8
8
8
8
Avessimo avuto interesse al valore atteso della trasformata Y = X 2 , avremmo avuto,

senza alcun bisogno di individuare la funzione di distribuzione di probabilità di Y
E[Y ] =
4
(
x2i p(xi ) = 0
i=1
1
3
3
1
+1 +4 +9 = 3
8
8
8
8
ESEMPIO 12.10
Sia X una v.c. continua con densità di probabilità fX (x) = 1/2 per 0 < x < 2 e sia
Y = X 2 una sua trasformata. Desiderando calcolare il valore atteso di Y , abbiamo
6 2
6 2
6 1
1
E[Y ] =
y fY (y) d y =
g(x) fX (x) dx =
x2 d x =
2
0
0
0
6 1
8
3
2
1
4
1x 8
=
x2 d x =
8 =
2 0
2 3 0 3
Si osservi che abbiamo calcolato il valore atteso di Y senza averne individuato la

corrispondente funzione di densità di probabilità.
Tra le innumerevoli trasformate che si possono definire a partire da una v.c. X, alcune
rivestono particolare importanza ed il loro valore atteso e` spesso utilizzato.
Tra esse citiamo la trasformata lineare g(X) = a + b X, con a, b R, per la quale si ha
E[g(X)] = a + b E(X).
La dimostrazione e` piuttosto semplice, infatti:
se X+e` una v.c. discreta, per le proprietà elementari delle sommatorie, e ricordando
che i p(xi ) = 1 si ha:
(
(
(
E[a + b X] =
(a + b xi ) p(xi ) =
a pi +
b xi p(xi ) =
i
=a+b
(
i
xi p(xi ) = a + b E[X]
321
qualora X fosse una v.c. continua, sfruttando le proprietà elementari degli integrali
per cui
7 +lintegrale di somme e` uguale alla somma degli integrali e tenendo a mente
che fX (x) dx = 1, si avrebbe
E[a + b X] =
(a + b x) fX (x) dx =
6 +
=
a fX (x) dx +
b x fX (x) dx =
6 +
=a+b
x fX (x) dx = a + b E[X]
6 +
A tal proposito vale la pena osservare che qualora nella trasformata g(X) = a + b X
si ponesse b = 0 si avrebbe E[g(X)] = a;
si ponesse b = 1 e a = E[X] si avrebbe E[g(X)] = 0.
ESEMPIO 12.11
Si immagini che un esperimento casuale consista nellestrazione di una pallina da
unurna che ne contiene 5, indistinguibili al tatto e numerate progressivemente a partire da uno. Introdotta la v.c X = { # impresso sulla pallina estratta}, e` facile intuire
che essa possiede funzione di distribuzione di probabilità costante
4
5
4
5 4 5
xi
i
1
2
3
4
5
X
=
=
1/5 1/5 1/5 1/5 1/5
p(xi ) i=1,..,5
1/5 i=1,..,5
e pertanto, come il Lettore può facilemente verificare
E[X] =
5
(
i=1
5
1 (
1 5 (5 + 1)
xi p(xi ) =
i=
=3
5
5
2
i=1
Si immagini ora che le cinque palline dellurna siano numerate progressivamente a

partire dallo zero. In tal caso la v.c. Y = {# impresso sulla pallina etsratta} verrebbe
ad essere legata alla v.c. X dalla semplice relazione Y = X 1 e per essa si avrebbe
E[Y ] = E[X 1] = 2.
Unaltra trasformata di una v.c. X di particolare rilevanza e` quella che si ottiene ponendo
g(X) = X r , con r N. I valori attesi di tale trasformata, proprio per limportante ruolo
322
che essi, come vedremo, rivestono nello studio delle v.c., posseggono un nome proprio,
quello di momenti di ordine r della variabile casuale X.
Definizione 12.8 (Momenti di una variabile casuale)
Data la v.c. X e la trasformata g(X) = X r , con r N, si dicono momenti di ordine r i
corrispondenti valori attesi di g(X), in simboli
rX = E[X r ]
(12.8)
!
A tal proposito osserviamo che, mentre il momento di ordine zero e` sempre pari ad uno,
il momento primo viene a coincidere con il valor medio della v.c. X; infatti se poniamo
g(X) = X, risulta 1X = E[X] = X .
Se consideriamo la v.c. Y = X E[X], notiamo che il suo momento primo e` nullo, infatti
1Y = E[Y ] = E[X E[X]] = E[X] E[X] = 0
e che il suo momento secondo corrisponde, per definizione, alla varianza della v.c. X, cioè
2
2Y = E[Y 2 ] = E[(X E[X])2 ] = X
.
Prendiamo spunto da questultima osservazione per dimostrare che la varianza della variabile casuale X può essere espressa in funzione dei momenti primo e secondo di X.
Infatti
E[(X E[X])2 ] = E[X 2 2 X E[X] + E[X]2 ] =
= E[X 2 ] 2 E[X]2 + E[X]2 ] =
= E[X 2 ] E[X]2 = 2X (X )2
(12.9)
In altri termini, la (12.9) ci consente di calcolare la varianza di X come diffrenza tra il suo
momento secondo ed il quadrato del suo momento primo.
ESEMPIO 12.12
Si immagini che un esperimento casuale preveda i due soli esiti Successo e Insuccesso
e ciò con probabilità rispettivamente e 1 , con 0 < < 1.
Introdotta la variabile casuale X = {# di Successi ottenuti in una prova}, e` facile accertarsi che essa ha codominio linsieme dei due soli numeri 0 e 1 e che essa possiede
la seguente funzione di distribuzione di probabilità
4
5
4
5
xi
0
1
X
=
1
p(xi ) i=1,2
323
Per tale v.c. e` immediato accertare che, mentre il momento di ordine zero e` pari ad
uno, infatti
0X
2
(
i=1
x0i p(xi ) = 00 (1 ) + 10 = 1
i momenti di ordine successivo sono costanti e uguali al parametro , infatti, per r =

1, 2, . . .
rX
2
(
i=1
xri p(xi ) = 0r (1 ) + 1r =
Per inciso, notiamo che la varianza di tale variabile casuale e`

Var [X] = 2X (X )2 = 2 = (1 )
ESEMPIO 12.13
Si immagini che ad un esperimento casuale E sia associata la variabile casuale continua X con funzione di densità di probabilità
1
se a x b
fX (x) = b a
0
altrove
I momenti di ordine r = 0, 1, 2 di X sono pertanto
0X
1X
x fX (x) dx =
x fX (x) dx =
x fX (x) dx =
1
dx = 1
ba
x
a+b
=
2
2X
1
1 x2 88b
b2 a 2
dx =
8 =
ba
b a 2 a 2 (b a)
1
1 x3 88b
b3 a3
x
dx =
8 =
ba
b a 3 a 3 (b a)
2
324
Notiamo, infine, che la varianza di tale variabile casuale e`

b3 a3
(a + b)2
=
3 (b a)
4
b3 a3 (b a) (a + b)2
(b a)2
=
=
12 (b a)
12
Var [X] = 2X (X )2 =
I due precedenti esempi fanno supporre che ciascuna variabile casuale sia dotata di un
proprio insieme dei momenti {0X , 1X , . . .} e che questi, a patto che esistano finiti, la
caratterizzino in modo completo ed univoco. Sotto condizioni assai generali, possiamo
supporre che se due v.c. posseggono lo stesso insieme dei momenti esse hanno ugual
distribuzione di probabilità.
12.3.
L A FUNZIONE GENERATRICE DEI MOMENTI DI UNA V. C .
Come abbiamo visto, i momenti di una variabile casuale si ottengono valutando le sommatorie o gli integrali che compaiono nella definizione dei momenti stessi. Non sempre,
però, la valutazione di tali sommatorie o integrali e` facile, perlomeno dal punto di vista di
calcolo. Fortunatamente e` possibile ricorrere, perlomeno nelle situazioni più comuni, ad
un metodo alternativo che sostituisce alla valutazione di sommatorie o di integrali unoperazione di derivazione. Infatti i momenti di una v.c. X possono essere ottenuti ricorrendo
al valore atteso della sua trasformata g(X) = et X , con
reale; tale valore atteso,
9 t parametro
:
se esiste, sarà funzione di t e la funzione mX (t) = E et X verrà detta funzione generatrice
dei momenti della variabile casuale X.
Definizione 12.9 (Funzione generatrice dei momenti di una v.c.)
Definiamo funzione generatrice dei momenti della v.c. X , che indicheremo in simboli con
mX (t), il valore atteso della trasformata g(X) = et X , con t R, cioè mX (t) = E[et X ].
Naturalmente, per definizione di valore atteso di una v.c., sarà
+
t xi

i e p(xi )
tX
mX (t) = E[e ] =
(12.10)
7 + t x
e fX (x) dx se X e` una v.c. continua
Ovviamente per t = 0 il valore atteso introdotto in (12.10) e` finito e risulta mX (0) = 1.
12.3. La funzione generatrice dei momenti di una v.c.
325
Per t = 0, non sempre le (12.10) risultano convergenti, anche se lo sono per la maggior
parte delle distribuzioni più comuni con le quali opereremo. Consci di tale fatto, se sviluppiamo in serie di MacLaurin nellintorno dellorigine lesponenziale che compare nella
(12.10) possiamo esprimere mX (t) come serie polinomiale di t i cui coefficienti corrispondono ai momenti di X. Per accertarcene, limitandoci al caso in cui X e` una v.c. discreta
(ma allo stesso risultato si giungerebbe se X fosse continua), abbiamo
9
: ( t xi
mX (t) = E et X =
e p(xi ) =
i
<
(;
t2 2 t3 3
=
1 + t xi + xi +
xi + . . . p(xi ) =
2
3
!
i
(
(
tr r
tr ( r
xi p(xi ) =
=
r! i
r! X
r=0
r=0
(12.11)
Se consideriamo la derivata di ordine r di mX (t) rispetto a t, alla luce della (12.11),

abbiamo
dr mX (t)
t2 r+2 t3 r+3
r
r+1
= X + t X + X +
+ ...
(12.12)
d tr
2
3! X
per cui, valutandola in t = 0, si ottiene
dr mX (t) 88
(12.13)
8 = rX
d tr
t=0
In definitiva, il momento di ordine r della v.c. X si ottiene valutando la derivata r-esima
della funzione generatrice dei momenti in corrispondenza a t = 0.
ESEMPIO 12.14
Sia X una variabile casuale discreta con distribuzione di probabilità
4
5
4
5
xi
0
1
X
=
1
p(xi ) i=1,2
La funzione generatrice dei momenti di X sarà
2
9
: (
et xi p(xi ) = et 0 (1 ) + et 1 = (1 ) + et
mX (t) = E et X =
i=1
per cui, essendo per qualsiasi r = 1, 2, . . .

dr mX (t)
= et
d tr
326
i momenti di qualsiasi ordine di X risultano uguali al parametro , infatti

rX =
8
dr mX (t) 88
t8
=
e
=
8
8
d tr
t=0
t=0
risultato del tutto analogo a quanto ottenuto allesempio 12.12.
ESEMPIO 12.15
Si immagini che ad un esperimento casuale E sia associata la variabile casuale continua X con funzione di densità di probabilità, di parametro > 0
=
e x se x > 0
fX (x) =
0
altrove
Per definizione di funzione generatrice dei momenti di X abbiamo
6
6
9 tX:
tx
e fX (x) d x =
et x e x d x =
mX (t) = E e
=
0
0
6
e(1 t) x 88b
=
e(t) x d x = lim
8 =
b
t
t
0
0
Dal momento che le derivate prima e seconda di mX (t) rispetto a t risultano

d mX (t)
=
dt
( t)2
d2 mX (t)
2 2
=
d t2
( t)3
otteniamo i momenti di ordine primo e secondo di X

8
d mX (t) 88
1
8
=
=
8
8
2
dt
( t) t=0
t=0
8
2
d mX (t) 8
2 2 88
2
=
=
=
8
8
d t2
( t)3 t=0 2
t=0
X =
2X
da cui, ancora, la varianza Var[X] =
2
1
1
2 = 2
2
E` bene tenere a mente che, data una v.c. X, possiamo ottenere la funzione generatrice
dei momenti di una sua trasformata qualunque Y = g(X) in funzione della funzione di
12.3. La funzione generatrice dei momenti di una v.c.
327
distribuzione o di densità di probabilità della v.c. X, senza dover quindi conoscere la

distribuzione di Y . Infatti, per definizione si ha
mY (t) = E[et Y ] = E[et g(X) ] =
+
t g(xi )
p(xi )
ie
=
7 + t g(x)
e
fX (x) dx se X e` una v.c. continua
(12.14)
Sviluppando in serie di MacLaurin lesponenziale che compare nelle (12.14) possiamo

esprimere mY (t) come serie polinomiale di t i cui coefficienti corrispondono ai momenti
di g(X). Infatti, limitandoci al caso in cui X e` una v.c. discreta (ma allo stesso risultato si
giungerebbe se X fosse continua), abbiamo
9
: ( t g(xi )
mg(X) (t) = E et g(X) =
e
p(xi ) =
i
<
(;
t3
t2
2
3
g(xi ) + . . . p(xi ) =
=
1 + t g(xi ) + g(xi ) +
2
3
!
i
(
(
tr (
tr r
r
=
g(xi ) p(xi ) =
r! i
r ! g(X)
r=0
r=0
(12.15)
In definitiva, il momento di ordine r della trasformata Y = g(X) si ottiene valutando la

derivata r-esima della funzione generatrice dei momenti in corrispondenza a t = 0, cioè
dr mg(X) (t) 88
8 = rg(X)
d tr
t=0
(12.16)
Concludiamo il paragrafo osservando che limportanza della funzione generatrice dei momenti non e` unicamente dovuta al fatto che essa, se esiste, consente di individuare, come
si e` appena visto, i momenti di interesse di una variabile casuale. Infatti, si può dimostrare che la conoscenza della funzione generatrice dei momenti, e di conseguenza la serie
completa dei momenti della v.c. in esame, e` sufficiente a determinare in modo univoco la
corrispondente distribuzione di probabilità.
In altri termini possiamo dire che ad una funzione generatrice dei momenti corrisponde
una ed una sola funzione di distribuzione, o di densità, di probabilità.
Tale e` lenunciato di un fondamentale Teorema, che qui non dimostreremo, che va sotto
il nome di Teorema di unicità. Per approfondimenti su tale aspetto, valgano i testi di
DallAglio (1987) e di Lessi (1994).
328
ESEMPIO 12.16
Si X una variabile casuale continua con funzione di densità di probabilità fX (x),
< x < e funzione generatrice dei momenti mX (t).
Data la traformata Y = a + X, con a R, la sua funzione generatrice dei momenti
risulta
>
?
9
:
9
:
mY (t) = E et Y = E et (a+X) = E et a et X =
9
:
= et a E et X = et a mX (t)
Desiderando, ad esempio, calcolare il momento primo di Y , la derivata prima di
mY (t) rispetto a t risulta
d mX (t)
d mY (t)
= a et a mX (t) + et a
dt
dt
quindi, ricordando che mX (t = 0) = 1
Y =
d mY (t) 88
= a + X
8
dt
t=0
risultato del tutto ovvio se si tiene a mente che E[a + X] = a + E[X].

Si noti che Y possiede, a meno della costante et a , la stessa funzione generatrice di
X. Pertanto possiamo affermare che Y ha la stessa distribuzione di probabilità di X
traslata su a.
Lasciamo al Lettore verificare che se fosse Y = a + b X, la funzione generatrice dei
momenti della trasformata risulterebbe mY (t) = et a mX (b t), con la conseguenza
che, salvo casi particolari che affronteremo più oltre, Y non verrebbe più a possedere
la stessa distribuzione di probabilità di X.
12.4.
F UNZIONI DI UNA VARIABILE CASUALE
Quando introducemmo il concetto di trasformata di una variabile casuale Y = g(X), ci

limitammo a dimostrare che essa, sotto minime condizioni su g, potesse essere considerata
una variabile casuale, ma, volutamente, tralasciammo il problemma dellindividuazione
della sua distribuzione di probabilità. Tale e` lo scopo di quanto segue.
Data una v.c. X, definita, a partire dallesperimento casuale E, su uno spazio di probabilità
(, A, P), si consideri la funzione reale y = g (x).
Con riferimento al generico esito dellesperimento casuale E, e` facile osservare che
X ( ) rappresenta un numero casuale che introddotto quale argomento nella funzione
329
12.4. Funzioni di una variabile casuale
g porge quale valore g [X ( )] = Y ( ) = y , determinazione della variabile casuale

Y = g (X). In tal modo appare del tutto giustificata luguaglianza tra gli eventi
{ : Y y} = { : g [X ( )] y}
Supponiamo, per semplicità, che g (x) sia una funzione strettamente monotona crescente;
in tal caso la risoluzione di g(x) rispetto ad x porge ununica soluzione g 1 (y) e pertanto
varrà luguaglianza
,
{ : Y y} = { : g [X ( )] y} = : X ( ) g 1 (y)
Stando cos` le cose, la funzione di ripartizione della trasformata Y = g(X) risulta quindi
definita come
.,
-/
9
:
FY (y) = P : X ( ) g 1 (y) = FX g 1 (y)
In sostanza la funzione di ripartizione di Y viene ad essere individuata tramite la funzione

di ripartizione di X per mezzo del funzionale g(x).
Apparentemente le cose si complicano se abbandoniamo lipotesi che g(x) sia strettamente
monotona, dal momento che la risoluzione di g(x) rispetto ad x può porgere
, più soluzioni.
Se supponiamo che queste costituiscano un insieme di numerosità finita gj1(y) j=1,...,J ,
possiamo sempre decomporre linsieme {Y y} in un unione di insiemi disgiunti per
ciascuno dei quali risulta g (x) y, cioè
J
&
,
{Y y} = { : Y () y} =
: X gj1 (y)
j=1
Probabilizzando, dunque, levento {Y y}, in virtù del secondo assioma, otteniamo

%J
'
&,
P (Y y) = FY (y) = P
=
X gj1 (y)
j=1
J
J
(
.
/ (
9
:
P X gj1 (y) =
FX gj1 (y)
j=1
(12.17)
j=1
A questo punto e` bene ricordare che quanto sino ad ora esposto ha validità assai generale;
a tal proposito osserviamo:
nel caso X sia una v.c. discreta, la distribuzione della trasformata Y = g(X) può
essere individuata per via diretta. In tal caso, infatti, Infatti, se X e` una v.c. discreta, dallinsieme delle detetrminazioni {xi }i=1,2,... di X passiamo direttamente
330
allinsieme delle determinazioni {yj }j=1,2,... di Y . Pertanto, fissato il generico valore

yj risulta perfettamente individuato linsieme dei valori xi tali che g(xi ) = yj e, di
conseguenza, la funzione di distribuzione di probabilità di Y ;
qualora X sia una v.c. di tipo continuo, e` possibile individuare la legge di distribuzione della trasformata Y = g(X) determinando direttamente la sua corrispondente
funzione di densità di probabilità, cioè fY (y).
Infatti, tenendo a mente il precedente risultato concernente la corrispondenza biunivoca tra la funzione di ripartizione della v.c. X e quella della nuova v.c. Y = g(X)
e ricordando il concetto di funzione di funzione, dalla (12.17) abbiamo
9 1 : 8 1 8
J
d FY (y) ( d FX gj (y) 88 d gj (y) 88
fY (y) =
=
8
8
8 dy 8
dy
dx
j=1
9
:
9
:
cioè, ricordando che per definizione d FX gj1(y) / d x = fX gj1(y)
fY (y) =
J
(
j=1
ESEMPIO 12.17
8
8
9 1 : 88 d gj1 (y) 88
fX gj (y) 8
8
8 dy 8
(12.18)
Si immagini che un esperimento casuale consista nellestrazione di una pallina da

unurna che ne contiene 5, indistinguibili al tatto e numerate progressivemente a partire da uno. E` facile osservare che la v.c X = {# impresso sulla pallina estratta}, ha
funzione di distribuzione di probabilità costante
4
5
4
5
xi
i
X
=
p(xi ) i=1,..,5
1/5 i=1,..,5
Si immagini ora che le cinque palline dellurna siano numerate progressivamente a
partire da cinque. In questo caso la v.c. Y = {# impresso sulla pallina estratta} e`
legata alla precedente dalla semplice relazione Y = X + 4 e linsieme delle sue
determinazioni corrisponde allinsieme {yj }j=1,...,5 = {5, 6, 7, 8, 9}. In definitiva Y
ha distribuzione di probabilità
4
4
5
5
yj
j+4
=
Y
p(xj ) i=1,..,5
1/5 j=1,..,5
331
ESEMPIO 12.18
Si immagini che X sia una v.c. continua con funzione di densità di probabilità, per
< x <
1
1 x2
2
fX (x) =
e
2
e si consideri la trasformata Y = X 2 .
1 x22
e
2
1 y2
e
2y
fY(y) =
fY(y)
0.0
0.00
0.1
0.05
0.2
fX(x)
0.10
0.3
0.15
0.4
0.5
0.20
fX(x) =
Figura 12.7 Variabili casuali X e Y = X 2 , esempio 12.18.
In tal caso la funzione g(x) = x2 ammette per 0 < y < le due soluzioni reali
g11 (y) = y e g21 (y) = + y, per cui

8
8
8 d g1 (y) 8
1
8
8 j
=
8
8
8 dy 8
2 y
j=1,2
Applicando, ora, la (12.18) si ha la densità di probabilità di Y
1
1
1
y
y
y
1
1
1
1
1
2
2
e 2
fY (y) =
+
=
e
e
2 y
2 y
2 y
2
2
332
Per completezza, la figura (12.7) riporta il grafico della funzione di densità di probabilità di X e di Y = X 2 .
ESEMPIO 12.19
Data la variabile casuale X continua con funzione di ripartizione FX (x) = (x 1)/2,
con 1 x 3, si immagini di voler individuare la funzione di ripartizione della
trasformata Y = 2 X + 3.
y3
d FX (x)
1
Essendo g1 (y) =
e fX (x) =
= , ricorrendo alla (12.17)
2
dx
2
$
#
.
/
y3
=
FY (y) = P(Y y) = P X g1 (x) = P X
2
#
$ 6 y3
2
y3
= FX
=
fX (x) d x =
2
1
;
<
6 y3
y3
2
1 88 2
1 y3
y5
1
=
d x = x8
1 =
=
2
2 1
2
2
4
1
con 5 y 9. Quanto alla densità di probabilità Y , da questultima, si ha
fY (y) =
d FY (y)
1
=
dy
4
Ovviamente a tale risultato saremmo potuti giungere in modo diretto applicando la

(12.18), infatti
8
8
>
? 8 d g1 (y) 8 1 1
1
8
8 j
1
fY (y) = fX gj (y) 8
8= =
8 dy 8 2 2
4
Si osservi che Y e` una v.c. con funzione di densità di probabilità costante nellintervallo [5; 9]. In figura (12.8) sono riportate le funzioni di densità di probabilità e di
ripartizione di entrambe le variabili casuali X e Y .
ESEMPIO 12.20
Si supponga che la v.c. X possegga funzione di densità costante fX (x) = 1/(b a),
per a < x < b. Introdotta la trasformata
Y =
X X
X
(12.19)
333
1.0
0.6
0.3
0.6
0.4
0.8
0.5
fx(x)
Fy(y)
Fx(x)
0.0
0.0
0.1
0.2
0.2
0.4
fy(y)
10
10
Figura 12.8 Variabili casuali X e Y = 2 X + 3, esempio 12.19.
si desidera individuarne la densità di probabilità e successivamente calcolare la probabilità dellevento {Y < Y }.

Notiamo innanzitutto che Y sarà definita entro lintervallo
<
;
a X b X
;
DY =
X
X
e che g 1 (y) = y X + X , per cui d g1 (y)/ d y = X . Pertanto, sfruttando la
(12.18), abbiamo
8
8
9 1 : 8 d g 1 (y) 8
8 = 1 X
fY (y) = fX g (y) 88
dy 8 b a
In definitiva Y ha, a sua volta, funzione di densità di probabilità costante nel suo
dominio di definizione.
Che tale risultato sia corretto, lo si evince verificando che larea sottesa a fY (y) in DY
sia unitaria; infatti e`
6
6
8 bX
1
1
8
fY (y) d y =
X d y =
X x8 aXX
b
a
b
a
DY
DY
X
;
<
a X
1
b X
=
X
=1
ba
X
X
334
Quanto al secondo quesito, notiamo innanzitutto che

<
;
X X
= 0 = Y
E[Y ] = E
X
Ora, essendo DY un intervallo simmetrico attorno allo zero, essendo fY (y) in esso
costante e dovendo essere unitaria larea ad essa sottesa in DY , sarà
P(Y < Y ) = P(Y < 0) = 0.5
A conforto del risultato
6 0
P(Y < 0) = a
X
X
=
essendo
X =
80
1
1
8
X d y =
X x8 aX =
ba
ba
X
1
X a
X a
X
=
= 0.5
ba
X
ba
1 x2 88b
b2 a 2
a+b
1
dx =
=
8 =
ba
b a 2 a 2 (b a)
2
Si osservi che la trasformata lineare (12.19) applicata a una qualsiasi variabile casuale
trasforma questultima in una nuova variabile casuale, detta standardizzata, con valor
medio nullo e varianza unitaria.
12.5.
E SERCIZI
ESERCIZIO 12.1
Un esperimento casuale consiste nel lancio di un dado a sei facce; individuare la distribuzione di probabilità della v.c. X = {# apparso sulla faccia esposta}, ipotizzando
che il dado sia truccato in modo che la probabilità che compaia un mumero dispari sia
il doppio di quella che appaia un numero pari.
ESERCIZIO 12.2
Sia X una v.c. discreta con con distribuzione di probabilità
4
5
4
5
xi
10 12 15 20
X
1
1
3
p(xi ) i=1,...,4 83
8
8
8
335
12.5. Esercizi
Calcolarne i quantili di ordine = 0.25 e = 0.95
ESERCIZIO 12.3
Quale esperimento casuale si consideri il lancio di una moneta, supposta regolare,
ripetuto tre volte. Definita la v.c. X : {# di Teste ottenute nella sequenza}, se ne
calcoli valor medio e varianza:
ESERCIZIO 12.4
Un certo processo produttivo e` caratterizzato da un tasso costante di difettosità =
0.4%. Supposto di estrarre casualmente 10 unità di prodotto in uscita da tale processo,
calcolare la probabilità che tra vi esse vi siano:
esattamente due elementi difettosi;
almeno un elemento difettoso;
almeno otto elementi conformi.
ESERCIZIO 12.5
Sia X una v.c. discreta con con distribuzione di probabilità
4
5
4 5
xi
i
X
1
p(xi ) i=1,...,6 6 i=1,...,6
Definiti gli eventi A : {X X } e B : {X X + X }, indicare se essi risultano
ESERCIZIO 12.6
Con riferimento alla variabile casuale di cui allesercizio (12.5), introdotta la trasformata Y = X X , calcolare le probabilità attinenti agli eventi {Y Y } e
{Y < Y }.
336
ESERCIZIO 12.7
Con riferimento alla variabile casuale di cui allesercizio (12.5), introdotta la traX
a attinenti agli eventi {Z Z } e
sformata Z = X
X , calcolare le probabilit`
{Z < Z }.
ESERCIZIO 12.8
Unurna contiene 20 palline di cui 5 Rosse. Lesperimento consiste nellestrazione
casuale di 3 palline con rimessa. Individuare la distribuzione di probabilità della v.c.
X = {# di palline rosse estratte} e calcolarne valor medio e varianza.
ESERCIZIO 12.9
Unurna contiene 20 palline di cui 6 Gialle. Lesperimento consiste nel lancio di
un dado regolare e nellestrazione casuale e con rimessa dallurna di un numero di
palline uguale al numero ottenuto dal lancio del dado. Individuare la distribuzione
di probabilità della v.c. X = {# di palline gialle estratte} e calcolarne valor medio e
varianza.
ESERCIZIO 12.10
Si immagini di disporre di due urne, A e B con composizione:
Urna A
Urna B
10 palline Nere
5 palline Nere
5 palline Rosse
10 palline Rosse
e che lesperimento consista nella

scelta dellurna secondo la seguente strategia: se dal lancio di un dado regolare
si ottiene un numero maggiore di due si sceglie lurna A, in caso contrario
lurna B;
estrazione, con rimessa, di tre palline dallurna prescelta.
Calcolare il valor medio del numero di palline rosse estratte.
337
12.5. Esercizi
ESERCIZIO 12.11
Sia X una v.c. discreta con funzione di distribuzione di probabilità
p(xi ) = (1 )xi
con xi = 0, 1, . . .. Individuata la funzione generatrice dei momenti, si calcoli il
momento primo e secondo nonche la varianza.
ESERCIZIO 12.12
Sia X una v.c. discreta che assume determinazioni xi = 0, 1, 2 e possiede funzione
generatrice dei momenti
mX (t) =
et + 4
5
$2
Si individui la funzione di distribuzione di probabilità di X.
ESERCIZIO 12.13
Sia X una v.c. continua, definita per 2 x 2, con con funzione di ripartizione
a degli eventi {X X } e {X 0}. Indicare,
FX (x) = x+2
4 . Calcolare la probabilit`
infine, se i due eventi risultano stocasticamente indipendenti.
ESERCIZIO 12.14
Sia X una v.c. continua con densità di probabilità fX (x) = 1/2 x per 0 x 2 e sia
Y = X 2 una sua trasformata. Calcolare il valore atteso di Y .
ESERCIZIO 12.15
Sia X una variabile casuale continua con densità di probabilità fX (x) =
per < x < . Calcolare il valore atteso e la varianza di X.
1
2
x2
2
338
ESERCIZIO 12.16
Sia X una v.c. continua, definita per 2 x 6, con con funzione di densità di
probabilità fX (x) = 14 . Introdotta la trasformata Z = X X , individuarne la
funzione di densità di probabilità e la corrispondente funzione di ripartizione.
ESERCIZIO 12.17
La v.c. X descrive il tempo in minuti che trascorre tra lapertura di uno sportello
pubblico fino allarrivo del primo cliente mattutino. Posto che la v.c X abbia funzione
di ripartizione, per x > 0
FX (x) = 1 e0.02 x
si calcoli probabilità che il tempo di attesa fino allarrivo del primo cliente ecceda i
cinque minuti.
Si individui, altres`, la funzione di densità di probabilità di X.
ESERCIZIO 12.18
Sia X una v.c. continua con densità di probabilità fX (x) = 3 x2 per 0 x 1.
Individuarne la funzione generatrice dei momenti.
ESERCIZIO 12.19
Sia X una v.c. continua con densità di probabilità fX (x) = x ex per 0 x < .
Individuarne la funzione generatrice dei momenti e calcolarne la varianza.
ESERCIZIO 12.20
Sia X una v.c. continua con densità di probabilità fX (x) = k (1 ex )2 per x >
0. Individuato il valore della costante k, calcolare la probabilità attinente allevento
{X x0.5 }, dove x0.5 corrisponde al quantile di ordine 0.5 della v.c. X.
C APITOLO 13
A LCUNE VARIABILI CASUALI NOTEVOLI
In questo capitolo presentiamo alcune famiglie parametriche di distribuzioni di

probabilità di variabili casuali di tipo discreto e continuo. Per ciascuna di esse
verrà fornita la legge di distribuzione, e ciò prevalentemente in termini di funzione di ripartizione e di funzione di distribuzione o di densità di probabilità, il
valor medio, la varianza nonche la funzione generatrice dei momenti che spesso
sfrutteremo ai fini delle dimostrazioni; saranno, altres`, forniti alcuni esempi di
applicazione.
13.1.
VARIABILI CASUALI DISCRETE
Prendendo le mosse dallo schema di prove ripetute e indipendenti, gli Autori classici derivarono alcune distribuzioni di probabilità di notevole utilità per lo sviluppo successivo
della teoria. In questo paragrafo ci proponiamo di presentare alcune delle più importanti
distribuzioni di probabilità di variabili casuali discrete. Il Lettore interessato ad approfondimenti, può consultare i testi di Mood et al. (1988) e di Pesarin (1989). Ad un livello
indubbiamente più specialistico, si pone il testo di Johnson and Kotz (1983b).
13.1.1
V. C .
DI
B ERNOULLI
Si immagini un esperimento casuale i cui esisti possano semplicemente essere classificati

Posto = P(S), il numero di successi ottenuti in ciascuna
in Successo, S, e Insuccesso, S.
prova può essere rappresentato dalla variabile casuale X con distribuzione di probabilità
4
5
4
5
xi
0
1
X
=
(13.1)
1
p(xi ) i=1,2
Abitualmente una siffatta v.c. viene detta di Bernoulli ed e` interamente caratterizzata dal
parametro .
Per tale variabile casuale, abbiamo:
Capitolo 13. Alcune variabili casuali notevoli
340
E[X] =
Var[X] = (1 )
mX (t) = et + 1
Dimostrazione: facilmente, ricordando le definizioni, si ha:
E[X] = 0 (1 ) + 1 =
Var[X] = E[X 2 ] (E[X])2 = 02 (1 ) + 12 2 = (1 )
tX
mX (t) = E[e
]=
2
(
i=1
et xi p(xi ) = et 0 (1 ) + et 1 = 1 + et
!
ESEMPIO 13.1
Si immagini di controllare casualmente, a fine linea di produzione, un pezzo meccanico prodotto, e che il tasso di difettosità del processo di produzione sia = 0.01. Gli
eventi elementari di tale esperimento sono due
D = {il pezzo e` difettoso}
= {il pezzo non e` difettoso}

D
il valore x1 = 0 ed allevento D il valore x2 = 1

La v.c. X, che associa allevento D
ha distribuzione di probabilità
4
5
4
5
xi
0
1
X
=
0.99 0.01
p(xi ) i=1,2
Per tale variabile casuale si ha E[X] = 0.01 e Var[X] = 0.01 0.99 = 0.0099
13.1.2
V. C .
UNIFORME
Una variabile casuale discreta X viene detta possedere una distribuzione uniforme se le
sue determinazioni sono i primi n numeri interi e queste hanno probabilità costante di
verificarsi, cioè se possiede distribuzione di probabilità
5
4
5
4
5 4
r
xi
1
2 ... n
(13.2)
X
=
=
1/n 1/n . . . 1/n
1/n r=1,...,n
p(xi ) i=1,...,n
341
13.1. Variabili casuali discrete
E[X] =
n+1
2
Var[X] =
mX (t) =
n2 1
12
n
1 +
et r
n r=1
Dimostrazione: quanto alla funzione generatrice dei momenti, facilmente si ha

tX
mX (t) = E[e
]=
n
(
i=1
t xi
1 ( tr
p(xi ) =
e
n r=1
Dal momento che

n
1 ( tr
d mX (t)
=
re
dt
n r=1
d2 mX (t)
1 ( 2 tr
=
r e
d t2
n r=1
otteniamo
n
1(
1 n (n + 1)
n+1
d mX (t) 88
r=
=
E[X] =
8 =
dt
t=0
n r=1
n
2
2
n
d2 mX (t) 88
1( 2
1 n (n + 1) (2 n + 1)
(n + 1) (2 n + 1)
E[X 2 ] =
=
r =
=
8
2
dt
t=0
n r=1
n
6
6
Quanto alla varianza sarà
(n + 1) (2 n + 1) (n + 1)2
=
6
4
2 (n + 1) (2 n + 1) 3 (n + 1)2
=
=
12
4 n2 + 6 n + 2 3 n2 6 n 3
n2 1
=
=
12
12
Var[X] = E[X 2 ] (E[X])2 =
342
ESEMPIO 13.2
0.6
P(X x)
0.4
0.06
0.0
0.00
0.02
0.2
0.04
P(X = xi)
0.08
0.8
0.10
1.0
0.12
Un semplice esperimento casuale consiste nellestrazione di una pallina da unurna

che ne contiene dieci, indistinguibili al tatto e numerate progressivamente a partire da
uno. La v.c. X = {# impresso sulla pallina estratta} e` manifestamente di tipo discreto
con distribuzione uniforme, cioè
4
5
4
5 4
5
xi
r
1
2
. . . 10
X
=
=
1/10 1/10 . . . 1/10
p(xi ) i=1,...,10
1/10 r=1,...,10
10
12
xi
10
12
xi
Figura 13.1 Funzione di distribuzione di probabilità e di ripartizione, esempio 13.2.

Calcoliamo ora la probabilità dellevento {X < X }. Dal momento che X ha
distribuzione uniforme, sarà X = (10 + 1)/2 = 5.5 e pertanto avremo
P(X < X ) = P(X < 5.5) = P(X 5) =
5
(
P(X = r) = 0.5
r=1
La figura (13.1) riporta il grafico della funzione di distribuzione di probabilità e della

funzione di ripartizione di X. Si osservi che nel caso di distribuzione uniforme laltezza dei salti in corrispondenza a ciascuna delle n determinazioni xi e` costante ed
ovviamente pari a 1/10.
13.1.3
V. C .
343
BINOMIALE
Consideriamo un esperimento casuale che consiste nel lancio di una moneta regolare ripetuto 4 volte e immaginiamo che in ciascuna prova si annoti il risultato, Testa o Croce,
ottenuto. Evidentemente, linsieme dei possibili esiti dellesperimento proposto e` costiuito
da 24 = 16 elementi ciascuno dei quali può essere visto quale sequenza di lunghezza 4
di T e C. Se introducimo la v.c. X = {# di Teste osservate}, e` immediato dedurre che
essa assume determinazioni {0, 1, 2, 3, 4}. Desiderando calcolare la probabilità attinente
allevento {X = 2}, posto = P(T ) costante ad ogni lancio, abbiamo
# $
4 2
P(X = 2) =
(1 )42
2
Infatti, per quanto detto nel paragrafo dedicato alle prove ripetute e indipendenti, possiamo affermare che la probabilità di osservare una particolare sequenza di esiti contenenti
esattamente 2 Teste, ed ovviamente 4 2 Croci, vale 2 (1 )42
# e$tra le 16 sequenze di
4
Teste e Croci, di lunghezza 4 ciascuna, ve sono, appunto, C4,2 =
= 6 che presentano
2
esattamente due Teste. Se si assume, poi, che la moneta sia regolare, il che implicherebbe
porre = 1/2, la probabilità ricercata risulterebbe
$42
# $ 2#
4 1
1
6
1
=
= 0.375
P(X = 2) =
2 2
2
16
In generale una variabile casuale X che esprime il numero di Successi in una serie di
n prove bernoulliane indipendenti, il che ricordiamo equivale a dire che = P(S) sia
costante in ogni prova, assume le n + 1 determinazioni {xi }i=1,...,n+1 = {0, 1, . . . , n} con
probabilità P(X = xi ) = Cn,xi xi (1 )nxi e viene detta binomiale.
In altri termini una v.c. discreta viene detta binomiale se possiede distribuzione di probabilità
4
5
4
5
xi
xi
X
=
=
p(xi ) i=1,...,n+1
Cn,xi xi (1 )nxi i=1,...,n+1
4
5
r
=
(13.3)
Cn,r r (1 )nr r=0,...,n
Una v.c. binomiale e` interamente caratterizzata dai parametri n e , con 0 < < 1 e n 1,
e verrà indicata con Bin(n, ).
E` appena il caso di osservare che per n = 1 la v.c. X verrebbe a possedere distribuzione di
Bernoulli.
344
E[X] = n
Var[X] = n (1 )
mX (t) = ( et + 1 )
Dimostrazione: quanto alla funzione generatrice dei momenti, abbiamo

tX
mX (t) = E[e
]=
n+1
(
t xi
i=1
n # $
(
n
r=1
n
(
# $
n r
(1 )nr =
p(xi ) =
e
r
r=1
tr
.
/n
(et )r (1 )nr = et + 1
questultimo passaggio e` giustificato ricordando lo sviluppo del binomio di Newton

n
(a + b) =
n # $
(
n
r=0
ar bnr
avendo cura di porre a = et e b = 1 .

Calcolate le derivate prima e seconda di mX (t) rispetto a t
.
/n1
d mX (t)
= n et et + 1
dt
d2 mX (t)
= n et ( et + 1 )n2 ( et + 1 + (n 1) et )
d t2
abbiamo
d mX (t) 88
8 = n
dt
t=0
2
d mX (t) 88
2
E[X ] =
8 = n (1 + (n 1) )
d t2
t=0
E[X] =
e ancora
Var[X] = n (1 + (n 1) ) n2 2 = n (1 )
!
345
ESEMPIO 13.3
Un addetto dellItalgas in una mattina compie 10 visite ad altrettanti utenti dellAzienda energetica municipale. Volendo conoscere la probabilità che laddetto possa
eseguire in mattinata la lettura di più di 7 contatori, introduciamo la variabile casuale
X = {# di letture eseguite} che possiede distribuzione binomiale di parametri n = 20
e = 0.45. Si osservi che questultimo parametro rappresenta la probabilità che un
generico utente sia in casa alla mattina. Stando cos` le cose, avremo
P(X 8) = P({X = 8} {X = 9} {X = 10}) =
= P(X = 8) + P(X = 9) + P(X = 10) =

# $
# $
# $
10
10
10
8
2
9
=
0.45 0.55 +
0.45 0.55 +
0.4510 =
8
9
10
0.6
P(X x)
0.4
0.15
0.0
0.00
0.05
0.2
0.10
P(X = x)
0.20
0.8
0.25
1.0
0.30
= 0.02289 + 0.00416 + 0.00034 = 0.02739
6
xi
10
10
xi

In definitiva laddetto ha una probabilità del 2.7% di eseguire più di 7 letture del
contatore ogni mattina. Ovviamente egli ha una probabilità del 97.3% si eseguire
al più 7 letture. La figura (13.2) riporta il grafico della funzione di distribuzione di
probabilità e quello della funzione di ripartizione di X.
346
Naturalmente, al variare dei parametri che la caratterizzano, la funzione di distribuzione di

una v.c. binomiale assume forme diverse, in particolare al variare del parametro .
In figura (13.3) e` ripotato il grafico delle funzioni di distribuzione di probabilità di alcune
v.c. binomiali caratterizzate da diversi valori di .
0.3
1
xi
xi
n=5, = 0.65
n=5, = 0.75
0.3
0.2
0.1
0.0
0.0
0.1
0.2
P(X = xi)
0.3
0.4
0.4
P(X = xi)
0.2
P(X = xi)
0.0
0.1
0.2
0.0
0.1
P(X = xi)
0.3
0.4
n=5, = 0.35
0.4
n=5, = 0.5
xi
3
xi
Figura 13.3 Funzioni di distribuzione di probabilità binomiali a confronto.
Dai grafici emerge piuttosto chiaramente che i termini p(xi ) dapprima aumentano in modo
monotono, quindi diminuiscono in modo monotono. In effetti si ha:
P(X = r 1) < P(X = r) se r < (n + 1)

P(X = r 1) = P(X = r) se r = (n + 1)
P(X = r 1) > P(X = r) se r > (n + 1)
La dimostrazione di quanto asserito e` quanto mai semplice, infatti il rapporto

P(X = r)
nr+1
(n + 1) r
=
=1+
P(X = r 1)
r
1
(1 ) r
e` maggiore dellunità se r < (n + 1) , minore dellunità se r > (n + 1) , uguale, infine,

allunità per r = (n + 1) .
In altri termini, se n e` dispari e (n + 1) e` un intero, la funzione di distribuzione di probabilità presenta due punti di massimo in corrispondenza a (n + 1) e (n + 1) 1; viceversa
347
se n e` pari e (n + 1) e` un intero, si avrà un unico punto di massimo per xi = (n + 1).

Nel caso in cui (n + 1) non sia intero, si avrà sempre un unico punto di massimo in
corrispondenza alla parte intera di (n + 1).
ESEMPIO 13.4
Unurna contiene N > 2 palline delle quali una sola e` Bianca. Ci proponiamo di
calcolare la probabilità di osservare, in n estrazioni casuali con rimessa, almeno una
volta la pallina Bianca.
La probabilità di estrarre la pallina Bianca in ciascuna estrazione e` costante e pari a
1/N . Se introduciamo la v.c. X = {# di volte che si presenta la pallina Bianca} e`
immediato osservare che essa ha distribuzione binomiale di parametri n e = 1/N .
Volendo rispondere al quesito postoci, sarà
#
$
N 1 n
P(X 1) = 1 P(X = 0) = 1
N
Può essere, ora, interessante chiederci quale deve essere il valore di n affinche la probabilità del succitato evento sia maggiore, poniamo, del 95%. A tal fine e` sufficiente
considerare la relazione
#
$
N 1 n
1
> 0.95
N
da cui:
n log
5
N 1
< log
N
100
ovvero:
n>
log N log 5
log N log (N 1)
Cos`, ad esempio, posto che lurna contenga N = 1000 palline, dovremmo effettuare
n > 5295 estrazioni con rimessa perche la probabilità di osservare almeno una pallina
bianca sia maggiore del 95%.
ESEMPIO 13.5
Supponiamo che in un torneo di tiro a segno, la squadra di casa, formata da cinque atleti, abbia vinto una gara. Secondo le regole del gioco, ciascun giocatore
348
ha diritto ad un solo tiro e la gara e` vinta dalla squadra che colpisce almeno un
bersaglio. Ci proponiamo di calcolare il numero medio dei bersagli centrati dalla squadra di casa, ipotizzando, per semplificare, che ciascun atleta della squadra abbia ugual probabilità, diciamo , di colpire il bersaglio. La variabile casuale X = {# di bersagli centrati dagli atleti della squadra di casa} assume, evidentemente, determinazioni xi = 1, 2, 3, 4, 5. A ben vedere, tale v.c. ha distribuzione
binomiale (le prove sono di tipo bernoulliano ed indipendenti) depurata però del termine x = 0. La funzione di distribuzione di probabilità di X può essere posta nella
forma, con r = 1, . . . , 5
# $
5 r
P(X = r) = k
(1 )5r
r
Ai fini della determinazione della costante k per lassioma della norma e` sufficiente
risolvere la seguente equazione
k
5 # $
(
5
r=1
r (1 )5r = 1
che può essere posta nella forma

k
5 # $
(
5
r=0
r (1 )5r (1 )5
'
=1
1
. In sostanza la funzione di distribuzione di
1 (1 )5
probabilità di X viene ad essere, per r = 1, . . . , 5
e dalla quale otteniamo k =
# $
5 r
(1 )5r
r
P(X = r) =
1 (1 )5
Una siffatta v.c. viene abitualmente detta possedere distribuzione binomiale censurata
in corrispondenza a x = 0.
Desiderando, infine, rispondere al quesito iniziale, e` facile verificare che
5 # $
(
1
5 r
5
E[X] =
(1 )5r =
1 (1 )5 r=0 r
1 (1 )5
349
13.1.4
V. C .
IPERGEOMETRICA
Si consideri unurna contenente 5 palline indistinguibili al tatto di cui 3 bianche, indicate B1 , B2 e B3 , e le restanti 2 rosse, indicate R1 ed R2 , ed immaginiamo di effettuare
lestrazione in blocco di 3 palline.
Linsieme dei possibili esiti di un siffatto esperimento casuale e` costituito dalle combinazioni di 5 elementi presi 3 alla volta, cioè dalle C5,3 sequenze formate da 3 termini Bi e
Rj ; gli eventi elementari di un tale esperimento risultano
1 = B1 B2 B3
2 = B1 B2 R1
3 = B1 B2 R2
4 = B1 B3 R3
5 = B1 B3 R2
6 = B1 R1 R2
7 = B2 B3 R1
8 = B2 B3 R2
9 = B2 R1 R2
10 = B3 R1 R2
X
X
X
X
X
X
X
X
X
X
=3
=2
=2
=2
=2
=1
=2
=2
=1
=1
Se introduciamo la v.c. X = {# di palline bianche estratte}, questa assume determinazioni

x = 1, 2, 3 e se, come di consueto, supponiamo ciascun evento elementare equiprobabile,
la distribuzione di probabilità di X sarà
4
5
1
2
3
3/10 6/10 1/10
Osserviamo, ad esempio, le terne di contrassegnate con asterisco e notiamo che esse
rappresentano tutti e soli gli eventi elementari per cui X = 2. Per elencarle abbiamo
scritto le combinazioni possibili di 3 palline bianche prese due a due (B1 B2 , B1 B3 e
B2 B3 ) ciascuna ripetuta tante volte quante sono le combinazioni di due palline rosse prese
una alla volta (R1 e R2 ). Il numero di tali terne sarà dato da C3,2 C2,1 = 6. La probabilià
dellevento {X = 2} sarà pertanto
# $# $
3
2
32
6
2
1
P(X = 2) = # $ =
=
5
10
10
3
Volendo generalizzare, si consideri unurna contenente N 2 palline indistinguibili al
tatto di cui M < N bianche (B) e le restanti N M rosse (R) ed si immagini di effettuare
lestrazione in blocco di n N palline.
350
Linsieme dei possibili esiti di un siffatto esperimento casuale e` costituito da CN,n sequenze
o blocchi contenenti ciascuno n termini B e R. Se introduciamo a questo punto la variabile
casuale X = {# di palline bianche tra le n estratte}, questa assume valori interi che vanno
da u = 0 se N M n oppure u = n (N M) se N M < n fino a h = min(n, M)
con probabilità
$
# $#
N M
M
nr
r
# $
P (X = r) =
N
n
Una v.c. discreta X viene detta ipergeometrica di parametri N, M, ed n, numeri interi tali
che M N ed n N, se la sua distribuzione di probabilità e` del tipo
5
4
r
xi
= CM,r CN M,nr
X
(13.4)
p(xi ) i=1,2,...,h
CN,n
r=u,...,h
dove u = max(0, n (N M)) e h = min(n, M).
Si osservi che, se la variabile casuale binomiale e` utile per gestire esperimenti casuali associabili allestrazione con rimessa di palline da unurna, la variabile casuale ipergeometrica
consente di modellizzare esperimenti analoghi nel caso di estrazioni senza rimessa, ovvero
in blocco.
Per una variabile casuale con distribuzione ipergeometrica abbiamo:
M
E[X] = n
N
M N M N n
Var[X] = n
N
N
N 1
Dimostrazione: ponendo senza perdita alcuna di generalità u = 0 e h = n
$
# $#
N M
M
n
h
(
(
nr
r
# $
=
E[X] =
r p(xi ) =
r
N
r=0
r=0
n
$#
$
#
M 1
N M
n
M ( r1
M
nr
#
$
=n
=n
N 1
N r=1
N
n1
351
dal momento che

$
#
$#
N M
M 1
n
(
nr
r1
#
$
=1
N
1
r=1
n1
Quanto alla varianza di X, osserviamo innanzitutto che vale la relazione
Var[X] = E[X 2 ] (E[X])2 = E[X (X 1)] + E[X] (E[X])2
Quanto al termine E[X (X 1)], abbiamo
$#
$
N M
n
n
(
(
nr
# $
E[X] =
r (r 1) p(xi ) =
r (r 1)
=
N
r=0
r=0
n
#
$#
$
M 2
N M
n
M (M 1) ( r 2
nr
#
$
= n (n 1)
=
N 2
N (N 1) r=2
n2
M (M 1)
= n (n 1)
N (N 1)
#
M
r
Pertanto sarà
Var[X] = E[X (X 1)] + E[X] (E[X])2 =
M (M 1)
M
M2
= n (n 1)
+n
n2 2 =
N (N 1)
N
N
M N M N n
=n
N
N
N 1
ESEMPIO 13.6
Supponiamo che dei 300 clienti di un supermercato 135 sono quelli che abitualmente pagano con la carta di credito. Unindagine di mercato prevede di estrarre a caso in blocco 100 nominativi di clienti ai quali proporre per via telefonica
352
un nuovo sistema di pagamento. Per valutare lefficacia della campagna pubblicitaria si vuole indagare circa la probabilità che le telefonate raggiungano clienti che
pagano con carta la carta di credito. A tal fine, se definiamo la variabile casuale
X = {# di clienti che pagano con carta di credito sui 100 selezionati } possiamo affermare che essa ha distribuzione ipergeometrica di parametri N = 300, M = 135 e
n = 100. La probabilità che tra i 100 clienti selezionati ve ne siano 40 che pagano
con la carta di credito sarà
P (X = 40) =
135
40
$#
300 135
100 40
# $
300
100
= 0.046
Il numero medio di clienti che pagano con carta di credito sui 100 selezionati e`
E[X] = n
M
135
= 100
= 45
N
300
mentre la varianza di X risulta:

V[X] = n
135 165 200

M N M N n
= 100
= 16.56.
N
N
N 1
300 300 299
Prendendo spunto dal precedende esempio, osserviamo che a volte il calcolo delle probabilità p(xi ) di una v.c. ipergeometrica può divenire assai pesante al crescere di N.
Tuttavia, se supponiamo che N diverga ed il rapporto M/N converga ad un valore, diciamo, ]0, 1[ e concentriamo la nostra attenzione su una particolare determinazione r della
v.c. X, si può dimostrare che
$
# $#
M
N M
# $
n r
r
nr
# $
lim
=
(1 )nr
N
N
r
n
In altri termini, possiamo dire che la distribuzione ipergeometrica converge localmente alla
distribuzione binomiale.
353
13.1.5
V. C .
P OISSON
DI
Senza soffermarci sulla sua genesi, diciamo che una variabile casuale discreta viene detta
possedere una distribuzione di Posson di parametro > 0, se possiede distribuzione di
probabilità
C
=
4
5
r
xi
(13.5)
X
= r
p(xi ) i=1,2,...
e
r!
r=0,1,...
A volte una v.c. di Poisson viene detta v.c. degli eventi rari e ciò perche essa ben si
presta a modellizzare il numero di volte X in cui si manifesta un evento di interesse cui
e` associata una bassa probabilità di verificarsi, appunto un evento raro, nel corso di una
sequenza di lunghezza n di prove ripetute ed indipendenti. Il valore del parametro si
determina in tali casi moltiplicando la probabilità dellevento raro per il numero di prove.
Se ricordiamo che lo sviluppo in serie di Taylor di e e`
( r
2 3
x
+
+ ...+
... =
e =1++
2!
3!
r!
r!
r=0
possiamo verificare in modo immediato che la somma delle probabilità e` effettivamente

uguale allunità. Infatti
P(X = r) =
r=0
(
r
r=0
r!
e = e
(
r
r=0
r!
= e e = 1
Per una variabile casuale di Poisson, abbiamo:

E[X] =
Var[X] =
t
mX (t) = e (e 1)
Dimostrazione: quanto alla funzione generatrice dei momenti si ha
mX (t) = E[et X ] =
et
=e
et r e
r=0
(et 1)
=e
(
( (et )r
r
r
= e
et r
= e
=
r!
r
!
r
!
r=0
r=0
354

d mX (t)
t
= et e(e 1)
dt
2
d mX (t)
t
t
= (et )2 e(e 1) + et e(e 1)
2
dt
abbiamo
d mX (t) 88
8 =
dt
t=0
2
d mX (t) 88
2
E[X ] =
8 = ( + 1)
d t2
t=0
E[X] =
e ancora
Var[X] = ( + 1) 2 =
!
ESEMPIO 13.7
Supponiamo che il numero di clienti che si presentano giornalmente ad uno sportello postale possa essere descritto mediante la v.c. X con distribuzione di Poisson di
parametro = 4. Ci proponiamo di calcolare la probabilità che in un certo giorno:
si presentino esattamente cinque client, cioè {X = 5};
si presentino più di quattro clienti, cioè {X > 4};
il numero di clienti sia compreso tra due e quattro, cioè {2 X 4}.
Procedendo, si ha
P(X = 5) =
45 4
e = 0.15629
5!
P(X > 4) = 1 P(X 4) = 1

P(2 X 4) =
4
(
4x
x=2
x!
4
(
4x
x!
x=0
e4 = 1 0.62884 = 0.37116
e4 = 0.53726
355
Concludiamo osservando, senza peraltro dimostrarlo, che la legge di distribuzione di Poisson e` quella a cui converge la distribzuione binomiale allorche n e 0, restando
costante il prodotto n = . In simboli
# $
(n )r n
n r
e = P(X = r)
lim
(1 )nr =
n r
r!
13.1.6
V. C .
GEOMETRICA
Si immagini che un semplice esperimento casuale consiste nel lancio, ripetuto più volte,di
un dado regolare; lesperimento ha termine non appena si ottiene, per la prima volta, la
faccia con impresso il numero 5.
Ciò premesso, ci proponiamo di individuare la legge di distribuzione della variabile casuale X = {# di lanci da effettuarsi prima che lesperimento abbia termine}, che potrebbe
alternativamente essere definita come il numero di insuccessi (non esce il 5) che precedono
il verificarsi del primo successo (esce il 5).
Consideriamo, dunque, i seguenti eventi tra loro incompatibili
S = {comparsa del # 5}
S = {comparsa di un # diverso dal 5}
Linsieme dei possibili esiti, , e` composto da sequenze, di diversa lunghezza, che contengono al loro interno 0, 1, 2, . . . S ed un S terminale. La v.c. X assume, dunque
determinazioni xi = 0, 1, 2, . . . ,.
In forma schematica, coerentemente con la definizione di prove ripetute indipendenti e
ponendo per brevità = P(S), abbiamo:
SS
SSS
SSSS
...
# sequenze con
S-terminale
1
1
1
1
...
...
# di Insuccessi
nella sequenza
0
1
2
3
...
P (X = xi )
...
(1 )
(1 )2
(1 )3
...
In definitiva la variabile casuale X ha distribuzione di probabilità

5 4
5
4
5
4
xi
0
1
...
r...
=
X
=
(1 ) . . .
(1 )r . . . r=0,1,...
p(xi ) i=1,2,...
(13.6)
356
Una v.c. con siffatta distribuzione viene comunemente detta geometrica ed e` caratterizzata
dal solo parametro .
La v.c. X può essere intesa quale tempo di attesa, in una serie di prove bernoulliane
indipendenti, prima che si verifichi per la prima volta il primo successo.
Prima di procedere, può essere utile osservare che i valori assunti dalla funzione di distribuzione di probabilità corrispondono, a meno della costante , ai termini di una serie
geometrica di ragione (1 ). Tale osservazione ci consente, tra laltro, di verificare,
ricordando che 1 < 1:
(
r=0
(1 ) =
(
r=0
(1 )x =
1
=1
1 (1 )

E[X] =
Var[X] =
1
2
mX (t) =
1 et (1 )

tX
mX (t) = E[e
]=
(
r=0
tx
e (1 ) =
(
.
r=0
et (1 )
/r
et
(1 )

.
/2 t
d mX (t)
= 1 et (1 )
e (1 )
dt
D
9
:3
9
:2 E
d2 mX (t)
2t
t
t
t
=
(1
)
2
e
(1
)
1
e
(1
)
+
e
1
e
(1
)
d t2
abbiamo
d mX (t) 88
1
8 =
dt
t=0
8
2
.
/
d mX (t) 8
E[X 2 ] =
8 = (1 ) 2 3 (1 ) + 2
2
dt
t=0
E[X] =
357
e ancora
.
/ (1 )2
1
=
Var[X] = (1 ) 2 3 (1 ) + 2
2
E` doveroso osservare che spesso, con riferimento ad una successione di prove bernoulliane
indipendenti, non si e` interessati esclusivamente al numero di Insuccessi che precedono
lapparire del primo Successo, bens` al numero di prove necessarie per conseguire il primo
Successo. Se questo e` il caso, e` facile verificare che tra le v.c.
X = {# di Insuccessi che precedono il primo Successo}
Y = {# di prove necessarie per ottenere il primo Successo}
intercorre la semplice relazione Y = X + 1. In tal caso Y viene a possedere distribuzione
di probabilità
5
4
5
4
yi
r...
(13.7)
Y
=
(1 )r1 . . . r=1,2,...
p(yi ) i=1,2,...
e di conseguenza, lasciandone la verifica al Lettore
E[Y ] =
Var[Y] =
1
2
mY (t) =
1 et (1 )
ESEMPIO 13.8
Indichiamo con X il numero di giocate che si debbono effettuare fino alla comparsa
di una vincita al gioco del Lotto, corrispondente alluscita, ad esempio sulla ruota
di Torino, di un prefissato numero, ad esempio il 17. Ci prefiggiamo di determinare il
numero medio di giocate necessarie per ottenere, per la prima volta, una vincita. La
v.c. X in questione ha manifestamente una distribuzione geometrica di parametro
# $# $
1
89
5
1
4
= # $ =
90
90
5
358
e, di conseguenza, funzione di distribuzione di probabilità

# $r1
5
85
P(X = r) =
90 90
0.6
P(X x)
0.4
0.03
0.0
0.00
0.01
0.2
0.02
P(X = x)
0.04
0.8
0.05
1.0
0.06
con r = 1, 2, . . ..
Il numero medio di giocate che si dovranno effettuare perche si ottenga la prima
90
vincita e` pertanto E[X] =
= 18
5
La figura (13.4) riporta il grafico della funzione di distribuzione di probabilità e della
funzione di ripartizione di X per r = 1, . . . , 30.
10
15
xi
20
25
30
10
15
20
25
30
xi
Per concludere e` interessante osservare che la distribuzione geometrica gode della particolare proprietà detta di non memoria, nel senso che il tempo di attesa tra successive
manifestazioni di un Successo equivale al tempo di attesa fino alla prima manifestazione
del Successo stesso.
Supposto che la v.c. X abbia distribuzione geometrica di parametro e siano s e t due
interi positivi tali che 0 < s < t, vogliamo dimostrare che, sapendo che il Successo non si
e` verificato alla s-esima prova, la probabilità che esso si realizzi alla s + t-esima prova e`
indipendente da s.
359
13.2. Variabili casuali continue
Tornando allinsieme dei possibili esiti associato allesperimento casuale che conduciamo,
osserviamo che la v.c. X assume valore s + t se si verifica levento A costituito dallunica
sequenza formata da s + t 1 Insuccessi e Successo terminale, mentre essa assume valore
maggiore di s se si verifica levento B che e` il complemetare del sottoinsieme di formato
da tutte le sequenze di lunghezza minore o tuttal più uguale ad s. Pertanto, essendo
A = {X = s + t}
B = {X s} = {X > s}
si tratta di dimostrare che P(A|B) e` indipendente da s e coincide con la probabilità che il

Successo si osservi alla t-esima prova. Infatti e`
P(A B)
=
P(B)
P({X = s + t} {X > s})
P(X = s + t)
=
=
=
P(X > s)
1 P(X s)
(1 )s+t1
(1 )s+t1
+s
=
=
=
1 r=1 (1 )r1
(1 )s
= (1 )t1 = P(X = t)
P(X = s + t|X > s) = P(A|B) =
Cos`, ad esempio, nel caso del gioco del Lotto, il fatto che certo numero abbia un ritardo di
s settimane non influisce sul tempo che si dovrà ancora attendere perche il numero venga
estratto.
13.2.
VARIABILI CASUALI CONTINUE
In questo paragrafo ci proponiamo di presentare alcune delle più importanti distribuzioni

di probabilità di variabili casuali continue, tra le quali la distribuzione Normale giuoca, per
motivi che appariranno chiari nel seguito, il ruolo di prima donna. Il Lettore interessato ad
approfondimenti, può consultare i testi di Mood et al. (1988) e di Pesarin (1989). Ad un
livello indubbiamente più specialistico si pone il testo di Johnson and Kotz (1983a).
13.2.1
V. C .
UNIFORME O RETTANGOLARE
Una variabile casuale X continua viene detta possedere distribuzione uniforme se la sua
funzione di ripartizione e` del tipo
0
se x < a
x a
se a x < b
(13.8)
FX (x) =
ba
1
se x b
360
In simboli indicheremo X U(a, b). In altri termini la v.c. X uniforme possiede, come e`
facile verificare, densità di probabilità
1
se a x b
(13.9)
fX (x) = b a
0
altrove
1.0
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
fX(x)
FX(x)
0.6
0.8
1.0
cioè la sua densità di probabilità e` costante sullintervallo reale [a; b]. Tale e` la ragione per
cui alcuni Autori si riferiscono ad essa come distribuzione rettangolare (cfr. figura 13.5).
Figura 13.5 Funzione di densità di probabilità e di ripartizione di una v.c. X U(2, 4).
E[X] =
a+b
2
(b a)2
Var[X] =
12
mX (t) =
eb t ea t
, per t = 0.
(b a) t
361
Dimostrazione: Quanto al valor medio di X, dalla definizione segue

6 b
6 b
1 x2 88b
b2 a2
1
1
dx =
=
E[X] =
x fX (x) dx =
x
8 =
ba
b a 2 a 2 (b a)
a
a
a+b
=
2
Calcolato il momento secondo
6 b
6 b
2
2
E[X ] =
x fX (x) dx =
x2
a
otteniamo
1
b3 a3
1 x3 88b
dx =
8 =
ba
b a 3 a 3 (b a)
(a + b)2
b3 a3
=
3 (b a)
4
(b a)2
(b3 a3 ) (b a) (a + b)2
=
=
12 (b a)
12
Var [X] = E[X 2 ] (E[X])2 =
Quanto alla funzione generatrice dei momenti, ci limitiamo ad osservare che

6 b
6 b
1
tX
tx
mX (t) = E[e ] =
e fX (x) dx =
et x dx =
b
a
a
a
eb t ea t
1 1 t x 88b
e 8 =
=
ba t
(b a) t
a
definita, ovviamente, per t = 0.
!
Si osservi che la funzione di densità di probabilità di una v.c. X U(a, b) e` simmetrica
rispetto al valor medio. In tal caso valor medio e mediana coincidono. Infatti risolvendo
lequazione FX (x) = 0.5 si ha
xa
1
=
ba
2
2 (x a) = b a
x=
a+b
= X
2
ESEMPIO 13.9
Sia X una v.c. con distribuzione uniforme nellintervallo [2; 2]. Ci proponiamo di
calcolare la probabilità dellevento {1 < X x0,8 }, dove x0,8 indica il quantile di
ordine 0.8 di X.
362
Dal momento che FX (x0,80 ) = 0.8 e FX (1) = 0.25, la probabilità ricercata risulta
P(1 < X x0,80 ) = FX (x0,80 ) FX (1) = 0.8 0.25 = 0.55
Osserviamo che saremmo pervenuti al medesimo risultato calcolando larea sottesa
alla densità fX (x) entro lintervallo [1; x0,80 ], dove x0,80 = 1.2, infatti
x2
= 0.8
4
5 (x + 2) = 16
x0,80 = 1.2
Seguendo tale approccio, data la particolare forma della densità di X, la probabilità ricercata equivale allarea del rettangolo con base lintervallo [1; 1.2] ed altezza
fX (x) = 1/4, cioè P(1 < X x0,80 ) = 2.2 0.25 = 0.55.
ESEMPIO 13.10
Sia X una v.c. con distribuzione uniforme nellintervallo [2; 4]. Ci proponiamo di
individuare il valor medio della trasformata Y = FX (X).
x2
e quindi g1 (x) = 2 y + 2, ricordando quanto esposto a propoPosto g(x) =
2
sito delle trasformate di v.c., sarà:
.
/
FY (y) = P (Y y) = P X g1 (x) = P (X 2y + 2) =
6 2 y+2
1 882 y+2 2 y + 2 2
1
=
= FX (2 y + 2) =
dx = x8
=y
2
2 2
2
2
In definitiva la nuova v.c. Y viene a possedere distribuzione Uniforme nellintervallo

a+b
1
reale [0; 1]. Quindi E[Y ] =
= .
2
2
13.2.2
V. C . N ORMALE
Tra le variabili casuali continue un posto di notevole rilievo occupa la variabile casuale
Normale, o di Gauss o più semplicemente gaussiana. Una v.c. X viene detta possedere distribuzione Normale di parametri (, 2 ), in simboli X N (, 2), qualora essa possegga
la seguente funzione di ripartizione
FX (x) =
5
4
1
(u )2
du
exp
2 2
2
(13.10)
363
1.0
0.025
0.020
0.8
0.015
0.6
FX( + )
0.4
0.2
FX( )
0.0
x=
x=+
0.000
x=
0.010
0.005
fX(x)
FX(x)
FX()
50
100
150
200
50
100
150
200
Figura 13.6 Funzione di densità di probabilità e di ripartizione di X N (120, 20).

In altri termini la v.c. X normale possiede funzione di densità di probabilità
4
5
(x )2
1
exp
fX (x) =
2 2
2
(13.11)
Tale funzione, a ben vedere (cfr figura 13.6), e` simmetrica rispetto alla retta x = ; infatti
h > 0 accade che
fX ( + h) = fX ( h)
(13.12)
Essa presenta inoltre:

un massimo assoluto in corrispondenza a x = . Infatti se consideriamo la sua
derivata prima rispetto a x
d fX (x)
1
=
dx
2
$
4
5
(x )2
2 (x )
exp
2 2
2 2
osserviamo che essa si annulla in x = , assumendo localmente il segno di ( x).
364
due flessi per x = . Infatti la derivata seconda di fX (x) rispetto a x

4
5
1 (x )2 2
(x )2
d2 fX (x)
=
exp
d x2
4
2 2
2
si annulla per x = .
Infine, osserviamo che, se X e` una variabile casuale N (, 2), allora:
E[X] =
Var[X] = 2
2 t2
mX (t) = exp t +
2
4
Dimostrazione: quanto alla funzione generatrice dei momenti, si ha

+
4
5
(x )2
1
exp
mX (t) = E[e ] =
e
dx =
2 2
2
5
4
6 +
1
(x )2
dx
=
exp x t
2 2
2
tX
xt
Considerando, ora, lesponente che compare nellultimo integrale

xt
1
1
(x )2 = 2 (x2 2 x + 2 2 x t 2 ) =
2
2
2
/
1 .
= 2 x2 2 x( + t 2 ) + 2
2
aggiungendo e sottraendo ad esso ( + t 2 )2 si ottiene
1
{[x ( + t 2 )]2 + 2 2 t2 4 2 t 2} =
2 2
[x ( + t 2 )]2 t2 4 + 2 t 2
=
+
=
2 2
2 2
1
[x ( + t 2 )]2
+ t + 2 t2
=
2
2
2
In definitiva
365
5
4
1 2 2
[x ( + t 2 )]2
1
+ t + t dx =
exp
mX (t) =
2 2
2
2
5 6 +
5
4
4
1
1 2 2
[x ( + t 2 )]2
dx =
= exp t + t
exp
2
2 2
2
4
5
2 t2
= exp t +
2
6
dato che
6
C
=
2
1
(x ( + t 2 ))
dx = 1
exp
2 2
2
in quanto e` lintegrale su tutto R della densità di probabilità di una una v.c. con distribuzione Normale di parametri + t 2 e 2 .
4
5
/
d mX (t) .
2 t2
2
= + t exp t +
dt
2
4
5
2
d mX (t) . 2
2 t2
2/
= + ( + t) exp t +
d t2
2
otteniamo i momenti primo e secondo
d mX (t) 88
8 =
dt
t=0
2
d mX (t) 88
2
E[X ] =
8 = 2 + 2
d t2
t=0
E[X] =
e tramite essi la varianza
Var[X] = E[X 2 ] (E[X])2 = 2 + 2 2 = 2

!
Posto di lavorare con una variabile casuale continua con distribuzione Normale, ci si pone
il problema del calcolo delle probabilità di eventi di interesse, quali {X a}, {a <
X b}, {X b}, . . . Le probabilità di tali eventi possono evidentemente essere calcolate
ricorrendo alla funzione di ripartizione proposta in (13.10).
366
Purtroppo, non conoscendo la forma analitica della primitiva della funzione di densità della
variabile casuale Normale, la valutazione dei valori della funzione di ripartizione in corrispondenza a punti di interesse dellasse reale può essere fatta solo per via numerica, ad
esempio Abramovitz and Stegun (1972), oppure ricorrendo a particolari Tavole (ad esempio quella riprodotta dagli Autori e proposta in Appendice) che riportano, in corrispondenza a diversi valori x R, il corrispondente valore della funzione di ripartizione di una
particolare v.c. con distribuzione Normale di parametri = 0 e 2 = 1. Tali Tavole, come
vedremo, possono essere impiegate per calcolare la probablità di eventi del tipo succitato
qualunque siano i parametri della v.c. Normale con cui si lavora.
La variabile casuale a cui ci riferiamo viene detta v.c. Normale standardizzata e la si ottiene
2
a partire dalla v.c. X N (X , X
) mediante la trasformata
Z=
X X
X
(13.13)
Prima di entrare in dettaglio, vale la pena segnalare la seguente proprietà che va sotto il nome di proprietà di chiusura della famiglia delle distribuzioni normali rispetto a
trasformazioni lineari.
2
Proprietà 13.1 Data una v.c. X N (X , X
), la trasformata Y = a + b X porge una
2
v.c. con distribuzione Normale di parametri a + b X e b2 X
.
Dimostrazione: data una v.c. X con funzione generatrice dei momenti mX (t), la funzione
generatrice dei momenti della trasformata Y = a + b X risulta
9
:
9
:
mY (t) = E[et Y ] = E[et g(x) ] = E et (a+b X) = ea t E eb t X = ea t mX (b t)
2
Ora, se X N (X , X
), la funzione generatrice dei momenti di Y = a + b X risulta
at
21
mY (t) = e mX (b t) = exp {a t} exp X b t + b

2
4
5
1 2 2
= exp (a + X b) t + b2 X
t
2
2 2
X
t
=
(13.14)
A ben vedere la (13.14) corrisponde alla funzione generatrice di una v.c. Normale di para2
metri a + b X e b2 X
, quindi, in virtù del teorema di unicità, la v.c. Y viene a possedere
2
distribuzione N (a + b X , b2 X
).
!
367
Alla luce della precedente proprietà, possiamo affermare che la variabile casuale corrispondente alla (13.13) ha distribuzione Normale di parametri Z = 0 e Z2 = 1.
Per sincerarcene, e` sufficiente osservare che la trasformata (13.13) e` lineare con
a=
X
X
1
X
b=
s` che la funzione generatrice dei momenti di Z, ricordando la (13.14), risulta

4
1 1 2 2
X X
+
) t + 2 X
t
mZ (t) = exp (
X
X
X 2
4 25
t
= exp
2
che e` appunto quella di una v.c. N (Z = 0, Z2 = 1).

In altri termini, il calcolo dellarea di probabilità sottesa alla funzione di densità fino al
punto, diciamo, x = a può essere ottenuta facendo ricorso allanalogo calcolo riferito alla
v.c. Normale standardizzata Z, la cui funzione di ripartizione FZ (z), indicata abitualmente
con (z) e` data da
(z) =
(u) du =
4 25
1
u
exp
du
2
2
(13.15)
Si ha cos`, X N , lequivalenza tra le aree di probabilità:

P(a X b) =
b X
X
a X
X
= (zb ) (za )
cos` come illustrato in figura (13.7).
ESEMPIO 13.11
Data la variabile casuale X N (12, 25), ci proponiamo di calcolare la probabilità
dei seguenti due eventi di interesse:
A = {X > 21}
B = {18 < X 30}
Anziche lavorare sulla v.c. X data, scegliamo di trasformare questultima in una v.c.
Normale standardardizzata semplicemente ponendo
Z=
X 20
5
0.6
0.8
368
15
0.0
0.2
0.4
(z)dz = f (x)dz
12 X
0
10
15
20
Figura 13.7 Funzioni di densità di probabilità di X N (10, 3) e Z N (0, 1).

In base a tale trasformazione gli eventi di interesse A e B risultano equivalenti agli
eventi
4
5
21 20
A = Z>
= {Z > 0.2}
5
5
4
30 20
18 20
<Z
= {0.4 < Z 2}
B =
5
5
Ai fini del calcolo di tali probabilità (cfr. figura 13.8), ricorriamo alla tavola proposta in Appendice che riporta i valori
7 z della funzione di ripartizione della Normale
standardardizzata, ovvero (z) = (u) du.
Pertanto avremo
6 +
6 0.2
(z) dz =
P(A) = P(A ) =
(z) dz = 1
0.2
= 1 (0.2) = 1 0.57926 = 0.42074
P(B) = P(B ) =
(z) dz =
0.4
(z) dz
0.4
(z) dz =
= (2) (1 (0.4)) = 0.97725 0.34458 = 0.63267
369
0.4
0.3
0.2
0.1
0.1
0.2
0.3
0.4
0.0
B. B.
B.
0.0
A.
A.
Figura 13.8 Funzioni di densità di probabilità di Z N (0, 1), esempio 13.11.

Desiderando, inoltre, appurare se gli eventi A e B in questione sono stocasticamente
indipendenti, dovremo verificare luguaglianza
P(A|B) =
P(A B)
= P(A)
P(B)
Ora, osservando che levento {B A} = {21 X 30} in temini di v.c. Z

corrisponde allevento {B A } = {0.2 Z 2}, abbiamo
P(B A) = P(B A ) =
(z) dz =
0.2
(z) dz
0.2
(z) dz =
= (2) (0.2) = 0.97725 0.57926 = 0.39799

Quindi, essendo
P(A|B) =
0.39799
P(A B)
=
= 0.62906 = P(A) = 0.42074
P(B)
0.63267
concludiamo affermando che gli eventi in esame sono stocasticamente dipendenti.
370
ESEMPIO 13.12
Data la variabile casuale X N (20, 4), ci proponiamo di determinare il valore della
costante c per cui risulta P(X > c) 0.90.
Innanzitutto appare del tutto naturale, ricorrendo alla v.c. Normale standardizzata, la
relazione:
$
#
$
#
c 12
c 12
=1
P(X > c) = 1 P(X c) = 1 P Z
2
2
Per le condizioni richieste, dovrà essere verificata la disequazione
#
$
#
$
c 12
c 12
1
0.90
0.10
2
2
Ricorendo, ora, alle tavole della funzione
. di/ripartizione cumulativa della N (0, 1), il
quantile che soddisfa luguaglianza c12
= 0.10 e` z = 1.28 e, di conseguenza,
2
avremo
1.28 =
c 12
2
ovvero dovrà risultare x 9.44.
c = 9.44
ESEMPIO 13.13
Supponiamo che la durata, misurata in ore di corretto funzionamento in normali condizioni di impiego, di una particolare lampada allo iodio abbia distribuzione N ( =
1000, 2 = 5002 ). Ci proponiamo di calcolare la probabilità che una generica lampada superi le 1050 ore di buon funzionamento.
Introdotta la variabile casuale X = {durata in ore della lampada}, indichiamo con A
levento {X > 1050}. La probabilità dellevento A e` pertanto
$
#
1050 1000
=
P(A) = P(X > 1050) = 1 P(X 1050) = 1 P Z
500
= 1 (0.10) = 1 0.53983 = 0.46017
Tale risultato, tuttavia, non e` corretto, nel senso che la probabilità dellevento A e`
sottostimata. Manifestamente, la v.c. X in esame non dovrebbe assumere valori negativi, o perlomeno ad essi dovrebbe essere associata una probabilità prossima a zero;
tuttavia nel caso in esame risulta
$
#
0 1000
= P(Z < 2) = (0.10) = 0.02275
P(X < 0) = P Z
500
371
Linconveniente e` facilmente risolvibile censurando la distribuzione in x = 0, il che

significa restringere il codominio della v.c. X allintervallo [0, [.
A tal fine, consideriamo la funzione di densità di probabilità, per 0 x <
4
5
(x )2
k
exp
fX (x) =
2 2
2
Il vlore della costante k e` facilmente individuabile; trattandosi di una funzione di
densità di probabilità, dovrà essere, per il terzo assioma, unitaria larea sottesa a fX (x)
nel suo intervallo di definizione, cioè dovrà risultare
6
4
5
(x )2
k
exp
dx = 1
2 2
2
ovvero in termini di v.c. standardizzata

4 25
6
k
z
exp
dz = 1
2
2
Pertanto avremo
%
6
k
4 25 '
z
k
exp
dz = 1
2
2
da cui
)
) **1
k = 1
In definitiva la funzione di densità di probabilità della v.c. X censurata in corrispondenza a x = 0 risulta

4
5
(x )2
1
exp
2 2
2)
) **
fX (x) =
1
In tale ottica, la probabilità dellevento A risulta

P(A) =
0.460172
1 (0.10)
=
= 0.47088
1 (2)
0.02275
372
ESEMPIO 13.14
Supponiamo che lo spessore X, misurato in mm, di un certo componente meccanico
sia distribuito normalmente con parametri e 2 > 0 e che il prodotto venga giudicato conforme se il suo spessore rientra nelle specifiche a X b, con a < b.
Ipotizziamo, altres`, che il profitto unitario, espresso in euro, sia
c1
c2
c3
se x < a
se a x b
se x > b
con c1 , c2 , c3 > 0. Ci proponiamo di calcolare il valore di che massimizza il profitto

atteso. Introduciamo, innanzitutto, la v.c. Y che rappresenta il profitto unitario; tale
v.c. ha chiaramente distribuzione di probabilità
c1
fY (y) = c2
c3
P(X < a)
P(a X b)
P(X > b)
e ne calcoliamo il valor medio, che rappresenta, evidentemente, il profitto atteso

E[Y ] = c1 P(X < a) + c2 P(a X b) c3 P(X > b) =
= c1 FX (a) + c2 (FX (b) FX (a)) c3 (1 FX (b)) =
= (c2 + c3 ) FX (b) (c2 + c1 ) FX (a) c3 =

4
5
6 b
1
(x )2
exp
= (c2 + c3 )
dx
2 2
2
4
5
6 a
1
(x )2
exp
dx c3
(c2 + c1 )
2 2
2
Supposta una certa discrezionalità sulla media di processo , il problema si riduce alla
scelta di quel particolare valore tale da massimizzare E[Y ]. Il problema e` risolto
individuando quel particolare valore di per cui risulta
d E[Y ]
=0
d
d2 E[Y ]
<0
d 2
373
Con riferimento alla sola derivata prima ed applicando la regola di derivazione di una
funzione integrale secondo Leibniz, si ottiene
4
5
4
5
c2 + c3
(b )2
(a )2
c2 + c1
d E[Y ]
=
exp

exp
=
d
2 2
2 2
2
2
#
4
5
1
(b )2
=
(c2 + c3 ) exp
2 2
2
4
5$
(a )2
(c2 + c1 ) exp
2 2
Posto dE[Y ]/ d = 0, e risolvendo rispetto a , si ha
5
4
5
4
(a )2
c2 + c3
(b )2
exp
=
exp
2
2
2
2
c2 + c1
da cui
=
2
c2 + c3
a+b
log
2
ba
c2 + c1
A questo punto e` dobbligo una breve discussione circa il risultato ottenuto, palesemente dipendente dai valori c1 , c2 e c3 . Infatti si hanno le seguenti situazioni:
se |c1 | = |c3 | allora
se |c1 | < |c3 | allora
se |c1 | > |c3 | allora
c2 +c3
c2 +c1
= 1 e quindi =
a+b
2 ;
c2 +c3
c2 +c1
> 1 e quindi <
a+b
2 ;
c2 +c3
c2 +c1
< 1 e quindi >
a+b
2 .
13.2.3
V. C .
GAMMA
Una variabile casuale continua X viene detta possedere una distribuzione gamma se, per
x 0, la sua funzione di ripartizione e` del tipo
6 r
FX (x) =
ur1 e u du
(13.16)
(r)
0
dove i parametri r e sono numeri reali positivi e (r) e` una funzione, detta funzione
gamma, definita dallintegrale
6 +
(r) =
xr1 ex dx
(13.17)
0
374
Una variabile casuale X con distribuzione gamma possiede, dunque, funzione di densità di
probabilità
fX (x) =
r r1 x
x e
(r)
(13.18)
Che la (13.18) sia effettivamente un densità di probabilità lo si verifica agevolmente, infatti

6
6 r
6 r1
r
y
r1 x
y y
fX (x) dx =
x e
dx =
e
d =
(r)
(r) 0 r1
0
0
6
r
(r)
r1 y
y
e
dy
=
=1
=
(r) r 0
(r)
avendo avuto cura di porre y =
x, per cui x = y/ e ancora dy/ = dx ed osservando
7
che in virtù della (13.17) risulta 0 y r1 ey dy = (r).
=2
=3
=4
0.0
0.00
0.2
0.4
0.10
0.6
= 1.5
=2
=3
0.20
V.c Gamma con r=2
0.8
V.c Gamma con r=1
10
10
15
V.c Gamma con = 3
V.c Gamma con = 3

0.15
0.8
r=2
r=3
r=4
0.0
0.00
0.2
0.05
0.4
0.10
0.6
r=1
r = 0.8
r = 0.5
20
3
x
10
20
30
40
Figura 13.9 Funzioni di densità di probabilità di alcune v.c. gamma.
In figura (13.9) sono riportati alcuni grafici della funzione di densità di probabilità gamma
per alcuni valori dei parametri r e . Interessante e` il ruolo giocato dal parametro r; infatti
se r 1, allora fX (x) e` una funzione descrescente, mentre per r > 1 essa presenta
un punto di massimo. Il parametro agisce invece quale parametro di scala; variare il
375
valore di significa unicamente dilatare o comprimere la densità, mantenendo ovviamente

unitaria larea totale per soddisfare lassioma della norma.
Per una variabile casuale con distribuzione gamma si ha:
r
E[X] =
r
Var[X] = 2
#
$r
mX (t) =
t
6 +
r r1 x
tX
x e
dx =
mX (t) = E[e ] =
et x
(r)
0
6 +
( t)r r r1 (t) x
=
x e
dx =
( t)r (r)
0
#
$r
6 +
r
( t)r r1 (t) x
=
x e
dx =
( t)r 0
(r)
t
(13.19)
osservando che
6 +
( t)r r1 (t) x
x e
dx = 1
(r)
0
in quanto funzione di densità di probabilità di una v.c. gamma di parametri r e t.

d mX (t)
= r r ( t)r1
dt
d2 mX (t)
= r (r + 1) r ( t)r2
d t2
otteniamo i momenti di ordine primo e secondo di X
d mX (t) 88
r
E[X] =
8 =
dt
t=0
8
2
d
m
(t)
r (r + 1)
8
X
E[X 2 ] =
=
8
d t2
2
t=0
r
r (r + 1) r 2
2 = 2
da cui la varianza Var[X] =
2
376
Linteresse della distribuzione gamma risiede sopratutto, a parte problemi di modellizzazione e di simulazione, in alcuni suoi casi particolari che caratterizzano alcune importanti
variabili casuali, definite su R+ , a cui spesso si ricorre in ambito statistico e che presentiamo qui nel seguito. Per approfondimenti sulla distribuzione gamma, si veda ad esempio
Johnson and Kotz (1983a).
13.2.4
V. C .
ESPONENZIALE NEGATIVA
Una variabile casuale continua X viene detta possedere una distribuzione esponenziale
negativa, o semplicemente esponenziale, se, per x 0, la sua funzione di ripartizione e` del
tipo
6 x
FX (x) =
e u du
(13.20)
0
ove e` una costante reale positiva.

In altri termini la variabile casuale X esponenziale possiede funzione di densità di probabilità
fX (x) = e x
(13.21)
Ai fini pratici, e` bene ricordare che la funzione di ripartizione di una v.c. con distribuzione
esponenziale può essere posta nella forma compatta
FX (x) = 1 e x
(13.22)
Intatti, ricordando che che P[X x] = 1 P[X > x], si ha

6 x
6
8b
u
u
u 8
FX (x) =
e
du = 1
e
du = 1 lim e
8 = 1 e x
0
A ben vedere, si tratta di una variabile casuale con distribuzione gamma di parametri e
r = 1, per cui ad essa si applicano le considerazioni fatte a proposito della v.c. gamma.
Per una variabile casuale X con distribuzione esponenziale si ha:
E[X] =
Var[X] =
1
2
mX (t) =
377
Dimostrazione: e` sufficiente ricordare quanto fatto a proposito della distribuzione gamma,

la cui funzione generatrice dei momenti corrisponde alla (13.19), semplicemente ponendo
in essa r = 1.
!
ESEMPIO 13.15
Supponiamo che la durata, misurata in minuti, di una conversazione telefonica possa essere rappresentata da una v.c. X di tipo continuo con funzione di densità di
probabilità
fX (x) = k e0.1 x
Determinato il valore del parametro k, ci proponiamo di calcolare la probabilità che
una generica conversazione:
duri dai due ai tre minuti;
duri più di tre minuti;
duri più di quattro minuti, essendo durata già più di tre minuti.
Evidentemente, essendo fX (x) una funzione di densità di probabilità, dovrà essere:
6
e0.1 x 88b
k
k e0.1 x dx = 1
k lim
=1
8 =1
b
0.1
0.1
0
0
per cui k = 0.1. In definitiva la v.c. X ha distribuzione esponenziale negativa di

parametro = 0.1.
Quanto ai quesiti postici, ricorrendo alla (13.22) abbiamo
6 3
fX (x) dx = FX (3) FX (2) =
P(2 X 3) =
2
= 1 e0.13 1 + e0.12 = 0.0779
P(X > 3) = 1 P(X 3) = 1
fX (x) dx
0.13
= 1 FX (3) = 1 1 + e
= 0.7408
P({X > 4} {X > 4})

P(X > 4)
=
=
P(X > 3)
P(X > 3)
1 P(X 4)
1 FX (4)
1 1 + e0.14
=
=
=
=
1 P(X 3)
1 FX (3)
1 1 + e0.13
= e0.1 = 0.9048
P(X > 4|X > 3) =
0.6
0.4
FX(x)
0.06
0.0
0.00
0.02
0.2
0.04
fX(x)
0.08
0.8
0.10
1.0
0.12
378
10
15
20
25
30
10
15
20
25
30
Figura 13.10 Funzione di densità di probabilità e di ripartizione, esempio 13.15.
Osserviamo che la durata media di una telefonata e` di ben 1/0.1 = 10 minuti.

Per completezza, la figura (13.10) riporta il grafico della funzione di densità di probabilità e quello della funzione di ripartizione di X nellintervallo [0, 30].
Si noti che una variabile casuale con distribuzione esponenziale viene abitualmente detta
v.c. tempo di attesa; in altri termini essa fornisce il tempo di attesa affinche si manifesti
un evento per il quale sia costante, in ciascun istante, il tasso di realizzazione. In tale ottica
essa giuoca lo stesso ruolo, mutatis mutandis, di quello della distribuzione geometrica nel
caso discreto.
ESEMPIO 13.16
Supponiamo che la durata, misurata in ore di corretto funzionamento, delle lampadine
prodotte dalla ditta ZX possa essere rappresentata da una v.c. X di tipo esponenziale
con valor medio pari a 1000 ore.
Scelta a caso una lampadina, la probabilità che questa funzioni correttamente per più
di 1000 ore sarà
P(X > 1000) = 1 P(X 1000) = 1 FX (1000) =
= 1 1 + e0.0011000 = e1 = 0.36788
379
La probabilità, ora, che una lampadina che abbia funzionato correttamente già per
1.000 ore funzioni correttamente per altrettante ore e`
P({X > 2000} {X > 1000})
P(X > 1000)
1 P(X 2000)
P(X > 2000)
=
=
=
P(X > 1000)
1 P(X 1000)
1 1 + e0.0012000
=
= e0.0011000 =
1 1 + e0.0011000
= 0.36788 = P(X > 1000)
P(X > 2000|X > 1000) =
E` interessante osservare, e i due esempi proposti lo hanno evidenziato, che la distribuzione

esponenziale gode, al pari della distribuzione geometrica, nel caso discreto, della proprietà
di non memoria, ciò nel senso che il tempo di attesa tra successive manifestazioni di un
particolare evento equivale al tempo di attesa fino alla prima manifestazione dellevento in
questione.
Volendo chiarire quanto affermato, supponiamo che la v.c. X abbia una distribuzione
esponenziale di parametro e siano s e t due numeri reali tali che 0 < s < t; e` facile
verificare che
P(X > s + t|X > s) = P(X > t)
infatti si ha
P({X > s + t} {X > s})
P(X > s)
1 P(X s + t)
P(X > s + t)
=
=
=
P(X > s)
1 P(X s)
e(s+t)
= es = P(X > t)
=
s
e
P(X > s + t|X > s) =
Proprio per tali considerazioni, la distribuzione esponenziale viene spesso adottata quale
modello per la durata di corretto funzionamento dei componenti elettronici per i quali non
e` prevista usura. Ciò significa, a ben vedere, ipotizzare un tasso di guasto costante in R+ .
In ambito di affidabilità viene definita la funzione di tasso di guasto, indicata in letteratura
anglosassone con il termine hazard fuction, il rapporto
hX (x) =
fX (x)
1 FX (x)
(13.23)
0.0012
0.0008
0.0004
0.0000
0.0000
0.0004
fX(x)
hX(x)
0.0008
0.0012
380
500
1000 1500 2000 2500 3000

x
500
1000 1500 2000 2500 3000

x
Figura 13.11 Funzione di densità esponenziale e di tasso di guasto, = 0.001.
che nel caso di distribuzione esponenziale (cfr. figura 13.11) risulta costante e pari al
parametro , infatti, dalla (13.23)
e x
hX (x) = x =
e
O SSERVAZIONE : essendo E[X] = 1/, lintervallo medio fino alla prima manifestazione, o quello tra successive manifestazioni, e` espresso in funzione del solo parametro , che
rappresenta la misura dellintensità del fenomeno cioè il numero medio delle manifestazioni del fenomeno nellunità di tempo considerata. In base a tali considerazioni, alcuni
autori sogliono esprimere la funzione di densità di probabilità di una v.c. con distribuzione
esponenziale negativa nella forma alternativa
fX (x) =
1 x
e
cos` che il valor medio risulti uguale a .
381
13.2.5
V. C .
CHI - QUADRATO
Una variabile casuale continua viene detta possedere una distribuzione chi-quadrato se, per
x 0, la sua funzione di ripartizione e` del tipo
6 x
1
1
) * u 2 e 2 u du
(13.24)
FX (x) =
0 22
2
dove il parametro e` un intero positivo e () e` una funzione definita dallintegrale

6 +
() =
x1 ex dx
0
In altri termini la v.c. chi-quadrato, abitualmente indicata 2 , possiede funzione di densità

di probabilità
fX (x) =
1
) * x 2 e 2 x
2
2
(13.25)
A ben vedere, si tratta di una variabile casuale con distribuzione gamma di parametri =
1/2 e r = /2, per cui ad essa si applicano le considerazioni fatte a proposito della v.c.
gamma.
Per una variabile casuale X con distribuzione chi-quadrato di parametro si ha:
E[X] =
Var[X] = 2
mX (t) =
(1 2 t) 2
Dimostrazione: e` sufficiente ricordare quanto fatto a proposito della distribuzione gamma,

la cui funzione generatrice dei momenti corrisponde alla (13.19), semplicemente ponendo
in essa = 1/2 e r = /2.
!
Da quanto precede, una v.c X con distribuzione chi-quadrato viene ad essere interamente
caratterizzata del parametro che in termini tecnici viene indicato con il termine numero
dei gradi di libertà, il cui significato sarà chiarito nei capitoli che dedicheremo allinferenza
statistica.
382
ESEMPIO 13.17
Data la v.c. X N (0, 1), ci proponiamo di individuare la funzione generatrice dei
momenti della v.c. Y = X 2 . Per cose ormai note, sarà
>
?
>
?
9
:
2
mY (x) = E et Y = E et g(x) = E et X =
6
6
2
x2
1
1
t x2 x2
e e
dx =
e 2 (12 t) dx =
=
2
2
6
12
x2
(1 2 t)
1
e 2 (12 t) dx
=
1
(1 2 t) 2 2
1 x22
e
2
1 y2
e
2y
fY(y) =
fY(y)
0.0
0.00
0.1
0.05
0.2
fX(x)
0.10
0.3
0.15
0.4
0.5
0.20
fX(x) =
Figura 13.12 Funzioni di densità di probabilità, esempio 13.17.

Se si osserva che
1
(12 t) 2
male di parametri = 0 e
1
12
(1 2 t)
x
1 e 2 (12 t) e
` la densità
2
2 = (1 2t)1 ), sarà
x2
2
(12 t)
di una variabile casuale Nor-
dx = 1
1
per cui, per t < , la funzione generatrice dei momenti di Y risulta
2
1
mY (t) = (1 2 t) 2
383
13.3. Appendice: tavola della distribuzione normale standardizzata
A ben vedere la funzione generatrice dei momenti di Y corrisponde alla funzione

generatrice dei momenti di una distribuzione chi-quadrato di parametro = 1.
Pertanto, in virtù del teorema di unicità, possiamo affermare che la v.c. Y , con
dominio R+ , ha distribuzione chi-quadrato di parametro = 1 (cfr. figura 13.12).
Per concludere, immaginiamo di volere calcolare la probabilità attinente allevento
{Y 1}. Ovviamente dovremmo calcolare il seguente integrale
6
1
0
1
1
1
# $ y 2 e 2 y dy
1
certamente di non immediata valutazione.

Tuttavia, ricordando che Y = X 2 , con X N (0, 1), levento in questione, in termini della variabile casuale X, viene ad essere esprimibile come {1 X 1} e
pertanto, ricorrendo alla Tavola proposta in Appendice, sarà
P(Y 1) = P(1 X 1) = 2 ((x = 1) 0.5) =
= 2 (0.84134 0.5) = 2 0.34134 = 0.68269
13.3.
A PPENDICE : TAVOLA DELLA DISTRIBUZIONE NORMALE STAN DARDIZZATA
La tavola numerica che segue riporta i valori della funzione di ripartizione della variabile
casuale N (0, 1) in corrispondenza ad alcuni suoi quantili nellintervallo [0; +4.09].
Tenendo a mente che
6 z
(z) = P(Z z) =
(u) du
ogni cella della tavola riporta il valore di (z), a cinque cifre decimali, in corrsipondenza
al quantile z individuato dalla somma dei valori posti nella riga e colonna a margine.
Cos`, ad esempio, desiderando calcolare il valore di (z) in corrispondenza a z = 1.96, ci
si posiziona sulla riga 1.9 e colonna 0.06. In tal caso si ottiene (z = 1.96) = 0.97500.
Si ricorda che per via della simmetria della (z) si ha (z) = 1 (z).
384
Tavola I
z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
Valori della funzione di ripartizione (z) della v.c. N (0, 1).
0.00
.50000
.53983
.57926
.61791
.65542
.69146
.72575
.75804
.78814
.81594
.84134
.86433
.88493
.90320
.91924
.93319
.94520
.95543
.96407
.97128
.97725
.98214
.98610
.98928
.99180
.99379
.99534
.99653
.99744
.99813
.99865
.99903
.99931
.99952
.99966
.99977
.99984
.99989
.99993
.99995
.99997
0.01
.50399
.54380
.58317
.62172
.65910
.69497
.72907
.76115
.79103
.81859
.84375
.86650
.88686
.90490
.92073
.93448
.94630
.95637
.96485
.97193
.97778
.98257
.98645
.98956
.99202
.99396
.99547
.99664
.99752
.99819
.99869
.99906
.99934
.99953
.99968
.99978
.99985
.99990
.99993
.99995
.99997
0.02
.50798
.54776
.58706
.62552
.66276
.69847
.73237
.76424
.79389
.82121
.84614
.86864
.88877
.90658
.92220
.93574
.94738
.95728
.96562
.97257
.97831
.98300
.98679
.98983
.99224
.99413
.99560
.99674
.99760
.99825
.99874
.99910
.99936
.99955
.99969
.99978
.99985
.99990
.99993
.99996
.99997
0.03
.51197
.55172
.59095
.62930
.66640
.70194
.73565
.76730
.79673
.82381
.84849
.87076
.89065
.90824
.92364
.93699
.94845
.95818
.96638
.97320
.97882
.98341
.98713
.99010
.99245
.99430
.99573
.99683
.99767
.99831
.99878
.99913
.99938
.99957
.99970
.99979
.99986
.99990
.99994
.99996
.99997
0.04
.51595
.55567
.59483
.63307
.67003
.70540
.73891
.77035
.79955
.82639
.85083
.87286
.89251
.90988
.92507
.93822
.94950
.95907
.96712
.97381
.97932
.98382
.98745
.99036
.99266
.99446
.99585
.99693
.99774
.99836
.99882
.99916
.99940
.99958
.99971
.99980
.99986
.99991
.99994
.99996
.99997
0.05
.51994
.55962
.59871
.63683
.67364
.70884
.74215
.77337
.80234
.82894
.85314
.87493
.89435
.91149
.92647
.93943
.95053
.95994
.96784
.97441
.97982
.98422
.98778
.99061
.99286
.99461
.99598
.99702
.99781
.99841
.99886
.99918
.99942
.99960
.99972
.99981
.99987
.99991
.99994
.99996
.99997
0.06
.52392
.56356
.60257
.64058
.67724
.71226
.74537
.77637
.80511
.83147
.85543
.87698
.89617
.91309
.92785
.94062
.95154
.96080
.96856
.97500
.98030
.98461
.98809
.99086
.99305
.99477
.99609
.99711
.99788
.99846
.99889
.99921
.99944
.99961
.99973
.99981
.99987
.99992
.99994
.99996
.99998
0.07
.52790
.56749
.60642
.64431
.68082
.71566
.74857
.77935
.80785
.83398
.85769
.87900
.89796
.91466
.92922
.94179
.95254
.96164
.96926
.97558
.98077
.98500
.98840
.99111
.99324
.99492
.99621
.99720
.99795
.99851
.99893
.99924
.99946
.99962
.99974
.99982
.99988
.99992
.99995
.99996
.99998
0.08
.53188
.57142
.61026
.64803
.68439
.71904
.75175
.78230
.81057
.83646
.85993
.88100
.89973
.91621
.93056
.94295
.95352
.96246
.96995
.97615
.98124
.98537
.98870
.99134
.99343
.99506
.99632
.99728
.99801
.99856
.99896
.99926
.99948
.99964
.99975
.99983
.99988
.99992
.99995
.99997
.99998
0.09
.53586
.57535
.61409
.65173
.68793
.72240
.75490
.78524
.81327
.83891
.86214
.88298
.90147
.91774
.93189
.94408
.95449
.96327
.97062
.97670
.98169
.98574
.98899
.99158
.99361
.99520
.99643
.99736
.99807
.99861
.99900
.99929
.99950
.99965
.99976
.99983
.99989
.99992
.99995
.99997
.99998
385
13.4. Esercizi
13.4.
E SERCIZI
ESERCIZIO 13.1
Un semplice esperimento casuale consiste nellestrazione di una pallina da unurna
che ne contiene cento, indistinguibili al tatto e numerate progressivamente a partire
da uno. Introdotta la v.c. X = {# impresso sulla pallina estratta}, individuarne la
funzione di distribuzione di probabilità e calcolarne valor medio e varianza.
ESERCIZIO 13.2
Con riferimento alla v.c. di cui allesercizio (13.1), si risponda ai medesimi quesiti ipotizzando che le palline contenute nellurna siano numerate progressivamente a
partire da 44.
ESERCIZIO 13.3
Unesperimento casuale consiste nel lancio di una moneta regolare ripetuto dieci volte
ed immaginiamo che in ciascuna prova si annoti il risultato (Testa o Croce) ottenuto.
Introdotta la v.c. X = {# di Teste osservate}, calcolare la probabilità degli eventi
{X X } e {X > 1}.
ESERCIZIO 13.4
Rispondere ai medesimi quesiti di cui allesercizio (13.3) ipotizzando che la moneta
sia truccata in modo che la probabilità di ottenere una Testa sia doppia rispetto a quella
di osservare una Croce.
ESERCIZIO 13.5
Si abbiano due urne, poniamo A e B con composizione:
urna A
urna B
6 palline nere
3 palline nere
4 palline rosse
5 palline rosse
386
Lesperimento casuale che decidiamo di condurre e` il seguente: dallurna A vengono estratte casualmente e senza rimessa due palline che sono introdotte nellurna
B . Dallurna B cos` modificata vengono estratte casualmente e con rimessa cinque
palline.
Calcolare il valor medio del numero di palline nere complessivamente estratte dallurna B.
ESERCIZIO 13.6
Un processo produttivo e` caratterizzato da un tasso costante di difettosità = 0.004.
Da tale processo vengono estratte casualmente n = 10 unità di prodotto da inviare a
collaudo. Calcolare la probabilità che in fase di controllo:
almeno un pezzo risulti difettoso;
non più di un pezzo sia difettoso.
ESERCIZIO 13.7
Si consideri unurna contenente N = 20 palline indistinguibili al tatto di cui K = 5
bianche (B) e le restanti N K rosse (R) ed immaginiamo di effettuare lestrazione
in blocco di n = 4 palline. Introdotta la v.c. X = {# di palline bianche estratte},
calcolare P(X = 0) e P(X < 4).
ESERCIZIO 13.8
Supponendo che il numero di clienti che giornalmente si presentano ad uno sportello
postale possa essere descritto da una v.c., poniamo, X con distribuzione di Poisson di
parametro = 4, calcolare la probabilità che in un certo giorno:
si presentino esattamente sei clienti;
si presentino più di tre clienti.
387
13.4. Esercizi
ESERCIZIO 13.9
Indicando con X il numero di giocate che si debbono effettuare fino alla comparsa di
una vincita al gioco del Lotto, corrispondente poniamo alluscita sulla ruota di Torino,
del numero 44, individuare il numero medio di giocate necessarie per ottenere, per la
prima volta, una vincita.
ESERCIZIO 13.10
Con riferimento alla v.c. di cui allesercizio (13.9), si calcoli la probabilità attinente
allevento {X = 10|X > 6}.
ESERCIZIO 13.11
Da unurna che contiene 10 palline Nere e 5 palline rosse viene estratta casualmente
una pallina; se questa e` rossa lesperimento ha termine, altrimenti la si rimette nellurna e si procede ad una seconda estrazione e cos` via finche non si ottiene, per la prima
volta, una pallina rossa. Determinare il valor medio del numero di palline nere estratte
prima che lesperimento abbia termine.
ESERCIZIO 13.12
Sia X una v.c. con distribuzione Uniforme nellintervallo [1; 2]. Determinato il
quantile di ordine 0.90, diciamo x0.90 , calcolare la probabilità attinente allevento
{X X < x0.90 )}.
ESERCIZIO 13.13
Si supponga che il contenuto, misurato in grammi, di comuni bustine di zucchero prodotte dalla società Sweet possa essere descritto mediante la v.c. X con distribuzione
2 = 2.25. Definiti gli eventi:
Normale di parametri X = 10 e X
A = {X 2 X X X + 2 X }
e (A B).
calcolare le probabilita degli eventi (A B)
B = {X X }
388
ESERCIZIO 13.14
La produzione di un particolare componente meccanico si suppone distribuita normal2 = 4.
mente con media del diametro, misurato in millimetri, X = 10 e varianza X
Il prodotto e` considerato conforme se il diametro rientra nelle specifiche: X 2 mm.
Calcolare la probabilità che una generica unità in uscita dalla linea di produzione sia
giudicata:
conforme;
difettosa, con diametro superiore alle specifiche;
conforme, con diametro minore di 11 mm.
ESERCIZIO 13.15
Supponiamo che la durata, misurata in ore di corretto funzionamento in normali condizioni di impiego, di un frullatore elettrico abbia distribuzione con distribuzione Nor2 = 5002 . Calcolare la probabilit`
male di parametri X = 1000 e X
a che, scelto a
caso un frullatore, questo superi le 1100 ore di buon funzionamento. Calcolare, infine, la probabilità che, essendo già durato 1000 ore, tale componente possa funzionare
correttamente per almeno altre 200 ore.
ESERCIZIO 13.16
La durata, misurata in ore di corretto funzionamento, di un componente elettronico
e` ipotizzata possedere distribuzione esponenziale di parametro = 0.01. Calcolare la probabilità che, essendo già durato 200 ore, tale componente possa funzionare
correttamente per almeno altre 200 ore.
Bibliografia
Abramovitz M. and Stegun A.I. (1972) Handbook of Mathematical Functions, Dover
Publications, New York.
DallAglio G. (1987) Calcolo delle Probabilità, Zanichelli, Bologna.
Johnson N.L. and Kotz S. (1983a) Continuos Univariate Distributions, volume 2, John
Wiley, New York.
Johnson N.L. and Kotz S. (1983b) Discrete Distributions, volume 1, John Wiley, New
York.
Lessi O. (1994) Calcolo delle Probabilità, Metria, Padova.
Mood A., Graybill F. and Boes D. (1988) Introduzione alla Statistica, MacGraw Hill,
Milano.
Pesarin F. (1989) Introduzione al Calcolo delle Probabilità, La Nuova Italia Scientifica,
Roma.

Probabilita

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Probabilita

Încărcat de

Drepturi de autor:

Formate disponibile

Universit`a degli Studi di Torino

Calcolo delle Probabilit`a

Dipartimento di Statistica e Matematica Applicata Diego de Castro

D IPARTIMENTO DI S TATISTICA E M ATEMATICA A PPLICATA D IEGO DE C ASTRO

13 Alcune variabili casuali notevoli

11 Cenni di teoria della probabilit`a

13.1.2 V.c. uniforme . . . . . . . . . . . . . . . . . . . . .

Iniziamo con questo capitolo la parte dedicata al calcolo delle probabilit`a. Se

I NTRODUZIONE E CENNI STORICI

Capitolo 10. Introduzione al calcolo delle probabilit`a

E SPERIMENTI CASUALI , SPAZIO DEI POSSIBILI ESITI ED EVENTI

10.2. Esperimenti casuali, spazio dei possibili esiti ed eventi

E3 si sorteggia da un database di clienti un nominativo a cui inviare un

Capitolo 10. Introduzione al calcolo delle probabilit`a

3 = {S`, No} = {1 , 2 }, dove con S` si intende che lultimo acquisto risale

10.3. Le diverse concezioni della probabilit`a

L E DIVERSE CONCEZIONI DELLA PROBABILIT A`

Se nel prossimo capitolo con limpostazione assiomatica forniremo un metodo di calcolo

Capitolo 10. Introduzione al calcolo delle probabilit`a

origine, salvo poi a divenire inadeguata, successivamente, quando si tenta di allargarne

10.3. Le diverse concezioni della probabilit`a

K. Pearson (1857-1936) che in una sequenza di 24000 lanci di una stessa

Capitolo 10. Introduzione al calcolo delle probabilit`a

Le concezioni precedentemente esposte, classica e frequentista, hanno fornito strumenti

10.4. Appendice: richiami di teoria degli insiemi e di calcolo combinatorio

A PPENDICE : RICHIAMI DI TEORIA DEGLI INSIEMI E DI CALCO LO COMBINATORIO

Viene detta monotona non crescente se accade che:

A1 A2 . . . An . . .; in tal caso si avr`a lim Ai =

Se per ogni elemento a A1 risulta a A2 , diciamo che linsieme A1 e` incluso

Capitolo 10. Introduzione al calcolo delle probabilit`a

associativa dellunione (A1 A2 ) A3 = A1 (A2 A3 )

associativa dellintersezione (A1 A2 ) A3 = A1 (A2 A3 )

distributiva (II legge) (A1 A2 ) A3 = (A1 A3 ) (A2 A3 )

De Morgan (II legge) A1 A2 = A1 A2

Dati gli insiemi A1 , A2 , definiamo unione di A1 , A2 (in simboli: A1 A2 ) linsieme

10.4. Appendice: richiami di teoria degli insiemi e di calcolo combinatorio

dove, come noto, con n! si intende il fattoriale di n, cio`e n! = 1 2 . . . (n 1) n.

Capitolo 10. Introduzione al calcolo delle probabilit`a

B : {la sequenza contiene esattamente una testa}

determinare se essi formano una partizione di , in caso contrario modificarne uno in

B : {la carta estratta e` di picche}

C : {la carta estratta e` una figura}

determinare quando sono verificati gli eventi

L A PROBABILIT A` COME FUNZIONE D INSIEME

Capitolo 11. Cenni di teoria della probabilit`a

11.1. La probabilit`a come funzione dinsieme

{1, 3, 4, 5, 6}, {1, 2, 3, 5, 6}, {1, 2, 3, 4, 5}, {2, 4, 6},

Capitolo 11. Cenni di teoria della probabilit`a

e che si dice essere meno fine della precedente.

{1, 2, 3}, . . . , {4, 5, 6},

{1, 2, 3, 4}, . . . , {3, 4, 5, 6},

{1, 2, 3, 4, 5}, . . . , {2, 3, 4, 5, 6},

11.1. La probabilit`a come funzione dinsieme

che soddisfi i seguenti tre assiomi:

2. assioma della sigma-addittivit`a: se {Ai }i=1,2, , costituisce una famiglia, infinita

3. assioma della norma: la probabilit`a dellevento certo e` uno, cio`e

Capitolo 11. Cenni di teoria della probabilit`a

k insiemi mutuamente disgiunti dellalgebra A la probabibilt`a della loro unione e` la somma

dalla propriet`a (11.1) e dal 3 assioma si ha

ed essendo per il 1 assioma

11.1. La probabilit`a come funzione dinsieme

Propriet`a 11.4 se il verificarsi dellevento A2 implica il verificarsi dellevento A1 allora

Dimostrazione: consideriamo linsieme A2 A1 = A2 A1 formato da tutti gli elementi

Dimostrazione: A1 A2 pu`o essere espresso come unione di insiemi disgiunti infatti,