Introduzione

In ingegneria dell’affidabilità si suole analizzare eventi e valori di stress straordinari che possono portare al guasto. Prendiamo ad esempio il caso di una saldatura a filo per un semiconduttore. Se sottoposto a stress ordinari, una saldatura in buone condizioni rimarrà intatta. Tuttavia, dei carichi di corrente notevoli o una debole forza di legami possono risultare in una rottura. Questi valori eccezionali si trovano nelle code delle curve delle distribuzioni, e poiché sono campionati raramente, una semplice distribuzione normale non è sufficiente a modellarli in maniera soddisfacente.
La statistica dei valori estremi fornisce in questi casi un valido aiuto. Considerando una serie di uguali campionature, si estraggono separatamente da ciascuna di queste il valore massimo e il valore minimo. I modelli probabilistici che meglio descrivono le distribuzioni di probabilità dei valori di questi sottoinsiemi fanno parte di tre famiglie: i modelli Gumbel, Fréchet, e Weibull. Ciascuna famiglia poi si divide in due tipi di funzioni, una per l’analisi dei valori minimi, un’altra per l’analisi dei valori massimi.
Poiché si prefigge di modellare eventi altamente insoliti ed eccezionali, la teoria dei valori estremi trova un ampio uso in discipline come la gestione del rischio, finanza, assicurazioni, economia, idrologia, scienze dei materiali, e l’ingegneria dell’affidabilità.
Occorre notare che la teoria classica che tratta le distribuzioni di valori estremi considera per semplicità solo le distribuzioni relative ai valori massimi. Le medesime possono modellare i valori minimi a patto che si cambi di segno ai dati in ingresso. Nel programma Weibull++, invece, le funzioni sono implementate relativamente ai valori minimi. Si faccia dunque attenzione a quali tipi di dati si stanno trattando, e a trasformarli di conseguenza al fine di condurre un’analisi corretta.
Alla fine di questo articolo verranno proposti due esercizi svolti con il programma Weibull++, per cui è consigliata una conoscenza, anche di base, delle sue funzioni. A tal proposito, è consigliabile la visione dei nostri video a proposito delle funzioni di Weibull++ consultabile alla nostra pagina “Risorse“.

Fig. 1 – Confronto fra PDF di una distribuzione di valori normale (in azzurro), e PDF dei suoi valori di massima e di minima (rispettivamente in arancione e giallo).

Teoria di base

La teoria dei valori estremi si basa principalmente sui risultati forniti dal teorema di Fisher-Tippet-Gnedenko. Esso afferma che, dato un campione di variabili indipendenti e identicamente distribuite, la distribuzione del massimo valore del campione può convergere a una di tre famiglie di distribuzioni: la Gumbel, la Fréchet, o la Weibull.
Sia $X_1,\dots,X_n$ un campione di variabili indipendenti e identicamente distribuite, per cui queste seguono una funzione di densità cumulativa $F(x)$. Supponendo l’esistenza di due valori reali $a_n > 0$ e $b_n$ qualsiasi, allora
$$\lim_{n\to \infty }P \left({\frac{\max\{X_{1},\dots ,X_{n}\}-b_{n}}{a_{n}}}\leq x\right)=G\left(x\right)$$
Con $G\left(x\right)$ definita come distribuzione di valori estremi. La figura 1 mette a confronto una distribuzione di densità di probabilità normale, applicata a un insieme di valori casuali, e le distribuzioni di valori estremi, applicate ai valori estremi del precedente insieme. Di seguito sarà descritta in particolare ciascuna forma che può assumere la funzione $G\left(x\right)$.

Distribuzione di Gumbel

Uno dei primi matematici ad occuparsi della teoria dei valori estremi fu il tedesco Emil Gumbel, il quale studiò un modello teorico per spiegare fenomeni meteorologici estremi quali gli allagamenti annuali.
La distribuzione che prende il suo nome definisce la seguente funzione di densità di probabilità:
$$f\left(x\right) = \frac{1}{\sigma}\exp\left(-\frac{x-\mu}{\sigma} – \exp\left(-\frac{x-\mu}{\sigma}\right)\right)$$
e con funzione di densità cumulativa
$$F\left(x\right)=\exp\left(-\exp\left(-\frac{x-\mu}{\sigma}\right)\right)$$
Dove $\mu$ è il parametro di posizione, e $\sigma$ parametro di scala. Questa funzione è definita su tutto l’asse reale.
Occorre prestare attenzione alla discrepanza tra la teoria classica e la teoria affidabilistica. La prima presenta le due varianti della distribuzione di Gumbel, una per l’analisi dei dati di massima, l’altra per quelli di minima. La teoria affidabilistica, invece, presenta la distribuzione di Gumbel solo come una “Smallest extreme value distribution” o SEV, ovvero solamente votata alle analisi dei valori minimi. In virtù di questo, il programma Weibull++ implementa la distribuzione Gumbel solamente come una distribuzione di dati di minima.

Distribuzione di Fréchet

Il matematico Maurice Fréchet propose nel 1927 un modello statistico per descrivere la distribuzione di una sequenza di valori massimi, la cui caratteristica principale è la presenza di un’importante coda destra. Grazie a questa proprietà, questo modello è molto utilizzato in ambito finanziario, specificamente nel calcolo dei rendimenti di mercato.
La distribuzione di Fréchet possiede la seguente funzione di densità di probabilità:
$$f\left(x\right) = \frac{\alpha}{\beta}\left(\frac{\beta}{x}\right)^{\alpha + 1} \exp\left(-\left(\frac{\beta}{x}\right)^\alpha\right)$$
da cui deriva la funzione di densità cumulativa
$$F\left(x\right) = \exp\left(-\frac{x}{\beta}\right)^{-\alpha}$$
con $\alpha > 0$ parametro di forma, e $\beta > 0$ parametro di scala. In questo caso, la distribuzione è definita solamente per valori positivi.

Distribuzione di Weibull

Opera del famoso ingegnere svedese Waloddi Weibull, è la terza distribuzione dei valori estremi. Questo modello è nato per risolvere problemi di resistenza strutturale dei materiali, e viene oggi impiegato ampiamente in ingegneria dell’affidabilità per lo studio dei dati di vita dei prodotti. Esso si basa sulla teoria per cui la struttura di un materiale o un componente è assimilabile a una catena, la cui resistenza dipende dall’anello più debole. È per questo motivo che il modello di Weibull è applicato principalmente ad analisi per cui sono di interesse i valori minimi. Esistono varianti da uno a tre parametri, ma la più utilizzata è quella a due parametri, la quale possiede la funzione di densità di probabilità
$$f\left(x\right) = \frac{\beta}{\eta}\left(\frac{x}{\eta}\right)^{\beta – 1} \exp\left(-\left(\frac{x}{\eta}\right)^\beta\right)$$
da cui deriva la funzione di densità cumulativa
$$F\left(x\right) = 1 – \exp\left(-\left(\frac{x}{\eta}\right)^\beta\right)$$
Con $\beta > 0$ parametro di forma, e $\eta > 0$ parametro di scala. Anche in questo caso la funzione è definita solo per valori positivi.

Distribuzione di valori estremi generalizzata

Sulla base dei risultati di Fisher, Tippet, e Gnedenko, Arthur Jenkinson propose nel 1955 un modello flessibile a tre parametri, il quale combina in uno le tre famiglie di distribuzioni mostrate in precedenza (solo nella versione per i valori di massima). La distribuzione prende il nome di distribuzione dei valori estremi generalizzata, e possiede la seguente funzione di densità di probabilità:
$$f\left(x\right) = \frac{1}{\sigma}t\left(x\right)^{k+1}\exp\left(-t\left(x\right)\right)$$
da cui deriva la funzione di densità cumulativa
$$F\left(x\right) = \exp\left(-t\left(x\right)\right)$$
con
$$t\left(x\right) = \begin{cases}\left[1 + k\left(\frac{x-\mu}{\sigma}\right)\right]^{\frac{-1}{k}} & k \neq 0 \\ \exp\left(-\frac{x-\mu}{\sigma}\right) & k = 0\end{cases}$$
con k parametro di forma, $\mu$ parametro di posizione, e $\sigma > 0$ parametro di scala.
L’intervallo su cui è definita la distribuzione generalizzata dipende dal valore di k, per cui valgono i seguenti requisiti:
$$\begin{align*}& 1 + k\frac{x-\mu}{\sigma} & k \neq 0 \\ & -\infty < x < +\infty & k = 0\end{align*}$$
La flessibilità della distribuzione generalizzata si trova nel suo parametro k, il quale permette a questa di assumere le proprietà delle distribuzioni Gumbel, Fréchet, e Weibull. Nello specifico:
  • Per $k = 0$, la distribuzione generalizzata è assimilabile a una di tipo I, o Gumbel
  • Per $k > 0$, la distribuzione generalizzata è assimilabile a una di tipo II, o Fréchet
  • Per $k < 0$, la distribuzione generalizzata è assimilabile a una funzione di tipo III, o Weibull inversa. La funzione di tipo III, infatti, è appropriata per modellare valori massimi, mentre la comune distribuzione Weibull è applicata a valori minimi.
All’atto pratico, quando si utilizza una distribuzione generalizzata all’interno di software di calcolo, sarà il computer che, stimando i valori ottimali sulla base dei dati forniti, detterà la scelta di una o l’altra distribuzione. La figura 2 mostra come varia la forma della distribuzione generalizzata al variare del parametro k.

Fig. 2 – Come varia la forma della distribuzione di valori estremi generalizzata al variare del parametro k.

Dimostrazioni dei legami tra distribuzione generalizzata e distribuzioni di Gumbel, Fréchet e Weibull

Gumbel

Per $k=0$, allora la funzione PDF generalizzata si trasforma in

$$\begin{align}f(x) &= \frac{1}{\sigma}\exp\left(-\frac{x-\mu}{\sigma}\right)\exp\left(-\exp\left(-\frac{x-\mu}{\sigma}\right)\right)\\&=\frac{1}{\sigma}\exp\left(-\frac{x-\mu}{\sigma}-\exp\left(-\frac{x-\mu}{\sigma}\right)\right)\end{align}$$

Ovvero la PDF di Gumbel per valori massimi.

Fréchet

Per $k>0$, sia $\alpha = \frac{1}{k} > 0$ e $y = 1 + k\frac{x-\mu}{\sigma} \Rightarrow \frac{x-\mu}{\sigma} = \frac{1 – y}{k}$, allora la distribuzione generalizzata assume la forma

$$\begin{align}f(y)&=\frac{1}{\sigma}\left[1 + \frac{1}{\alpha}\left(\frac{y-1}{\frac{1}{\alpha}}\right)\right]^{-\alpha\left(1+\frac{1}{\alpha}\right)}\exp\left( -\left[1 + \frac{1}{\alpha} \left( \frac{y – 1}{\frac{1}{\alpha}}\right) \right] ^{-\alpha} \right)\\&=\frac{1}{\sigma}y^{-1-\alpha}\exp(-y^{-\alpha})\\&=\frac{1}{\sigma}\left(\frac{1}{y}\right)^{1+\alpha}\exp\left(-\left(\frac{1}{y}\right)^{\alpha}\right)\end{align}$$

Ovvero quella della distribuzione di Fréchet.

Weibull

Per $k<0$, sia $\alpha = -\frac{1}{k} > 0$ e $y = 1  – \lvert k \rvert\frac{x-\mu}{\sigma} \Rightarrow \frac{x-\mu}{\sigma} = \frac{1 – y}{\lvert k \rvert}$, allora la distribuzione generalizzata assume la forma

$$\begin{align}f(y)&=\frac{1}{\sigma}\left[1 – \frac{1}{\alpha}\left(\frac{1 – y}{\frac{1}{\alpha}}\right)\right]^{\alpha\left(1-\frac{1}{\alpha}\right)}\exp\left( -\left[1 – \frac{1}{\alpha} \left( \frac{1 – y}{\frac{1}{\alpha}}\right) \right] ^{\alpha} \right)\\&=\frac{1}{\sigma}y^{\alpha – 1}\exp(-y^{\alpha})\end{align}$$

Ovvero quella della distribuzione di Weibull inversa.

Esempio 1: calcolo della probabilità del livello massimo di un fiume

Per mostrare un’applicazione pratica, si consideri una serie di 18 misurazioni relative al livello di innalzamento di un fiume. L’obiettivo è calcolare la probabilità che l’acqua raggiunga un determinato livello oltre una soglia critica.
Poiché lo studio è centrato sull’analisi del livello massimo del fiume, il modello più appropriato per questo studio è il modello Fréchet. Tuttavia, il programma Weibull++ non possiede propriamente una distribuzione di Fréchet, ma può essere derivata forzando il valore del parametro $\lambda$ della distribuzione gamma generalizzata a -1, in virtù della proprietà per cui con un parametro $\lambda = -1$, questa è assimilabile a una distribuzione di Fréchet. Dalla stima dei parametri risulta che la funzione possiede la funzione di densità di probabilità mostrata in figura 3.

Fig. 3 – PDF del modello Fréchet applicato ai dati di innalzamento del livello del fiume.

Considerando una soglia critica di 1200mm di acqua, interrogando lo strumento QCP di Weibull++, si ottiene che la probabilità che il livello di innalzamento del fiume superi la soglia è di circa 0.06, ovvero di circa 6%, come mostrato in figura 4.

Fig. 4 – Calcolo della probabilità di innalzamento del livello del fiume.

Esempio 2: modellazione della resistenza alla tensione di una trave

Nella modellazione delle distribuzioni di probabilità, spesso emergono dubbi riguardo a quale modello ideale sia in grado di rappresentare al meglio i dati reali. Weibull++ possiede un’utile funzione in grado di guidare l’ingegnere nella scelta dei modelli, proponendo dei test statistici ampiamente utilizzati.
Dato un insieme di 50 valori minimi di resistenza alla trazione di una trave (espressa in MPa), quale modello risulta più appropriato per caratterizzare il comportamento di questa trave?
Poiché si tratta di valori di minima, le distribuzioni ammissibili sono due: la Gumbel, o la Weibull. La scelta dell’una o dell’altra non è arbitraria, ma dettata dai risultati di una valutazione “goodness of fit”. A questo proposito, Weibull++ mette a disposizione lo strumento “Goodness of fit results” il quale mostra i risultati di tre test statistici:
  • il test Kolmogorov-Smirnov modificato (KSM),
  • il test del P-value,
  • e il test del Chi quadrato.

Sia il test KSM che il test del Chi quadrato ritornano la differenza di probabilità tra la probabilità osservata e la probabilità prevista. Più il risultato è vicino a 1, più significativa sarà la distanza tra i due risultati, e più problematico sarà giustificare la corrispondenza tra modello e dati reali. La figura 5 mostra un confronto fra i test “Goodness of fit” delle distribuzioni Gumbel e Weibull. Dall’analisi dei risultati dei due modelli si può osservare che, in questo caso, la distribuzione più appropriata da utilizzare sia la distribuzione Weibull. Questa scelta è corroborata anche dall’analisi empirica del fitting dei punti delle funzioni di densità cumulativa in figura 6; il fitting della funzione Weibull risulta molto più preciso rispetto a quello della funzione Gumbel.

Goodness of fit test per la distribuzione Gumbel.

Goodness of fit test per la distribuzione Weibull.

Fig. 5 – Confronto fra “Goodness of fit test” di una distribuzione Gumbel e una distribuzione Weibull.

Fig. 6 – Confronto fra distribuzioni cumulative: Gumbel e Weibull.

Conclusione

In questo articolo è stata proposta una panoramica della teoria dei valori estremi, e le sue applicazioni pratiche. Sono state mostrati i 3 principali tipi di modelli per le distribuzioni di valori estremi, culminando con la presentazione della distribuzione di valori estremi generalizzata. Infine, sono stati presentati degli studi di caso di analisi dei dati di minima e di massima rispetto a situazioni realistiche, compiute attraverso il programma Weibull++.
Per conoscere più in dettaglio il tema delle analisi dei dati e il programma Weibull++, si consiglia la lettura dell’articolo “Nuovo all’analisi Weibull“.

Riferimenti

https://web.archive.org/web/20150103123125/http://www.mathwave.com/articles/extreme-value-distributions.html