CentraleSupélec
De nombreux phénomènes, notamment physiques (càd issus du monde réel), nécessitent une modélisation aléatoire.
Un signal aléatoire est une collection, potentiellement infinie, de variables aléatoires indexées par le temps. C’est une fonction de deux variables : l’aléa et le temps.
De la même façon qu’on peut définir la distribution de probabilité d’une variable aléatoire, on peut définir la distribution d’un processus aléatoire.
Celle-ci est complètement définie par l’ensemble des lois fini-dimensionnelles à tout ordre, ce qu’on appelle la loi temporelle.
De la même manière que l’on peut définir des valeurs moyennes pour des (fonctions de) variables aléatoires, on va s’intéresser ici à certaines caractéristiques statistiques d’un signal aléatoire :
Nous nous arrêtons donc au second ordre.
Soit une variable aléatoire (v.a.) \(X \in E\). Sa moyenne est définie comme son espérance :
\[ m_X = \mathbb{E}[X] = \begin{cases} \displaystyle \sum_{x \in E } x \, p(x) & \text{si $X$ est une v.a. discrète à valeur dans $E$ ;} \\ \displaystyle \int_{E} x \, p(x) dx & \text{si $X$ est une v.a. continue à valeur dans $E$.} \end{cases} \]
avec \(p(x)\) la fonction de masse / densité de probabilité de la v.a. dans le cas discret / continu.
Soit un vecteur aléatoire \(\mathbf{X} = \left[ X_1, ..., X_d \right]^\top\) à \(d\) dimensions. Son vecteur moyenne est défini par \[\mathbf{m}_{\mathbf{X}} = \mathbb{E}[\mathbf{X}] = \left[ \mathbb{E}[X_1], ..., \mathbb{E}[X_d] \right]^\top.\]
La moyenne est déterministe : nous avons sommé/intégré sur toutes les valeurs possibles.
Une variable aléatoire est un objet mathématique que l’on peut échantillonner pour obtenir une valeur, c’est ce qu’on appelle une réalisation ou un échantillon.
On peut tirer un grand nombre de réalisations, et calculer la moyenne empirique. La moyenne d’une variable aléatoire est la valeur obtenue si on tire une infinité d’échantillons.
Soit \(\{x_i\}_{i=1}^N\) un ensemble de \(N\) réalisations i.i.d de la variable \(X\). La moyenne empirique
\[\frac{1}{N} \sum\limits_{i=1}^N x_i\]
converge (dans un certain sens) vers \(\mathbb{E}[X]\) quand \(N\) tend vers l’infini.
La moyenne du processus aléatoire \(\{X(t) \in \mathbb{C}\}_t\) est définie par son espérance :
\[ m_X(t) = \mathbb{E}[X(t)] \in \mathbb{C}. \]
Le vecteur moyenne du processus aléatoire \(\{\mathbf{X}(t) \in \mathbb{C}^d\}_t\) est définie par
\[ \mathbf{m}_X(t) = \mathbb{E}[\mathbf{X}(t)] \in \mathbb{C}^d. \]
Moyenne empirique du bruit blanc pour différentes valeurs de \(N\) :
import numpy as np
import matplotlib.pyplot as plt
# Paramètres du signal
T = 1000 # Nombre d'échantillons temporels
N_values = [1, 5, 10, 50, 100, 500] # Différentes valeurs de N (nombre de réalisations)
# Création de la figure
plt.figure(figsize=(20, 8))
for i, N in enumerate(N_values, 1):
# Génération de N réalisations de bruit blanc
X = np.random.randn(N, T) # Bruit blanc gaussien (moyenne 0, variance 1)
# Moyenne empirique à chaque instant t
m_empirique = X.mean(axis=0)
# Affichage
plt.subplot(3, 2, i)
plt.plot(m_empirique, label=f'N={N}', color='k')
# plt.axhline(0, color='k', linestyle='--', linewidth=1) # Moyenne théorique
plt.title(f'Moyenne empirique (N={N})', fontsize=20)
plt.xlabel('Temps (échantillons)')
plt.ylabel('m(t)')
plt.ylim((-3,3))
plt.grid(True)
plt.tight_layout()
# plt.suptitle("Moyenne empirique du bruit blanc pour différentes valeurs de N", fontsize=20, y=1.02)
# plt.show()
plt.savefig('images/moyenne_WGN.svg', bbox_inches='tight')Si la moyenne est nulle on dit que le signal / processus est centré.
Le processus et sa moyenne ont la même nature géométrique :
En revanche, la moyenne est déterministe.
La variance
\[ \sigma_X^2 = \text{Var}(X) = \mathbb{E}[|X - m_X|^2] = \mathbb{E}\left[|X|^2\right] - |m_X|^2 \]
d’une v.a. \(X \in \mathbb{C}\) caractérise dans quelle mesure les valeurs qu’elle peut prendre s’écartent de la moyenne \(m_X = \mathbb{E}[X]\).
On définit la covariance entre deux v.a. \(X_{1}, X_{2} \in \mathbb{C}\) de moyenne \(m_{1}, m_2 \in \mathbb{C}\) par
\[ \text{Cov}(X_{1},X_{2}) = \mathbb{E}[\left(X_1 - m_1\right)\left(X_2 - m_2\right)^*].\]
Intuitivement, la covariance caractérise comment, en espérance càd en moyenne statistique, varie une variable si on fait varier l’autre (après les avoir centré).
Si \(\text{Cov}(X_{1},X_{2}) = 0\) les deux variables sont décorrélées (⚠️ à ne pas confondre avec l’indépendance).
\[ a^\star = \arg\min_a \mathbb{E}\left[\left(X_2 - a X_1\right)^2\right] = \frac{\text{Cov}(X_1, X_2)}{\text{Var}(X_1)}. \]
Soit un vecteur aléatoire \(\mathbf{X} \in \mathbb{C}^d\) et \(^H\) l’opérateur de transposition hermitienne (transposée du conjugué).
La matrice de covariance
\[ \boldsymbol{\Sigma} = \mathbb{E}\left[\left(\mathbf{X} - \mathbf{m}\right)\left(\mathbf{X} - \mathbf{m}\right)^H\right] = \begin{pmatrix} \text{Var}(X_1) & \text{Cov}(X_{1},X_{2}) & \cdots & \operatorname{Cov}(X_{1},X_{d}) \\ \text{Cov}(X_{2},X_{1}) & \ddots & \cdots & \vdots\\ \vdots & \vdots & \ddots & \vdots\\ \text{Cov}(X_{d},X_{1}) & \cdots & \cdots& \text{Var}(X_d) \end{pmatrix} \]
caractérise comment chaque dimension de \(\mathbf{X}\) covarie avec toutes les autres.
De plus, \[ \boldsymbol{\Sigma} = \mathbb{E}\left[\mathbf{X} \mathbf{X}^H\right] - \mathbf{m}\mathbf{m}^H. \]
Une matrice de covariance est symétrique (hermitienne) et (semi-définie) positive.
La variance du processus aléatoire \(\{X(t) \in \mathbb{C}\}_t\) est définie par
\[ \begin{aligned} \sigma_X^2(t) &= \mathbb{E}[|X(t) - m_X(t)|^2] = \mathbb{E}\left[|X(t)|^2\right] - |m_X(t)|^2 \end{aligned} \]
La puissance instantanée du processus aléatoire \(\{X(t) \in \mathbb{C}\}_t\) est définie par
\[ \begin{aligned} P_X(t) &= \mathbb{E}[|X(t)|^2] \end{aligned} \]
La matrice de covariance du processus aléatoire multidimensionnel \(\{\mathbf{X}(t) \in \mathbb{C}^d\}_t\) est définie par
\[ \boldsymbol{\Sigma}(t) = \mathbb{E}\left[\left(\mathbf{X}(t) - \mathbf{m}(t)\right)\left(\mathbf{X}(t) - \mathbf{m}(t)\right)^H\right] \]
Dans la suite du cours on s’intéressera essentiellement aux processus aléatoires scalaires car
La moyenne et la variance d’un processus aléatoire ont toutes deux été définies à un instant particulier \(t\) :
\[m_X(t) = \mathbb{E}[X(t)], \qquad \sigma_X^2(t) = \mathbb{E}[|X(t) - m_X(t)|^2]. \]
Considérons maintenant deux instants \(t_1\) et \(t_2\). Il est assez naturel de se demander comment le processus à l’instant \(t_1\) covarie avec lui même à l’instant \(t_2\).
Cette question nous amène à définir la fonction d’autocovariance du processus, une quantité très importante pour décrire statistiquement un signal aléatoire.
On appelle fonction d’autocovariance du processus \(\{X(t)\}_t\) la fonction définie par :
\[ R_{XX}(t_1, t_2) = \mathbb{E}[X_c(t_1)X_c(t_2)^*],\]
où \(X_c = X(t) - \mathbb{E}[X(t)]\) désigne le processus centré.
On choisira parfois une autre paramétrisation, avec \(t_1 = t + \tau\) et \(t_2 = t\) : \[ R_{XX}(t+\tau, t) = \mathbb{E}[X_c(t+\tau)X_c(t)^*].\]
La variance du processus se déduit naturellement de la fonction d’autocovariance :
\[ \sigma_X^2(t) = R_{XX}(t,t). \]
Pour simplifier les notations et quand cela ne portera pas à confusions, on notera la fonction d’autocovariance simplement \(R(t_1, t_2)\), sans indiquer \(XX\) en indice.
On appelle fonction d’autocorrélation du processus \(\{X(t)\}_t\) la fonction définie par :
\[ C_{XX}(t_1, t_2) = \mathbb{E}[X(t_1)X(t_2)^*].\]
On remarque qu’il s’agit de la même définition que la fonction d’autocovariance, à une différence importante près : le processus n’est pas centré.
La puissance instantanée du processus se déduit naturellement de la fonction d’autocorrélation :
\[ P(t) = C_{XX}(t,t). \]
De nombreux problèmes en traitement du signal consistent à prédire la valeur future d’un signal (restauration de signal dégradé, suivi de trajectoire d’un objet, spéculation boursière, etc.)
Considérons un signal aléatoire réel de moyenne nulle et cherchons à prédire \(X(t+\tau)\) en fonction de \(X(t)\). On suppose qu’il existe un coefficient \(a(t, \tau) \in \mathbb{R}\) tel que \(X(t+\tau) \approx a(t, \tau) X(t)\).
Comme précédemment, on estime \(a(t, \tau)\) au sens du minimum de l’erreur quadratique moyenne : \[ a(t, \tau)^\star = \arg\min_{a(t, \tau)} \mathbb{E}[(X(t+\tau) - a(t, \tau) X(t) )^2] = \frac{R_{XX}(t, t + \tau)}{\sigma_X^2(t)}.\]
Le prédicteur optimal (au sens du min. de l’erreur quadratique moyenne) est donc donné par : \[ \hat{X}(t+\tau) = \frac{R_{XX}(t, t + \tau)}{\sigma_X^2(t)} X(t). \]
La fonction d’autocovariance \(R(t_1, t_2)\) d’un processus aléatoire \(\{X(t)\}_t\) vérifie les propriétés suivantes :
Pour l’étude de deux processus \(\{X(t)\}_t\) et \(\{Y(t)\}_t\), on définit également la fonction d’intercovariance par :
\[ R_{XY}(t_1, t_2) = \mathbb{E}[X_c(t_1)Y_c(t_2)^*], \]
où \(X_c = X(t) - \mathbb{E}[X(t)]\) et \(Y_c = Y(t) - \mathbb{E}[Y(t)]\) désignent les processus centrés.
La fonction d’intercorrélation est définie par :
\[ C_{XY}(t_1, t_2) = \mathbb{E}[X(t_1)Y(t_2)^*]. \]
La fonction d’intercovariance \(R_{XY}(t_1, t_2)\) des processus aléatoires \(\{X(t)\}_t\) et \(\{Y(t)\}_t\) vérifie les propriétés suivantes :
Elle ne vérifie pas de propriété de positivité.
Nous avons défini des quantités (moyenne, variance, fonctions de covariance) sans nous soucier des conditions de leur existence. Nous avons implicitement supposé que toutes ces quantités existent.
En toute rigueur, ces quantités sont uniquement définies pour certaines classes de processus aléatoires.
Par exemple :
La moyenne \(\mathbb{E}[X(t)]\) existe si la variable \(X(t)\) est de module intégrable pour tout \(t\), c’est à dire \(\mathbb{E}[|X(t)|] < + \infty\).
La variance et l’autocovariance existent si la variable \(X(t)\) est de carré intégrable pour tout \(t\), c’est à dire \(\mathbb{E}[|X(t)|^2] < + \infty\).
On pourrait donc définir la classe des processus aléatoires tels que telle ou telle condition est vérifiée.
En pratique on supposera presque toujours des processus du second ordre.
On appelle espace des variables aléatoires de carré intégrable l’ensemble des variables admettant un moment (brut, non centré) d’ordre deux, càd tel que \(\mathbb{E}[|X|^2] < \infty\).
On note cet espace \(L^2(\Omega, \mathcal{F}, \mathbb{P})\) pour faire apparaître l’espace probabilisé sur lequel la variable aléatoire est définie.
L’espace \(L^2(\Omega, \mathcal{F}, \mathbb{P})\) muni du produit scalaire \[ \langle X, Y \rangle = \mathbb{E}[XY^*] \] est un espace de Hilbert.
\(X \in L^2(\Omega, \mathcal{F}, \mathbb{P})\) implique \(X \in L^1(\Omega, \mathcal{F}, \mathbb{P})\).
Si \(X\) est de carré intégrable alors elle est de module intégrable et donc son espérance \(E[X]\) est bien définie (voir exercice de TD).
On en déduit que sa variance \(\text{Var}(X) = \mathbb{E}[|X|^2] - |E[X]|^2\) est également bien définie.
On dit que le processus \(\{X(t)\}_t\) définit sur \((\Omega, \mathcal{F}, \mathbb{P})\) et à valeur dans \(\mathbb{C}\) est un processus du second ordre si \(X(t)\) est de carré intégrable pour tout \(t\).
C’est un processus pour lequel tout ce qu’on vient de voir est bien défini 🙌.