Signaux aléatoires

Elements d’estimation statistique



Simon Leglaive


CentraleSupélec




Dans les épisodes précédents…

  • Un processus aléatoire est une collection de variables aléatoires indexées par le temps. C’est une fonction de deux variables : l’aléa et le temps.
  • Un processus aléatoire est complètement décrit par sa loi temporelle, et partiellement décrit par ses propriétés au second ordre.
  • Un processus peut être stationnaire (au sens strict ou au sens large), ce qui simplifie grandement sa description statistique et son traitement.
  • La propriété d’ergodicité ajoutée à celle de stationnarité permet de remplacer les moyennes statistiques par des moyennes temporelles.
  • La notion de mesure / densité spectrale de puissance permet de caractériser un processus SSL dans le domaine spectral.
  • On peut étendre la modélisation des systèmes linéaires invariants dans le temps au cas d’une entrée sous forme de signal aléatoire SSL.
  • Les processus ARMA forment une classe importante de modèles de signaux aléatoires, ils sont définis comme le résultat du filtrage d’un bruit blanc.

Au programme

Pourquoi et comment estimer la moyenne, la fonction d’autocovariance, et la densité spectrale de puissance d’un processus aléatoire à partir d’une réalisation finie de ce processus ?

Pourquoi s’intéresser à l’estimation ?

Problème de traitement du signal

De nombreux problèmes en traitement du signal consistent à estimer une quantité d’intérêt non directement mesurable à partir de l’observation d’un signal, qui souvent ne nous renseigne que partiellement sur cette quantité.

Par exemple :

  • Estimation de paramètres (fréquence fondamentale d’un signal périodique, direction d’arrivée d’une source acoustique ou électromagnétique, réponse impulsionnelle d’un canal de transmission, …)
  • Estimation de signaux (séparation de sources, restauration de signal, …)
  • Classification (reconnaissance de parole, détection d’anomalies, …)
  • Prédiction (prédiction de la trajectoire d’un objet, d’une température, du cours d’un actif financier, …)

Modélisation et estimation

La résolution d’un tel problème d’estimation repose sur deux piliers :

  1. Un modèle liant la quantité d’intérêt au signal observé ;
  2. Un estimateur, prédisant la quantité d’intérêt à partir du signal observé.

On pourrait également ajouter un troisième pilier, celui de la validation du modèle et de l’estimateur.

Exemple : le filtre de Wiener

  • Considérons un système d’entrée \(X(t)\) et de sortie \(Y(t)\), représentant par exemple un canal de communication acoustique ou radio.
  • A partir des observations de \(X(t)\) et \(Y(t)\), on souhaite estimer un filtre linéaire de réponse impulsionnelle finie \(\{h(t)\}_{t=0}^L\) qui représente une « bonne approximation » du système étudié.

  • On pose donc le modèle suivant : \[\hat{Y}(t) = [h * X](t) = \sum_{\tau=0}^{L} h(\tau) X(t-\tau),\]

    en supposant que \(X(t)\) et \(Y(t)\) sont des processus aléatoires SSL.

  • On cherche à minimiser l’erreur quadratique moyenne entre la sortie réelle mesurée \(Y(t)\) et le modèle \(\hat{Y}(t)\) : \[J(\mathbf{h}) = \mathbb{E}\left[ |Y(t) - \hat{Y}(t)|^2 \right],\]

    \(\mathbf{h} = [h(0), ..., h(L)]^\top\) est le vecteur des coefficients du filtre.

  • On peut montrer que la solution de ce problème est donnée par : \[ \mathbf{R}_{XX} \mathbf{h} = \mathbf{r}_{YX}\]

    • \(\mathbf{R}_{XX}\) est la matrice de Toeplitz des autocovariances du signal \(X(t)\),
    • \(\mathbf{r}_{YX}\) est le vecteur des intercovariances entre \(Y(t)\) et \(X(t)\).
  • Malheureusement on ne peut pas résoudre ce système car nous ne connaissons pas les fonctions d’autocovariance et d’intercovariance des processus \(X(t)\) et \(Y(t)\).

  • Il nous faut donc estimer ces quantités à partir des observations.

Elements d’estimation statistique

Estimateur

  • On cherche à estimer un paramètre \(\theta\) qui dépend de la loi d’une v.a. \(X\), par exemple son espérance ou sa variance.
  • On se donne \(T\) réalisations de \(X\), ce qui est formellement équivalent à observer une seule fois la réalisation de \(T\) variables aléatoires i.i.d suivant la même loi que \(X\) : \(\{X_i \overset{i.i.d}{\sim} p_X\}_{i=1}^T\).
  • On construit un estimateur \(\displaystyle {\hat {\theta }_T} = f(X_1, X_2, ..., X_T)\) de \(\theta\) comme une fonction de ces \(T\) variables aléatoires i.i.d, c’est donc également une variable aléatoire et il est possible de calculer son espérance \({\displaystyle \mathbb {E} ({\hat {\theta }})}\), sa variance \({\displaystyle \operatorname {Var} ({\hat {\theta }_T})}\), de l’échantillonner, etc.
  • L’objectif est finalement de maîtriser l’erreur commise par l’estimateur \({\displaystyle {\hat {\theta }_T}}\) par rapport à la vraie valeur du paramètre à estimer \({\displaystyle \theta }\).
  • Cela nous amène à définir les notions de biais, d’erreur quadratique moyenne, et de convergence de l’estimateur.

Biais

  • Il est assez naturel de souhaiter qu’en moyenne (statistique) l’estimateur ne se trompe pas, c’est-à-dire que son espérance soit égale à \(\theta\).
  • On définit alors le biais de l’estimateur comme ci-dessous, et on souhaite que ce biais soit nul (on dit que l’estimateur est non biaisé) :

\[ {\displaystyle \operatorname {Biais} ({\hat {\theta }_T}) = \mathbb {E} [{\hat {\theta }}_T]-\theta } \]

Erreur quadratique moyenne

L’erreur quadratique moyenne (mean squared error ou MSE en anglais) est l’espérance du carré de l’erreur entre la vraie valeur et sa valeur estimée :

\[\begin{align*} \displaystyle \operatorname {MSE} ({\hat {\theta }_T}) &= \mathbb{E}\big[(\hat{\theta}_T - \theta)^2\big] \\[4pt] &= \mathbb{E}\!\left[\big((\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) + (\mathbb{E}[\hat{\theta}_T] - \theta)\big)^2\right] \\[4pt] &= \mathbb{E}\!\left[(\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T])^2\right] + 2\underbrace{\mathbb{E}\!\left[ (\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) (\mathbb{E}[\hat{\theta}_T] - \theta) \right]}_{=0} + (\mathbb{E}[\hat{\theta}_T] - \theta)\big)^2 \\[4pt] &= \operatorname{Var}(\hat{\theta}_T) + \text{Biais}(\hat{\theta}_T)^2. \end{align*}\]

En effet,

\[\mathbb{E}\!\left[ (\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) (\mathbb{E}[\hat{\theta}_T] - \theta) \right] = \mathbb{E}\!\left[ (\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) \right] (\mathbb{E}[\hat{\theta}_T] - \theta) = ( \mathbb{E}[\hat{\theta}_T ] - \mathbb{E}[\hat{\theta}_T]) (\mathbb{E}[\hat{\theta}_T] - \theta) = 0. \]

Convergence en probabilité

  • On souhaite aussi pouvoir, en augmentant la taille de l’échantillon, diminuer l’erreur commise en prenant \({\displaystyle {\hat {\theta }_T}}\) à la place de \(\theta\).

  • On dit que l’estimateur \({\displaystyle {\hat {\theta }}_{T}}\) converge en probabilité vers \(\theta\) si pour tout \(\varepsilon >0\), \[{\displaystyle \lim _{T\to \infty }\mathbb {P} (|{\hat {\theta }}_{T}-\theta |>\varepsilon )=0}.\]

    On l’interprète comme le fait que la probabilité de s’éloigner de la valeur à estimer de plus de \(\varepsilon\) tend vers \(0\) quand la taille de l’échantillon augmente.

  • On dit dans ce cas que l’estimateur est consistant.

Convergence en moyenne quadratique

  • L’estimateur \({\displaystyle {\hat {\theta }}_{T}}\) converge en moyenne quadratique vers \(\theta\) si \[{\displaystyle \lim _{T\to \infty } \left\{ \mathbb{E}\big[(\hat{\theta}_T - \theta)^2\big] = \operatorname{Var}(\hat{\theta}_T) + \text{Biais}(\hat{\theta}_T)^2 \right\} =0}.\]

  • La convergence en moyenne quadratique implique la convergence en probabilité. C’est une conséquence directe de l’inégalité de Tchebychev :

    \[ \mathbb {P} (|{\hat {\theta }}_{T}-\theta |>\varepsilon ) \le \frac{\mathbb{E}\big[(\hat{\theta}_T - \theta)^2\big]}{\epsilon^2}. \]

    Si dans le membre de droite le terme du numérateur tend vers 0, alors la probabilité dans le membre de gauche tend elle aussi vers 0.

    Attention, la réciproque n’est pas vraie en général.

  • Par conséquent, si la variance et le biais de l’estimateur tendent vers 0, alors l’estimateur est consistant.

Estimation statistique pour les signaux aléatoires

  • Considérons un processus aléatoire SSL \(\{X(t)\}_{t \in \mathbb{Z}}\) de moyenne \(m_X = \mathbb{E}[X(t)]\) et de fonction d’autocovariance \(R_{XX}(k)\).
  • Nous supposons que la fonction d’autocovariance est absolument sommable, c’est-à-dire que \(\sum_{k=-\infty}^{\infty} |R_{XX}(k)| < \infty\).
  • On considère que \(m_X\) et \(R_{XX}(k)\) sont inconnus et nous cherchons à les estimer à partir de l’observation de \(T\) échantillons consécutifs \(\{X(t)\}_{t=1}^{T}\).

Estimation de la moyenne

  • Un estimateur naturel de la moyenne est donné par la moyenne temporelle, c’est-à-dire la moyenne empirique des échantillons observés : \[\hat{m}_T = \frac{1}{T} \sum_{t=1}^{T} X(t).\]

  • On peut montrer que cet estimateur est non biaisé, c’est-à-dire que \(\mathbb{E}[\hat{m}_T] = m_X\).

  • La variance de cet estimateur est donnée par : \[\text{Var}(\hat{m}_T) = \frac{1}{T^2} \sum_{t=1}^{T} \sum_{s=1}^{T} R_{XX}(t-s) = \frac{1}{T} \sum_{k=-(T-1)}^{T-1} \left(1 - \frac{|k|}{T} R_{XX}(k)\right) \]

    En utilisant le fait que \(R_{XX}(k)\) est absolument sommable, on peut montrer que \(\text{Var}(\hat{m}_T) \to 0\) lorsque \(T \to \infty\). L’estimateur \(\hat{m}_T\) est converge en moyenne quadratique vers \(m_X\), il est donc consistant.

Ces propriétés justifient l’hypothèse courante d’ergodicité et l’utilisation de la moyenne temporelle pour estimer la moyenne statistique d’un processus SSL.

Estimation de la fonction d’autocovariance

  • On définit l’estimateur suivant de la fonction d’autocovariance :

    \[\hat{R}_{T}(k) = \begin{cases} \displaystyle\frac{1}{T} \sum_{t=1}^{T-|k|} \left(X(t + |k|) - \hat{m}_T\right)\left( X(t) - \hat{m}_T\right) & \text{si } |k| \le T-1, \\ 0 & \text{sinon.} \end{cases} \]

  • Remarquons que le nombre d’observations dont nous disposons étant précisément égal à \(T\), il n’existe pas de paires d’observations séparées de plus de \(T-1\) instants, et donc il n’est pas possible d’estimer les valeurs de \(R_{XX}(k)\) pour \(|k| \geq T\).

  • De plus, lorsque \(|k|\) augmente, le nombre de termes dans la somme diminue, ce qui rend l’estimateur moins fiable.

  • A échantillon fini, \(\hat{R}_{T}(k)\) est un estimateur biaisé de \(R_{XX}(k)\), mais on peut montrer que le biais tend vers 0 lorsque \(T \to \infty\) : l’estimateur est asymptotiquement sans biais.

  • Nous n’avons pas de résultat général sur la variance de cet estimateur.

Estimation de la DSP

  • La densité spectrale de puissance (DSP) \(S_{XX}(\nu)\) est reliée à la fonction d’autocovariance \(R_{XX}(k)\) par la TFTD : \[ S_{XX}(\nu) = \sum_{k=-\infty}^{\infty} R_{XX}(k) e^{-\imath 2 \pi \nu k}. \]

  • Une approche naturelle pour estimer la DSP est donc de remplacer \(R_{XX}(k)\) par son estimateur \(\hat{R}_{T}(k)\) dans cette expression, et de tronquer la somme aux valeurs de \(k\) pour lesquelles \(\hat{R}_{T}(k)\) est défini : \[ \hat{S}_{T}(\nu) = \sum_{k=-(T-1)}^{T-1} \hat{R}_{T}(k) e^{-\imath 2 \pi \nu k} = \frac{1}{T} \left\vert \sum_{t=1}^T X(t) e^{-\imath 2 \pi \nu t} \right\vert^2. \]

  • Cet estimateur, appelé périodogramme, est asymptotiquement sans biais, mais sa variance ne tend pas vers 0 lorsque \(T \to \infty\).

  • Il existe d’autres estimateurs de la DSP, basés par exemple sur le périodogramme tronqué ou fenêtré, ou sur des modèles paramétriques (par exemple les modèles ARMA vus précédemment).

  • L’estimation spectrale est le domaine qui regroupe l’ensemble des méthodes d’estimation de la DSP.

    Pour qu’il s’agisse d’un domaine à part entière, c’est qu’il s’agit d’un problème important en pratique.

Pour plus d’informations sur l’estimation statistique, en particulier dans le contexte des signaux aléatoires, vous pouvez consulter les sections 2 et 3 ainsi que l’annexe A.2 du polycopié Introduction aux séries temporelles d’Olivier Cappé, Maurice Charbit, et Eric Moulines.