CentraleSupélec
Pourquoi et comment estimer la moyenne, la fonction d’autocovariance, et la densité spectrale de puissance d’un processus aléatoire à partir d’une réalisation finie de ce processus ?
De nombreux problèmes en traitement du signal consistent à estimer une quantité d’intérêt non directement mesurable à partir de l’observation d’un signal, qui souvent ne nous renseigne que partiellement sur cette quantité.
Par exemple :
La résolution d’un tel problème d’estimation repose sur deux piliers :
On pourrait également ajouter un troisième pilier, celui de la validation du modèle et de l’estimateur.
On pose donc le modèle suivant : \[\hat{Y}(t) = [h * X](t) = \sum_{\tau=0}^{L} h(\tau) X(t-\tau),\]
en supposant que \(X(t)\) et \(Y(t)\) sont des processus aléatoires SSL.
On cherche à minimiser l’erreur quadratique moyenne entre la sortie réelle mesurée \(Y(t)\) et le modèle \(\hat{Y}(t)\) : \[J(\mathbf{h}) = \mathbb{E}\left[ |Y(t) - \hat{Y}(t)|^2 \right],\]
où \(\mathbf{h} = [h(0), ..., h(L)]^\top\) est le vecteur des coefficients du filtre.
On peut montrer que la solution de ce problème est donnée par : \[ \mathbf{R}_{XX} \mathbf{h} = \mathbf{r}_{YX}\] où
Malheureusement on ne peut pas résoudre ce système car nous ne connaissons pas les fonctions d’autocovariance et d’intercovariance des processus \(X(t)\) et \(Y(t)\).
Il nous faut donc estimer ces quantités à partir des observations.
\[ {\displaystyle \operatorname {Biais} ({\hat {\theta }_T}) = \mathbb {E} [{\hat {\theta }}_T]-\theta } \]
L’erreur quadratique moyenne (mean squared error ou MSE en anglais) est l’espérance du carré de l’erreur entre la vraie valeur et sa valeur estimée :
\[\begin{align*} \displaystyle \operatorname {MSE} ({\hat {\theta }_T}) &= \mathbb{E}\big[(\hat{\theta}_T - \theta)^2\big] \\[4pt] &= \mathbb{E}\!\left[\big((\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) + (\mathbb{E}[\hat{\theta}_T] - \theta)\big)^2\right] \\[4pt] &= \mathbb{E}\!\left[(\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T])^2\right] + 2\underbrace{\mathbb{E}\!\left[ (\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) (\mathbb{E}[\hat{\theta}_T] - \theta) \right]}_{=0} + (\mathbb{E}[\hat{\theta}_T] - \theta)\big)^2 \\[4pt] &= \operatorname{Var}(\hat{\theta}_T) + \text{Biais}(\hat{\theta}_T)^2. \end{align*}\]
En effet,
\[\mathbb{E}\!\left[ (\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) (\mathbb{E}[\hat{\theta}_T] - \theta) \right] = \mathbb{E}\!\left[ (\hat{\theta}_T - \mathbb{E}[\hat{\theta}_T]) \right] (\mathbb{E}[\hat{\theta}_T] - \theta) = ( \mathbb{E}[\hat{\theta}_T ] - \mathbb{E}[\hat{\theta}_T]) (\mathbb{E}[\hat{\theta}_T] - \theta) = 0. \]
On souhaite aussi pouvoir, en augmentant la taille de l’échantillon, diminuer l’erreur commise en prenant \({\displaystyle {\hat {\theta }_T}}\) à la place de \(\theta\).
On dit que l’estimateur \({\displaystyle {\hat {\theta }}_{T}}\) converge en probabilité vers \(\theta\) si pour tout \(\varepsilon >0\), \[{\displaystyle \lim _{T\to \infty }\mathbb {P} (|{\hat {\theta }}_{T}-\theta |>\varepsilon )=0}.\]
On l’interprète comme le fait que la probabilité de s’éloigner de la valeur à estimer de plus de \(\varepsilon\) tend vers \(0\) quand la taille de l’échantillon augmente.
On dit dans ce cas que l’estimateur est consistant.
L’estimateur \({\displaystyle {\hat {\theta }}_{T}}\) converge en moyenne quadratique vers \(\theta\) si \[{\displaystyle \lim _{T\to \infty } \left\{ \mathbb{E}\big[(\hat{\theta}_T - \theta)^2\big] = \operatorname{Var}(\hat{\theta}_T) + \text{Biais}(\hat{\theta}_T)^2 \right\} =0}.\]
La convergence en moyenne quadratique implique la convergence en probabilité. C’est une conséquence directe de l’inégalité de Tchebychev :
\[ \mathbb {P} (|{\hat {\theta }}_{T}-\theta |>\varepsilon ) \le \frac{\mathbb{E}\big[(\hat{\theta}_T - \theta)^2\big]}{\epsilon^2}. \]
Si dans le membre de droite le terme du numérateur tend vers 0, alors la probabilité dans le membre de gauche tend elle aussi vers 0.
Attention, la réciproque n’est pas vraie en général.
Par conséquent, si la variance et le biais de l’estimateur tendent vers 0, alors l’estimateur est consistant.
Un estimateur naturel de la moyenne est donné par la moyenne temporelle, c’est-à-dire la moyenne empirique des échantillons observés : \[\hat{m}_T = \frac{1}{T} \sum_{t=1}^{T} X(t).\]
On peut montrer que cet estimateur est non biaisé, c’est-à-dire que \(\mathbb{E}[\hat{m}_T] = m_X\).
La variance de cet estimateur est donnée par : \[\text{Var}(\hat{m}_T) = \frac{1}{T^2} \sum_{t=1}^{T} \sum_{s=1}^{T} R_{XX}(t-s) = \frac{1}{T} \sum_{k=-(T-1)}^{T-1} \left(1 - \frac{|k|}{T} R_{XX}(k)\right) \]
En utilisant le fait que \(R_{XX}(k)\) est absolument sommable, on peut montrer que \(\text{Var}(\hat{m}_T) \to 0\) lorsque \(T \to \infty\). L’estimateur \(\hat{m}_T\) est converge en moyenne quadratique vers \(m_X\), il est donc consistant.
Ces propriétés justifient l’hypothèse courante d’ergodicité et l’utilisation de la moyenne temporelle pour estimer la moyenne statistique d’un processus SSL.
On définit l’estimateur suivant de la fonction d’autocovariance :
\[\hat{R}_{T}(k) = \begin{cases} \displaystyle\frac{1}{T} \sum_{t=1}^{T-|k|} \left(X(t + |k|) - \hat{m}_T\right)\left( X(t) - \hat{m}_T\right) & \text{si } |k| \le T-1, \\ 0 & \text{sinon.} \end{cases} \]
Remarquons que le nombre d’observations dont nous disposons étant précisément égal à \(T\), il n’existe pas de paires d’observations séparées de plus de \(T-1\) instants, et donc il n’est pas possible d’estimer les valeurs de \(R_{XX}(k)\) pour \(|k| \geq T\).
De plus, lorsque \(|k|\) augmente, le nombre de termes dans la somme diminue, ce qui rend l’estimateur moins fiable.
A échantillon fini, \(\hat{R}_{T}(k)\) est un estimateur biaisé de \(R_{XX}(k)\), mais on peut montrer que le biais tend vers 0 lorsque \(T \to \infty\) : l’estimateur est asymptotiquement sans biais.
Nous n’avons pas de résultat général sur la variance de cet estimateur.
La densité spectrale de puissance (DSP) \(S_{XX}(\nu)\) est reliée à la fonction d’autocovariance \(R_{XX}(k)\) par la TFTD : \[ S_{XX}(\nu) = \sum_{k=-\infty}^{\infty} R_{XX}(k) e^{-\imath 2 \pi \nu k}. \]
Une approche naturelle pour estimer la DSP est donc de remplacer \(R_{XX}(k)\) par son estimateur \(\hat{R}_{T}(k)\) dans cette expression, et de tronquer la somme aux valeurs de \(k\) pour lesquelles \(\hat{R}_{T}(k)\) est défini : \[ \hat{S}_{T}(\nu) = \sum_{k=-(T-1)}^{T-1} \hat{R}_{T}(k) e^{-\imath 2 \pi \nu k} = \frac{1}{T} \left\vert \sum_{t=1}^T X(t) e^{-\imath 2 \pi \nu t} \right\vert^2. \]
Cet estimateur, appelé périodogramme, est asymptotiquement sans biais, mais sa variance ne tend pas vers 0 lorsque \(T \to \infty\).
Il existe d’autres estimateurs de la DSP, basés par exemple sur le périodogramme tronqué ou fenêtré, ou sur des modèles paramétriques (par exemple les modèles ARMA vus précédemment).
L’estimation spectrale est le domaine qui regroupe l’ensemble des méthodes d’estimation de la DSP.
Pour qu’il s’agisse d’un domaine à part entière, c’est qu’il s’agit d’un problème important en pratique.
Pour plus d’informations sur l’estimation statistique, en particulier dans le contexte des signaux aléatoires, vous pouvez consulter les sections 2 et 3 ainsi que l’annexe A.2 du polycopié Introduction aux séries temporelles d’Olivier Cappé, Maurice Charbit, et Eric Moulines.