1 Cours

1.1 Retour sur l’indépendance : quelques caractérisations utiles

1.1.1 Définition et caractérisation

Indépendance pour les variables aléatoires : Une famille quelconque de variables aléatoires \(X_i\), \(i\in I\), sur \(\Omega\) et à valeurs dans \(\mathbb{R}\) est une famille de variables aléatoires indépendantes si pour tout sous-ensemble \(J\subset I\) fini et tous les événements \(B_j\), \(j\in J\), \[ \mathbb{P}\left(\bigcap_{j\in J}\{X_j\in B_j\}\right)=\prod_{j\in J}\mathbb{P}(X_j\in B_j). \] Si on a seulement, \[ \mathbb{P}(X_i\in A~; X_j\in B)=\mathbb{P}(X_i\in A)\mathbb{P}(X_j\in B) \] pour tout \(i\neq j\) et \(A,B\in\mathcal{B}(\mathbb{R})\), on dit que les variables \(X_i\), \(i\in I\), sont deux à deux indépendantes.

Autrement dit, des variables aléatoires sont mutuellement indépendantes si la probabilité d’une intersection est égale au produit des probabilités. Des variables aléatoires indépendantes suivant toutes la même loi sont dites (pour indépendantes identiquement distribuées).

Cas des variables discrètes Soient \(X\) et \(Y\) des variables discrètes, \(X\) et \(Y\) sont indépendantes si et seulement si \[ \mathbb{P}(X=x~; Y=y)=\mathbb{P}(X=x)\mathbb{P}(Y=y),\quad\forall x,y\in\mathbb{R}. \]

En effet, si on suppose que l’égalité a lieu alors, pour tout événement \(A\) et \(B\), on a \[\begin{align*} \mathbb{P}(X\in A~; Y\in B)&=\sum_{i\in A, j\in B}\mathbb{P}(X=i~; Y=j)\\ &=\sum_{i\in A, j\in B}\mathbb{P}(X=i)\mathbb{P}(Y=j)\\ &=\sum_{i\in A}\mathbb{P}(X=i)\sum_{j\in B}\mathbb{P}(Y=j)\\ &=\mathbb{P}(X\in A)\mathbb{P}(Y\in B), \end{align*}\]

ce qui montre que \(X\) et \(Y\) sont indépendantes. La réciproque est évidente.

Attention, ceci n’est vrai que pour les variables discrètes. Par exemple, si \(X\) et \(Y\) sont continues, on a toujours, \[ \mathbb{P}(X=x~; Y=y)=0=\mathbb{P}(X=x)\mathbb{P}(Y=y). \]

Voyons un exemple dans le cas discret. On lance deux dés, on appelle \(X\) et \(Y\) les résultats respectifs du premier et du deuxième dé. On a \[ \mathbb{P}(X=2~; Y=3)=\frac{1}{36}=\mathbb{P}(X=2)\mathbb{P}(Y=3). \] Donc \(\{X=2\}\) est indépendant de \(\{X=3\}\) et de même pour les autres valeurs de \(X\) et \(Y\). Ainsi \(X\) est indépendant de \(Y\).

Autre caractéristation de l’indépendance : Une famille de variables aléatoires \((X_i)_{1\leq i\leq n}\), sur \(\Omega\) et à valeurs dans \(\mathbb{R}\) est une famille de variables aléatoires indépendantes si pour toute famille de réels \(x_1,\ldots, x_n\), on a \[ \mathbb{P}\left(\bigcap_{i=1}^n\{X_j\leq x_i\}\right)=\prod_{i=1}^n\mathbb{P}(X_j\leq x_i). \]

L’indépendance permet de transformer l’espérance d’un produit en produit d’espérances.

Indépendance et espérance Une famille quelconque de variables aléatoires \(X_i\), \(i\in I\), est indépendante si et seulement si pour tout sous-ensemble \(J\subset I\) et toute famille de fonctions acceptables~\(\phi_j\), \(j\in J\), telles que \(\mathbb{E}(|\phi_j(X_j)|)\) existe pour \(j\in J\), \[ \mathbb{E}\left(\prod_{j\in J}\phi_j(X_j)\right)=\prod_{j\in J}\mathbb{E}(\phi_j(X_j)). \]

On en déduit la proposition suivante, qui permet de calculer la loi de la somme de deux variables aléatoires indépendantes. Nous notons \(\psi_X\) la fonction caractéristique d’une variable aléatoire \(X\).

Indépendance et fonction caractéristique Soient \(X\) et \(Y\) des variables réelles indépendantes alors \(\psi_{X+Y}=\psi_X\psi_Y\).

En effet, par indépendance, pour \(t\in\mathbb{R}\) : \[ \psi_{X+Y}(t)=\mathbb{E}(e^{it(X+Y)})=\mathbb{E}(e^{itX}e^{itY})=\mathbb{E}(e^{itX})\mathbb{E}(e^{itY})=\psi_X(t)\psi_Y(t). \] La réciproque est en fait aussi vraie.

Voyons un exemple d’utilisation de la fonction caractéristique. Soit \(X\) et \(Y\) des variables aléatoires indépendantes suivant des lois de Poisson de paramètres \(\lambda\) et \(\mu\) respectivement. On a, pour \(t\in\mathbb{R}\) : \[\begin{align*} \psi_{X+Y}(t)&=\psi_X(t)\psi_Y(t)\\ &=e^{\lambda(e^{it}-1)}e^{\mu(e^{it}-1)}\\ &=e^{(\lambda+\mu)(e^{it}-1)}. \end{align*}\]

On reconnaît la fonction caractéristique d’une loi de Poisson de paramètre \(\lambda+\mu\). Comme le fonction caractéristique caractérise la loi, la variable \(X+Y\) suit la loi de Poisson de paramètre \(\lambda+\mu\).

1.1.2 Covariance

Rappelons la définition de la covariance, qui est une mesure de la corrélation entre deux variables aléatoires.

Covariance On appelle de deux variables de carré intégrable la quantité \[ \text{Cov}(X,Y)=\mathbb{E}((X-\mathbb{E}(X))(Y-\mathbb{E}(Y)))=\mathbb{E}(XY)-\mathbb{E}(X)\mathbb{E}(Y). \]

Comme \(2|XY|\leq X^2+Y^2\), la covariance de \(X\) et \(Y\) est bien définie dès que \(\mathbb{E}(X^2)\) et \(\mathbb{E}(Y^2)\) sont finies.

La covariance sert notamment à calculer la variance d’une somme : \[\begin{align*} \mathbb{V}\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n\mathbb{V}(X_i)+2\sum_{1\leq i<j\leq n}\text{Cov}(X_i,X_j) \end{align*}\] pour toute famille \(X_1,\ldots,X_n\) de variables de carré intégrable.
Indépendance et covariance : Si \(X\), \(Y\) sont indépendantes et de variance finie, alors \(\text{Cov}(X,Y)=0\).
En effet, dans ce cas, on a \(\mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y)\). Attention, la réciproque n’est pas vraie, on peut avoir \(\text{Cov}(X,Y)=0\) sans que \(X\) et \(Y\) soient indépendantes.

Non corrélation :On dit que deux variables de variance finies sont si \(\text{Cov}(X,Y)=0\). Dans le cas contraire, elles sont dites corrélées.

Donc si \(X_1,\ldots, X_n\) est une suite de variables indépendantes on a \[ \mathbb{V}\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n\mathbb{V}(X_i). \] Par exemple, on peut retrouver la variance de la loi binomiale de cette façon. Si \(X_1,\ldots, X_n\) est une suite de variables indépendantes suivant toutes la loi de Bernoulli \(\mathcal{B}(p)\). Alors \(Z=\sum_{i=1}^nX_i\) a pour variance : \[ \mathbb{V}(Z)=\mathbb{V}\left(\sum_{i=1}^n X_i\right)=\sum_{i=1}^n\mathbb{V}(X_i)=\sum_{i=1}^n p(1-p)=np(1-p). \]

1.2 Retour sur la loi des grands nombres, inégalités de Markov et de Tchebychev, convergence en probabilité

Rappelons l’énoncé de la loi des grands nombres, déjà donné en Leçon 1.

Loi des grands nombres : Soit \((Z_i)_{i\in\mathbf{N}}\) une suite de variables aléatoires indépendantes et de même loi telle que \(\mathbf{E}(|Z_1|)<\infty\). Alors, au sens de la convergence presque sûre, \[ \lim_{n\to\infty} \frac{1}{n}\sum_{i=1}^n Z_i=\mathbf{E}(Z_1). \]

On retiendra le gimmick : pour des variables i.i.d. intégrables, la fréquence empirique converge p.s. vers l’espérance. Les termes au sens de la convergence presque sûre signifient que l’évènement considéré se produit avec probabilité \(1\), c’est-à-dire que \[ \mathbf{P}\left(\lim_{n\to\infty} \frac{1}{n}\sum_{i=1}^n Z_i=\mathbf{E}(Z_1)\right)=1. \] En fait, en utilisant l’inégalité suivante, il est possible de montrer une version plus faible de la loi des grands nombres.

Inégalité de Markov : Soit \(Z\) une variable aléatoire positive réelle à valeurs positives ou nulles définie sur un espace probabilisé \((\Omega,\mathcal{A},\mathbb{P})\). Pour tout \(a>0\), on a \[ \mathbb{P}(Z\geq a)\leq \frac{\mathbb{E}(Z)}{a}. \]

En effet, on a toujours, pour tout \(\omega\in\Omega\), \[ a\mathbb{1}_{Z(\omega)\geq a}\leq Z(\omega)\mathbb{1}_{Z(\omega)\geq a}\leq Z(\omega)\times 1=Z(\omega). \] Donc, en prenant l’espérance, on obtient, \[ \mathbb{E}(a\mathbb{1}_{Z\geq a})\leq \mathbb{E}(Z). \] Or par linéarité puis par définition d’une probabilité, \[ \mathbb{E}(a\mathbb{1}_{Z\geq a})=a\mathbb{E}(\mathbb{1}_{Z\geq a})=a\mathbb{P}(Z\geq a). \] Ce qui est bien l’inégalité de Markov. De cette inégalité, on peut déduire l’inégalité de Bienaymé-Tchebychev qui relie l’écart à l’espérance à la variance.

Inégalité de Bienaymé-Tchebychev : Soit \(X\) une variable aléatoire réelle définie sur un espace probabilisé \((\Omega,\mathcal{A},\mathbb{P})\) et telle que \(\mathbb{E}(X^2)<\infty\). Pour tout \(a>0\), on a \[ \mathbb{P}(|X-\mathbb{E}(X)|\geq a)\leq \frac{\mathbb{V}(X)}{a^2}. \]

Pour montrer cela, il suffit d’écrire, pour \(a>0\), \[ \mathbb{P}(|X-\mathbb{E}(X)|\geq a)=\mathbb{P}((X-\mathbb{E}(X))^2\geq a^2) \] puis d’appliquer l’inégalité de Markov à la variable aléatoire à valeurs positives \((X-\mathbb{E}(X))^2\) \[ \mathbb{P}((X-\mathbb{E}(X))^2\geq a^2)\leq \frac{\mathbb{E}((X-\mathbb{E}(X))^2)}{a^2}=\frac{\mathbb{V}(X)}{a^2}. \] On a donc bien l’inégalité recherchée.

Pour \(n\geq1\),soit \(X_n\) le nombre de pile obtenus lorsque l’on joue \(n\) fois à pile ou face avec une pièce tombant sur pile avec probabilité \(p\in]0,1[\). On sait que \(X_n\) suit une loi binomiale de paramètre \(n\) et \(1/2\). On sait aussi que \[ \mathbb{E}(X_n)=np,\quad\mathbb{V}(X_n)=np(1-p). \] On s’intéresse à la variable aléatoire \[ Z_n=\frac{X_n}{n} \] donnant la fréquence des piles. Par linéarité de l’espérance, on a \[ \mathbb{E}(Z_n)=\mathbb{E}(X_n/n)=\frac{\mathbb{E}(X_n)}{n}=\frac{np}{n}=p. \] De plus, en utilisant les propriétés de la variance \[ \mathbb{V}(Z_n)=\mathbb{V}(X_n/n)=\frac{\mathbb{V}(X_n)}{n^2}=\frac{np(1-p)}{n^2}=\frac{p(1-p)}{n}. \] L’inégalité de Tchebychev nous donne alors, pour tout \(\varepsilon>0\) \[ \mathbb{P}\left(\left|Z_n-p\right|\geq\varepsilon\right)\leq\frac{\mathbb{V}(Z_n)}{\varepsilon^2}=\frac{p(1-p)}{n\varepsilon^2}. \] Donc la probabilté que la fréquence des piles dévie de son espérance \(p\) tend vers \(0\) lorsque \(n\) tend vers l’infini. C’est un cas particulier de convergence en probabilité.

Convergence en probabilité : Soit \((Z_n)\) une suite de variables aléatoires réelles et \(Y\) une variable aléatoire réelle définie sur un espace probabilisé \((\Omega,\mathcal{A},\mathbb{P})\). Si pour tout \(\varepsilon>0\), on a \[ \lim_{n\to\infty}\mathbb{P}(|Z_n-Y|\geq \varepsilon)=0, \] alors on dit que la suite \((Z_n)\) converge en probabilité vers \(Y\).

Revenons à notre fréquence de piles. Si on écrit la variable binomiale \(X_n\) comme une somme de \(n\) variables aléatoires de Bernoulli indépendantes \(B_i\) de paramètre \(p\), \(1\leq i\leq n\), on a montré que \[ \lim_{n\to\infty}\mathbb{P}\left(\left|\frac{1}{n}\sum_{i=1}^n B_i-p\right|\geq\varepsilon\right)=0. \] Ce qui est un cas particulier de la loi faible des grands nombres.

1.3 Théorème central limit et loi normale

Vous avez vu en terminal le théorème suivant, dit de Moivre-Laplace. Rappelons-le.

Théorème de Moivre-Laplace : Soit \((X_i)_{i\in\mathbf{N}}\) une suite de variables aléatoires indépendantes et de même loi de Bernoulli de paramètre \(p\in]0,1[\). Alors, pour tout \(x\in\mathbb{R}\), \[ \lim_{n\to\infty} \mathbb{P}\left(\sqrt{n}\frac{\frac{1}{n} \sum_{i=1}^nX_i -p}{\sqrt{p(1-p)}}\leq x\right)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}} dt. \]

Ce théorème est un cas particulier du théorème central limit.

Théorème central limit : Soit \((X_i)_{i\in\mathbf{N}}\) une suite de variables aléatoires indépendantes et de même loi d’espérance \(\mu\) de variance finie \(\sigma^2\). Alors, pour tout \(x\in\mathbb{R}\), \[ \lim_{n\to\infty} \mathbb{P}\left(\sqrt{n}\frac{\frac{1}{n} \sum_{i=1}^nX_i -\mu}{\sqrt{\sigma^2}}\leq x\right)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}} dt. \]

Si on note \(Z_n\) la variable aléatoire \[ Z_n=\sqrt{n}\frac{\frac{1}{n} \sum_{i=1}^nX_i -\mu}{\sqrt{\sigma^2}} \] alors le théorème central limit nous dit que la suite de vraiables aléatoires \((Z_n)\) converge en loi vers un variable aléatoire \(Z_\infty\) dont la fonction de répartition est définie, pour \(x\in\mathbb{R}\) par \[ F_{Z_\infty}(x)=\mathbb{P}(Z_\infty\leq x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}} dt=\Phi(x). \] IL ne sert à rien de chercher une expression plus simple pour \(\Phi\) (c’est-à-dire d’essayer de mener l’intégration), ce n’est pas possible.

On dit que \(Z_\infty\) suit la loi normale (ou gaussienne) centrée réduite, c’est-à-dire de paramètres \(0\) (son espérance est centrée) et \(1\) (sa variance est réduite à \(1\)). On note \(\mathcal{N}(0,1)\) la loi normale centrée réduite. Illustrons le théorème central limit.

n=1000
p=0.7
X_n=rbinom(1000,n,p)/n
Z_n=sqrt(n)*(X_n-p)/sqrt(p*(1-p))
hist(Z_n,freq = FALSE,xlab="",ylab="",main="Histogramme vs densité normale (illustration TCL)")
x=seq(min(Z_n),max(Z_n),by=0.1)
lines(x,dnorm(x,0,1),col="blue")

La densité de la loi normale centrée réduite est donc, pour \(x\in\mathbb{R}\) \[ \Phi'(x)=\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}. \]
Propriétés de la loi normale centrée réduite : soit \(Z\) une variable aléatoire de loi \(\mathcal{N}(0,1)\). On a
  • La densité de \(Z\) est paire.
  • Pour tout réel \(a\), \[ \mathbb{P}(Z\leq a)=\mathbb{P}(Z\geq-a). \]

La figure suivante illustre ces propriétés (ici, \(a=-1,5\)).

Autres propriétés de la loi normale centrée réduite : soit \(Z\) une variable aléatoire de loi \(\mathcal{N}(0,1)\). On a
  • \(\mathbb{E}(Z)=0\).
  • \(\mathbb{V}(Z)=1\).
  • Pour tout \(t\in\mathbb{R}\), \(\psi_Z(t)=\mathbb{E}(e^{itZ})=e^{-\frac{t^2}{2}}\).

Loi normale (générale) : On dit que \(X\) est une variable aléatoire normale de moyenne \(\mu \in \mathbb{R}\) et de variance \(\sigma^2 \in \mathbb{R}^{*+}\), ou encore on dit que \(X\) suit la loi normale de paramètres \(\mu\) et \(\sigma^2\), notée \({\cal N}(\mu,\sigma^2)\) si sa densité est : \[\forall \ x \in \mathbb{R} : f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2} \quad \mbox{avec }\mu \in \mathbb{R} \mbox{ et } \sigma^2 \in \mathbb{R}^{*+}. \]

Propriétés de la loi normale : soit \(Z\) une variable aléatoire de loi \(\mathcal{N}(\mu,\sigma^2)\). On a
  • \(\mathbb{E}(Z)=\mu\).
  • \(\mathbb{V}(Z)=\sigma^2\).
  • Sa fonction de répartition est donnée, pour tout réel \(x\) par \[ F_X(x)=\Phi \left( \frac{x-\mu}{\sigma} \right). \]
  • Pour tout \(t\in\mathbb{R}\), \(\psi_Z(t)=\mathbb{E}(e^{itZ})=e^{it\mu-\frac{(\sigma t)^2}{2}}\).

Voici par exemple la densité d’une loi normale de paramètre -2 et 3.

Centrage et réduction d’une loi normale : Si \(X\) une variable aléatoire de loi normale \({\cal N}(\mu,\sigma^2)\) de fonction de répartition \(F_X\), alors la variable aléatoire \(U=\frac{X-\mu}{\sigma}\) suit la loi normale \({\cal N}(0,1)\). Et on a : \[\forall \ x \in \mathbb{R},\quad F_X(x)=\Phi\left(\frac{x-\mu}{\sigma}\right).\]

Les lois normales sont stables par transformation affine.

Transformation affine d’une loi normale : Soient \((a,b)\in \mathbb{R}^2\). Si la variable aléatoire \(X\) suit la loi normale \({\cal N}(\mu,\sigma^2)\), alors \(aX+b\) suit la loi \({\cal N}(a\mu+b,a^2\sigma^2)\).

La somme de deux lois normales indépendantes est encore normale.

Additivité des lois normales Soient \(X\) et \(Y\) deux variables aléatoires indépendantes suivant respectivement les lois \({\cal N}(\mu_1,\sigma_1^2)\) et \({\cal N}(\mu_2,\sigma_2^2)\). Alors la variable aléatoire réelle \(X+Y\) suit la loi \({\cal N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\).

2 Exercices du cours

Exercice 1 : soit \(Z\) une variable aléatoire de loi \(\mathcal{N}(0,1)\). Montrer que
  1. \(\mathbb{E}(Z)=0\).
  2. \(\mathbb{V}(Z)=1\).
  3. Pour tout réel \(a\), \[ \mathbb{P}(Z\leq a)=\mathbb{P}(Z\geq-a). \]
Ecercice 2 : soit \(Z\) une variable aléatoire de loi \(\mathcal{N}(\mu,\sigma^2)\). On a
  1. \(\mathbb{E}(Z)=\mu\).
  2. \(\mathbb{V}(Z)=\sigma^2\).
  3. Sa fonction de répartition est donnée, pour tout réel \(x\) par \[ F_X(x)=\Phi \left( \frac{x-\mu}{\sigma} \right). \]

Exercice 3 : Soient \((a,b)\in \mathbb{R}^2\). Si la variable aléatoire \(X\) suit la loi normale \({\cal N}(\mu,\sigma^2)\), alors \(aX+b\) suit la loi \({\cal N}(a\mu+b,a^2\sigma^2)\).

Exercice 4 Soient \(X\) et \(Y\) deux variables aléatoires indépendantes suivant respectivement les lois \({\cal N}(\mu_1,\sigma_1^2)\) et \({\cal N}(\mu_2,\sigma_2^2)\). Alors la variable aléatoire réelle \(X+Y\) suit la loi \({\cal N}(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\).

3 Exercices des TDs

Exercice 1 : La loi log-normale fournit un bon modèle pour les variables strictement positives ayant une distribution asymétrique avec allongement vers les valeurs élevées (en biologie, poids des personnes ; en économie, distribution des revenus). Soit X une variable aléatoire à valeurs strictement positives, on dit que \(X\) suit une loi log-normale de paramètre \(\mu\) et \(\sigma^2\) notée \({\cal LN}(\mu,\sigma^2)\) si \({\rm ln}(X)\sim {\cal N}(\mu,\sigma^2)\).
  1. Exprimer la fonction de répartition \(F\) de \(X\) en fonction de la fonction de répartition \(\Phi\) de la loi normale centrée réduite.
  2. En déduire la densité \(f\) de \(X\).
  3. Calculer l’espérance et la variance de \(X\).
  4. Si on considère que la distribution des poids dans une population adulte est modélisée par une loi log-normale et que le poids moyen est de 70kg et l’écart-type de 12kg, quels sont les \(\mu\) et \(\sigma\) correspondant ?
Exercice 2 : Soit \(X\) une variable qui suit une loi uniforme sur l’intervalle \([0, 1]\).
  1. Quelle est la loi de \(Y = (b - a)X + a\) ?
  2. Déterminer la loi de \(U = \sup(X, 1 - X)\).
  3. Déterminer la loi de \(V = \inf(X, 1 - X)\).
Exercice 3 : Soit \(X\) et \(Y\) deux variables aléatoires réelles indépendantes de loi exponentielle de paramètre \(\lambda\) et \(\mu\) respectivement. On pose \(Z = \inf (X, Y)\).
  1. Quelles sont les valeurs possibles pour \(Z\) ?
  2. Calculer la fonction de répartition \(F_Z\) de \(Z\).
  3. Calculer la densité de \(Z\). Connaissez-vous cette loi ?
Exeercice 4 : Soit \((X_i)_{i\geq1}\) une famille de variables aléatoires réelles uniformes sur \([0,a]\) indépendantes. On pose, pour \(n\in\mathbb{N}^*\), \(U_n=\sup_{1\leq i\leq n} X_i\).
  1. Calculer la fonction de répartition de \(U_n\).
  2. En déduire la densité de \(U_n\).
  3. Montrer, sans utiliser l’inégalité de Markov, que \((U_n)\) converge en probabilité vers \(a\), c’est-à-dire que pour tout \(\varepsilon>0\), \[ \lim_{n\to\infty} \mathbb{P}(|U_n-a|\geq\varepsilon)=0. \]
  4. Calculer \(\mathbb{E}(U_n)\).
  5. Redémontrer, en utilisant cette fois l’inégalité de Markov, que \((U_n)\) converge en probabilité vers \(a\).

Exercice 5 : Soit \(X\) une variable aléatoire continue à valeurs positives. Montrer que \[ \mathbb{E}(X)=\int_0^\infty \mathbb{P}(X>t){\rm d}t. \]