STATISTIQUES 2006 - 2007

Monsieur PAOLUCCI
Frank.paolucci@univ-reunion.fr
Plan :


INTRODUCTION.

Chapitre 1 : Etude des séries statistiques simples.

Chapitre 2 : Etude des séries statistiques doubles.

Chapitre 3 : Analyse combinatoire.

Chapitre 4 : Calcul des probabilité.

Chapitre 5 : Variables aléatoires et lois de
Probabilité.

Chapitre 6 : Inégalité de Bienaymé- Tchébichef et
Théorème de la Limite Centrale (en option).






















INTRODUCTION.


Définition et vocabulaire.

La statistique est une méthode scientifique qui consiste à réunir des donnés chiffré sur des ensembles nombreux. Puis à analyser, à commenter et à critiquer ces donnés.

Les ensembles doivent être déterminés au sens de la théorie des ensembles c'est-à-dire qu’il doit toujours être possible de savoir si un élément appartient à un ensemble. Généralement les ensembles sont appelés « population », on parle par exemple de la population de chômeur. Les éléments de la population sont appelés individus ou unité statistique.
La population est étudiée selon un ou plusieurs caractères, ce sont les « facettes » des individus, dans le cadre du chômeur, la qualification professionnelle peut avoir un nombre de modalité qui dépend de la précision recherchée. Lorsque les modalités du caractère sont des nombres, ce même caractère est dit quantitatif et est appelé variable statistique. Une variable statistique peut être discrète que si elle ne prend que des valeurs isolées, elle est au contraire qualifiée de continue si elle peut prendre n’importe quelle valeur intermédiaire entre 2 valeurs données. Lorsque les modalités des caractères ne sont pas mesurables, les caractères sont dit qualitatif.


Chapitre 1 : Etude des séries statistiques simples.

On parle de série statistique simple toute l’étude fondée sur l’analyse d’une seule variable, on distinguera variable discrète et variable continue.

Section 1 : Variable discrète.

A- Caractéristique d’opposition.

La moyenne : x = 1/n ∑ ni xi = ∑ fi xi

Le mode ou la valeur modale c’est la valeur de la variable statistique que l’on prend le plus fréquemment. Et il est retrouvé immédiatement au regard du tableau des fréquences ou des effectifs.
La médiane d’une série est une valeur de la variable tel qu’il y ait autant d’observations ayant une valeur supérieure à la médiane que d’observation inférieure à celle- ci. Lorsque les observations sont toutes données, il suffit de les classer par ordre croissant ou décroissant et de prendre celle qui se trouve au milieu. Si le nombre d’observation est paire la médiane peut être théoriquement l’une quelconque des valeurs comprise entre le deux valeurs centrales observées. Le plus généralement on choisit leur demi- somme.
La fréquence cumulée, cela permet en outre d’offrir une autre grille de lecture de la répartition des observations en permettant de dire qu’il y a tant d’observation, tel pourcentage d’observation inférieur ou supérieur à cette valeur.



B- Caractéristique de dispersion.

Deux séries peuvent avoir la même moyenne et la même médiane, et différées profondément. Ce qui fait leur différence c’est qu’en statistique on nomme la dispersion.

L’écart absolu moyen : e = ∑ xi – x

n
La variance d’une série se définit comme la moyenne arithmétique des carrés des écarts à la moyenne

V(x) = ∑ (xi – x) ²
n


L’écart type se définit comme la moyenne quadratique des écarts à la moyenne, ou autrement dit la racine carrée de la variance.

σ = √V(x) = √ σx² = √∑ ni (xi- x) ²
∑ ni

Section 2 : Variable continue.

A- Caractéristique d’opposition.

Si la variable est continue est si les données sont compris à l’intérieur de l’intervalle, on ne peut que rechercher arbitrairement une moyenne à l’intérieur de chaque classe à défaut d’autre renseignement, on choisit « le centre de classe » qui correspond à la moyenne arithmétique des extrémités de classe. Le calcul est effectué comme si tous les individus d’une classe avaient pour caractère le centre de classe avec toute l’approximation que cela comprend.

La moyenne : x = 1/n ∑ ni xi = ∑ fi xi

Le mode, on parle dans ce cas de classe modale, elle se définit comme la classe ayant l’effectif le plus élevé si toutes les classes ont la même amplitude. Si les amplitudes sont différentes, il faut se ramené à une unité d’amplitude identique, la classe modale correspondra alors à la classe dont l’effectif par unité d’amplitude est la plus élevée.
Le principe est relativement simple, on choisit une amplitude x1 par exemple et l’on ramène tous les autres effectifs des classes à cette unité d’amplitude en calculant :
Le mode = Ni * x1
xi
La médiane, pour déterminer la médiane de classe, de la même manière que pour une variable discrète, on aura recours ou aux effectifs ou aux fréquence cumulées.

B- Caractéristique de dispersion.

Ecart absolu moyen, variance et écart type formule identique variable discrète avec xi pour centre de classe.

Chapitre 2 : Etude des séries statistiques doubles.


Avec les séries simples, on étudie des populations avec un seul caractère, il est pourtant souvent utile de considérer plusieurs caractères de la même population. Par exemple si l’évolution du chiffre d’affaire est important il importe également de considérer les déterminants (facteur influençant le chiffre d’affaire) du chiffre d’affaire. Il est alors possible d’évoquer des relations potentielles entre le chiffre d’affaire et l’évolution des prix des consommations intermédiaires ou avec l’évolution de la consommation finale ou encore avec la prise de décision en amont.

Section 1 : Ajustement linéaire et principe des moindres carrés ordinaires (voir diapos 10 et 11).

On peut constater que le nuage de points est relativement allongé, il n’est donc pas dépourvu de sens de chercher s’il est possible de déterminer une droite qui « résume » approximativement l’ensemble des points.
Théoriquement diverses sortes d’ajustement linéaire sont possibles, le plus simple c’est l’ajustement graphique, il s’agit intuitivement de trouver une droite qui représente au mieux l’ensemble des points. Il existera dans ce cas autant d’ajustement graphique possible que de critères totalement subjectifs pour pouvoir les créer. Il est possible d’opérer un ajustement affine par la méthode de MAYER : on partage le nuage en deux nuages de points équivalent. On calcul alors le point moyen qui est somme des valeurs des points sur nombre des points que l’on appellera G1, G2 et la droit (G1 ; G2) se nomme la droite de MAYER et passe qui plus est par le point moyen global cela reste une bonne approximation à condition que le nuage de point soit allongé. La méthode des moindres carrés ordinaires présente un caractère plus rigoureux que les méthodes précédentes, les MCO reposent sur une minimisation de la distance au carré entre chaque observation et la droite des points moyens. On montre alors que ces estimateurs sont sans biais c'est-à-dire qu’en moyenne, la différence entre le paramètre estimé et celui « vrai » est nul. Ils sont également convergeant ou autrement dit la variabilité des coefficients tend vers 0 car le nombre d’observation est important. Cette méthode requiert des hypothèses de construction (non envisagées). On peut calculer le coefficient de corrélation linéaire pour apprécier la qualité de l’ajustement.

Coefficient de corrélation linéaire :
r = cov(x,y)
σx σy

cov (x,y)= 1/n ∑ (xi-x)(yi-y) = 1/n∑xiyi - xy
la covariance permet de donner une appréciation de la variabilité partagée des 2 séries.


Section 2 : Application des moindres carrés ordinaires sur des données individuelles.


CAt = a1 + a2 It
Si l’on souhaite étudier dans quelles mesures les décisions d’investissement affectent le montant de chiffre d’affaire, on pourra étudier la relation suivante. Dans cette relation, CAt est le chiffre d’affaire observé à la date t elle est la variable endogène du modèle. It est l’investissement observé à la date t elle est la variable exogène du modèle. A1 et A2 sont des coefficients du modèle (paramètres) A1 est dans ce cas la constante et A2 le coefficient attaché à It. Si y est le chiffre d’affaire, on parle d’une droite de régression de y en x. inversement il est fort probable que le chiffre d’affaire ait un effet sur les décisions d’investissement, on formulera plutôt It = a3 + a4 CAt.
L’objectif consiste à ce niveau à estimer les paramètres a1 et a2 de l’équation pour la droite de régression de y en x. il est possible de démontrer que ces coefficients s’obtiennent de la manière suivante.
a2 = cov (x,y) = σ²x,y
V(x) σ²x


a1= y – a2x

Avec x et y les moyennes respectives de y et x.

La variance de x est égal à la somme des xi² divisé par n moins x barre²

Var x = ∑xi² - x ²
n
































CHAPITRE 3 : Analyse combinatoire.


L’analyse combinatoire est une branche des mathématiques qui étudie comment dénombrer des objets.

Section1 : La multiplication répétée.

a) Arrangement avec répétition.

En prenant 10 lettres de l’alphabet, on peut former 103 mots de 3 lettres.
Répétition + ordre.

b) Arrangement sans ordre.

Si on souhaite créer un mot de 3 lettres pris parmi 10 c’est = à 10*9*8, on note cette réponse A310.
Anp est le nombre de manières de ranger p objet pris parmi n en une suite ordonnée et sans utiliser 2 fois le même objet.

c) Permutation.

Si l’on décide d’utiliser tous les objets et de les ordonner, il y a Ann manières de le faire, ce nombre est appelé factoriel de n et il est noté n ! . 0 ! = 1 par convention. De fait, l’utilisation complète des 10 lettres = 10 ! Manières de les ordonner.
n ! =n*(n-1)*(n-2)…*1 et 0 ! = 1

On veut compter par exemple les groupes de 2 lettres distinctes non ordonnés c'est-à-dire que les groupes AB et BA représentent le même groupe de mots de 2 lettres. Pour toutes les lettres de l’alphabet et pour créer des mots de 2 lettres distinctes (pas de répétition), il suffit donc de compter les mots de 2 lettres distinctes. A226 = 26*25 et il faut diviser par deux
Si l’on impose plus que les 2 lettres soient distinctes (AA BB CC … possibles) il ne faut plus diviser par deux.
Si le groupe AB et BA est bien représenté par 2 mots, le groupe AA par exemple n’est représenté que par 1 seul. De fait, en divisant par 2, on sous estime le nombre de combinaison possible.

Section 2 : Divisions et combinaisons.

a) Combinaisons.

Nombre de manières de prendre p objets parmi n sans prendre 2 fois le même objet (sans répétition) et sans les ordonner est noté Cpn c’est le nombre de combinaisons possibles de p objets pris parmi n.

Combien de mots de 3 lettres je peux former en prenant les 5 premières lettres de l’alphabet et sachant que les groupes ABC et BCA et BAC représentent le même groupe de mot.
Cpn = Apn/P !
Cpn = [n*(n-1)*(n-2)*…*(n-p+1)]/[p*(p-1)*…*1)]
On utilise Cpn lorsqu’il n’y a pas d’ordre ni de répétition.

b) Permutation avec répétition.

En considérant le nombre 11233, combien de nombre nouveaux peut on obtenir en permutant les nombres.

Le premier 1 peut être placé indifféremment aux 5 places. Si le premier 1 est à la première place, le deuxième 1 peut être mis aux quatre places suivantes, le 2 pourra être mis sur les trois dernières places… en bref, on aura 5 ! manières de les ordonner mais on obtient le même nombre lorsque la suite de signe contient les deux 1 au même endroit, même s’ils sont permutés, de même pour le 3, la réponse est donc 5 !/(2 ! 2 !) = 120/4 = 30.
En général, avec n éléments se regroupant en 3 types p, q et r, avec p+q+r = n on aura

Permutation avec répétitions : n !/ (p !q !r !).

Section 3 : Exemple de résolution.

Les douze tomes d’une encyclopédie sont placés au hasard.
1 : Combien y’a-t-il de manière de les classer ?
2 : Parmi ces classements, combien y’en a-t-il ou les tomes 1 et 2 se trouvent côte à côte dans cet ordre ?

Arrangement avec répétition : ordre et répétition + une partie des objets.
Arrangement sans répétition : ordre + pas de répétition + une partie des objets. Apn.

Permutation avec répétition : ordre + répétition + tous les éléments. n !/p !
Permutation sans répétition : ordre sans répétition + tous les éléments. p !

Combinaison : pas d’ordre, pas de répétition + une partie des objets.

1 : Dans notre cas, il y a un ordre, pas de répétition et on prend tous les éléments, d’où, on choisit p !, 12 !

2 : C comme le 1 : sauf que soit on considère qu’il y a 11 tomes, soit on considère que soit le nombre 1 soit le nombre 2 ne peuvent se placer qu’à 11 endroit, d’où, la réponse est 11 !


exercice 2

dans une entreprise, il y a un comité d’entreprise comprenant 5 délégués du personnel et 4 personnes de la direction.
1 : De combien de manières peut on former un sous-comité comprenant 3 délégués du personnel et 2 membres de la direction ?

C24 + C35 = 4 !-2 !/(2 !) * 5 !-3 !/(3 !) = 5*4*3*4*3/(3*2*2) = 60

Exercice

Un représentant s’apprête à visiter 5 de ses clients. De combien de façons peut il faire cette série de visites :
- S’il les fait toutes le même jour ?
- S’il en fait 3 en un jour, 2 le lendemain ?

- 5 !=5*4*3*2*1=120

- (5*4*3) * (2*1) = 120
1er jour 2ème jour

Exercice D

On achète 6 pièces mécaniques, comment peut on les répartir ?

- Si elles doivent être placées chacune dans un atelier différent ?
- Si elles sont placées deux à deux dans trois ateliers différents ?
- S’il y a quatre ateliers, deux recevant deux pièces et deux autres une seule ?

- 6 !

- C2¬6 * C24 * C22 = 90 = [(6*5)*(4*3)*(2*1)]/ (2*2*2)

- C2¬6 * C24 *C1¬2 * 1= 180

























CHAPITRE 3 : Calcul des probabilités.


Il existe deux manières d’introduire la notion de probabilité :
- La probabilité « subjective » d’un évènement est un nombre qui caractérise la croyance que l’on a que cet évènement est réalisé avec plus ou moins de certitude, cette croyance peut atteindre 2 extrêmes : la certitude que l’évènement est réalisé (probabilité=1) et la certitude qu’il n’est pas réalisé (probabilité=0). La probabilité d’un évènement est donc comprise entre 0 et 1.
- La probabilité assimilée à une fréquence, dans ce cas, on ne définit alors la probabilité qu’à partir de l’expérience indéfiniment renouvelable. La probabilité d’un évènement et la fréquence d’apparition de cet évènement : 0 signifie qu’il n’apparaît jamais et 1 signifie qu’il apparaît à chaque expérience.

Section 1 : Notations et formules des probabilités totales.

Il faut définir précisément l’ensemble des résultats possibles d’un évènement probabilisable. On note souvent Ω l’ensemble des résultats possibles dénommé parfois univers des possibles. Pour un dès, l’ensemble des possibles sera noté 1, 2, 3, 4, 5, 6 . Les résultats possibles, c'est-à-dire les éléments de Ω sont appelés les « évènements élémentaires ». Un évènement est un sous ensemble d’ Ω.
Réunion d’évènement : si A et B sont 2 évènements, « A ou B » est réalisé si et seulement si soit A, soit B soit A et B sont réalisé.
Intersection d’évènements : « A et B » est réalisé si et seulement si A et B sont réalisés simultanément.
Complémentation : on note A le complémentaire de A dans Ω. A est réduit aux évènements élémentaires qui ne sont pas dans A. donc A est réalisé si et seulement si A ne l’est pas.

EX : si A= 1, 2 alors A = 3, 4, 5, 6

Pour le dès, l’évènement A= 1 ou 2 est réalisé seulement si le résultat du lancé = 1 ou 2.
Nous connaissons déjà 1 évènement certain, c’est Ω lui-même, 1 évènement impossible, c’est l’ensemble vide Ø

Evènement compatible et évènement incompatible.

2 évènements seront incompatibles si lorsqu’un évènement se réalise l’autre ne peut pas se produire. Comme il n’y a pas d’intersection possible entre A et B, on notera la probabilité de A et B = 0
Pr A et B = 0


Pr (A ou B) = Pr (A) + Pr (B)
La probabilité de A ou B, c'est-à-dire la fréquence d’obtention de A ou B est égal au nombre de fois ou on obtient A plus le nombre de fois ou on obtient le nombre B sur le nombre de fois d’expérience.



Les évènements seront qualifiés de compatibles lorsque la réalisation d’1 évènement n’empêche pas celle de l’autre. Les évènements s’entrecroisent de la manière suivante.



A et B





Pr A ou B = Pr B – Pr A et B


Exemple : dans le jet d’un dé, on considère l’évènement A le résultat est impaire et l’évènement B le résultat est un multiple de 3.
Calculer la probabilité de A ou B.
A 1, 3, 5
B 3, 6 intersection = 3 Pr A ou B = 4/6



Formules du « nombre de cas favorables ».

Pr (a) = card A/ card Ω = nombre de cas favorables/nombre de cas possibles


Pour décider des valeurs de probabilité, on a généralement recours à un argument de symétrie, on fait l’hypothèse que les probabilités d’apparition de chaque face sont les mêmes. D’une manière générale, si tous les résultats élémentaires ont la même probabilité, on a pour tout évènement A inclus dans Ω. on appelle card(cardinal) A d’un ensemble fini le nombre d’éléments de cet ensemble, par exemple, le chiffre 6 n’apparaît qu’une seule fois sur le dé, le nombre de cas favorable est donc de 1 et le nombre total est 6 d’où card A = 1/6
Pour dénombrer le nombre de cas favorables

L’analyse combinatoire.

Dans une salle de cours de 30 places avec 5 rangs de 6 places et dans laquelle je suis placé au hasard,
- quelle est la probabilité d’être au premier rang ? 1/5
- Quelle est la probabilité d’être au premier rang et à la première place ?

- Ω= C630
A= C529 A/ Ω =1/5 = C529 / C630

- 29 !/30 ! = 1/30




SECTION 2 : formules des probabilités composées.

A : Probabilités conditionnelles.

L’idée consiste à construire de nouvelles probabilités à partir d’une distribution de probabilité P. exemple du jet de dé : Ω= 1, 2, 3, 4, 5, 6 après le lancement, on sait que le résultat est pair. L’ensemble des résultats possible E est alors E = 2, 4, 6
On peut alors se poser la question de savoir quelle est la probabilité qu’un évènement A « le nombre de points est égal ou supérieur à 4 » se produise sachant que le résultat est pair. En considérant que le résultat soit égal ou supérieur à 4 et qu’il soit pair, cela ne laisse que 2 choix possibles (4 ou 6) parmi les 6, d’où le résultat est donc 2/6.

Mank 1 cours

La première partie de l’arbre permet de déterminer les probabilités de 4 évènements, la probabilité d’être ivre et d’avoir un accident, celle d’être ivre et de ne pas avoir d’accident, celle d’être sobre et d’avoir un accident et enfin celle d’être sobre et de ne pas avoir un accident. Avec ces probabilité, on peut reconstituer les probabilités A et A, pour A, il suffit d’additionner la probabilité d’être ivre et d’avoir un accident avec la probabilité d’être sobre et d’avoir un accident. L’étape suivante est de calculer la probabilité d’être ivre sachant qu’il y a eu un accident. Pr I / A = Pr I et A = 2/10000 = 20/119 = Pr A / I * Pr I
Pr A 119/100000 Pr A

Or on sait que probabilité de I sachant A = probabilité de A sachant I * probabilité de I divisé par probabilité de A « = probabilité de I sachant A * probabilité de A »
Donc, par substitution, on obtient probabilité de I sachant A = probabilité de A sachant I * probabilité de I / probabilité de A

De manière conventionnelle, en considérant deux évènements A et B, on aura P A/B = Pr B / A * Pr A
Pr B

Ceci est le théorème de BAYES.

Elle peut être écrite de façon plus générale avec le système complet d’évènement disjoints que l’on notera Ai de sorte que l’ensemble des Ai reconstitue l’univers des possibles Ω.
Les Ai peuvent être constitués par des usines différentes qui produisent des biens parfaitement substituables sur un marché unique. Le marché unique représentant l’univers Ω.

Exemple d’application :

On fait une enquête pour connaître les réactions des hommes et des femmes à la vente éventuelle d’un nouvel achat, l’enquête porte sur 250 personnes dont 200 femmes. On distingue 4 cas possibles :
Homme acheteur éventuel (H et A)
Homme non acheteur (H et N)
Femme acheteuse (F et A)
Femme non acheteuse (F et N)
De l’enquête, il en ressort que 30 homme sont intéressés et 60 femmes.

1) Calculer la probabilité de H et A.
2) Déterminer les probabilités de H, de A et celle de A ou H.
3) Les évènements être un homme et être un éventuel acheteur sont il indépendants ?

1) 30/250 = 6/50 = 0,12
2) P H = 50/250= 1/5 = 0,2 P A = 90/250= 9/25 = 0,36
P H ou A = P A + P H - P A et H = 1/5 + 9/25 – 6/50 = 0,2 + 0,36 – 0,12 = 0,44
3) Les évènements sont indépendants

Application 2

Une pièce mécanique peut être faussée soit à cause d’un défaut de fabrication, soit à cause d’une mauvaise utilisation. Le défaut de fabrication a lieu dans 5% des cas, et il y a une probabilité sur 100 d’utiliser la pièce de façon à la fausser.

Quelle est la probabilité pour qu’une pièce soit faussée soit dans la fabrication, soit après utilisation ?

P f = 5%
P u = 1% * 95% (car on a déjà retiré 5% que représentaient les pièces faussées)

P = 5% + 0,95% = 5,95%

Application 3

Deux usines fabriquent les mêmes pièces, la première produit 70% de bonnes pièces, la seconde 90%. Les deux usines fabriquent la même quantité de pièces.

1) Quel est le pourcentage de pièces bonnes sur l’ensemble du marché ?
2) On achète une pièce, elle est bonne, quelle est la probabilité qu’elle provienne de la seconde usine ?
3) L’usine 2, grâce à une politique marketing appropriée, a réussi à récupérer ¼ de part de marché, calculer de nouveau la probabilité pour qu’une pièce achetée bonne provienne de cette usine ?

1) Soit A1 la pièce vient de l’usine 1
Soit A2 la pièce vient de l’usine 2
Soit B la pièce est bonne.
P B = (70+90)/200 = 0,8
2) P A2/B = P B/A2 * P A2 = 0,9*1/2 = 0,56
∑ P B/A1 * P A1 0,7*1/2+0,9*1/2
3) 0,9*3/4 = 0,794
0,7*1/4+0,9*3/4








Chapitre 5 variables aléatoires et lois de probabilités.


Le concept de variable aléatoire est essentiel dans les analyses statistiques notamment celles de type stochastique (analyses de l’erreur ou du résidu de l’estimation). La raison en est que les économistes assimilent aux fréquences et aux probabilités ce qui entraîne tout naturellement à assimiler variable statistique et variable aléatoire. Il existe pourtant un intérêt à substituer une loi de probabilité connue à une série observée. Cela permet en outre de faciliter les comparaisons entre les séries et surtout d’en déduire des préconisations et coûts des orientations (positives ou normatives) dans des domaines variés, qu’ils soient économiques ou sociales.

Section 1 : Définition d’une variable aléatoire.

Toute mesure d’une grandeur dont les valeurs dépendent du hasard est dite variable aléatoire. C’est donc une application de l’univers des évènements de Ω sur R (nombres réels). Par exemple, une plante peut avoir jusqu’à 3 fleurs avec une équiprobabilité de ¾. Le nombre de fleurs (0, 1, 2, 3, 4) est donc une variable aléatoire qui prend la valeur 0 avec la probabilité ¼, la valeur 1 avec la probabilité 1/4 … Une variable aléatoire peut être discrète (ne prenant que certaines valeurs – loi de probabilité binomiale) ou continue (pouvant prendre toutes les valeurs entre les limites obtenues (loi normale).


A : Variable aléatoire discrète .

On appelle « loi de probabilité » de la variable X la fonction définit de la façon suivante :
X ->Pr X = x
On distingue X le nom de la variable aléatoire de x l’une de ses valeurs possibles. La loi de probabilité d’une variable aléatoire peut se présenter de la façon suivante Pr X = x = p(x)

On appelle fonction de répartition d’une variable aléatoire x la fonction définit par F(x) = Pr X < x elle peut se comprendre comme les probabilités cumulées des évènements.



Nombre de fleurs P x F(x)
0 ¼ 0,25
1 ¼ 0,5
2 ¼ 0,75
3 1/4 1



B : Variables aléatoires continues.

Il importe de noter qu’en présence d’une variable aléatoire continue il n’est pas possible de définir une loi de probabilité comme dans le cas discret, cela provient du fait qu’il n’est pas possible d’apprécier une probabilité pour un nombre réel donné (il existe une infinité de valeurs possible entre 2,5). Seule la définition de la fonction de répartition est valide [F(x)]. On définit la probabilité que X prenne une valeur appartenant à un intervalle [A ; B [ de la manière suivante Pr a ==b = F(b)-F(a)
S’il n’est pas possible de définir la probabilité en« un point » on peut néanmoins établir la densité de probabilité (assimilable à la probabilité d’un évènement dans le cas discret) d’une variable aléatoire pour une valeur x de X
f(x) = F’(x)
Intégrale de –∞ à + ∞ de f(x) dx = 1

Soit un segment de longueur de 5 cm [OA] quelle est la probabilité pour qu’un point B placé au hasard sur [OA] se trouve sur un segment CD de 1 cm de OA - > f(x) = 1/5 =>
F(x) = x/5



Section 2 : loi binomiale et ajustement à une série observée.


A : Définition.

Lorsque les éventualités se réduisent à une « alternative » (succès ou échec) la variable aléatoire « nombre de succès » suit une loi de probabilité appelée loi binomiale lorsque :
- Chaque épreuve donne lieu à 2 éventualités exclusives de probabilité constantes avec P la probabilité de succès et Q la probabilité d’échec avec Q= 1-P
- Les épreuves répétées sont indépendantes.
Il est possible de démontrer que la loi de probabilité d’une variable aléatoire suivant une loi binomiale est la suivante : si n = nombre d’expériences ; P = probabilité de succès et Q probabilité d’échec et si X suit une loi binomiale de paramètre n et de probabilité P
si X B(n,p)
alors la probabilité Pr X = x = Cxn p x Q 1-x

B : Illustrations.

Soit une famille avec 2 enfants, on cherche à établir la loi de probabilité du nombre de garçons dans cette famille. On admet que la probabilité d’avoir un garçon est de ½ et que le sexe d’un enfant est indépendant de celui du précédent. On considère la probabilité P est indépendante. 2 méthodes pour déterminer les probabilités associées aux différentes valeurs de la variable aléatoire. La première est le dénombrement.

V A 0 1 2 3 4
P ½ 2/4 1/4
P pour 4 enfants 1/16 4/16 6/16 4/16 1/16

La 2ème méthode consiste à appliquer la loi de probabilité propre à loi binomiale, dans ce cas, n= 2 p= ½ Q=1/2
si X B(2,1/2)
Pr x = 0 = C02*1/20*1/22
Pour 4 enfants Pr x = 0 = C04*1/20*1/24
= 1+1+1/16

Propriété de la loi binomiale :

L’espérance mathématiques E(x) d’une loi binomiale est = à n.p : E(x) = n*p
V(x) = n*p*q
σ= racine de (n*p*q)


C : Ajustement d’une loi binomiale à une série simple.

Lorsqu’une distribution observée représente d’une manière ou d’une autre le nombre de succès dans une épreuve répétée, on peut tenter un ajustement par une loi binomiale. La difficulté essentielle consiste en la détermination des paramètres n et p. Si la série observée représente toute la population, n est connu. Reste alors à déterminer p : p peut être imposé par la nature de la série statistique, soit il ne l’est pas et dans ce cas, on l’estime par la moyenne des fréquences constatées.











Exemple : on observe sur des cobayes le nombre de réaction allergique à une crème pour les mains : cette crème est appliquée 4 fois (c’est le nombre d’expériences : n=4) à des intervalles suffisamment espacés pour que les applications antérieures soient sans effets (les épreuves sont donc indépendantes). Après chaque application, la réaction de l’animal peut être soit positive ou non. On obtient les résultats suivants :

Nombre de réactions >0 Nombre de cobayes Probabilité ou Effectifs théoriques
0 52 C04 * 0,30 * 0,74 0,24 0,24 * 200 = 48
1 84 C14 * 0,31 * 0,73 0,41 0,41 * 200 = 82
2 42 C24 * 0,32 * 0,72 0,26 52
3 16 C34 * 0,33 * 0,71 0,08 16
4 6 C44 * 0,34 * 0,70 0,01 02
Total 200 1

1) Estimer la probabilité d’observer une réaction positive à la 4ème réaction.

Nombre total : 4*200 = 800
Nombre de réaction > 0 / nombre total = 240 (84*1…+ 6*4)/800
P = 0,3
Les effectifs théoriques correspondent dans ce cas au produit entre le nombre de cobayes et la probabilité de développer une réaction positive.

Section 3 : Loi normale et ajustement observé.

A : Définition

On parle de loi normale ou LA PLACE – GAUSS ou encore loi de GAUSS lorsque l’on a à faire à une variable aléatoire continue dépendant de grand nombre de causes indépendantes dont les effets se cumulent et dont aucun n’est prépondérant. On pourra ainsi montrer que des erreurs de mesure peuvent suivre sur certaines conditions une loi normale. Une variable aléatoire continue X est distribuée sur une loi normale si sa densité de probabilité se définit formellement f(x) = 1 * e –(xm)²/ 2σx²
σx*racine carrée de 2π
avec m la moyenne

telle qu’elle est présentée, la loi de probabilité dépend de 2 paramètres : m et σx(écart type de x)

on a l’habitude d’opérer le changement de variable suivant :

T = x – m
σx


f(T) = 1 * e –T²/2 => N(m ; σx) N(0 ; 1)
racine carrée de 2π

On trouve facilement la loi normale centrée réduite tabulée. en fait on applique des résultats à une loi normale de paramètre m et l’écart type de x à l’aide du changement de variable N. On lit dans cette table par exemple que la probabilité que T < 1,25 = à 0,8944 si T est négatif, on résonne par symétrie, c'est-à-dire que la probabilité que T < -1,25 = 1- 0,8944 = 0,1056

B : Ajustement d’une loi normale à une distribution statistique observée : Méthodologie et exemples.

L’ajustement sera jugée utile lorsque la variable statistique satisfait aux conditions de BOREL (variable continue), nombre de cause important indépendance des chocs. Ces conditions sont certes difficiles à vérifier mais on peut toujours l’appréhender grâce à une méthode graphique appelée droite HENRI ou par le test JARQUE – BERA.
Méthodologie en plusieurs étapes :

1) Calcul de la moyenne et de l’écart type de la série. Puisque l’on dispose de la table de la fonction de répartition de la loi normale centrée réduite, il est nécessaire dans un premier temps d’opérer le changement de variable suivant T = x-m/σ x
2) Calcul des fréquences cumulées (Fi) pour chaque valeur de Ti, on cherche la valeur de la fréquence cumulée dans la table de répartition.
3) On en déduit les fréquences fi = Fi – F 1-i
4) On détermine les effectifs théoriques correspondant aux produit entre l’effectif total et fi























Exemple :

Taille en cm Effectifs (ni) Centre (xi) nixi Nixi² TAILLE T = (xi – 100) / 6,9 Fi Loi Classe Effectif théorique Observé
[80 ; 90[ 3 85 255 21675 80 -2,9 1-0,9981 = 0,019
0,0019 -
[90 ; 95[ 15 92,5 1387,5 128343,75 90 -1,45 0,0735 0,0716 [80 ; 90[ 5 3
[95 ; 100[ 22 97,5 2145 … 95 -0,72 0,2358 0,1623 [90 ; 95[ 12 15
[100 ; 105[ 18 102,5 1845 … 100 0 0,5 0,2642 [95 ; 100[ 20 22
[105 ; 110[ 12 107,5 1290 … 105 0,72 0,7642 0,2642 [100 ; 105[ 20 18
[110 ; 120[ 5 115 575 66125 110 1,45 0,9265 0,1623 [105 ; 110[ 12 12
120 2,9 0,9981 0,0716 [110 ; 120[ 5 5
Total 75 7497,5 753068,75 0,9981 75

m = 7497,5 / 75 = 99,966
σx² = 1/n * ∑nixi² - x ² = 753068,75/75 – 99 ?966² = 47,582
σx = racine carrée de 47,582 = 6,89797
On obtient donc N (100 ; 6,9)
Pour réaliser cet justement, encore faut – il élaborer une nouvelle variable T centrée réduite par rapport à ces 2 paramètres.
T = (xi – 100)/ 6,9

Aucun commentaire: