800 likes | 1.09k Views
La Statistique Descriptive. Professeur François KOHLER francois.kohler@univ-lorraine.fr . Buts. Ensembles de méthodes dont le but est de présenter les données pour que l'on puisse en prendre connaissance facilement. Cela peut concerner :
E N D
La Statistique Descriptive Professeur François KOHLER francois.kohler@univ-lorraine.fr
Buts • Ensembles de méthodes dont le but est de présenter les données pour que l'on puisse en prendre connaissance facilement. • Cela peut concerner : • une variable à la fois : statistique à une dimension, • deux variables à la fois : statistique à deux dimensions, • plus de deux variables à la fois : statistique multidimensionnelle.
Statistique descriptive • Ces méthodes comportent : • Les tableaux : distributions de fréquences. • Les diagrammes : graphiques. • Les paramètres statistiques : • Réduction des données à quelques valeurs numériques caractéristiques.
Rappel • 3 Types de données : • Qualitatives (présence ou absence d’une caractéristique) • Binaires, • Nominales. • Quantitatives (compte ou mesure) • Discontinues, • Continues. • Ordinales (rang)
Distributions de fréquences • Concernent les 3 types de données avec des points communs et des points spécifiques à chacun des types. • Séries statistiques (tout type de données) : • Enumération des résultats : • Exemples : • Couleurs des cheveux : blond, brun, blond, noir…. • Nombre d’enfants dans les familles : 1, 2, 1, 4, 0 …. • Séries statistiques ordonnées : • Ne concernent que les données quantitatives et ordinales • Enumération du plus petit au plus grand • Exemple : Nombre d’enfants : 0, 1, 1, 2, 4 …. • Le nombre total d’observations est l’effectif. Il est noté n (certain le note N).
Distributions non groupées • Données • qualitatives, • ordinales, • quantitatives discontinues • Formellement, ces tableaux ne concernent pas les données quantitatives continues.
Distributions non groupées Chaque ligne correspond à une valeur observée différente. Il y a p valeurs différentes observées. ni correspond au nombre d’observations (effectif) ayant comme valeur xi fi correspond à la fréquence (pourcentage) d’observations ayant comme valeur xi :
Distributions non groupées • Données ordinales et quantitatives discontinues. • x1 est la plus petite valeur, xp la plus grande des valeurs observées. • Effectifs cumulés. • N2= n2+n1 • Fréquences cumulées. • F2 = f2+f1
Distributions non groupées Ni est l’effectif cumulé c’est dire le nombre d’observations ayant des valeurs inférieures ou égales à xi : Fi est la fréquence cumulée c’est à dire la fréquence des observations ayant des valeurs inférieures ou égales à xi :
Les valeurs sont mises en classes. Toutes les distributions relatives à des variables continues doivent être considérées comme des distributions groupées, puisque l'infinité de valeurs admissibles est condensée en un nombre fini de mesures en fonction de la précision de la méthode de mesure utilisée. Distributions groupées
Leurs valeurs extrêmes sont appelées bornes des classes. Les classes sont mutuellement exclusives. L'amplitude de la classe ou intervalle ou module de classe : D= borne supérieure - la borne inférieure. Le point central ou encore point médian est situé à mi chemin entre les bornes. Ci = Binfi +Di/2 Dans certains cas la limite inférieure de la première classe ou supérieure de la dernière classe n'est pas précisée. On parle de classes ouvertes. A éviter !... A propos des classes
L'intervalle de classe est généralement constant, toutefois, on utilise parfois une amplitude variable notamment pour les classes des valeurs extrêmes. En cas de classes d'amplitudes différentes,la densité de fréquence ni/ Di permet de comparer les effectifs ou les fréquences d'une classe à l'autre. la densité de fréquence est utilisée pour tracer l’histogramme. A propos des classes
Remarques : Si l’on mesure le poids d’un nouveau né avec une précision de 1g, l’enfant qui pèse 3500g a en fait un poids compris entre [3499,5g et 3500,5g[. 3500g représente le centre de la classe. Si l’on mesure l’âge en années pleines des individus, une personne de 20 ans a un âge compris entre [20 ans (inclus) et 21 ans[ (exclu). 20 ans représente la borne inférieure de la classe. Données quantitatives continues
On remplace la colonne xi par une colonne qui comprend soit les bornes de classes, soit le centre de classe ou la borne inférieure de la classe (données temporelles comme l’âge en années pleines). Distribution groupée
Exemple Pour les calculs, le centre de classe Ci est utilisé en remplacement de xi sauf de façon usuelle pour l’âge (données temporelles).
Formules p = nombre de valeurs différentes observées
Pour les calculs des paramètres statistiques usuels des données quantitatives et uniquement de ce type de données. On complète la distribution par : Une colonne ni*xi pour calculer le total, Une colonne ni * xi2pour calculer le total des carrés. En pratique
Les graphiques représentent les distributions • Distributions non cumulées • Distributions non groupées • Données qualitatives : • Diagramme sectoriel • Angle au centre proportionnel à ni (ou fi). • Données quantitatives discrètes • Diagramme en bâtons • On trace parallèlement à l'axe des ordonnées, en regard des xi qui sont portés en abscisse, un segment de longueur proportionnel à ni • Polygone des fréquences • Ligne brisée joignant les bâtons. • Fréquences absolues / fréquences relatives.
Exemple : Données qualitatives • Diagramme sectoriel
Exemple : Donnée quantitative discontinue Polygone des fréquences
Les graphiques représentent les distributions • Distributions non cumulées • Distributions groupées • Données quantitatives • Histogramme : • Composé de rectangles ayant comme base l'intervalle de classe et comme hauteur la densité de fréquence (ni/Di). • La surface est proportionnelle à ni.
Les graphiques représentent les distributions • Distributions cumulées • Uniquement pour des données quantitatives • Polygone des fréquences : • Distributions non groupées = escalier. • Distributions groupées = ligne brisée. • Histogrammes.
90 80 70 60 50 40 30 20 10 0 Exemple : Histogramme 140 160 170 180 190 200
Aspects de la distribution • Distribution non cumulée : • en forme de : Cloche, J, U ; • À une seule bosse, à plusieurs bosses ; • ……. • Symétrie – Aplatissement.
Remarques • Autres représentations : • Diagramme de Pareto et courbe ABC ; • Boite à moustache (Box-plot). • Attention : • Les tableurs comme Excel ou Calc ne permettent pas facilement de faire des histogrammes.
Diagramme de Pareto • Dans le domaine de la qualité, on étudie les causes de dysfonctionnement d'un système. • Quand il s'agit de variables qualitatives binaires, on présente les résultats sous forme de diagramme de Pareto et de courbe ABC. • Objectif : Visualiser les causes les plus fréquentes de défaut de qualité.
Exemple • La tenue des dossiers médicaux fait l'objet de textes règlementaires contraignants. • l'évaluation de la qualité des dossiers fait partie du processus de certification. • Un dossiers peut avoir plusieurs anomalies. • On a étudié les anomalies rencontrées sur 200 dossiers.
Effectif % d'anomalies Etude de la qualité du dossier du patient : anomalies Dossier comportant des pièces rencontrées non "signées" 180 39,74% Nombre de dossiers analysés 200 Effectif des Pourcentage Délai de la lettre de sortie non anomalies de dossiers respecté 150 33,11% Dossiers non retrouvés 3 1,50% Absence d'une pièce Absence d'une pièce réglementaire 80 40,00% réglementaire 80 17,66% Délai de la lettre de sortie non Doosier ne permettant pas de respecté 150 75,00% retrouver la démarche clinique 30 6,62% Dossier comportant des pièces non "signées" 180 90,00% Dossier comportant des pièces Dossier comportant des pièces sans sans identification du patient 10 2,21% identification du patient 10 5,00% Dossiers non retrouvés 3 0,66% Doosier ne permettant pas de Total 453 100,00% retrouver la démarche clinique 30 15,00% Résultats On trie le tableau par ordre décroissant du nombre d'anomalies et on calcule les pourcentages par rapport au nombre total d'anomalies
Paramètres de position Valeurs centrales Moyenne arithmétique Les autres moyennes géométrique harmonique quadratique Médiane Mode Médiale Les fractiles Quartiles Percentiles Paramètres de dispersion Amplitude ou étendue Ecart interquartiles Variance, Ecart type Coefficient de variation Paramètre d'aplatissement et de symétrie Les paramètres statistiques Paramètres de l’échantillon Estimation Estimation Le + souvent Paramètres de la population
Appelée moyenne notée Paramètre central qui concerne bien évidemment uniquement des variables quantitatives. Dans l’unité de la variable. Calculable quelque soit la loi qui régit la distribution. Somme des valeurs (T) divisée par le nombre de mesures (n). Suivant la forme de présentation des observations, différentes formules de calcul peuvent être employées. Population m (mean) Echantillon x (average) Moyenne Arithmétique
On note : n : Nombre total de mesures. p : Nombre de valeurs différentes observées. ni : Nombre d’occurrences de la valeur observée i. fi : Fréquence (pourcentage) de la valeur observée i. Moyenne arithmétique
Propriétés : Centre de gravité de la distribution. La somme des écarts à la moyenne est nulle. Affectée par les changements de variable. Si y = ax + b; on a : y = ax + b La moyenne contrairement à la médiane est très sensible aux valeurs extrêmes. La moyenne d'un groupe résultant de la fusion d'autres groupes n'est égale à la moyenne des moyennes que si tous les groupes ont le même effectif. Dans une distribution en cloche, unimodale et symétrique, moyenne, mode et médiane sont confondus. Moyenne arithmétique
Distribution des moyennes de plusieurs échantillons • La moyenne de l'échantillon est le meilleur estimateur de la moyenne de la population. • La distribution des moyennes de petits échantillons (n<30) indépendants tirés de la même population suit une loi normale si la distribution de la variable est normale. • Au-delà de 30, la distribution des moyennes suit une loi normale sans condition sur la distribution de la variable.
Exemple • Soit la série correspondant aux tailles en cm de 6 étudiants : 160,170,180,180, 190, 200. n = 6; T = 160+170+180+180+190+200 = 1080
Exemple Le nombre de familles enquêtées est de 53. Le nombre total d’enfants est de 77. La moyenne du nombre d’enfants par famille est de 77/53 = 1,45. Attention aux arrondis ici si on arrondit à une décimale la moyenne est de 1,5 enfants par famille.
Exemple • Les étudiants de première année de L1 santé sont répartis dans 3 amphithéâtres avec les données ci-dessous. Quelle est la moyenne de l’âge en L1 santé ? • Les effectifs étant différents dans les 3 groupes, la moyenne recherchée n’est pas la moyenne des moyennes. • On calcule le total de l’âge des 3 groupes réunis : T = 18,1*1000+ 500*19,5+ 18,3*1000 =46 150. • L’effectif total est de 2 500. • La moyenne recherchée est 46150/2500 =18,5 ans
Les autres moyennes • Moyenne géométrique d'une série de valeurs positives est la racine nième du produit des n valeurs. Elle est toujours inférieure ou égale à la moyenne arithmétique. • Moyenne harmonique d'une série de valeurs positives est égale à l'inverse de la moyenne des inverses. • Moyenne quadratique est la racine carré de la moyenne arithmétique des carrés.
La médiane • La médiane notée x (tilde) est telle que la moitié des observations lui sont inférieure (ou égale) et la moitié supérieure (ou égale) : xi tel que Fi = 0,5. • Sur les distributions symétriques unimodales en cloche (normales par exemple) la médiane est égale à la moyenne et au mode. • Paramètre peu sensible aux valeurs extrêmes. • Peut être utilisée pour des données ordinales.
La médiane : calcul • Sur une distribution non groupée : • Si n impair, la médiane est l'observation de rang (N+1)/2 • Si n est pair, tout nombre entre xN/2 et xN/2+1convient. On prend la moyenne (pondérée en cas d'ex-aequo) entre ces deux valeurs. • Sur une distribution groupée, la classe médiane est celle qui contient la médiane. • Détermination graphique. • En admettant que les observations soient réparties uniformément dans cette classe, on réalise une approximation linéaire.
Exemple • La classe qui contient la médiane est [170-[175. • On pose les 2 équations : • 0,53 = a*175 +b • 0,30 = a*170+b • => • 0,23 = a*(175-170) • a = 0,046 et b= -7,52 • => y = 0,046x – 7,52 • Cherchons x tel que y = 0,5 • Médiane = 174,35
Mode • Mode encore appelé valeur dominante : • Correspond à la valeur la plus fréquente. xicorrespondant au ni (ou fi)maximum. • Il peut y avoir un ou plusieurs modes. • Rappel : • Dans les distributions en cloche, unimodales symétriques, mode, médiane et moyenne sont confondus.
Fractiles • Quartiles • Q1: xi tel que Fi = 0,25 => 1/4 des valeurs lui sont inférieures, 3/4 lui sont supérieures. • Q2 = Médiane. • Q3 : xi tel que Fi = 0,75 => 3/4 des valeurs lui sont inférieures, 1/4 lui sont supérieures. • Détermination graphique. • Interpolation linéaire (cf médiane). • Percentiles • 10ième percentile : xi tel que Fi = 0,10
Remarques • On a : • 50% des individus qui ont des valeurs en dehors de l’intervalle Q1-Q3 et 50% à l’intérieur. • 25% des individus qui ont des valeurs comprises entre Q1 et médiane. • 25% des individus qui ont des valeurs comprises entre médiane et Q3. • 25% des individus qui ont des valeurs inférieure à Q1 • 25% des individus qui ont des valeurs supérieures à Q3 • Ceci permet rapidement de se rendre compte si la distribution est symétrique ou non.
Paramètres de dispersion • Amplitude ou étendue. • Ecart interquartiles. • Variance et écart type. • Coefficient de variation.
Amplitude ou étendue • Ecart entre la valeur de l'observation maximale et celle de l'observation minimale. • Non définie pour les distributions groupées (tolérance pour les variables quantitatives continues de la précision de la mesure). • On montre que l'écart type est toujours inférieur ou égal à la moitié de l'amplitude. • Dans les distributions unimodales en cloche l'écart type est égal : • au tiers de l'amplitude pour n de l'ordre de 10, • au quart de l'amplitude pour n entre 15 et 50, • au cinquième pour des effectifs de 50 à 200, • au sixième pour des effectifs de 200 à 1000.
Ecart interquartiles (EIQ) • EIQ = Q3 -Q1. • Englobe 50% des observations. • On utilise parfois l'écart semi-interquartile (Q3-Q1)/2.
Variance et écart type • La variance (variance) d'une série ou d'une distribution de fréquences est la moyenne arithmétique des carrés des écarts à la moyenne • C'est par rapport à la moyenne que la somme des carrés des écarts est la plus faible. • La variance de l'échantillon est souvent notée S2. • Ce n'est pas un bon estimateur de la variance de la population souvent notée s2. • L’estimation de la variance est notée s2. ^
Variance et écart type • Le numérateur de la variance est appelé somme des carrés des écarts et noté SCE. • L'écart type est la racine carré de la variance. On l'appelle également déviation standard (standard deviation). Il est dans l'unité de la variable. • Variance et écart type sont indépendants des translations (changement d ’origine) mais pas des multiplications (changement d'unité). • Si y = a * x + b, on a Sy = |a| * Sx • Pour les distributions en cloche, la variance calculée à partir des classes est surestimée, certain réalise la correction de Sheppard.