madamasterclass.com

📔 Statistiques descriptives

Compréhension des concepts statistiques et des méthodes pour analyser des données.

1. Moyenne et indicateurs de position
📊 Moyenne arithmétique : Indicateur de tendance centrale qui représente la valeur "typique" d'une série
\(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\)
où \(n\) est le nombre de valeurs
0 20 2 6 8 12 16 18 \(\bar{x} = 10.3\) Point d'équilibre des données La moyenne "balance" toutes les valeurs
✓ Avantages :
  • Utilise toutes les valeurs de la série
  • Facilite les calculs statistiques
  • Permet les comparaisons entre séries
⚠ Limites :
  • Très sensible aux valeurs extrêmes
  • Peut ne pas représenter la réalité
Valeur aberrante
📍 Médiane : Valeur qui sépare la série ordonnée en deux parties égales
50% des valeurs ≤ Médiane ≤ 50% des valeurs
Calcul de la médiane :
  • 1️⃣ Si \(n\) est impair : Médiane = valeur du milieu après tri
  • 2️⃣ Si \(n\) est pair : Médiane = moyenne des deux valeurs centrales
2. Dispersion des données
📏 Écart-type (\(\sigma\)) : Mesure la dispersion des données autour de la moyenne
\(\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2}\)
Plus \(\sigma\) est grand, plus les données sont dispersées
\(\bar{x}\) \(\sigma_1\) \(\bar{x}\) \(\sigma_2 > \sigma_1\) Faible dispersion Données regroupées Forte dispersion Données étalées
🔍 Règle empirique (loi normale) :
  • ≈ 68% des données dans \([\bar{x} - \sigma ; \bar{x} + \sigma]\)
  • ≈ 95% des données dans \([\bar{x} - 2\sigma ; \bar{x} + 2\sigma]\)
  • ≈ 99.7% des données dans \([\bar{x} - 3\sigma ; \bar{x} + 3\sigma]\)
📊 Variance : Carré de l'écart-type
\(\text{Var}(X) = \sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2\)

La variance s'exprime dans l'unité au carré des données originales, contrairement à l'écart-type qui conserve l'unité d'origine.

3. Quartiles et boîte à moustaches
📋 Les quartiles : Divisent les données ordonnées en 4 parties égales
  • \(Q_1\) (1er quartile) : 25% des données ≤ \(Q_1\)
  • \(Q_2\) (médiane) : 50% des données ≤ \(Q_2\)
  • \(Q_3\) (3e quartile) : 75% des données ≤ \(Q_3\)
Écart interquartile (EI) :
\(\text{EI} = Q_3 - Q_1\)

Contient 50% des données centrales

Min \(Q_1\) \(Q_2\) \(Q_3\) Max \(\text{EI} = Q_3 - Q_1\) Diagramme en boîte
🎯 Utilités de la boîte à moustaches :
  • Détection des valeurs aberrantes : En dehors de \([Q_1 - 1,5\times\text{EI} ; Q_3 + 1,5\times\text{EI}]\)
  • Comparaison de plusieurs séries sur un même graphique
  • Analyse de la symétrie : Position de la médiane dans la boîte
  • Vue d'ensemble rapide de la distribution
4. Méthodologie d'analyse statistique
🔄 Démarche complète d'analyse :
1️⃣ Collecte et tri
  • Ordonner les données (croissant)
  • Vérifier la cohérence
  • Identifier les valeurs manquantes
2️⃣ Calculs de base
  • Moyenne, médiane, mode
  • Quartiles (\(Q_1\), \(Q_2\), \(Q_3\))
  • Minimum, maximum
3️⃣ Dispersion
  • Écart-type (\(\sigma\)) et variance (\(\sigma^2\))
  • Écart interquartile (EI)
  • Étendue (\(\text{Max} - \text{Min}\))
4️⃣ Représentation
  • Histogramme
  • Boîte à moustaches
  • Diagramme en bâtons
5️⃣ Interprétation
  • Analyse des résultats
  • Comparaisons
  • Conclusions
Données brutes : 12, 15, 17, 18, 20, 22, 24, 28, 30, 45 \(n = 10\) valeurs Résumé : \(\bar{x} = 23,1\) Médiane = 21 \(\sigma = 9,1\) EI = 10 Interprétation : Distribution asymétrique Valeur 45 aberrante
5. Comparaison et interprétation des indicateurs
📊 Distribution symétrique : \(\bar{x} \approx \text{Médiane}\) \(\sigma\) équilibré
Caractéristiques :
  • Moyenne ≈ Médiane
  • Répartition équilibrée
  • Écart-type modéré
  • \(Q_2\) au centre de la boîte
📈 Distribution asymétrique : Médiane \(\bar{x}\) \(\bar{x} > \text{Médiane}\)
Caractéristiques :
  • Moyenne ≠ Médiane
  • Queue étalée d'un côté
  • Écart-type plus élevé
  • Présence de valeurs extrêmes
⚠️ Pièges fréquents à éviter :
❌ Erreurs de calcul :
  • Confondre moyenne et médiane
  • Oublier de trier avant les quartiles
  • Mauvais calcul de l'écart-type (\(\sigma\))
  • Erreur dans la formule de variance (\(\sigma^2\))
❌ Erreurs d'interprétation :
  • Interpréter \(\sigma\) sans contexte
  • Ignorer les valeurs aberrantes
  • Utiliser la moyenne sur données asymétriques
  • Comparer des écarts-types d'unités différentes
❌ Erreurs de représentation :
  • Mauvaise échelle sur les graphiques
  • Boîte à moustaches mal construite
  • Confusion entre histogramme et diagramme
❌ Erreurs méthodologiques :
  • Données non représentatives
  • Taille d'échantillon insuffisante
  • Généralisation abusive
6. Exercices types et applications
🎯 Exemple concret d'analyse complète :
📊 Données : Notes d'une classe en mathématiques
8, 10, 12, 12, 14, 15, 16, 16, 18, 20
📈 Calculs :
  • Moyenne : \(\bar{x} = \frac{141}{10} = 14,1\)
  • Médiane : \(\frac{14+15}{2} = 14,5\)
  • \(Q_1\) : 12 | \(Q_3\) : 16
  • EI : \(16-12 = 4\)
  • \(\sigma\) : ≈ 3,2
🔍 Analyse :
  • Distribution quasi-symétrique
  • Moyenne ≈ Médiane
  • Pas de valeurs aberrantes
  • Écart-type modéré
  • Résultats homogènes
💡 Conseils pratiques :
🎯 Choix des indicateurs :
  • Distribution symétrique : Moyenne + Écart-type
  • Distribution asymétrique : Médiane + Quartiles
  • Avec valeurs aberrantes : Médiane + EI
📊 Représentation graphique :
  • Données quantitatives : Histogramme
  • Comparaison de séries : Boîtes à moustaches
  • Évolution temporelle : Courbe
🔍 Analyse critique :
  • Toujours contextualiser les résultats
  • Vérifier la cohérence des calculs
  • Questionner la représentativité
✅ Synthèse - Points clés à retenir :
🎯 Indicateurs de position :

• Moyenne : sensible aux extrêmes

• Médiane : résistante aux extrêmes

• Quartiles : divisions en quarts

📏 Indicateurs de dispersion :

• Écart-type (\(\sigma\)) : dispersion autour de \(\bar{x}\)

• EI : dispersion des 50% centraux

• Variance (\(\sigma^2\)) : carré de l'écart-type

📊 Méthode d'analyse :

1. Trier et nettoyer les données

2. Calculer les indicateurs

3. Représenter graphiquement

4. Interpréter dans le contexte

🔍 Vigilance :

• Vérifier les calculs

• Détecter les valeurs aberrantes

• Adapter l'analyse au contexte

1. Moyenne et indicateurs de position
📢 Moyenne arithmétique : Indicateur de tendance centrale
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \]
\(\bar{x}\) Équilibre des valeurs
Avantage : Tient compte de toutes les valeurs
Limite : Sensible aux valeurs extrêmes Valeur extrême
2. Dispersion des données
Écart-type (σ) : Mesure la dispersion autour de la moyenne
\[ \sigma = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2} \]
\(\bar{x}\) σ σ' > σ Faible dispersion Forte dispersion Interprétation :
  • σ faible → Données regroupées autour de la moyenne
  • σ élevé → Données très dispersées
  • Environ 68% des données dans [\(\bar{x}\)-σ; \(\bar{x}\)+σ] (si distribution normale)
3. Quartiles et boîte à moustaches
Quartiles : Divisent les données ordonnées en 4 parties égales
  • Q1 : 25% des données ≤ Q1
  • Q2 = Médiane : 50% des données
  • Q3 : 75% des données ≤ Q3
\[ \text{Écart interquartile} = Q3 - Q1 \]
Min Q1 Q2 Q3 Max EI = Q3-Q1
Utilité :
  • Repérer les valeurs atypiques (en dehors de [Q1-1,5×EI; Q3+1,5×EI])
  • Comparer des distributions
  • Analyser la symétrie des données
4. Méthodes d'analyse
Processus complet :
  1. Ordonner les données
  2. Calculer les indicateurs de position (moyenne, médiane)
  3. Calculer les indicateurs de dispersion (écart-type, EI)
  4. Représenter graphiquement (histogramme, boîte à moustaches)
  5. Interpréter et comparer
Données brutes : 12, 15, 17, 18, 20, 22, 24, 28, 30, 45 Résumé : \(\bar{x}\) = 23,1 Médiane = 21 σ = 8,9 Analyse
5. Comparaison des indicateurs
Cas symétrique : \(\bar{x}\) ≈ Médiane

Écart-type modéré

Cas asymétrique : \(\bar{x}\) > Médiane

Écart-type élevé

⚠️ Pièges fréquents :
  • Confondre moyenne et médiane
  • Oublier d'ordonner les données avant de calculer les quartiles
  • Interpréter un écart-type sans référence
  • Négliger les valeurs aberrantes dans l'analyse

Forum(s) associé(s)

Page: