Explication des règles de solidité, applications et exemples



Le Règle de la robustesse est un critère utilisé pour déterminer le nombre de classes ou d'intervalles nécessaires pour représenter graphiquement un ensemble de données statistiques. Cette règle a été énoncée en 1926 par le mathématicien allemand Herbert Sturges.

Sturges a proposé une méthode simple, basée sur le nombre d'échantillons x permettant de trouver le nombre de classes et leur amplitude d'intervalle. La règle Sturges est largement utilisée, en particulier dans le domaine des statistiques, en particulier pour construire des histogrammes de fréquence.

Index

  • 1 explication
  • 2 applications
  • 3 exemple
  • 4 références

Explication

La règle Sturges est une méthode empirique largement utilisée dans les statistiques descriptives pour déterminer le nombre de classes devant exister dans un histogramme de fréquence, afin de classer un ensemble de données représentant un échantillon ou une population.

Fondamentalement, cette règle détermine la largeur des conteneurs graphiques, des histogrammes de fréquence.

Pour établir sa règle, Herbert Sturges a considéré un diagramme de fréquence idéal, constitué de K intervalles, où le i-intervalle contient un certain nombre d'échantillons (i = 0, ... k - 1), représentés par:

Ce nombre d'échantillons est donné par le nombre de façons dont un sous-ensemble d'un ensemble peut être extrait; c'est-à-dire par le coefficient binomial, exprimé comme suit:

Ensuite, Sturges a indiqué que l’histogramme de fréquence se rapprocherait d’une distribution normale lorsque le nombre d’intervalles (k) augmente selon le théorème de la limite centrale. De manière à pouvoir calculer le nombre d'échantillons de chacun des intervalles:

Pour simplifier l'expression, il a appliqué les propriétés des logarithmes dans les deux parties de l'équation:

Ainsi, Sturges a établi que le nombre optimal d'intervalles k est donné par l'expression:

Il peut également être exprimé comme:

Dans cette expression:

- k est le nombre de classes.

- N est le nombre total d'observations dans l'échantillon.

- Log est la base commune 10 du logarithme.

Par exemple, pour produire un histogramme de fréquence qui exprime un échantillon aléatoire de la taille de 142 enfants, le nombre d'intervalles ou de classes que la distribution aura est:

k = 1 + 3,322 * se connecter10 (N)

k = 1 + 3,322* log (142)

k = 1 + 3,322* 2,1523

k = 8,14 ≈ 8

Ainsi, la distribution sera à 8 intervalles.

Le nombre d'intervalles doit toujours être représenté par des nombres entiers. Dans les cas où la valeur est décimale, une approximation doit être faite au nombre entier le plus proche.

Applications

La règle de Sturges s’applique principalement aux statistiques, car elle permet d’effectuer une distribution de fréquence en calculant le nombre de classes (k), ainsi que la longueur de chacune d’elles, également appelée amplitude.

L'amplitude est la différence entre la limite supérieure et inférieure de la classe, divisée par le nombre de classes, et s'exprime comme suit:

Il existe de nombreuses règles empiriques permettant une distribution de fréquence. Cependant, la règle Sturges est couramment utilisée car elle se rapproche du nombre de classes, généralement compris entre 5 et 15.

De cette manière, considérez une valeur qui représente adéquatement un échantillon ou une population; Autrement dit, l'approximation ne représente pas des regroupements extrêmes et ne fonctionne pas avec un nombre excessif de classes qui ne permettent pas de résumer l'échantillon.

Exemple

Il est nécessaire d'effectuer un histogramme de fréquence en fonction des données données, qui correspondent aux âges obtenus lors d'une enquête menée auprès d'hommes effectuant des exercices dans un gymnase local.

Pour déterminer les intervalles, vous devez savoir quelle est la taille de l'échantillon ou le nombre d'observations; dans ce cas, vous avez 30.

Ensuite, la règle Sturges s'applique:

k = 1 + 3,322 * se connecter10 (N)

k = 1 + 3,322* log (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 intervalles.

A partir du nombre d'intervalles, vous pouvez calculer l'amplitude qu'ils auront; c'est-à-dire la largeur de chaque barre représentée dans l'histogramme de fréquence:

La limite inférieure est considérée comme la valeur la plus faible des données et la limite supérieure est la valeur la plus élevée. La différence entre les limites supérieure et inférieure est appelée la plage ou le chemin de la variable (R).

Le tableau indique que la limite supérieure est 46 et la limite inférieure 13; de cette façon, l'amplitude de chaque classe sera:

Les intervalles seront composés d'une limite supérieure et d'une limite inférieure. Pour déterminer ces intervalles, commencez à compter à partir de la limite inférieure, en y ajoutant l'amplitude déterminée par la règle (6), comme suit:

Ensuite, la fréquence absolue est calculée pour déterminer le nombre d'hommes correspondant à chaque intervalle; dans ce cas c'est:

- Intervalle 1: 13 - 18 = 9

- Intervalle 2: 19 - 24 = 9

- Intervalle 3: 25 - 30 = 5

- Intervalle 4: 31 - 36 = 2

- Intervalle 5: 37 - 42 = 2

- Intervalle 6: 43 - 48 = 3

Lorsque vous ajoutez la fréquence absolue de chaque classe, celle-ci doit être égale au nombre total de l'échantillon; dans ce cas, 30.

Par la suite, la fréquence relative de chaque intervalle est calculée en divisant la fréquence absolue de cet intervalle par le nombre total d'observations:

- Intervalle 1: fi = 9 ÷ 30 = 0,30

- Intervalle 2: fi = 9 ÷ 30 = 0,30

- Intervalle 3: fi = 5 ÷ 30 = 0,1666

- Intervalle 4: fi = 2 ÷ 30 = 0,0666

- Intervalle 5: fi = 2 ÷ 30 = 0,0666

- Intervalle 4: fi = 3 ÷ 30 = 0,10

Vous pouvez ensuite créer un tableau qui reflète les données, ainsi que le diagramme de la fréquence relative par rapport aux intervalles obtenus, comme on peut le voir dans les images suivantes:

De cette façon, la règle Sturges permet de déterminer le nombre de classes ou d’intervalles dans lesquels un échantillon peut être divisé, afin de résumer un échantillon de données en préparant des tableaux et des graphiques.

Références

  1. Alfonso Urquía, M. V. (2013). Modélisation et simulation d'événements discrets. UNED,.
  2. Altman Naomi, M. K. (2015). "Régression linéaire simple." Méthodes de la nature.
  3. Antúnez, R. J. (2014). Statistiques en éducation. UNID numérique.
  4. Fox, J. (1997.). Analyse de régression appliquée, modèles linéaires et méthodes connexes. SAGE Publications.
  5. Humberto Llinás Solano, C. R. (2005). Statistiques descriptives et distributions de probabilités. Université du Nord.
  6. Panteleeva, O. V. (2005). Principes fondamentaux des probabilités et des statistiques.
  7. O. Kuehl, M. O. (2001). Conception d'expériences: Principes statistiques de conception et d'analyse de la recherche. Thomson Publishers.