Qu'est-ce qu'un diagramme en boîte ?

Écrit par Coursera Staff • Mise à jour à

Découvrez ce que sont les diagrammes en boîte, comment les lire, leurs avantages et leurs inconvénients, et comment vous pouvez transformer vos données en cette puissante représentation.

[Image en vedette] Un scientifique des données est assis devant son ordinateur et utilise un diagramme en boîte pour comparer des ensembles de données.

Read in English (Lire en anglais)

Les diagrammes en boîte sont un type de représentation de données très répandu. En tant que professionnel, vous pouvez utiliser les diagrammes en boîte pour présenter une vue d'ensemble de vos données, comparer des ensembles de données et en fournir une représentation rapide sans prendre beaucoup d'espace. Dans cet article, vous découvrirez ce qu'est un diagramme en boîte, quel type de données est approprié, quels sont ses avantages et ses inconvénients, et comment construire votre propre diagramme. 

Qu'est-ce qu'un diagramme en boîte ?

Les diagrammes en boîte, ou boîtes̄ à moustaches, sont un outil visuel utilisé pour représenter la distribution d'un ensemble de données. Ce type de graphique montre les principales statistiques de vos données, notamment la médiane, les quartiles et les valeurs aberrantes. Vous pouvez utiliser les diagrammes en boîte pour mieux comprendre certains aspects de la distribution de fréquence de vos données, notamment :

  • La mesure de la tendance centrale : Cette mesure représente l'ensemble de la distribution des données. Dans le cas des diagrammes en boîte, il s'agit de la médiane, indiquée par une ligne tracée dans votre boîte.

  • L’étendue : Il s'agit de l'étendue de l'ensemble des données. Dans un diagramme en boîte, elle est illustrée par des points individuels représentant les valeurs les plus élevées et les plus basses de votre ensemble. Cela vous permet de voir à quel point vos données sont dispersées.

  • La variabilité : Elle montre à quel point vos données sont groupées ou non. Si la boîte de votre diagramme en boîte est longue, cela signifie que les valeurs de vos données sont très variables. Si elle est courte, vous pouvez voir que les éléments de données sont plus regroupés (moins variés) autour d'une certaine valeur.

Types de données utilisées dans les diagrammes en boîte

En raison des mesures statistiques qu'ils représentent, les diagrammes en boîte conviennent généralement mieux aux données numériques. En effet, vous utilisez des mesures telles que la médiane, les quartiles supérieurs et inférieurs et la dispersion des données pour les représenter de manière appropriée. Ce type de représentation visuelle exige que les données soient naturellement ordonnées et convient moins aux données catégorielles ou aux données sans ordre naturel.

Comment lire un diagramme en boîte

Lorsque vous voyez un diagramme en boîte, le fait de savoir comment lire correctement le graphique peut vous aider à tirer des informations pertinentes de cette représentation. Lorsque vous regardez le graphique, observez les étapes suivantes :

1. Prenez le temps de comprendre la boîte.

Vous pouvez trouver plusieurs éléments de l'ensemble de données en examinant la boîte qui se trouve au cœur du diagramme. La boîte représente les deux quartiles moyens des données, c'est-à-dire les 50 % moyens des données. La longueur de la boîte est l'intervalle interquartile (IIQ). 

La ligne supérieure de la boîte représente le 75e centile des données (troisìme quartile ou Q3), ce qui signifie que 75 % des valeurs de l'ensemble des données sont inférieures à cette valeur. De même, la ligne inférieure de la boîte représente le 25e centile des données (premier quartile ou Q1), 25 % des données se situant en dessous de cette ligne. 

Comme mentionné ci-dessus, une boîte plus longue représente une plus grande variabilité dans vos données, montrant que les 50 % de données du milieu sont étalées. Une boîte plus courte indique que les 50 % de données du milieu sont proches en termes de valeurs et présentent une variabilité moindre.

La médiane représente votre mesure de la tendance centrale et indique le point où 50 % des données se situent au-dessus d'elle et 50 % en dessous. 

2. Examinez les moustaches.

Les moustaches s'étendent sur les bords de la boîte. Ces moustaches s'étendent jusqu'à la plus petite et la plus grande valeur de votre ensemble de données, dans une fourchette de 1,5 fois l’IIQ. Cela montre l'étendue de vos données, à l'exclusion des valeurs aberrantes. 

3. Recherchez les valeurs aberrantes.

Au-delà des moustaches, vous pouvez afficher des éléments de données individuels à l'aide d'un point ou d'un autre marqueur sur votre graphique. Cela permet de voir quelles sont les valeurs qui s'écartent de manière significative des valeurs typiques de votre ensemble de données. Vous devez examiner attentivement vos valeurs aberrantes pour vous assurer qu'il ne s'agit pas d'erreurs dans votre ensemble de données et qu'elles représentent des données réelles et non biaisées.

Avantages et inconvénients des diagrammes en boîte

Lorsque vous choisissez d'utiliser un diagramme en boîte, tenez compte de ses avantages et de ses inconvénients. En fonction de votre type de données et de vos besoins, différents avantages ou inconvénients peuvent être plus importants pour vous. 

Avantages des diagrammes en boîte

  • Comparaison facile entre les ensembles de données : Les diagrammes en boîte vous permettent de visualiser des ensembles de données numériques côte à côte pour voir comment ils diffèrent en termes de centralité, de distribution et de variabilité. 

  • Possibilité de visualiser l'asymétrie : En examinant la position des quartiles et de la médiane, ainsi que les moustaches, vous pouvez voir si votre ensemble de données présente une certaine asymétrie ou tendance.

  • Capacité à représenter de grands ensembles de données : Étant donné que seules certaines mesures de l'ensemble de données sont représentées dans un diagramme en boîte (par exemple, la médiane, les quartiles), vous pouvez représenter simplement de grands ensembles de données. Cela permet de donner une vue d'ensemble à un public général.

Inconvénients des diagrammes en boîte

  • Aperçu simple des données : Il n'est pas possible d'obtenir des détails plus précis sur les données, par exemple si la distribution comporte plusieurs grappes.

  • Ne conviennent pas à tous les ensembles de données : Si les données ne sont pas numériques, si les éléments de données sont limités ou si elles ne représentent qu'une petite plage de valeurs, le diagramme en boîte n'est peut-être pas le bon choix.

  • Peuvent être limitées par certains logiciels : Certains logiciels peuvent naturellement exclure les valeurs aberrantes ou déformer les données si celles-ci comportent des éléments de données inhabituels. Dans ce cas, vous risquez de passer à côté de certains aspects de vos données.

Commencez à construire votre propre diagramme en boîte.

La construction de votre propre diagramme en boîte comprend plusieurs étapes, notamment les calculs et la représentation des données. Pour créer un diagramme en boîte, observez les étapes suivantes :

1. Rassemblez vos données. Assurez-vous que votre ensemble de données est complet et qu'il comporte suffisamment d’éléments de données sur une plage numérique pour être représenté efficacement. Pour diviser vos données en quarts, envisagez de les classer par ordre croissant ou décroissant.

2. Calculez les principales statistiques de la boîte. Vous devez calculer la médiane, le Q1, le Q3 et l'IIQ.

3. Calculez vos principales statistiques de type « whiskers ». Déterminez les limites inférieure et supérieure des valeurs aberrantes potentielles à l'aide de l'IIQ. La limite inférieure est égale à Q1 - 1,5 * IIQ, tandis que la limite supérieure est égale à Q3 + 1,5 * IIQ.

4. Identifiez vos valeurs aberrantes. Une fois que vous avez calculé vos statistiques de type « whiskers », les éléments de données situés en dehors de cette plage sont généralement considérés comme des valeurs aberrantes.

5. Créez votre diagramme en boîte. Vous pouvez le faire à l'aide d'un logiciel, tel que R ou Excel, ou à la main. Si vous le faites à la main, observez les étapes suivantes :

  • Tracez une ligne numérique (verticale ou horizontale) pour votre axe.

  • Dessinez une boîte avec Q1 en bas et Q3 en haut.

  • Dessinez vos moustaches.

  • Tracez toutes les valeurs aberrantes potentielles sous forme d’éléments de données individuels au-delà des moustaches.

En savoir plus sur Coursera

Vous pouvez continuer à développer vos compétences en représentation de données sur Coursera. Si vous êtes débutant, vous pouvez envisager des cours généraux proposés par les meilleures universités et organisations, tels que Visualisation de données avec Excel avancé (représentation de données avec Excel avancé) ou Visualisation des données et communication avec Tableau (représentation de données et communication avec Tableau).

Continuer de lire

Mise à jour à
Écrit par :

Équipe éditoriale

L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...

Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.