Table des matières
Comment éliminer les valeurs aberrantes?
Les deux approches les plus utilisées pour exclure les données aberrantes sont la méthode de césure (ou tronquage) et de Winsorising. La césure élimine les données aberrantes alors que le Winsorising remplace les données aberrantes par les valeurs « non suspectes » les plus proches.
Quels sont les différents types de graphique?
Découvrez les différents types de graphiques
- Diagrammes en bâtons (Bar chart)
- Pyramides des âges.
- Courbes (Line chart)
- Diagramme circulaire (Pie chart)
- Nuages de points (Scatter plot)
- Boîtes à moustaches (Box plot)
- Aires empilées.
- Diagramme de Kiviat (Radar chart)
Comment détecter la présence de valeurs manquantes avec R?
Pour les retrouver, il suffit d’utiliser la fonction is.na qui renvoie TRUE si la valeur vaut NA et FALSE sinon. Mais nous allons voir à présent comment exploiter au mieux les différents outils à notre disposition pour gérer les valeurs manquantes au sein d’un dataframe.
Comment repérer les valeurs aberrantes?
Les diagrammes en boîte permettent de repérer les valeurs aberrantes : ce sont les valeurs situées en dehors des moustaches inférieures et supérieures. Par exemple, dans ce diagramme en boîte, il n’y a pas de valeurs aberrantes. Ici, il y a trois valeurs aberrantes faibles car situées en-deçà de la moustache inférieure.
Quelle est la valeur d’une donnée aberrante?
Une donnée est dite aberrante quand elle se trouve en dehors de certaines limites. Il y en a de deux types : les limites intérieures (sorte d’intervalle de confiance minimal) et les extérieures (sorte d’intervalle de confiance maximal).
Est-ce que la donnée aberrante ne correspond pas avec les autres?
Sur ces dernières, on voit très nettement que telle valeur ne correspond pas du tout avec les autres, elle est « très loin » des autres valeurs. Pour prendre un exemple simple, si vos données sont alignées sur une droite, la donnée aberrante, elle, n’y est pas du tout !
Quelle est la valeur en dessous de Q3?
Cette valeur, traditionnellement appelée Q3, est la valeur en dessous de laquelle on a 75 % des valeurs (et 25 % en dessus). Pour calculer Q3, on s’y prend exactement de la même façon que pour Q1, sauf qu’on utilise la seconde moitié (au-dessus de Q2) de la distribution.