Comment j'explore et visualise les données avec Python et SeaBorn
Sommaire
Résumé
-
SeaBorn est une bibliothèque de visualisation de données facile à utiliser à Python.
-
L'installation est simple avec PIP ou Mamba, et l'importation d'ensembles de données est sans effort.
-
Seaborn peut rapidement créer des histogrammes, des graphiques de dispersion et des régressions linéaires pour l'analyse des données.
Vous avez peut-être entendu dire que Python est idéal pour l'analyse des données. Cherchez-vous un moyen de visualiser des données faciles à utiliser et qui produit de beaux graphiques? Seaborn est peut-être exactement ce que vous recherchez.
Pourquoi j'ai choisi Seaborn
J'ai choisi SeaBorn, une bibliothèque Python de visualisation des données créée par Michael Waskom car elle semblait facile à utiliser.
Je voulais explorer l'analyse des données et les statistiques dans Python car c'est un langage populaire pour la science et l'analyse des données, et je le connaissais. J'avais suivi un cours de base de statistiques et de probabilité à l'université, mais plus de 20 ans plus tard, il y avait peut-être quelques choses sur lesquelles j'étais rouillé.
Je n'ai jamais été aussi bon à parcourir, mais il y a beaucoup de bonnes statistiques open source et de logiciels mathématiques qui me permet d'explorer des concepts sans m'être embourbé dans les équations et les calculs.
En rapport
11 applications scientifiques et mathématiques pour Linux pour maîtriser vos cours avec
Ces applications Linux vous offrent les mêmes outils que les professionnels des mathématiques et des sciences utilisent.
Matplotlib est populaire pour faire des visualisations de données avec Python, mais il peut être difficile à ramasser. Seaborn peut créer de belles parcelles et a une syntaxe simple. Je suis également armé du livre de contours de Schaum sur les statistiques.
Installation de Seaborn
Si vous utilisez déjà Python, une bonne façon d'installer SeaBorn est via PIP:
pip install seaborn
J'ai un environnement de mamba appelé « statistiques » contenant d'autres bibliothèques populaires comme Numpy, Scipy et Pandas.
Je l'active avec cette commande sur le shell
mamba activate stats
Je peux exécuter les commandes Python dans Ipython ou Jupyter.
Trouver et importer des ensembles de données
Pour commencer SeaBorn, importez-le en utilisant la commande standard d'importation Python
import seaborn as sns
La convention consiste à utiliser « SNS » comme abréviation pour « Seaborn » comme son plus court à taper.
Vous pouvez importer des données à partir de feuilles de calcul comme Excel, mais les «valeurs séparées par des virgules» ou les fichiers CSV sont également courants, en particulier pour les ensembles de données que vous trouverez en ligne. Vous pouvez lire dans ces fichiers avec la bibliothèque Pandas. Pour charger un fichier CSV dans le répertoire actuel:
import pandas as pd
data = pd.read_csv("example.csv")
SeaBorn a également plusieurs ensembles de données déjà intégrés. Lors de l'utilisation de ces ensembles de données. Pour les voir, utilisez la méthode get_dataset_names:
sns.get_dataset_names()
Il y en a des intéressants à regarder, mais nous utiliserons un ensemble de données de conseils de restaurant.
Nous allons charger les données dans un Pandas DataFrame:
tips = sns.load_dataset("tips")
Les dataframes sont organisés en colonnes similaires à une feuille de calcul. Nous aurons un aperçu des données avec la méthode de tête:
tips.head()
Tracer des histogrammes avec Seaborn
Un graphique de base utile est l'histogramme, qui montre comment les valeurs d'un ensemble de données sont distribuées. Examinons l'histogramme de la quantité totale de ces contrôles de restaurant, la colonne « Total_Bill », avec la méthode déployée:
sns.displot(x="total_bill",data=tips)
Vous pouvez voir que cela ressemble presque à une courbe de distribution normale en forme de cloche, bien que la queue soit biaisée vers la droite, avec le pic plus vers la gauche. Le champ « data = » est une fonction de commodité lorsque vous travaillez avec DataFrames sans avoir à taper « TIPS ( » COLUMN « ) » à chaque fois. Le nom du DataFrame est la source des données.
Faire des parcelles dispersées
Une chose utile à visualiser dans un ensemble de données est de voir si les colonnes ont une relation entre elles. Une bonne façon de le faire est un tracé de dispersion qui trace les valeurs d'une colonne contre l'autre. Plotons la facture totale contre la pointe:
sns.relplot(x="total_bill",y="tip",data=tips)
L'axe des x est à nouveau la facture totale et l'axe y est le montant de la pointe.
Tracer des régressions linéaires
Si vous avez regardé de près le diagramme de dispersion, vous avez peut-être remarqué que vous auriez pu tracer une ligne droite à travers les valeurs. Cela signifie qu'il semble y avoir une relation linéaire positive car le montant de la pointe augmente à mesure que le montant de la facture totale augmente.
Nous pouvons tracer une ligne de régression à travers ce tracé de dispersion en utilisant la méthode Regplot:
sns.regplot(x="total_bill",y="tip",data=tips)
Vous verrez un tracé similaire au diagramme de dispersion que nous avons fait plus tôt, mais avec une ligne, notre modèle de relation linéaire, dessiné dessus. C'est ce qu'on appelle une «régression des moindres carrés ordinaires».
Il y a aussi une zone ombragée au-dessus et en dessous de la ligne. Cela représente un intervalle de confiance, car une régression linéaire contient toujours une certaine incertitude dans la façon dont elle s'adapterait aux points de données.
Vous pouvez adapter plus que des lignes droites, mais vous pouvez modéliser les courbes de cette façon, mais cela dépasse le cadre de cet article. Ce tutoriel ne fait que gratter la surface de la façon dont vous pouvez visualiser et explorer les données avec Python et Seaborn.
En rapport
10 Python Termes Les codeurs débutants devraient savoir
Ces dix termes vous aideront à vous acclimater.