Utilisation des méthodes Pandas

Les méthodes Pandas est l'option la plus simple lorsqu'il s'agit de traiter votre ensemble de données, mais elle peut être moins performante (par rapport aux requêtes SQL). Pandas peut également être utilisé pour tracer facilement des graphiques.

Si vous voulez voir la structure de la datasources, vous pouvez utiliser la méthode .columns :

df = my_projet.edges_datasource.load_dataframe(load_limit=1000)
print(df.columns)

Des opérations peuvent être effectuées sur les dataframes. Par exemple, nous pouvons calculer la valeur moyenne de la colonne durée :

duration_mean = df['duration'].to_numpy().mean()

Nous pouvons également obtenir le maximum ou le minimum de la colonne enddate :

enddate_max = df['enddate'].max()
enddate_min = df['enddate'].min()

De plus, dans l'exemple suivant, nous regroupons le dataframe par case ID :

by_caseid = df.groupby('caseid')

De plus, la méthode Pandas .describe() peut être appliquée à notre dataframe :

stats_summary = df.describe()

Cette méthode renvoie un résumé statistique du dataframe fourni. Elle effectue les opérations suivantes pour chaque colonne :

  • compter le nombre de valeurs non vides
  • calculer la valeur moyenne
  • calculer l'écart-type
  • obtenir la valeur minimale
  • calculer le quartile à 25%
  • calculer le quartile de 50%
  • calculer le quartile de 75%
  • obtenir la valeur maximale

Elle stocke ensuite le résultat de toutes les opérations précédentes dans un nouveau dataframe (ici, stats_summary).

Si nécessaire, vous pouvez utiliser directement les méthodes connection et cursor de la datasource, qui peuvent être utilisées comme spécifié dans la Python Database API :

ds = my_project.edges_datasource
ds.connection
ds.cursor