PythonのPandasライブラリとは
Google Cloudでデータパイプラインを開発した際に、PythonライブラリであるPandasを記述していました。
Pandasは、Pythonでデータ分析やデータ操作を行うためのライブラリです。データを効果的に操作、整理、変換するための関数があります。
以下に、Pandasの主要な関数のいくつかを紹介します。
Pandas関数一覧
read_csv()
: CSVファイルを読み込み、PandasのDataFrameオブジェクトとして返します。
import pandas as pd
df = pd.read_csv('data.csv')
head()
: DataFrameの最初のいくつかの行を表示します(デフォルトでは5行)。
df.head()
tail()
: DataFrameの最後のいくつかの行を表示します(デフォルトでは5行)。
df.tail()
info()
: DataFrameの基本的な情報を表示します。列のデータ型、非null値の数、メモリ使用量などが含まれます。
df.info()
describe()
: 数値列の統計的な要約を提供します。平均値、標準偏差、最小値、最大値などが含まれます。
df.describe()
shape
: DataFrameの行数と列数を示すタプルを返します。
df.shape
columns
: DataFrameの列の名前(ヘッダー)をリストとして返します。
df.columns
value_counts()
: 列内の各値の出現回数を計算し、結果を表示します。
df['column_name'].value_counts()
sort_values()
: DataFrameを指定した列の値に基づいてソートします。
df.sort_values('column_name')
groupby()
: 指定した列を基準にデータをグループ化します。集計関数(平均、合計など)と組み合わせて使用することができます。
df.groupby('column_name').mean()
fillna()
: 欠損値(NaN)を指定した値で置き換えます。
df.fillna(value)
dropna()
: 欠損値(NaN)が含まれる行を削除します。
df.dropna()
merge()
: 複数のDataFrameを結合します。指定した列を基準に結合することができます。
merged_df = pd.merge(df1, df2, on='column_name')
pivot_table()
: ピボットテーブルを作成します。指定した列を行と列に配置し、集計関数を適用することができます。
pivot_table = df.pivot_table(values='value', index='index_column', columns='column_name', aggfunc='mean')
to_csv()
: DataFrameをCSVファイルとして保存します。
df.to_csv('output.csv', index=False)
loc[]
およびiloc[]
: DataFrame内の行や列にアクセスします。loc[]
はラベルベースでのアクセス、iloc[]
は整数ベースでのアクセスです。
# ラベルベースでのアクセス
df.loc[row_label, column_label]
# 整数ベースでのアクセス
df.iloc[row_index, column_index]
apply()
: 指定した関数をDataFrameの行または列に適用します。
# 列に関数を適用
df['column_name'].apply(function)
# 行に関数を適用
df.apply(function, axis=1)
map()
: 列の各要素に対して、指定した辞書や関数を適用して値を変換します。
df['column_name'].map(dictionary)
df['column_name'].map(function)
duplicated()
: DataFrame内の重複した行を検出します。
df.duplicated()
drop_duplicates()
: DataFrame内の重複した行を削除します。
df.drop_duplicates()
corr()
: DataFrame内の列間の相関係数を計算します。
df.corr()
plot()
: DataFrameのデータを可視化します。さまざまな種類のプロット(折れ線グラフ、棒グラフ、ヒストグラムなど)を作成することができます。
df.plot(kind='line')
df.plot(kind='bar')
df.plot(kind='hist')
pd.to_datetime()
: 文字列を日付または時刻のデータ型に変換します。
df['date_column'] = pd.to_datetime(df['date_column'])
PythonのPandasライブラリまとめ
以上がPandasライブラリの主な関数となります。
データを効果的に操作、整理、変換するための関数が多くあります。意図した形に変換できる関数をご使用いただければと思います!
NumpyやMatplotlibなどのデータ分析を行うためのライブラリと組み合わせることでPythonでのデータ分析を行うことができます!こちらのPythonデータ分析の流れとライブラリにまとめておりますのでご参考ください!
Python関連記事
そのほか、Python関連の情報はこちらにまとめておりますのでご参考ください。
>Coffee Tech Blog Python関連記事
プログラムの学習は現役エンジニアから学べる TechAcademy [テックアカデミー] の
ご活用をぜひご検討ください!
参考になれば幸いです☕
コメント