よく使うのでメモ。
ID_labelx
とID_labely
が同じ行をまとめる内部結合です。
やりたいこと
X: (ID_labelx, xa, xb) = (tanaka, data_xa, data_xb) Y: (ID_labely, ya, yb) = (tanaka, data_ya, data_yb)
のデータが
join: (ID_labelx, xa, xb, ya, yb) = (tanaka, data_xa, data_xb, data_ya, data_yb)
となります。
コード
# load data X = pd.read_csv('X.csv') Y = pd.read_csv('Y.csv') # join join = pd.merge(X, Y, how="inner", left_on="ID_labelx", right_on="ID_labely") pd.to_csv('XY_innerjoin.csv')
他の例
ドキュメントに多数の例があります。