実行スピードとメモリー使用量以外でpandasよりもpolarsを使ったほうがいい理由

  • indexが存在しない
    pandasでgroupbyしてからgroupbyの要素にアクセスしたい場合は通常のカラムのAPIではできなく、一旦reset_index()する必要があります。しかしpolarsはindexが存在しないためそういった操作が要らない

  • マージ処理後は自動でsizeを表示してくれる
    マージ処理するたびにsizeを確認したほうが安全なので、polarsは宣言しなくても自動で出してくれて便利

  • APIがpysparkと近い
    pandasは並行処理に難があるため、巨大なデータを処理できず基本的にpyspark頼りです。といってもpython自体の並行処理は(ryなので、あくまでもjavaのAPIを呼びだすときにpysparkを使うだけです。pandas書けるならある程度勉強すればpysparkも書けるって言っても、癖が違います。しかしpolarsのAPIはかなりpysparkと近いので、特にこだわる理由がなければpolarsを使ったほうがいいでしょう。polars => pandasの変換はできますし。

  • python以外でも使える
    現時点でpolarsはpythonだけでなく、rust、nodejs、rでも実行できるので、応用範囲がpandasより広いです。

いかがでしょうか、早いうちにpolarsに入信したほうがいいですよ(ry

1
0
0 件のコメント

ページの最後