実行スピードとメモリー使用量以外でpandasよりもpolarsを使ったほうがいい理由
-
indexが存在しない
pandasでgroupbyしてからgroupbyの要素にアクセスしたい場合は通常のカラムのAPIではできなく、一旦reset_index()する必要があります。しかしpolarsはindexが存在しないためそういった操作が要らない -
マージ処理後は自動でsizeを表示してくれる
マージ処理するたびにsizeを確認したほうが安全なので、polarsは宣言しなくても自動で出してくれて便利 -
APIがpysparkと近い
pandasは並行処理に難があるため、巨大なデータを処理できず基本的にpyspark頼りです。といってもpython自体の並行処理は(ryなので、あくまでもjavaのAPIを呼びだすときにpysparkを使うだけです。pandas書けるならある程度勉強すればpysparkも書けるって言っても、癖が違います。しかしpolarsのAPIはかなりpysparkと近いので、特にこだわる理由がなければpolarsを使ったほうがいいでしょう。polars => pandasの変換はできますし。 -
python以外でも使える
現時点でpolarsはpythonだけでなく、rust、nodejs、rでも実行できるので、応用範囲がpandasより広いです。
いかがでしょうか、早いうちにpolarsに入信したほうがいいですよ(ry
1
0
件のコメント
ページの最後