データ分析のためのクレンジングのTips

kaggleなど比較的にきれいなデータで分析する場合はあんまり悩まないのですが、実務の場合は汚いデータで任されることはしばしばあります、っていうかほとんどです。

こういった汚いデータを使って分析で結論を出そうと思ってたら、なんかデータおかしいんじゃない？数値合わないんじゃない？なんか予想外のレコードが入ってるんだけどって思ったことありませんか？私にはあります、多分ほぼすべてのデータアナリスト・データエンジニアが通過する道ではないかとも思います。

ここではいくつかのTipsをシェアしたいと思います

以上のTipsを息を吸うように出来たら後でやっぱ違うわってなる頻度は大分減ると思います。最後、多分誰もやりたくないのですが、めっちゃくちゃ汚いデータに対してはロードしたら全ての列をstrに変換してから列の定義を確認してから自分でキャストしたほうが安全かとと思います。