天からの封書を開けよ

どうでもいい日常の中から捻り出して綴っていきます。

8,000件のデータセット

ずっと進めてきたデータのクリーニングが終わった。ずっとと言っても、ここ1,2週間で集中的にやってきたんだけど。
データの照合をして、フォーマットを整えて、エラーを潰して、冊子体の記録と比較して、考えうる矛盾する箇所を見つけて尤もらしいあたりをつけて、の繰り返し。
ざっと8,000件。
世の中の様々なデータセットに比べれば少ないもんだけど、こんな環境でよくやったと思う。ホント、なんなんだろ。