天からの封書を開けよ

どうでもいい日常の中から捻り出して綴っていきます。

1,280件のデータ照合

過去のデータを現在扱っている管理システムに取り込み、データベースを一本化する作業を進めている。

しかしこの過去のデータというものが曲者で、同じレコードが少し違う内容で複数存在するということが分かっている。この重複を名寄せしていかないと、正しいデータベースにならない。

業者に、重複の可能性が高いレコードの抽出をしてもらっており、ここからは実際に1件1件見て同じものか、同じならどのように統合するか、これを判定していく。時期によりデータの作り方が異なるので、機械的な作業はできない。ひたすら、1件1件見て残すか、消すか、それとも判断できないから一度保留にするか決めていく。気が狂いそう。

なんとか終わったけど、これを抽出前のレコード9,000件ほどに反映させていかねば。。。