特集記事:キーマンズネット掲載
|
||||||||
|
昨年、同業のB社と合併したA社。
2社の顧客数を合わせると約1000万件に上っていました。A・B両社のデータには重複しているものもあると思われるが、どのぐらいの量で、どのような品質かは不明でした。 経営層、情報システム部門の考え方は以下のとおりです。 |
||||
|
||||
|
|
|||||
|
次に、ステップ1で候補としたキー項目を元に、データの突き合わせを行います。この結果、同一顧客と判定されたデータの件数を見れば、名寄せの効果を知ることができます。しかし、データの突き合わせが本当に同一顧客のデータを判定するとは限りません。例えば、A社とB社のデータを氏名のみで突き合わせをすれば、同姓同名の人物を誤って同一顧客と判定してしまうでしょう。ここでは、複数のキー項目を組み合わせた付き合わせを行い、結果を検証していく必要があるのです。名寄せの効果を知るために、次の点を確認しましょう。
同一顧客であると判定されたデータが、本当に同一顧客なのか? 何件のデータが同一顧客と判断されたか? 名寄せの効果が不足している場合は、データクレンジングを行った後に再度検証する必要があるかもしれません。データクレンジングツールが必要かどうかも同時に検証すると良いでしょう。 以上のように、名寄せの効果を検証するには、複数のキー項目を組み合わせた突き合わせが必要です。このとき、何度も行われる突き合わせの処理を作るのに多大な労力がかかってしまいます。 ここでETLツールを使えば、GUI操作で処理を作成できるので、突き合わせ処理の作成にかかる時間を削減することができます。また、A社とB社のデータの突き合わせでは、各データの文字コードの違いが問題となってきます。ここでもETLツールの文字コード変換機能が有効となってきます。 |
|
ステップ2で名寄せの効果を確認したら、いよいよ名寄せ処理のシステム化を行います。定期的に名寄せを実行したり、ほかのアプリケーションから処理を呼び出したりする…といった内容をここで作りこむわけです。
ここで、ステップ2で作成した突き合わせの処理を、そのままシステム化できるでしょうか? システム化は検証段階と違い、出力データの形式もその先のシステムを意識して作る必要があります。エラー処理を作り込む必要もありますので、そのままシステム化できるわけではありません。 さらに、A社ではステップ2で突き合わせの処理を作る人と、名寄せをシステム化する人は異なっていました。処理を引き継ぐには、その処理の解析から始める必要があり、大変な作業量となります。このような場合にも、ETLツールは有効です。 ETLツールは、視覚的に処理の内容を把握できるため、ステップ2で作成した処理を簡単に拡張でき、かつ、開発者の引き継ぎも容易に行えるのです。 |
|
名寄せを効果的に行うための3つのステップの実現を支援するのが、高機能ETLツール「DataStage」。国内シェアNo.1のETLツールです。(出典:富士キメラ総研・2007パッケージソリューション・マーケティング便覧)
DataStageは、企業内に散在する膨大で多種多様なデータをビジネスに活かせる情報として統合するための基盤。複数のシステムからデータ抽出後、豊富な加工機能を使った開発が可能です。また、GUI操作によるビジュアル開発で、迅速に処理を作成できます。 日立は、1999年からDataStageの日本語化、品質テストで開発元との協業を開始。開発協業で培った製品知識により、迅速で正確なサポートサービスを提供。また、データクレンジングツール「QualityStage」と、同一のGUI画面上で開発でき、シームレスな連携を実現しています。 |
||
DataStageの操作はGUI画面上で行うため、ノンプログラミングの直感的な操作で処理を作成できます。
GUI画面上で視覚的に開発ができるため、データ品質の確認や名寄せ効果の検証の処理を迅速に作成できます。その後の名寄せ処理のシステム化でも、処理拡張や開発者の引き継ぎを容易にします。 また、DataStageは、処理の実行状況を視覚的に表示したり、200以上の変換関数を用意していたりと、豊富な機能で開発を強力に支援します。 |
||
ETLツールDataStageは、データクレンジングツールQualityStageと連携可能な統合環境を提供します。
QualityStageは個人名・法人名や住所データの高精度なデータクレンジングを実現するツールです。DataStageの開発画面でQualityStageの処理を埋め込み、ETLツールとデータクレンジングツールの処理をシームレスにつなぐことができます。 |
||
|
険しい道のりのように思えたA社の「名寄せ」ですが、これでスムーズなスタートが切れそうです。
現在、名寄せのニーズは高まっていますが、まずはデータ品質を把握することが大切です。また、導入から運用まで、適切なサポートを提供してくれるパートナーの存在も重要。その点でも、豊富な製品知識と導入実績を持つ日立のDataStageにぜひ、注目して下さい。 |