本文へジャンプ

ミドルウェア

uVALUE 実業×IT

Hitachi

*
株式会社リクルートキーマンズネット(新規ウィンドウを開く)に2008年06月30日に掲載された記事より転載掲載しています。
サービス内容、料金などは、掲載日または更新日時点のものです。
「すぐに“名寄せ”を始めなければ…」そんな企業のはじめの一歩は「データ品質の確認」から!
INDEX
↓ Chapter1:1000万件に上る顧客データの“名寄せ”〜道は険しい?
↓ Chapter2:名寄せの各ステップで便利なETLツール
↓ Chapter3:ETLツールは日立の「DataStage」
↓ まとめ:ムリしなくても大丈夫!まずは、自社のデータ品質を知ることから
 
  Introduction
企業が持つ顧客データは、一元管理されているとは限りません。企業内の部署の統廃合、あるいは企業合併、経営統合など様々な理由で、複数のシステムにそのまま顧客データが存在しているケースも多いのです。

なぜ、それが問題なのか?

例えば、金融業界では、貸金業法の改正により、過剰貸付などを抑制する対応をする必要があり、同一顧客を複数登録しているケースなどは的確に把握しなければなりません。そこで、複数の顧客データを統合する「名寄せ」のニーズが高まっています。

また、顧客データが重複していることで、ムダやトラブルが発生するリスクもあるでしょう。例えば、同一顧客に同じ内容のダイレクトメールを複数送付してしまったら、発送コストが余分にかかるだけではなく、顧客は情報管理に不備があると判断するでしょう。これは、顧客からの信頼や顧客満足度の低下を招きかねません。重複データの名寄せは、もはやビジネスに欠かせないものといえます。

とはいえ、どこから手をつけたらよいのか?

数百万から数千万にも上る顧客データがあるとすると……膨大な量の前に、スタートもゴールも見えない状況におちいりがちです。
そこで今回は、約1千万件の顧客データを持つA社を例に、名寄せのステップを見ていきましょう。
  昨年、同業のB社と合併したA社。
2社の顧客数を合わせると約1000万件に上っていました。A・B両社のデータには重複しているものもあると思われるが、どのぐらいの量で、どのような品質かは不明でした。
経営層、情報システム部門の考え方は以下のとおりです。
 
 
 
情報システム部門は、はじめは自社でA社・B社のデータの突き合わせを行おうとしました。
手作業ではとても無理な件数ですが、新たにシステムを作ろうにも、ノウハウがないためどこから手をつけてよいのか分かりません。
どんなキーワードをもとにデータの突き合わせを行うのか、データは正確に入力されているのか、重複データはどのくらいあるのか…。
また、A社とB社のデータはOSが異なるため、文字コードの違いも吸収しなければならず、前途は多難でした。
そこでA社の情報システム部門は、日立に相談しました。そして訪れた日立の担当者は、次のような提案を行いました。
名寄せの処理の検討をする前に、まずデータ品質を確認することが重要です。その後、名寄せの効果を検証し、どれだけの顧客データが重複しているのか、どうやれば重複データを見つけられるのかを明らかにしていきます。しかし、1000万件ものデータを扱うため、人の目で確認していくことはできません。データ全体の傾向を把握しながら名寄せのステップを進めていくには、Chapter2 で紹介するETLツールを使用することをお勧めします。
このページの先頭へ
日立が推奨する効率的な名寄せには、まずはデータ品質の確認からのステップを踏むことが必要で、そのためのツールとしてETLツールをお勧めしています。この章では、名寄せの各ステップの内容と、そこで使用するETLツールの関係について見ていきましょう。
※ETLツールとは
散在するデータを抽出(Extract)、加工・編集(Transform)、格納(Load)するソフトウェア。GUIによるビジュアル開発で、生産性・保守性が向上する。
 
まず、最初のステップの「データ品質の確認」では、顧客データの各項目にちゃんとした値が入っているかを確認します。同一顧客を複数データ登録している場合、全く同じデータが登録されているとは限りません。そのため、単純に文字列比較すると異なる人物と判定される可能性があります。きちんとしたデータが入っていないと名寄せのキー項目とすることはできないため、あらかじめデータの品質を知っておくことが必要です。例えば、空白文字など無効なデータがどれくらい入っているか、データの形式や表記に違いがないか、などを確認します。
この確認の結果、右図のようにA社とB社で「氏名」のデータの格納形式が異なることがわかりました。
また、次のような違いがあることもわかりました。
・同一の名前でも異なる表記のものがある
・住所が空白となっているデータがある
・電話番号の書式が異なる
データ品質の確認では、このような確認をしながら、「“住所”の項目は使えないが“郵便番号”の項目が使えそうだ」といった、顧客データの中で有効な項目を洗い出していきます。


ここでETLツールを使えば、直観的なGUI操作で処理を容易に作成し、データ品質確認をすることができます。


※ データクレンジングについて
データクレンジングとは、データ品質が良くない場合に、データを正しい形式に修正したり、データの補正をしたりして、データの品質を向上させることです。例えば、電話番号で、「00-0000-0000」と「00(0000)0000」という形式のデータを比較しやすくするために、「-」や「( )」を取り除くのがデータクレンジングです。
この例のように単純な処理ならば、ETLツールで作成できます。

しかし、下記の例のような複雑なデータクレンジングになると、ETLツールでの作成は困難です。
    東京都杉並区井草X丁目X番XXX号−502
    杉並区井草X−XX−XXX−502
    東京都杉並区井草X−XX−XXX日立パーク502号
この住所データはすべて同じデータであると考えられますが、都道府県が抜けていたり、建物名が記載されていたりしています。このような差異は、ETLツールでは解消できませんが、「データクレンジングツール」なら解消できる場合があります。
 
  次に、ステップ1で候補としたキー項目を元に、データの突き合わせを行います。この結果、同一顧客と判定されたデータの件数を見れば、名寄せの効果を知ることができます。しかし、データの突き合わせが本当に同一顧客のデータを判定するとは限りません。例えば、A社とB社のデータを氏名のみで突き合わせをすれば、同姓同名の人物を誤って同一顧客と判定してしまうでしょう。ここでは、複数のキー項目を組み合わせた付き合わせを行い、結果を検証していく必要があるのです。名寄せの効果を知るために、次の点を確認しましょう。

同一顧客であると判定されたデータが、本当に同一顧客なのか?
何件のデータが同一顧客と判断されたか?

名寄せの効果が不足している場合は、データクレンジングを行った後に再度検証する必要があるかもしれません。データクレンジングツールが必要かどうかも同時に検証すると良いでしょう。

以上のように、名寄せの効果を検証するには、複数のキー項目を組み合わせた突き合わせが必要です。このとき、何度も行われる突き合わせの処理を作るのに多大な労力がかかってしまいます。
ここでETLツールを使えば、GUI操作で処理を作成できるので、突き合わせ処理の作成にかかる時間を削減することができます。また、A社とB社のデータの突き合わせでは、各データの文字コードの違いが問題となってきます。ここでもETLツールの文字コード変換機能が有効となってきます。
 
 
 
  ステップ2で名寄せの効果を確認したら、いよいよ名寄せ処理のシステム化を行います。定期的に名寄せを実行したり、ほかのアプリケーションから処理を呼び出したりする…といった内容をここで作りこむわけです。
ここで、ステップ2で作成した突き合わせの処理を、そのままシステム化できるでしょうか?
システム化は検証段階と違い、出力データの形式もその先のシステムを意識して作る必要があります。エラー処理を作り込む必要もありますので、そのままシステム化できるわけではありません。
さらに、A社ではステップ2で突き合わせの処理を作る人と、名寄せをシステム化する人は異なっていました。処理を引き継ぐには、その処理の解析から始める必要があり、大変な作業量となります。このような場合にも、ETLツールは有効です。 ETLツールは、視覚的に処理の内容を把握できるため、ステップ2で作成した処理を簡単に拡張でき、かつ、開発者の引き継ぎも容易に行えるのです。
 
 
このページの先頭へ
  名寄せを効果的に行うための3つのステップの実現を支援するのが、高機能ETLツール「DataStage」。国内シェアNo.1のETLツールです。(出典:富士キメラ総研・2007パッケージソリューション・マーケティング便覧)

DataStageは、企業内に散在する膨大で多種多様なデータをビジネスに活かせる情報として統合するための基盤。複数のシステムからデータ抽出後、豊富な加工機能を使った開発が可能です。また、GUI操作によるビジュアル開発で、迅速に処理を作成できます。

日立は、1999年からDataStageの日本語化、品質テストで開発元との協業を開始。開発協業で培った製品知識により、迅速で正確なサポートサービスを提供。また、データクレンジングツール「QualityStage」と、同一のGUI画面上で開発でき、シームレスな連携を実現しています。
DataStageの操作はGUI画面上で行うため、ノンプログラミングの直感的な操作で処理を作成できます。
GUI画面上で視覚的に開発ができるため、データ品質の確認や名寄せ効果の検証の処理を迅速に作成できます。その後の名寄せ処理のシステム化でも、処理拡張や開発者の引き継ぎを容易にします。
また、DataStageは、処理の実行状況を視覚的に表示したり、200以上の変換関数を用意していたりと、豊富な機能で開発を強力に支援します。
 
ETLツールDataStageは、データクレンジングツールQualityStageと連携可能な統合環境を提供します。
QualityStageは個人名・法人名や住所データの高精度なデータクレンジングを実現するツールです。DataStageの開発画面でQualityStageの処理を埋め込み、ETLツールとデータクレンジングツールの処理をシームレスにつなぐことができます。

DataStageのエントリーモデル
はじめから大きなシステムを導入するのが心配…という企業には、DataStageの豊富な機能はそのままのエントリーモデル、低価格導入が可能な「DataStage Common Edition」がオススメです。「データ品質の確認」には安価なDataStage Common Editionを導入。後から、DataStage Standard Edition にアップグレード(有償)できます。

DataStage Common Editionの製品仕様
・OS:Windows(R) Server 2003
・CPU数:2CPU(2core)まで
・同時接続クライアント数:1クライアント
このページの先頭へ
 

  険しい道のりのように思えたA社の「名寄せ」ですが、これでスムーズなスタートが切れそうです。
現在、名寄せのニーズは高まっていますが、まずはデータ品質を把握することが大切です。また、導入から運用まで、適切なサポートを提供してくれるパートナーの存在も重要。その点でも、豊富な製品知識と導入実績を持つ日立のDataStageにぜひ、注目して下さい。



記載されている会社名、製品名は、それぞれの会社の商標もしくは登録商標です。
このページの先頭へ