忍者ブログ

完全に恋しちゃってますブログ

Home > > [PR] Home > 未選択 > データマイニングと多変量解析

[PR]

×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

データマイニングと多変量解析

データマイニングと多変量解析
One to one マーケティングを実現するためには、顧客と商品や情報への深い理解が必要だということを前回までに述べた。顧客を理解するためには、1.人口統計的データ 2.心理的データ 3.行動履歴データ 4.コミュニケーションデータの4つを、商品や情報を理解するためには、1.分類データ 2.数値データ 3.テキストデータ 4.画像・音声データの4種類を分析する必要がある。

これらのデータを統計的に分析する上で、データマイニングや多変量解析の手法が用いられる。データマイニングと多変量解析、統計分析は、似ている部分も多いが異なる部分もある。今回は、データマイニングとは何か、多変量解析、統計分析との違いはどこにあるかを説明したい。

データマイニングとは、「大量のデータから隠れた情報や特徴、傾向、相関関係などの有用な知識を効率よく発掘すること」だ。「マイニング」とは鉱山から金属の鉱脈を発掘(=Mining)することなので、そう簡単に大量データから鉱脈を見つけることはできないということが、理解できると思う。また、膨大なデータを扱うことから、データウエアハウスとの連携がとられることが多いのが特徴だ。

一方、テキストマイニングとは、データマイニングのひとつの技術で「大量のテキストデータから隠れた情報や特徴、傾向、相関関係などの有用な知識を効率よく発掘すること」である。テキストデータ、つまり文章は定性データであり、数字で表せるものではない。その定性データを定量化するのが「テキストマイニング」だともいえる。

ここで英語と日本語の違いについて考えてみよう。日本語の「私はペンを持っています。」を英語にすると「I have a pen.」となる。単純にこれらの文字を「記号」としてとらえたときとの大きな違いは何だろうか。

この違いが日本語のテキストマイニングを難しくしている理由のひとつなのだが、英語の場合、単語と単語の間に必ずスペースがあり、文章が細かく分割されている。従って、コンピューターは単語を読みとり、自動翻訳することが比較的簡単にできるわけだ。

ところが日本語はどうだろう。句読点で分割されていない限り、単語と単語はすべてつながっている。従って、まずはつながった文章を単語に分けるという作業(これを形態素解析、分かち書きなどという)が必要だ。その上で、構文解析や頻度分析、多変量解析などを行なう。また日本語は「膠着語」といわれるが、語幹に語尾をいろいろ変化させてくっつけていく言葉なのでさらにやっかいなのである。

では、これらのデータマイニングと多変量解析、統計分析とは何が違うのだろうか。大きな違いの一つは、データマイニングが「知識発見」であるのに対して、統計分析は「仮説検証」であるということだ。

アンケート調査データは、仮説に基づいて設計された設問に対する回答であるが、データマイニングで扱うデータは生活者の行動データであり、意図して回答されたデータではない。また、アンケート調査データ分析は、数百人から数千人程度のデータを扱うことが多いが、データマイニングは数万、数百万、数千万以上のデータを処理することもある。つまり、圧倒的にデータの量が違う。

またそのデータの質にも大きな違いがある。アンケートデータは、最近のネット調査手法の進歩などもあり、欠損値や入力ミスなどが劇的に減り、概ねデータはすべて埋まっていると考えてよい。しかも5段階評価などで点数化されている場合が多い。

それに対し、データマイニングは「クリックした/しない」「購入した/しない」などの1/0データが多く、しかも数万の商品の中から1つしか買っていないような人のデータも含まれるので、基本的にすかすかの疎なデータである。しかも、ゴミのようなデータが集まって来てしまうので、まずはデータを綺麗にする(クリーニング、クレンジングなどという)ところから始めなくてはならず、その作業に全体の約80%の時間が費やされると言っても過言ではない。

このような違いから、データマイニングを成功に導くためには、クラスター分析ひとつするにあたっても、従来の統計ソフトでは歯が立たないことも多く、試行錯誤をしながら地道に鉱脈を探すという作業が必要になるわけだ。

統計分析は仮説の検証だといったが、結果には原因があり相関関係よりも因果関係に興味がある。それに対し、データマイニングは知識発見であるから、相関関係が分かればそれでよく、因果関係は明らかになる場合もあるが、ならなくてもよい。

たとえば、米国のデータマイニングの成果として有名なビールと紙おむつの話し(大量のレシートデータの共起分析で見出した法則)でいえば、ビールと紙おむつが一緒に購買されていることが分かったことに意味があるのであって、なぜビールと紙おむつが一緒に買われたのかについては諸説あり、明確な因果関係は明らかではない。

大量のデータが自動的に取得できる時代になり、これらのデータをどう分析し活用するかがその企業の将来を決めるともいわれている。多くの企業が活用方法に悩んでいると思われる。次回は「分析力を武器とする企業」について話したい。




http://rss.rssad.jp/rss/artclk/IpzPL9ZuTgAc/e2a6495778601a82cf449fb8473bc4a4?ul=uWbzqKwG2p_3Ub7FcrQADXDMuaoQwt4qyZCGe2uTAA6MLzdttO6fFJgni3k5p.neJL51uFexkbpP3YxEi0gBs9_IL9wi

「青田買い」とよくいいますよね。
水稲の米が実る前の青い葉もうちに、その田の収穫量を見越して先買い
することから転じて、学校の卒業が決まらないうちに企業などが採用
などを決めてしまうことですね。
企業の上の方、役職とか中間管理職とかになると本当しんどそうですね。。
サラリーマンでこきつかわれまくるんですからね。。


PICKUP
アメリカ・ラスベガス旅行

レーシックで豊富な経験

ファーミング/詐欺被害を防ぐ

セルライト除去(エステでダイエット)

愛知で引越しの準備 部屋選びの重要ポイント

全国の人気癒しパワースポット

浮気の手がかり

弁護士へ多重債務相談

税理士選びのポイント【山梨】

東京メトロ有楽町線新富町駅

PR
コメント
お名前
タイトル
メールアドレス
URL
コメント
パスワード

カレンダー

12 2025/01 02
S M T W T F S
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

カテゴリー

最新コメント

最新トラックバック

プロフィール

HN:
No Name Ninja
性別:
非公開

バーコード

ブログ内検索

P R