あなたの分析ソリューション

アソシエーション・ルールはどのようにマーケットバスケット分析を支援するか?

20/10/2017

アソシエーション・ルールのマイニング

1994年に、Rakesh Agrawal と Ramakrishnan Sikrant がアイテム間の関連をルールの形式で識別するアルゴリズムを提案しました。このアルゴリズムは、分析されるデータのボリュームが重要な場合に使用されます。アイテム数が数万であるかもしれないので、その組み合わせは、すべてのルールを調査できないような数になります。 したがって、ルールの探索は最も重要なそれに制限することが必要です。品質測度は、アルゴリズムの2つのフェーズの間で 組み合わせ的爆発を制限して、結果のソーティングを可能にする確率値です。

定義:

アイテム: アプリケーション分野により、製品であったり、オブジェクト、患者、イベントであったりする。

トランザクション: 固有の識別子で識別。最低1アイテムでのアイテムの集合。アイテムは複数のトランザクションに属することができる。

アイテム集合: アイテムのグループ。アイテム集合は、1つまたは複数のトランザクション中に存在し得る。

支持度: トランザクション中にアイテムまたはアイテム集合Xを見つける確率。あるアイテムまたはアイテム集合が利用可能なすべてのトランザクションの中で発見される回数で計算。この値は0 から 1 の間の値をとる。

ルール: ルールは、共通のアイテムを持たない2つのアイテムXとYの間の関係性を定義する。 X->Y はXがあるトランザクション内にあるとき、Yを同じトランザクション内で発見できることを意味する。

ルールの支持度: あるトランザクション内でXとYのアイテムまたはアイテム集合を発見する確率。両方のアイテムまたはアイテム集合が利用可能なすべてのトランザクションの中で発見される回数で計算。この値は0 から 1 の間の値をとる。

ルールの信頼度: あるトランザクション内にXのアイテムまたはアイテム集合があることがわかっていて、そのトランザクション内でYのアイテムまたはアイテム集合を発見する確率。対応する観察度数で計算(利用可能なすべてのトランザクションの中でXとYが発見される回数をXが発見される回数で割る)。 この値は0 から 1 の間の値をとる。

ルールのLift : ルールのlift値は、対称性の (Lift(X->Y)=Lift(Y->X))で、XとYをグルーピングしたアイテム集合の支持度をXの支持度およびYの支持度で割ったものである。この値は正の実数をとる。1より大きい lift値は、YにおけるX(またはXにおけるY)の正の効果を意味し、したがってルールの有意度である。 1 の値は、効果がないことを意味し、そのアイテムまたはアイテム集合が独立だということになる。1より低いlift 値は、YにおけるX、またはその逆の負の効果があること意味する。あたかも、それらはお互いに排除するようになっている。

 

データセット

データと結果のExcel シートは、こちらをクリックしてダウンロードできます。 このチュートリアルで使用されるデータセットは、Tom Brijsが寄付したデータセットから抽出されています (http://fimi.ua.ac.be/data/retail.pdf, T. Brijs, G. Swinnen, K. Vanhoof and G. Wets.The use of association rules for product assortment decisions: a case study. In: Proceedings of the Fifth International Conference on Knowledge Discovery and Data Mining, San Diego (USA), August 15-18, 254-260, 1999)。これは、某ベルギーの小売店での匿名の小売りマーケットバスケット・データです。オリジナルのデータセットは、 88163 トランザクションを含みますが、Excel 2003ユーザーが使用できるように、最初の65000 トランザクションに減らしました。アソシエーション・ルール・ツールは、ギガバイト規模のフラット・ファイルでも上手く動作しますが、この事例はExcelワークブックに基づきます。

XLSTAT は、入力データに以下のレイアウトを採用します:

トランザクショナル: データが、1列は(トランザクション・フィールドで選択される)トランザクションを示し、もう1列はアイテムを示す2列になっている場合は、このフォーマットを選んでください。通常、このフォーマットでは、各トランザクションに関するトランザクション IDの列があって、トランザクション内にアイテムがあるだけの行があり、アイテムを示すもう1つの列があります。通常、トランザクションは最初の列にあり、このフィールドで選択されます。

リスト: データが、トランザクションごとに1行になっていて、そのトランザクションに対応するアイテムの名前が入った列がある場合は、このフォーマットを選んでください。トランザクションごとのアイテムの数はそれぞれ変化します。選択内の列数は、トランザクションごとの最大アイテム数になります。

トランザクション/変数: データが、トランザクションごとに1行になっていて、変数ごとに1列となっている場合は、このフォーマットを選んでください。このフォーマットは、すべてのトランザクションが同じ数のアイテム、すなわち変数を持っていて、同じトランザクション内に任意の変数から複数のアイテムは存在し得ません。

分割表: データが、トランザクションごとに1行、アイテムごとに1列となっていて、アイテムが存在しない場合はヌル値で、存在する場合は1の値が入っている場合は、このフォーマットを選んでください。

このチュートリアルでは、データは各行が1トランザクションを表しているリスト・フォーマットで利用可能です。 トランザクションごとにアイテム数だけの列があります。 

 

アソシエーション・ルール分析のセットアップ

XLSTATを起動して、XLSTAT / 機械学習 / アソシエーション・ルール コマンドを選ぶか、"XLSTAT" ツールバーの対応するボタン(下図)をクリックしてください。

ボタンをクリックすると、ダイアログ・ボックスが現れます。 Excel シートでデータを選択してください。 “アイテム” フィールドで、すべてのトランザクションとアイテムを含む列 A から BV までを選択してください(トランザクションを含む最後の列を識別するために、Ctrl End を押してください。カーソルがデータセットの右下の最後に移動します)。選択されたデータの最初の行にヘッダを含みませんので、ラベルを含むオプションは無効にします。

最小支持度は、デフォルト値のままにしておきます。この値よりも低い支持度を持つルールは、考慮に入れられなくなります。

最小信頼度は、デフォルト値のままにしておきます。この値よりも低い信頼度を持つルールは、考慮に入れられなくなります。

最小前提部数は、デフォルト値のままにしておきます。ルール(X->Y)の左部(X)に含まれるアイテムの数には、とくに強制はありません

オプションタブで、我々は、ルールが信頼度で並べ替えられるように選びます。

OK ボタンをクリックすると計算が始まります。計算は、約35 秒で終わります。いつでも分析を停止できるようにするウィンドウが表示されます。そして、結果が表示されます。 

アソシエーション・ルール分析の結果の解釈

最初の結果は、データセット内のアイテム数とトランザクション数を確認します。アソシエーション・ルールの要約表は、ダイアログ・ボックスの一般タブで定義した強制に合致するすべてのルールを表示します。ここで、最も高い信頼度のルールは、製品41と48がバスケット内にあるとき、81.6%の確率で製品39もあるということを示すルールだとわかります。 このルールは、トランザクションの7.9% で見つかります。lift 値は1.426 で、これは (41 と 48) を持つことは(39)を持つ確率を、または (39) を持つことは(41 と 48) を持つ確率を1.426の係数で増加させることを意味します。

 

 

影響度の行列は、行内にあるアイテムが存在することを知っていて、列内にそのアイテムがあることの信頼度の別の示し方です。

 

影響度のチャートは、同じ表のグラフィカルな表示です。

次の表は、最小支持度と最小信頼度の基準に合うルールに関与する製品間の信頼度を平均する対称行列です。そして、この表は、製品の近接度(2014年にAddinsoftが開発した独自の機能のMDS手法に基づく)の可視化を作成するために使用されます。

 

アイテム・チャートで、48 と 39 が最も近いことがわかります。

 

ここで開発されたアプローチは、消費者のバスケットを分析するためのアソシエーション・ルールの使用法を示しました。これあの結果から生じる解釈や実行上の決定は、マーケットや製品について持っている知識に強く依存します。

お問い合わせ

弊社の営業チームにご連絡ください。ここをクリック

弊社のテクニカル・サポート・チームにご連絡ください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283