メインコンテンツに移動
XLSTATはLumiveroグループに参加しています。詳しくはこちら

Excelでの潜在意味解析(LSA)チュートリアル

このチュートリアルは、XLSTATソフトウェアを用いてExcel内で潜在意味解析 をセットアップして解釈する方法を説明します。

潜在意味解析のためのデータセット

このチュートリアルでは、eコマースに残された女性のコメントを編纂した初期テキストから、XLSTATの特徴抽出 機能で生成された文書-用語行列を使用します。分析はデータセットからランダムに抽出した5000行に意図的に制限されています。

このチュートリアルの目的

ここでの目的は、文書-用語行列(D.T.M)で記述された文書の集合に含まれるトピックを識別するために、用語の均質なグループを構築することです。

これは用語間の概念的な関係性(潜在因子)を抽出するのに簡単かつ効率的です。この手法は、元の行列の次元削減法(特異値分解)に基づいています。ここで示す潜在意味解析は、コーパス内の主要な意味的 « 次元 » を切り取る方法で、それは主要な « 主題 » を検出し、同義性と多義性の問題を同時に解決することを可能にします。

潜在意味解析のセットアップ

XLSTATを起動して、 XLSTAT / 高度な機能 / テキスト・マイニング / 潜在意味解析コマンドを選択してください:

ボタンをクリックする、潜在意味解析のダイアログ・ボックスが現れます。

文書-用語行列 フィールドでデータを選択してください。データの最初の列が文書名を格納しているので。文書ラベルオプションを有効にします。データの最初の行が用語名を格納しているので、用語ラベルオプションも有効にします。 オプションタブでは、ドキュメントの集合の主題をできるだけ多く表示つつ、計算された打ち切り行列での説明された分散を適切に得るために、トピック数を30に設定します。

新しい意味空間で、文書および用語のクラスを作成するために、文書クラスタリングおよび用語クラスタリングオプションを有効にします。

ハードオプションは、各用語が一度に1個のトピックのみに属するように強制します(最良な意味軸)。 一方、ファジィオプションは、多義性を切り取るために、複数のトピックに同じ用語があることを可能にします(複数の意味を持つ用語)。 出力タブで、トピック表や相関行列に関するさまざまなグラフ(チャートタブを参照)で、各トピックの最良の用語のみを可視化するために、トピックごとの用語の最大数(用語/トピックの最大)を 5に設定してください。

コーパス内の用語のそれぞれで用語対用語相関(コサイン類似度)を表示するために、最近接用語オプションを有効にします。

ドロップダウン・リストに(意味軸との関係性で降順に)トップ30の用語のみを表示するために、用語数(検索語数)を30に設定します。ドロップダウン・リストに選択された用語に最も類似する10個の用語のみを表示するために。最近接用語の数を10に設定します。

潜在意味解析の解釈

要約表は、トピックごとの用語と文書の合計数を表します。ユーザーは、相関行列やトピック表などに「すべての用語/文書を表示することができます。 続く表とグラフは数学的オブジェクト、固有値に関連しており、それらのそれぞれは、トピックの重要度に対応します。

N次元(Nは開始時の用語の総数で、このデータセットでは269)からより小さい次元数(我々の事例では30)に移動するときの射影の品質が変動の累積パーセンテージで定量化されています。

したがって、各固有値は1個のトピックに対応しており、ここで我々は、30の次元設定は元の行列のほぼ60%の合計の累積変動を得られることがわかります。 下の表は、トピックのそれぞれで見つかった最良の用語を一覧します。これらは、問題のトピックとともに重要度の高い順に表示されます。この最初の結果は、オンラインで購入した衣類の特定の側面についての肯定的または否定的は感覚にしばしば関係する要素のクラスをハイライトします。

たとえば、トピック 8 と24は、用語の対 {small, large} および {run, bust}からなり、衣料品ラインのサイズ問題に関係します。したがって、これらの対を組み合わせると、このサイズ問題を象徴する共通の用語になり、初期の文書-用語行列の意味的冗長性(同義語)を排除できます。

トピック 6 は、肯定的な感情{sweet}と衣料品ライン{top、peplum}を関連付けることにより、成功の声明をなします。

用語対の関係の強さは、以下の相関グラフによって視覚的に表されます。これにより、新しく作成された意味空間内の用語間の類似度(コサイン類似度)を視覚化できます。コサイン類似度測度により、さまざまな出現頻度の用語を比較できます。

類似度は0と1の間で、値1は完全な類似または非類似(一致する場合は類似度、不一致の場合は非類似度)に対応します。

用語は、検出されたトピック・クラスの順に表示されます(これらのクラスは、チャートタブの« クラスごとの色»オプションを有効にすることでも表示できます)。 以下の2つの例は、ドロップダウン・リストで選択した用語(ここではtopとrun)に最も近い用語間の類似度を、類似度の降順で示しています。

結論として、ここでは潜在意味解析の簡単なアプリケーションを紹介しました。これは、類似の特性(服のサイズなど)または感情(肯定または否定)を表す用語を組み合わせた文書の集合からクラスを作成する方法を示しました。入力DTM行列の次元を削減し、適切な分散(固有値の表を参照)を維持するために、トピック表内の各トピックに最も影響のある用語を取得できます。これにより、後でより効率的な学習アルゴリズムを適用できます。

この記事は役に立ちましたか?

  • ウイ
  • いいえ