あなたの分析ソリューション

Excelでの特徴抽出チュートリアル

03/05/2018

このチュートリアルは、XLSTATソフトウェアを用いてExcel内でテキスト文書の集まりから特徴ベクトルを抽出する 方法を説明します。 

下記に含まれます。

 
 XLSTAT-Marketing XLSTAT-Premium
特徴抽出は膨大なテキスト・データを説明するのに必要なリソースを削減するために使用されます。 これは、十分な正確さでデータを説明しつつ、これらの問題を回避する変数の組み合わせを構築する手法の総称です。 抽出される特徴は、文書内での各ワードの発生頻度が分類器のトレーニングのための特徴として使用される文書分類の手法でよく使用されます。

Excelで特徴抽出を実行するデータセット

データと結果のExcelシートは、次のボタンをクリックしてダウンロードできます:
データをダウンロード
このチュートリアルでは、英語で書かれた4000本の映画評論からなるInternet Movie Database (IMBD) からのデータを使用します。

XLSTATと用いてExcelで特徴抽出をセットアップ

XLSTATを起動すると、 XLSTAT / 高度な機能 / テキスト・マイニング / 特徴抽出 コマンド(下図)を選択してください。

ボタンをクリックすると、特徴抽出のダイアログ・ボックスが現れます。

文書ファイルオプション(ファイル・インポート)またはワークシートフィールド(セル範囲選択)のどちらでも使用してデータを選択できます。データの最初の列に文書名が入っているので文書ラベルオプションが有効になっています。 
  
オプションタブでは、前処理サブ・メニュー内で、ストップワード・リストの除外(英語)、句読点および数字の削除を選びます。 

ワードをそれらの共通の語幹に削減(たとえば、検索語"love" - "loving" - "loved" - "lovely"は語根"lov"に削減)するために語幹抽出(英語)からテキスト正規化 が実行されます。

オプションタブでは、中間形式サブ・メニュー内で、文書-用語行列レベルでフィルタリングを適用するために、複数のオプションが使用されます。

我々は、スパースな用語を除去オプション0.95 (最大で95%のスパース性)のスパース性しきい値を適用し、したがって 、存在の比率が全体の文書(レビュー)の5%よりも低い用語を削除します。

全体の文書(評論)で発生が2回よりも少ない用語をスキップするために、2 の最小頻度が選ばれています。

出力タブでは、XLSTAT結果シートに表示するために、文書-用語行列オプションが有効にされてています。

文書-用語行列をエクスポート というもう1つのオプション(我々の事例では選択されていない)は、文書-用語行列をカンマ区切り(CSV)形式でエクスポートするフォルダ・パスを指定できます。

このオプションは、行列の中の用語の数がExcelで結果のシートに表示できる列数を超えると有用になります。

OKをクリックすると文書-用語行列の計算が始まります。

お問い合わせ

弊社の営業チームにご連絡ください。ここをクリック

弊社のテクニカル・サポート・チームにご連絡ください:support@xlstat.com

https://cdn.desk.com/
false
desk
読み込み中
秒前
1 分前
分前
1 時間前
時間前
1 日前
日前
バージョン情報
false
無効な文字が見つかりました
/customer/portal/articles/autocomplete
9283