Aller au contenu principal
XLSTAT rejoint le groupe Lumivero - En savoir plus.

Extraction de caractéristique dans Excel

Ce tutoriel explique comment extraire des vecteurs de caractéristiques à partir d'une collection de documents texte dans Excel avec le logiciel XLSTAT.

L'extraction de caractéristique est utilisée pour réduire la quantité de ressources requises pour décrire un grand nombre de données textuelles. C'est un terme générique pour décrire les méthodes de construction de combinaisons de variables pour résoudre cette problématique tout en décrivant les données avec une précision suffisante.

Les "caractéristiques extraites" sont couramment utilisées dans les méthodes de classification de documents dans lesquelles la fréquence d'occurrence de chaque mot dans un document est utilisée comme caractéristique pour l'apprentissage d'un classificateur.

Jeu de données pour réaliser une extraction de caractéristique

Dans ce tutoriel, nous utiliserons les données provenant de l’Internet Movie Database (IMDB) qui se composent de 4000 critiques de films rédigées en anglais.

Paramétrer une Extraction de caractéristique avec XLSTAT

Après avoir ouvert XLSTAT, choisissez XLSTAT / Fonctions avancées / Text mining (voir ci-dessous) :

Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Extraction de caractéristique apparaît. Vous pouvez alors sélectionner les données soit via l’option Fichiers (sélection de fichiers .txt) ou bien via le champ Feuille de calcul (sélection de cellules dans Excel). L'option Libellés des documents est activée, car la première colonne de données contient le nom des documents.

Dans l'onglet Options puis dans le sous-menu Prétraitement, nous choisissons d'activer l’exclusion de la liste des mots d’arrêt (issue de la langue anglaise) ainsi que la suppression de la ponctuation et des nombres via les options Supprimer la ponctuation et Supprimer les nombres. Une normalisation du texte est préférée via l’option Racinisation (anglais) afin de réduire les mots à leur racine commune (à titre d’exemple les termes « love » – « loving » – « loved » – « lovely » sont réduits à leur racine « lov »).

Dans l'onglet Options, dans le sous-menu Forme intermédiaire, plusieurs options servent à appliquer un filtrage au niveau de la matrice documents-termes. Nous appliquons un taux de termes nuls de 0,95 (pourcentage de 95%) via l’option Supprimer les termes nuls ce qui aura pour effet de supprimer les termes dont la proportion de présence est inférieure à 5% sur l’ensemble des documents (critiques). Une Fréquence minimum de 2 est choisie afin d’éviter que les termes, qui apparaissent moins de 2 fois sur l’ensemble des critiques, soient présents dans la matrice documents-termes générée.

Dans l'onglet Sorties, l’option Matrice documents-termes sera activée afin d’afficher cette dernière dans la feuille résultat générée par XLSTAT. Une seconde option nommée Exporter la matrice documents-termes (non activée dans l’exemple) permet de spécifier le chemin du dossier dans lequel la matrice documents-termes sera exportée au format Excel .csv. Cette option s’avère utile dans le cas ou le nombre de termes présents dans la matrice excède la limite relative au nombre maximal de colonnes que le tableur Excel puisse afficher.

La génération de la matrice documents-termes commence lorsque vous cliquez sur le bouton OK.

Cet article vous a t-il été utile ?

  • Oui
  • Non
Accueil

Logiciel de statistique complet pour Microsoft Excel