Solution d'analyse de données

Extraction de caractéristique dans Excel

03/05/2018
 

Ce tutoriel explique comment extraire des vecteurs de caractéristiques à partir d'une collection de documents texte dans Excel avec le logiciel XLSTAT.

L'extraction de caractéristique est utilisée pour réduire la quantité de ressources requises pour décrire un grand nombre de données textuelles. C'est un terme générique pour décrire les méthodes de construction de combinaisons de variables pour résoudre cette problématique tout en décrivant les données avec une précision suffisante.

Les "caractéristiques extraites" sont couramment utilisées dans les méthodes de classification de documents dans lesquelles la fréquence d'occurrence de chaque mot dans un document est utilisée comme caractéristique pour l'apprentissage d'un classificateur.

Jeu de données pour réaliser une extraction de caractéristique

Un classeur Excel comprenant à la fois les données utilisées dans cet exemple et les résultats obtenus peut être téléchargé en cliquant sur le bouton ci-dessous :
Télécharger les données

Dans ce tutoriel, nous utiliserons les données provenant de l’Internet Movie Database (IMBD) qui se composent de 4000 critiques de films rédigées en anglais.
 

Paramétrer une Extraction de caractéristique avec XLSTAT

Après avoir ouvert XLSTAT, choisissez XLSTAT / Fonctions avancées / Text mining (voir ci-dessous) :


Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Extraction de caractéristique apparaît.
Vous pouvez alors sélectionner les données soit via l’option Fichiers (sélection de fichiers .txt) ou bien via le champ Feuille de calcul (sélection de cellules dans Excel).
L'option Libellés des documents est activée, car la première colonne de données contient le nom des documents.


 
Dans l'onglet Options puis dans le sous-menu Prétraitement, nous choisissons d'activer l’exclusion de la liste des mots d’arrêt (issue de la langue anglaise) ainsi que la suppression de la ponctuation et des nombres via les options Supprimer la ponctuation et Supprimer les nombres.
Une normalisation du texte est préférée via l’option Racinisation (anglais) afin de réduire les mots à leur racine commune (à titre d’exemple les termes « love » – « loving » – « loved » – « lovely » sont réduits à leur racine « lov »).



Dans l'onglet Options, dans le sous-menu Forme intermédiaire, plusieurs options servent à appliquer un filtrage au niveau de la matrice documents-termes.
Nous appliquons un taux de termes nuls de 0,95 (pourcentage de 95%) via l’option Supprimer les termes nuls ce qui aura pour effet de supprimer les termes dont la proportion de présence est inférieure à 5% sur l’ensemble des documents (critiques).
Une Fréquence minimum de 2 est choisie afin d’éviter que les termes, qui apparaissent moins de 2 fois sur l’ensemble des critiques, soient présents dans la matrice documents-termes générée.



Dans l'onglet Sorties, l’option Matrice documents-termes sera activée afin d’afficher cette dernière dans la feuille résultat générée par XLSTAT.
Une seconde option nommée Exporter la matrice documents-termes (non activée dans l’exemple) permet de spécifier le chemin du dossier dans lequel la matrice documents-termes sera exportée au format Excel .csv.
Cette option s’avère utile dans le cas ou le nombre de termes présents dans la matrice excède la limite relative au nombre maximal de colonnes que le tableur Excel puisse afficher.
 

La génération de la matrice documents-termes commence lorsque vous cliquez sur le bouton OK.

Nous contacter

Envoyer un email au service commercial

Contacter notre équipe de support technique : support@xlstat.com

https://cdn.desk.com/
false
desk
Chargement
il y a quelques secondes
il y a une minute
il y a quelques minutes
il y a une heure
il y a quelques heures
il y a un jour
il y a quelques jours
à propos de
false
Caractères non valides trouvés
/customer/portal/articles/autocomplete
9283