Tout d'abord, un aperçu rapide des incorporations de mots. Ce sont des représentations de mots en haute dimension, basées sur les contextes dans lesquels différents mots apparaissent. Les incorporations de mots nous permettent de comparer réellement la similitude des mots et de fournir des informations plus utiles comme entrée dans les modèles PNL.

Le modèle d'incorporation de mots le plus connu, word2vec, est un modèle prédictif , ce qui signifie qu'il s'entraîne en essayant de prédire un mot cible dans un contexte ( CBOW) ou les mots de contexte de la cible ( skip-gram). Le modèle utilise des poids d'incorporation entraînables pour mapper les mots à leurs incorporations correspondantes, qui sont utilisées pour aider le modèle à faire des prédictions. La fonction de perte pour l'entraînement du modèle est liée à la qualité des prédictions du modèle, de sorte que lorsque le modèle s'entraîne pour faire de meilleures prédictions, il en résultera de meilleurs imbrications.

La création de matrice d’incorporation de mots (embedding_matrix) est une étape très importante dans le prétraitement de donnée (vocabulaire). Le concept de matrice d’incorporation tente de résoudre ce problème de représentation des relations entre les mots.
Technique d’extraction des caractéristiques
GloVe représente les vecteurs globaux pour la représentation des mots. C'est un algorithme d'apprentissage non supervisé développé par Stanford pour générer des incorporations de mots en agrégeant une matrice de cooccurrence mot-mot globale à partir d'un corpus. Les imbrications résultantes montrent d'intéressantes sous-structures linéaires du mot dans l'espace vectoriel.
Avantages :
Il capture la position des mots dans le texte (syntaxique)
Il capture le sens dans les mots (sémantique)
Formé sur un énorme corpus
Limitations :
Il ne peut pas capturer le sens du mot du texte (ne parvient pas à capturer la polysémie)
Consommation de mémoire pour le stockage
Il ne peut pas capturer des mots hors vocabulaire d'un corpus 

GloVe: Glove est basé sur des techniques de factorisation matricielle sur la matrice mot-contexte. Il construit d'abord une grande matrice d'informations de cooccurrence (mots x contexte), c'est-à-dire que pour chaque «mot» (les lignes), vous comptez la fréquence à laquelle nous voyons ce mot dans un «contexte» (les colonnes) d'un grand corpus. Le nombre de «contextes» est bien entendu important, car il est essentiellement de taille combinatoire. Nous factorisons donc cette matrice pour produire une matrice de dimension inférieure (mot x caractéristiques), où chaque ligne produit maintenant une représentation vectorielle pour chaque mot. En général, cela se fait en minimisant une «perte de reconstruction». Cette perte tente de trouver les représentations de dimension inférieure qui peuvent expliquer la majeure partie de la variance dans les données de grande dimension.

Les vecteurs de mots de manière abstraite représentent différentes facettes de la signification d'un mot. Certaines propriétés notables sont:

ces vecteurs de mots sont bons pour répondre aux questions d'analogie. La relation entre les mots est dérivée de la distance entre les mots.

Nous pouvons également utiliser l'ajout d'éléments vectoriels par élément pour poser des questions telles que `` compagnies aériennes allemandes + ''


GLOVE


Avantages:

  1. Le but de Glove est très simple, c'est-à-dire de forcer les vecteurs de mot pour capturer les relations sous-linéaires dans l'espace vectoriel. Ainsi, il s'avère plus performant que Word2vec dans les tâches de mot analogoy.
  2. Glove ajoute une signification plus pratique aux vecteurs de mots en considérant les relations entre la paire de mots et la paire de mots plutôt que le mot et le mot.
  3. Glove donne moins de poids pour les paires de mots très fréquentes afin d'éviter que les mots vides de sens comme «le», «un» ne dominent pas la progression de l'entraînement.

Désavantages:

  1. Le modèle est formé sur la matrice de cooccurrence des mots, ce qui prend beaucoup de mémoire pour le stockage. Surtout, si vous modifiez les hyper-paramètres liés à la matrice de cooccurrence, vous devez reconstruire la matrice à nouveau, ce qui prend beaucoup de temps.