L'apprentissage des représentations consiste à apprendre les représentations des données d'entrée, généralement en les transformant ou en en extrayant des caractéristiques (par certains moyens) , ce qui facilite l'exécution d'une tâche telle que la classification ou la prédiction. Il existe différentes manières d'apprendre différentes représentations. Par exemple,
- dans le cas des modèles probabilistes, l'objectif est d'apprendre une représentation qui capture la distribution de probabilité des caractéristiques explicatives sous-jacentes de l'entrée observée. Une telle représentation apprise peut ensuite être utilisée pour la prédiction.
- dans l'apprentissage profond, les représentations sont formées par la composition de multiples transformations non linéaires des données d'entrée dans le but de produire des représentations abstraites et utiles pour des tâches telles que la classification, la prédiction, etc.
En se concentrant spécifiquement sur l'apprentissage en profondeur, l'apprentissage de la représentation est la conséquence de la fonction qu'un modèle apprend où l'apprentissage est capturé dans les paramètres du modèle, lorsque la fonction transforme l'entrée en sortie, pendant l'entraînement. L'apprentissage de la représentation fait ici référence à la nature / aux caractéristiques de l'entrée transformée - et non aux paramètres / fonctions du modèle qui en sont la cause. Le rôle occasionnel est joué à la fois par l'architecture du modèle et les paramètres appris (par exemple, un paramètre joue-t-il un rôle dans la représentation d'une partie ou de la totalité de l'entrée, etc.) dans le mappage de l'entrée sur la sortie.
Pourquoi c'est important?
- Les performances de tout modèle d'apprentissage automatique dépendent de manière critique des représentations qu'il apprend à produire. La représentation qu'il apprend à produire à son tour dépend directement du modèle et de ce qu'il est alimenté en entrée qui pourrait être des données brutes ou la sortie d'un modèle en amont (apprentissage par transfert) qui transforme les données d'entrée brutes.
- Par exemple, dans de nombreux modèles d'apprentissage en profondeur, on peut se demander pourquoi une simple couche linéaire est empilée sur un bloc complexe avec de nombreuses couches non linéaires de différents types. C'est généralement parce que le bloc complexe transforme l'entrée en une représentation riche qui ne nécessite alors qu'une simple couche linéaire pour effectuer une séparation spécifique à la tâche. Sans la transformation effectuée par le bloc complexe, il ne serait pas possible d'extraire les caractéristiques abstraites clés pour simplement les séparer linéairement. Le modèle actuel de pointe BERT en est un exemple concretpour les tâches PNL. Le modèle produit de riches représentations d'entrée qui peuvent être utilisées pour une variété de tâches NLP avec un réglage fin en utilisant très peu de données spécifiques à une tâche et pratiquement aucune architecture spécifique à une tâche.
- Comprendre les différents types de représentations, y compris ce qui fait qu'une représentation particulière convient à une tâche spécifique, aide les praticiens à bénéficier d'une vue large et cohérente des différentes architectures de modèles d'apprentissage en profondeur.
Qu'est-ce qui fait une bonne représentation?
Les a priori suivants (facteurs que l'on souhaite / supposer être présents) jouent un rôle clé dans la production d'une bonne représentation en apprenant une fonction f qui mappe l'entrée x à la représentation de sortie y . Les modèles peuvent implémenter un ou plusieurs de ces priors pour apprendre à produire des représentations adaptées à une tâche spécifique
- Lissage : C'est peut-être l'un des préalables les plus élémentaires de l'apprentissage automatique où l'on suppose que la fonction apprise f est lisse - ce qui signifie que de petits changements dans x entraînent de petits changements dans f (x). Ou de manière équivalente x ≈ y implique f (x) ≈ f (y).
- Les algorithmes d'apprentissage automatique qui reposent sur la fluidité de la fonction cible à apprendre nécessitent des exemples d'entraînement pour cartographier toutes les rides de la fonction cible. La généralisation est obtenue par interpolation locale entre des échantillons d'apprentissage voisins (souvent appelés estimateurs locaux pour cette raison).
- l'hypothèse de régularité ne fonctionne pas lorsque la fonction cible à apprendre est une fonction très variable. Autrement dit, il a beaucoup de rides (hauts et bas) qui peuvent croître de façon exponentielle avec le nombre de fonctionnalités en interaction - c'est souvent le cas lorsque les données sont représentées dans l'espace d'entrée brut. Cela nécessite alors un grand nombre d'échantillons d'apprentissage pour capturer toutes les rides (cela est souvent appelé la malédiction de la dimensionnalité)
- Cependant, les modèles qui font l'hypothèse de régularité peuvent être superposés aux modèles en utilisant des a priori plus génériques décrits ci-dessous.
- Les modèles qui font l'hypothèse de régularité associent des régions de l'espace d'entrée à leur propre ensemble privé de paramètres (par exemple, algorithmes de regroupement, arbres de décision, etc.). Les fonctionnalités apprises sont mutuellement exclusives. Ces modèles sont pour cette raison des apprenants de représentations one-hot (par exemple, les algorithmes de clustering produisent une représentation one-hot de l'entrée identifiant lequel d'un petit nombre de centroïdes représente le mieux l'entrée) .
- En résumé, les modèles (estimateurs locaux) qui font l'hypothèse de régularité sont des apprenants à représentation unique nécessitant des paramètres O (N) (et / ou des exemples O (N)) pour distinguer les régions d'entrée O (N).
- La représentation ponctuelle est souvent associée à la façon dont l'entrée est représentée. Nous examinons ici des modèles qui apprennent des représentations one-hot.
- Fonctionnalités explicatives multiples : la distribution des données d'entrée est générée par la combinaison de plusieurs fonctionnalités sous-jacentes et un modèle qui apprend à représenter de manière compacte l'entrée par une combinaison de ces fonctionnalités, pourrait potentiellement généraliser sans nécessiter autant d'exemples qu'il y a de variations dans la fonction sous-jacente f . Cette compacité ne peut être obtenue que si les caractéristiques sont réutilisées (obtenues par le partage de paramètres) dans des exemples qui ne se trouvent pas nécessairement dans un voisinage local ( ce qui est différent des estimateurs locaux avec l'hypothèse de régularité).
- Les modèles qui apprennent les représentations distribuées peuvent atteindre cette compacité. Par exemple, les modèles d'apprentissage en profondeur (nous examinerons la profondeur ci-dessous) apprennent des représentations distribuées de taille O (N) pour distinguer O (2) régions d'entrée où k = N dans une représentation densément distribuée et k <N dans une représentation faiblement distribuée (la condition aux limites est une représentation unique où une seule région est représentée) . Dans une représentation distribuée, un concept est représenté par k fonctionnalités activées et chaque fonctionnalité a participé à la représentation de nombreux concepts. Les représentations éparses sont des représentations distribuées où seules les entités k <N peuvent être modifiées à tout moment. Alors qu'une représentation distribuée dense et une représentation unique permettent une compositionnalité - le principal avantage des représentations distribuées, une représentation unique est celle où toutes les entités sont complètement dissociées les unes des autres - orthogonales les unes aux autres.
- Les algorithmes de clustering pourraient également générer des représentations distribuées dans le cas de la multiclustering où plusieurs regroupements sont effectués en parallèle - une entrée appartient à plusieurs clusters. Un autre exemple de généralisation du clustering à la représentation distribuée est si le clustering est effectué sur plusieurs régions de l'entrée, comme la reconnaissance d'objets à l'aide d'un histogramme de catégories groupées détectées dans différentes régions de l'entrée
- Un exemple concret d'un apprenant «non local» est le modèle word2vec - qui n'est même pas un modèle profond. Il apprend à représenter des mots avec des représentations distribuées où les mots qui ne sont jamais à proximité locale les uns des autres dans les données d'apprentissage, sont mappés près les uns des autres dans l'espace de sortie. Ces mots (qui n'étaient jamais à proximité les uns des autres dans l'espace d'entrée) mais qui sont proches les uns des autres dans l'espace de sortie ont tendance à être des mots sémantiquement similaires, ce qui rend ce modèle très utile.
- Le prix de cette compacité est la difficulté à les démêler. La compacité des représentations distribuées provient en partie de la capture de caractéristiques invariantes - qui, par définition, ont une sensibilité réduite dans le sens de l'invariance. Les fonctionnalités de démêlage nécessitent cependant d'éviter la perte d'informations. L'approche de l'apprentissage des représentations est donc un équilibre entre deux objectifs - démêler autant de caractéristiques que possible en sacrifiant le moins de données possible.
- Profondeur - une organisation hiérarchique des caractéristiques explicatives : Nous décrivons le monde en utilisant une hiérarchie de concepts, avec des concepts plus abstraits superposés à des concepts moins abstraits.
- De même, les modèles d'apprentissage en profondeur apprennent des fonctions qui transforment l'entrée en sortie à l'aide d'une composition de fonctions non linéaires empilées en couches, où la sortie des couches forme une hiérarchie de représentations distribuées avec des niveaux d'abstraction croissants au fur et à mesure que les entrées les traversent.
- En plus de générer des niveaux progressifs de représentations abstraites d'entités, les architectures d'apprentissage en profondeur permettent également la réutilisation des caractéristiques. Tout comme les entités sont réutilisées pour représenter différentes régions d'entrée dans une représentation distribuée, la profondeur permet la réutilisation des entités à travers les couches par les multiples chemins de circuit dans le graphe de calcul de l'entrée à la sortie via les nœuds dans les couches du réseau.
- Apprentissage semi-supervisé : Les représentations utiles lors de l'apprentissage de P (X) de manière non supervisée ont tendance à être utiles lors de l'apprentissage des représentations de P (Y / X). Des exemples récents de ceci sont des modèles entraînés sur une tâche de modélisation de langage non supervisée qui sont ensuite utilisés pour représenter l'entrée pour des tâches supervisées telles que la classification, le marquage de séquence, etc.
- Fonctionnalités partagées entre les tâches :Partage de la représentation apprise entre les tâches P (Y | X, tâche). L'apprentissage multi-tâches en est un exemple.
- Représentations multiple: Même si les données d'entrée pour les tâches d'IA telles que l'image, le texte, l'audio se trouvent dans un espace dimensionnel élevé (par exemple, une image en noir et blanc 28x28 a 784 degrés de libertéimages possibles) , la sortie échantillonnée le plus uniformément (par exempleimages possibles) ne seraient pas des images naturelles. L'idée de base de la variétél'hypothèse est qu'il existe une variété dimensionnelle inférieure dans laquelle ces images naturelles se trouvent réellement. Ainsi, la tâche d'apprentissage du modèle devient l'apprentissage des représentations de sortie qui mappent les images naturelles dans l'espace d'entrée de haute dimension à la variété de faible dimension. L'idée est que les petites variations des images naturelles (par exemple les rotations), etc. correspondent aux changements correspondants dans la représentation apprise (voir figure ci-dessus) dans la variété de faible dimension. PCA est un exemple d'algorithme de mappage de variétés où la variété est linéaire. Les auto-encodeurs s'inspirent de l'hypothèse de la variété et apprennent des représentations de dimension inférieure de données de grande dimension. Même si les auto-encodeurs sont connus pour effectuer une réduction de dimensionnalité, la vue multiple donne une compréhension plus approfondie de ce mappage.
- Regroupement naturel: Différentes valeurs de variables catégorielles telles que les classes d'objets (par exemple les chats, les chiens) ont tendance à être associées à des variétés séparées. Chaque variété est composée d'une représentation apprise d'une classe d'objets (disons chien, chat). Ainsi, se déplacer le long d'une variété tend à préserver la valeur d'une catégorie (par exemple les variations de chien lors du déplacement sur la variété «chien»). L'interpolation entre les classes d'objets nécessiterait de passer par une région de faible densité séparant les variétés. En substance, les variétés représentant des classes d'objets ont tendance à ne pas se chevaucher beaucoup. Ce facteur est exploité dans l'apprentissage automatique.
- Cohérence temporelle et spatiale :L'identification des caractéristiques se déplaçant / changeant lentement dans les données temporelles / spatiales pourrait être utilisée comme un moyen d'apprendre des représentations utiles. Même si différentes caractéristiques changent à différentes échelles spatiales et temporelles, les valeurs des variables catégorielles d'intérêt ont tendance à changer lentement. Cet a priori peut donc être utilisé comme un mécanisme pour forcer les représentations à changer lentement, pénalisant le changement des valeurs des variables catégorielles dans le temps ou dans l'espace. La cohérence temporelle a été utilisée pour modéliser la vidéo.
- La rareté: Pour une observation x donnée , seul un petit ensemble de caractéristiques possibles est pertinent. Cela pourrait être capturé dans la représentation par des entités qui sont souvent nulles ou par le fait que les entités extraites sont insensibles aux variations de x . Les auto-encodeurs clairsemés utilisent cet a priori sous la forme d'une régularisation de la représentation.
- Simplicité des dépendances des facteurs : Si une représentation est suffisamment abstraite, les caractéristiques peuvent être liées les unes aux autres par de simples dépendances linéaires. Cela peut être vu dans de nombreuses lois de la physique et c'est le préalable qui est supposé lors de l'empilement d'un simple prédicteur linéaire sur une représentation apprise qui est suffisamment riche et abstraite. Nous en voyons de nombreux exemples dans les modèles d'apprentissage profond - une simple couche linéaire giflée à la fin d'un modèle convolutif profond, ou l'exemple BERT mentionné précédemment.


0 Commentaires