Tout
d’abord, le terme "intelligence artificielle" ou "IA" a été
inventé à la conférence de Dartmouth en 1956. La définition la plus générale
est le test de Turing, proposée pour la première fois en 1950, selon lequel une
machine peut communiquer en langage naturel via un téléscripteur trompe une personne
en lui faisant croire qu'il s'agit d'un être humain. "AGI" ou "intelligence
générale artificielle", étend cette idée en exigeant des machines qu'elles
fassent tout ce que les humains peuvent faire : comprendre les images, naviguer
dans un robot, reconnaître les expressions faciales, y répondre adéquatement,
distinguer les genres musicaux…etc
Selon John McCarthy,
il s'agit de «la science et l'ingénierie de la fabrication de
machines intelligentes, en particulier de programmes informatiques
intelligents».
Qu'est ce que l'apprentissage automatique ?
L'apprentissage automatique est un sous-ensemble de
l'intelligence artificielle qui offre aux ordinateurs
la possibilité d'apprendre sans être explicitement programmé. En apprentissage
machine, il n'est pas nécessaire de définir
explicitement toutes les étapes ou conditions comme n'importe quelle autre application de programmation. Au
contraire, la machine est formée à un jeu de
données d'apprentissage suffisamment grand pour créer un modèle, ce qui permet
à la machine de prendre des décisions en fonction
de son apprentissage.
L'apprentissage automatique est divisé en trois
catégories principales :
1. Apprentissage supervisé
Dans ce paramètre, nous
fournissons à un modèle un ensemble de données de
formation composé des données et des libellés réels. À partir de ces données, un modèle est appris. Évidemment ici, plus les
données sont nombreuses, plus le modèle
fonctionnera mieux avec des exemples inconnus. Les facteurs clés ici sont que le modèle devrait généraliser à des
exemples invisibles. La classification, la
régression et le classement relèvent de ce paradigme d'apprentissage.
2. Apprentissage non supervisé
Dans ce paramètre, le
modèle organise
automatiquement les données sans aucun exemple étiqueté.
Les exemples de ceci incluent le clustering de
données, la synthèse, etc. Les données sont organisées en fonction de la similarité des éléments de données.
3. Apprentissage semi-supervisé
Il s'agit d'un hybride
entre non supervisé et supervisé, dans lequel
certaines des données sont étiquetées, alors qu'un grand groupe de données
est en réalité non étiqueté. Les algorithmes prennent
ici la totalité des données étiquetées et
utilisent intelligemment les données non étiquetées pour améliorer les performances du modèle.
4. Apprentissage en ligne / apprentissage actif
Dans
ce paradigme, les algorithmes ne cessent de
s’améliorer en utilisant le retour d’information d’un être humain dans la
boucle.
Qu'est-ce que l'apprentissage en
profondeur ?
L'apprentissage en profondeur est l'une des seules
méthodes permettant de surmonter les défis de
l'extraction de caractéristiques. Cela s'explique par le fait que les modèles
d'apprentissage en profondeur sont capables d'apprendre
à se concentrer sur les fonctionnalités appropriées
par eux-mêmes, nécessitant peu de conseils de la part du programmeur. Fondamentalement, l’apprentissage en profondeur
imite le fonctionnement de notre cerveau,
c’est-à-dire qu’il apprend par expérience. Comme nous le savons, notre cerveau
est constitué de milliards de neurones qui nous permettent
de faire des choses incroyables. Même le cerveau
d'un enfant d'un an peut résoudre des problèmes complexes qu'il est très difficile de résoudre même en utilisant des
super-ordinateurs. Par exemple :
• Reconnaisse le
visage de leurs parents et de différents objets.
• Discriminer
différentes voix et peut même reconnaître une personne en fonction de sa
voix.
• Tirer des
déductions à partir des gestes du visage d'autres personnes et de beaucoup
d'autres.
Il y a trop d'architectures assemblant des réseaux de
neurones pour les énumérer toutes ici, mais il
peut être utile de lister leur bloc constitutif (dont certaines ne sont pas
profondes en elles mêmes, mais peuvent être empilées pour former des réseaux profonds.)
Ce sont les réseaux les plus élémentaires et
transmettent les entrées pour créer une sortie. Ils se composent d'une couche d'entrée et d'une couche de sortie
et de nombreuses couches et neurones cachés
interconnectés entre les couches d'entrée et de sortie. Ils utilisent
généralement une fonction d’activation non
linéaire telle que Relu ou Tanh et calculent les pertes (la différence entre la sortie réelle et la sortie calculée) telles que
l’erreur moyenne carrée (MSE), Logloss. Cette perte est propagée en arrière pour ajuster les poids
et la formation pour minimiser les pertes ou
rendre les modèles plus précis.
Ce réseau est généralement la phase de démarrage de la
construction d’autres réseaux plus sophistiqués
et peut être utilisé pour tout problème de régression supervisée ou de
classification tel que la prévision des ventes,
des défaillances, la probabilité de réponse, etc
Réseau de neurones de
convolution (CNN)
Les
réseaux de neurones à convolution (CNN) améliorent de manière significative les
capacités du réseau à réaction, tels que MLP, en
insérant des couches de convolution. Ils conviennent
particulièrement à l'analyse de données spatiales, à la reconnaissance d'objets
et à l'analyse d'images à l'aide de structures
neuronales multidimensionnelles. L'une des principales raisons de la popularité de l'apprentissage en profondeur ces
derniers temps est due aux
CNN. Certains des usages courants de CNN autour de nous
sont les voitures autonomes, les drones, la
vision par ordinateur, l'analyse de texte…etc.
Réseau
neuronal récurrent (RNN)
Les RNN constituent également
un réseau à feed back, avec toutefois des boucles
de mémoire récurrentes qui prennent
en entrée les couches et les états précédents et / ou identiques. Cela leur donne une possibilité unique de
modéliser la dimension temporelle et une séquence
arbitraire d'événements et d'entrées. L'un des types les plus courants de
modèle RNN
est le réseau LSTM (Long Short Term Memory)
0 Commentaires