Tout d’abord, le terme "intelligence artificielle" ou "IA" a été inventé à la conférence de Dartmouth en 1956. La définition la plus générale est le test de Turing, proposée pour la première fois en 1950, selon lequel une machine peut communiquer en langage naturel via un téléscripteur trompe une personne en lui faisant croire qu'il s'agit d'un être humain. "AGI" ou "intelligence générale artificielle", étend cette idée en exigeant des machines qu'elles fassent tout ce que les humains peuvent faire : comprendre les images, naviguer dans un robot, reconnaître les expressions faciales, y répondre adéquatement, distinguer les genres musicaux…etc  

Selon John McCarthy, il s'agit de «la science et l'ingénierie de la fabrication de machines intelligentes, en particulier de programmes informatiques intelligents».

Qu'est ce que l'apprentissage automatique ?

L'apprentissage automatique est un sous-ensemble de l'intelligence artificielle qui offre aux ordinateurs la possibilité d'apprendre sans être explicitement programmé. En apprentissage machine, il n'est pas nécessaire de définir explicitement toutes les étapes ou conditions comme n'importe quelle autre application de programmation. Au contraire, la machine est formée à un jeu de données d'apprentissage suffisamment grand pour créer un modèle, ce qui permet à la machine de prendre des décisions en fonction de son apprentissage.
L'apprentissage automatique est divisé en trois catégories principales :

1. Apprentissage supervisé 

Dans ce paramètre, nous fournissons à un modèle un ensemble de données de formation composé des données et des libellés réels. À partir de ces données, un modèle est appris. Évidemment ici, plus les données sont nombreuses, plus le modèle fonctionnera mieux avec des exemples inconnus. Les facteurs clés ici sont que le modèle devrait généraliser à des exemples invisibles. La classification, la régression et le classement relèvent de ce paradigme d'apprentissage.

2. Apprentissage non supervisé 

Dans ce paramètre, le modèle organise
automatiquement les données sans aucun exemple étiqueté. Les exemples de ceci incluent le clustering de données, la synthèse, etc. Les données sont organisées en fonction de la similarité des éléments de données.

3. Apprentissage semi-supervisé 

Il s'agit d'un hybride entre non supervisé et supervisé, dans lequel certaines des données sont étiquetées, alors qu'un grand groupe de données est en réalité non étiqueté. Les algorithmes prennent ici la totalité des données étiquetées et utilisent intelligemment les données non étiquetées pour améliorer les performances du modèle.

4. Apprentissage en ligne / apprentissage actif 

Dans ce paradigme, les algorithmes ne cessent de s’améliorer en utilisant le retour d’information d’un être humain dans la boucle.  

Qu'est-ce que l'apprentissage en profondeur ?

L'apprentissage en profondeur est l'une des seules méthodes permettant de surmonter les défis de l'extraction de caractéristiques. Cela s'explique par le fait que les modèles d'apprentissage en profondeur sont capables d'apprendre à se concentrer sur les fonctionnalités appropriées par eux-mêmes, nécessitant peu de conseils de la part du programmeur. Fondamentalement, l’apprentissage en profondeur imite le fonctionnement de notre cerveau, c’est-à-dire qu’il apprend par expérience. Comme nous le savons, notre cerveau est constitué de milliards de neurones qui nous permettent de faire des choses incroyables. Même le cerveau d'un enfant d'un an peut résoudre des problèmes complexes qu'il est très difficile de résoudre même en utilisant des super-ordinateurs. Par exemple :
• Reconnaisse le visage de leurs parents et de différents objets.
• Discriminer différentes voix et peut même reconnaître une personne en fonction de sa
voix.
• Tirer des déductions à partir des gestes du visage d'autres personnes et de beaucoup d'autres. 

Il y a trop d'architectures assemblant des réseaux de neurones pour les énumérer toutes ici, mais il peut être utile de lister leur bloc constitutif (dont certaines ne sont pas profondes en elles mêmes, mais peuvent être empilées pour former des réseaux profonds.)

Ce sont les réseaux les plus élémentaires et transmettent les entrées pour créer une sortie. Ils se composent d'une couche d'entrée et d'une couche de sortie et de nombreuses couches et neurones cachés interconnectés entre les couches d'entrée et de sortie. Ils utilisent généralement une fonction d’activation non linéaire telle que Relu ou Tanh et calculent les pertes (la différence entre la sortie réelle et la sortie calculée) telles que l’erreur moyenne carrée (MSE), Logloss. Cette perte est propagée en arrière pour ajuster les poids et la formation pour minimiser les pertes ou rendre les modèles plus précis. 
Ce réseau est généralement la phase de démarrage de la construction d’autres réseaux plus sophistiqués et peut être utilisé pour tout problème de régression supervisée ou de classification tel que la prévision des ventes, des défaillances, la probabilité de réponse, etc 

Réseau de neurones de convolution (CNN)

Les réseaux de neurones à convolution (CNN) améliorent de manière significative les
capacités du réseau à réaction, tels que MLP, en insérant des couches de convolution. Ils conviennent particulièrement à l'analyse de données spatiales, à la reconnaissance d'objets et à l'analyse d'images à l'aide de structures neuronales multidimensionnelles. L'une des principales raisons de la popularité de l'apprentissage en profondeur ces derniers temps est due aux
CNN. Certains des usages courants de CNN autour de nous sont les voitures autonomes, les drones, la vision par ordinateur, l'analyse de texte…etc. 

Réseau neuronal récurrent (RNN)

Les RNN constituent également un réseau à feed back, avec toutefois des boucles de mémoire récurrentes qui prennent en entrée les couches et les états précédents et / ou identiques. Cela leur donne une possibilité unique de modéliser la dimension temporelle et une séquence arbitraire d'événements et d'entrées. L'un des types les plus courants de modèle RNN
est le réseau LSTM (Long Short Term Memory)