L'avenir du Big Data, c'est le Small Data

TABLE DES MATIÈRES

Étape 1. Le titre de l'étape apparaît ici comme prévu.

Imaginez que vous souhaitiez créer un logiciel pour effectuer une tâche. Il existe deux méthodes principales et une méthode intermédiaire.

La méthode du code

La première méthode consiste à programmer le logiciel pour qu'il effectue la tâche, ce que j'appellerai la "méthode du code". Dans ce cas, vous connaissez toutes les interactions qui peuvent se produire et vous les anticipez dans votre programme. L'exemple le plus élémentaire est la séquence "Si alors", dans laquelle vous dites à l'ordinateur, si ceci se produit, alors faites ceci. Par exemple, si l'on clique sur ce bouton, il faut afficher cet écran.

La méthode du code n'utilise aucune donnée et n'implique aucune formation. La séquence programmée se produit de manière déterministe, quelles que soient les données. Pour être clair, les programmes peuvent être créés à l'aide de la méthode du code, écrits avec du code réel ou à l'aide d'outils visuels ou similaires.

La méthode du train

La deuxième méthode consiste à entraîner le logiciel à effectuer la tâche à l'aide des big data, ce que j'appellerai la "méthode d'entraînement". Dans ce cas, vous écrivez un algorithme, tel qu'un réseau neuronal, pour permettre au logiciel d'être formé sur les données. Vous libérez ensuite le logiciel sur les données et l'ordinateur apprend, par le biais d'une boucle de rétroaction, comment effectuer la tâche. Par exemple, vous pouvez apprendre au logiciel à reconnaître les chats en l'entraînant sur des photos de chats.

La méthode de formation est, bien sûr, l'essence même de l'intelligence artificielle. Elle est connue sous le nom d'approche "big data", car plus il y a de données d'entraînement de haute qualité disponibles, meilleur sera le résultat. Un minimum de données de formation est nécessaire pour obtenir des résultats raisonnables.

Dans sa forme la plus pure, la méthode de formation peut utiliser des données non structurées et l'apprentissage lui-même se fait de manière non supervisée. Cela signifie que les humains n'aident pas du tout le logiciel à se former.

L'algorithme apprendra à partir du contexte implicite (et non de l'étiquetage explicite) si une photo donnée représente un chat ou non. Par exemple, les utilisateurs ordinaires d'une plateforme peuvent, de manière ad hoc et spontanée, ajouter le mot "chat" dans la description de leur photo, le mot "chat" peut figurer dans l'article dans lequel la photo apparaît, ou s'il s'agit d'une vidéo, les gens peuvent dire le mot "chat" lorsque le chat apparaît. Toutes ces données d'utilisateurs sont bien sûr totalement non structurées (ce qui signifie désordonnées), et l'algorithme devra déterminer ce qu'est un chat à partir de ces données désordonnées.

Bien entendu, le fait qu'un algorithme ne soit pas supervisé présente potentiellement de grands avantages. Cela signifie potentiellement qu'une quantité énorme d'efforts sera économisée de la part des humains en termes d'étiquetage et de catégorisation des données. Il n'est pas trivial (ni stimulant d'ailleurs) d'étiqueter avec précision cent mille photos de chats.

Les problèmes

L'un des principaux problèmes de la méthode de formation non structurée est qu'elle nécessite beaucoup plus de données. Si les données ne sont pas disponibles, il n'est pas possible de les former de cette manière. Les approches supervisées nécessitent également beaucoup de données et souffrent donc du même problème.

C'est, bien sûr, la raison pour laquelle les gens cherchent des occasions d'appliquer l'IA plutôt que d'appliquer l'IA à tout. Les algorithmes d'IA fonctionnent mieux lorsqu'il y a beaucoup de données disponibles pour l'entraînement (ou lorsqu'ils peuvent générer beaucoup de données - dans le cas des jeux).

Un autre problème de l'approche non structurée et non supervisée est qu'il est beaucoup plus difficile d'écrire et de tester l'algorithme sur les données disponibles. L'algorithme doit être plus sophistiqué pour traiter des données non structurées qu'il ne le serait si les données étaient claires et catégorisées.

Une approche supervisée ajoute une intentionnalité humaine au processus en termes de catégorisation des données, mais il s'agit toujours d'une méthode de formation, d'une approche big data. Les humains qui comprennent les algorithmes peuvent étiqueter les données et, ce faisant, réduire le travail de l'algorithme.

La méthode des petites données

Il existe une méthode qui est un mélange entre les méthodes de code et de formation que j'appellerai la "méthode des petites données". Il s'agit de l'approche des petites données à laquelle j'ai fait allusion dans le titre. Il est possible de combiner les techniques de codage et d'entraînement pour réduire massivement la quantité de données nécessaires à l'entraînement d'un algorithme.

Pour la méthode des petites données, un développeur codifie un modèle d'interactions, mais ce modèle est ensuite entraîné sur un ensemble de données beaucoup plus petit que celui qui serait nécessaire pour l'approche des grandes données. Le modèle est ainsi formé beaucoup plus rapidement qu'il ne le serait avec la méthode "pure train".

Bien entendu, cette approche fondée sur les petites données serait judicieuse si le temps nécessaire à l'élaboration du modèle et à l'entraînement des données était nettement inférieur au temps nécessaire à la collecte des données et à l'entraînement de l'algorithme.

Il existe des scénarios dans lesquels la solution des petites données nous permettrait de faire des choses qui ne sont pas réalisables à l'heure actuelle. La méthode des petites données est la seule méthode disponible si les données requises pour la méthode de formation n'existent pas en premier lieu. Dans ce cas, l'algorithme doit être formé sur des données créées manuellement. Il n'est normalement pas pratique de créer des dizaines de milliers d'enregistrements à la main.

L'approche des petites données fait actuellement l'objet de recherches de la part d'entreprises d'IA telles que botpress.io, et je m'attends à ce qu'elle devienne une technique courante dans les années à venir.

Partager ce message sur :

Créez gratuitement votre propre chatbot d'IA personnalisé

Commencez à créer un robot GPT personnalisé grâce à notre interface intuitive de type "glisser-déposer".

Commencez - c'est gratuit ! 🤖

Aucune carte de crédit n'est requise

Restez au courant des dernières nouveautés en matière d'IA chatbots

L'avenir des Big Data, ce sont les Small Data

La méthode du code

La méthode du train

Les problèmes

La méthode des petites données

Articles connexes

Comment ajouter des flux de travail avancés à votre assistant OpenAI sur Botpress

Comment optimiser le coût des dépenses d'IA en Botpress

Comment un Chatbot peut augmenter la génération de leads et booster les ventes de votre entreprise

Mieux construire avec Botpress