L'apprentissage par renforcement (machine) est-il surestimé ?

Imaginez que vous êtes sur le point de vous asseoir pour jouer à un jeu avec un ami. Mais ce n'est pas n'importe quel ami, c'est un programme informatique qui ne connaît pas les règles du jeu. Cependant, il comprend qu'il a un objectif, et cet objectif est de gagner.
Parce que cet ami ne connaît pas les règles, il commence par faire des mouvements aléatoires. Certains d'entre eux n'ont absolument aucun sens, et gagner pour vous est facile. Mais disons simplement que vous aimez tellement jouer avec cet ami que vous décidez de consacrer le reste de votre vie (et des vies futures si vous croyez en cette idée) à jouer exclusivement à ce jeu.
L'ami numérique finira par gagner car il apprend progressivement les coups gagnants nécessaires pour vous battre. Ce scénario peut sembler tiré par les cheveux, mais il devrait vous donner une idée de base du fonctionnement de l'apprentissage par renforcement (RL) - un domaine de l'apprentissage automatique (ML) -.
À quel point l'apprentissage par renforcement est-il intelligent ?
L'intelligence humaine englobe de nombreuses caractéristiques, notamment l'acquisition de connaissances, le désir d'élargir les capacités intellectuelles et la pensée intuitive. Notre capacité d'intelligence, cependant, a été largement remise en question lorsque Garry Kasparov, un champion d'échecs, a perdu contre un ordinateur IBM nommé Deep Blue. En plus de capter l'attention du public, des scénarios apocalyptiques illustrant un monde où les robots gouvernent les humains se sont emparés de la conscience dominante.
Deep Blue, cependant, n'était pas un adversaire moyen. Jouer avec ce programme est analogue à un match avec un humain millénaire qui a consacré toute sa vie à jouer aux échecs en continu. En conséquence, Deep Blue était habile à jouer à un jeu spécifique - pas à d'autres activités intellectuelles comme jouer d'un instrument, écrire un livre, mener une expérience scientifique, élever un enfant ou réparer une voiture.
Je n'essaie en aucun cas de minimiser l'importance de la création de Deep Blue. Au lieu de cela, je suggère simplement que l'idée que les ordinateurs peuvent nous surpasser en capacités intellectuelles nécessite un examen attentif, en commençant par une ventilation de la mécanique RL.
Comment fonctionne l'apprentissage par renforcement
Comme mentionné précédemment, RL est un sous-ensemble de ML concerné par la façon dont les agents intelligents doivent agir dans
un environnement pour maximiser la notion de récompense cumulative.
En clair, les agents robots RL sont formés sur un mécanisme de récompense et de punition où ils sont récompensés pour les mouvements corrects et punis pour les mauvais. Les robots RL ne "réfléchissent" pas aux meilleures actions à faire - ils font juste tous les mouvements possibles afin de maximiser les chances de succès.
Inconvénients de l'apprentissage par renforcement
Le principal inconvénient de l'apprentissage par renforcement est la quantité exorbitante de ressources dont il a besoin pour atteindre son objectif. Ceci est illustré par le succès de RL dans un autre jeu appelé GO - un jeu populaire à 2 joueurs où le but est d'utiliser des pièces de jeu (appelées pierres) pour maximiser le territoire sur un plateau tout en évitant la perte de pierres.
AlphaGo Master, un programme informatique qui a vaincu les joueurs humains dans Go, a nécessité un investissement massif qui comprenait de nombreux ingénieurs, des milliers d'années d'expérience de jeu et un étonnant 256 GPU et 128,000 XNUMX cœurs de processeur. C'est beaucoup d'énergie à utiliser pour apprendre à gagner un match. Cela pose alors la question de savoir s'il est rationnel de concevoir AI qui ne peut pas penser intuitivement. La recherche sur l'IA ne devrait-elle pas tenter d'imiter l'intelligence humaine ? Un argument en faveur de RL est que nous ne devrions pas nous attendre à ce que les agents de l'IA se comportent comme des humains, et son utilisation pour résoudre des problèmes complexes justifie un développement ultérieur. D'un autre côté, un argument contre RL est que la recherche sur l'IA devrait se concentrer sur la capacité des machines à faire des choses que seuls les humains et les animaux sont actuellement capables de faire. Vu sous cet angle, la comparaison de l'IA avec l'intelligence humaine est appropriée.
Apprentissage par renforcement quantique
Il existe un domaine émergent de l'apprentissage par renforcement qui résout soi-disant certains des
les problèmes décrits ci-dessus. L'apprentissage par renforcement quantique (QRL) a été étudié comme un moyen d'accélérer les calculs.
Principalement, QRL devrait accélérer l'apprentissage en optimisant les phases d'exploration (trouver des stratégies) et d'exploitation (choisir la meilleure stratégie). Certaines des applications actuelles et des calculs quantiques proposés améliorent la recherche dans les bases de données, en factorisant de grands nombres en nombres premiers, et bien plus encore. Bien que QRL ne soit toujours pas arrivé de manière révolutionnaire, on s'attend à ce qu'il puisse résoudre certains des grands défis de l'apprentissage par renforcement régulier.
Analyses de rentabilisation pour RL
Comme je l'ai déjà mentionné, je ne veux en aucun cas minimiser l'importance de la recherche et du développement de RL. En fait, chez Oxylabs, nous avons travaillé sur des modèles RL qui optimiseront l'allocation des ressources de web scraping.
Cela dit, voici juste un échantillon de certaines utilisations réelles de RL dérivées d'un rapport McKinsey mettant en évidence les cas d'utilisation actuels dans un large éventail d'industries :
- Optimisation de la conception du silicium et des puces, optimisation des processus de fabrication et amélioration des rendements pour l'industrie des semi-conducteurs
- Augmenter les rendements, optimiser la logistique pour réduire les déchets et les coûts, et améliorer les marges de l'agriculture
- Réduction du délai de mise sur le marché de nouveaux systèmes dans les secteurs de l'aérospatiale et de la défense
- Optimiser les processus de conception et augmenter les rendements de fabrication pour les industries automobiles
- Augmenter les revenus grâce à des stratégies de négociation et de tarification en temps réel, améliorer l'expérience client et offrir une personnalisation avancée aux clients des services financiers
- Optimiser la conception de la mine, gérer la production d'électricité et appliquer une planification logistique globale pour optimiser les opérations, réduire les coûts et augmenter les rendements dans l'exploitation minière
- Augmenter les rendements grâce à la surveillance en temps réel et au forage de précision, optimiser le routage des pétroliers et permettre une maintenance prédictive pour éviter les pannes et les pannes d'équipement dans l'industrie pétrolière et gazière
- Faciliter la découverte de médicaments, optimiser les processus de recherche, automatiser la production et optimiser les méthodes biologiques pour l'industrie pharmaceutique
- Optimisation des chaînes d'approvisionnement, mise en œuvre d'une modélisation avancée des stocks et fourniture de personnalisations avancées pour les clients du secteur de la vente au détail
- Optimiser et gérer les réseaux et appliquer la personnalisation client dans l'industrie des télécommunications
- Optimisation du routage, de la planification du réseau, des opérations d'entrepôt dans le transport et la logistique
- Extraction de données à partir de sites Web à l'aide de proxys de nouvelle génération
Repenser l'apprentissage par renforcement
L'apprentissage par renforcement peut être limité, mais il n'est guère surestimé. De plus, à mesure que la recherche et le développement dans le RL augmentent, les cas d'utilisation potentiels augmentent également dans presque tous les secteurs de l'économie. L'adoption à grande échelle dépend de plusieurs facteurs, notamment l'optimisation de la conception des algorithmes, la configuration des environnements d'apprentissage et la disponibilité de la puissance de calcul.