Le biais de la PNL et son impact sur l'IA

Une image de , News, Le biais de la PNL et son impact sur l'IA

Le traitement du langage naturel (NLP) peut être divisé en deux grands domaines : la compréhension du langage naturel (NLU) et la génération du langage naturel (NLG). La NLU s'intéresse à l'utilisation d'ordinateurs pour comprendre les relations sémantiques entre les mots dans les textes en langage naturel, tandis que la NLG s'intéresse à la génération de textes qui imitent la complexité sémantique des textes en langage naturel.

Ces outils peuvent être appliqués à divers problèmes commerciaux réels, tels que la classification et la synthèse de documents, l'extraction d'entités nommées, la traduction automatique, la vérification des faits et la réponse aux questions. Ils peuvent contribuer à accroître l'efficacité en réduisant le temps de recherche et l'efficacité en améliorant la pertinence. La PNL peut être un moyen très efficace d'utiliser des ordinateurs pour résoudre des problèmes qui, traditionnellement, ne pouvaient être traités que par des humains.

Logiciel de PNL et de reconnaissance vocale

La PNL peut même aider avec la reconnaissance automatique de la parole (ASR). Étant donné que l'ASR vise à traiter le langage naturel, il peut également être compris comme faisant partie de la catégorie NLP qui combine NLU (compréhension d'énoncés) et NLG (génération d'une sortie en langage naturel comme transcription d'une entrée parlée).

Si une distinction explicite doit être faite, alors la PNL peut aider à améliorer la précision du modèle acoustique d'un système ASR. Dans ce cas, un modèle de langage (ML) peut être utilisé pour estimer la probabilité d'une syllabe ou d'une séquence de mots particulière. Cela peut aider, par exemple, à distinguer les homophones, c'est-à-dire les mots qui se prononcent de la même façon mais qui ont un sens différent.

Les LM modernes peuvent utiliser les mots de contexte pour estimer les probabilités globales. Cependant, des publications récentes montrent que les systèmes ASR les plus précis traitent le problème de bout en bout, c'est-à-dire que le modèle acoustique est étroitement lié au LM et au modèle de génération de la parole. Cela rend de plus en plus difficile de distinguer l'ASR de la PNL.

Problèmes de biais dans la PNL et la reconnaissance vocale

Mais il existe des cas de biais se produisant dans la PNL et l'ASR qui ont le potentiel de faire dérailler l'utilisation de ces technologies. La mise en œuvre de l'IA avec l'apprentissage automatique (ML) moderne implique deux composants principaux : un modèle ML avec une architecture spécifique et un ensemble de données qui modélise une ou plusieurs tâches spécifiques. Ces deux parties peuvent introduire des biais.

La nature de la boîte noire des modèles ML peut rendre difficile l'explication des décisions prises par les modèles. De plus, les modèles peuvent surajuster les ensembles de données ou devenir trop confiants et ne pas bien généraliser à des exemples invisibles. Cependant, dans la majorité des cas, l'ensemble de données utilisé pour la formation et l'évaluation est à l'origine de l'introduction de biais.

Un ensemble de données peut contenir des informations intrinsèquement biaisées, telles qu'un nombre déséquilibré d'entités. Les ensembles de données qui ont été annotés manuellement par des annotateurs humains sont particulièrement sujets aux biais, même si les annotateurs ont été très soigneusement sélectionnés et ont des antécédents divers. De grands corpus obtenus de manière non supervisée sur le World Wide Web présentent toujours des biais, par exemple en raison de différences de disponibilité d'Internet dans le monde ou de différences dans la fréquence des locuteurs de certaines langues.

Les implications du biais PNL

L'inconvénient est que les populations sous-représentées dans des ensembles de données particuliers sont, au mieux, incapables d'utiliser un système d'IA pour les aider à résoudre la tâche souhaitée et, au pire, discriminées en raison de la façon dont l'IA prédit les résultats.

La discrimination basée sur l'injustice d'un modèle artificiel devient un problème sérieux une fois que les systèmes d'IA sont utilisés pour prendre automatiquement des décisions potentiellement importantes et avec une surveillance humaine limitée. De plus, ces problèmes entravent également le progrès et l'acceptation de l'IA en raison de la méfiance justifiée qui est générée. Par conséquent, ces technologies sont plus efficaces lorsqu'elles sont utilisées pour augmenter, plutôt que pour remplacer, l'apport et l'expertise humains.

Surmonter et réguler les biais dans la technologie PNL

Malheureusement, il n'y a pas de solution miracle pour résoudre le problème de biais dans le NLP, le ML ou l'IA en général. Au lieu de cela, un élément important est la sensibilisation au problème et un engagement continu à développer des solutions d'IA qui améliorent l'équité.

Techniquement, il existe une variété de théories et de méthodes qui sont activement recherchées et développées pour améliorer l'équité et l'explicabilité. Celles-ci incluent, mais sans s'y limiter, la mesure et la réduction des biais dans les ensembles de données, les principes d'une formation équilibrée des modèles, les stratégies de gestion de l'incertitude inhérente lors de l'inférence et la surveillance continue de la prise de décision par l'IA.

Le rôle de l'éthique

Le domaine récent de l'éthique en IA joue également un rôle dans la lutte contre les biais de la PNL. Le défi est que l'IA est encore un domaine de recherche et d'application relativement jeune et en évolution rapide. Bien qu'il existe depuis de nombreuses années, ce n'est que récemment que le déploiement s'est généralisé. Nous n'avons pas encore atteint le plateau de stabilité, qui est nécessaire pour formuler et codifier les comportements et les normes, garantissant des règles du jeu équitables.

L'approche de Squirro à cet égard est triple, et pourrait aller très loin si elle est suivie par l'ensemble de l'industrie : A) une sensibilisation continue en interne et avec les clients et les prospects autour de la question des biais dans la modélisation de l'IA et la prise de décision assistée par l'IA. B) appeler et contribuer aux groupes de travail de l'industrie et du gouvernement établissant le cadre réglementaire pour exploiter l'IA de manière responsable et C) mettre en œuvre - pas seulement en discuter - A & B.

Le NLP est une technologie percutante, avec une variété de cas d'utilisation qui aident les entreprises à être plus efficientes et efficaces. Il est si utile que l'industrie ne peut pas se permettre de laisser son utilisation être affectée négativement par des problèmes de biais. Ces technologies fonctionnent plus efficacement lorsqu'elles sont utilisées pour augmenter l'apport humain et l'intelligence, et non pour les remplacer. En plus de ce qui précède, la lutte contre les biais nécessite une concentration et un engagement à l'échelle de l'industrie pour atténuer son impact négatif.

Une image de , News, Le biais de la PNL et son impact sur l'IA

Thomas Diggelmann

Thomas Diggelmann est ingénieur en apprentissage automatique au sein de la société d'intelligence augmentée Squirro, qui travaille avec des organisations du monde entier pour extraire des informations significatives et exploitables à partir des données qu'elles détiennent.

La crise du coût de la vie.

Salle de presse OTC • 29 juin 2022

Ce que les fournisseurs de services de communication peuvent faire pour aider leurs clients à faire face à la crise du coût de la vie. Nous connaissons tous les slogans marketing rugissants de nos fournisseurs de services de communication britanniques : « ensemble, nous pouvons », « L'avenir est radieux », « Tout dépend de vous »… mais malheureusement, ceux-ci ne semblent plus vrais pour le millions de consommateurs...