Pour les data scientist #9

La créativité dans l’intelligence artificielle

Nov 27, 2020

Cette newsletter vous est envoyée par l’agence Predict Boost et les formations ML Academy. Pour tout sujet concernant vos données, vous pouvez prendre rendez vous via notre site internet.

Les détracteurs de l’intelligence artificielle y opposent souvent une vision de l’intelligence humaine. L’intelligence humaine dépasserait le simple raisonnement logique (aka problem-solving) et possèderait une capacité dite créative, souvent désignée par l’âme ou la conscience. C’est de cette capacité que proviendrait l’art et l’innovation.

Dans cette newsletter nous allons proposer un début de réflexion sur cette limitation, tout du moins poser la question d’un déterminisme quant au fonctionnement de notre cerveau : sommes-nous de simples machines algorithmiques composées de matière organique ou bien existe-t-il quelque chose qui dépasse ce que l’on pourrait réaliser avec nos machines ?

Pour pouvoir tout de même rester dans un cadre concret, nous allons essayer de passer rapidement sur les considérations conceptuelles relativement complexes sur le sujet. Une fois les bases posées, on explorera les différentes applications qui représentent les premiers balbutiements du domaine, mais n’en restent pas moins utiles.

Comment définit-on la créativité ?
Peut-on créer un modèle de créativité déterministe ?
Les premiers balbutiements et leurs applications pratiques.

Comment définir la créativité ?

Avant de modéliser un problème, il est nécessaire de définir de manière pratique ce que l’on entend par les notions étudiées, ici la créativité. La notion de créativité peut rapidement devenir un mot-valise dans lequel on fourre un peu tout ce qui a attrait à l’art ou l’innovation.

A nouveau, on pose ici un cadre utile pour pouvoir travailler. Mais ce n’est pas une définition qui se veut exhaustive.

En s’inspirant notamment du travail du Dr Margaret Boden, on décide de retenir trois facteurs pour définir un output créatif :

L’espace d’exploration (ou manifold) - quel est le domaine dont on parle? Quelles sont les règles qui en définissent les frontières? Les notes, le rythme et l’harmonie pour la musique par exemple.
L’aspect novateur - est-ce que l’output produit est considéré comme nouveau ?
Une métrique d’évaluation de la qualité relative à l’observateur - est-ce que l’oeuvre est appréciable ? est-ce que l’idée est innovante et utile ?

Dans ce cadre, une idée est jugée créative si elle est à la fois nouvelle et de qualité. Un premier type de créativité est “seulement” l’exploration du manifold. Donc générer une oeuvre ou une idée dans ce domaine, explorer les possibles. On l’appellera créativité de niveau 1.

Une seconde, plus complexe, serait de monter d’un niveau d’abstraction supplémentaire, et cette fois ci, proposer une innovation ou une oeuvre qui utilise un nouvel espace, ou bien redéfinit le domaine d’exploration. On l’appellera créativité de niveau 2.

Des exemples de domaines ainsi que leurs règles de départ les délimitant :

Un jeu de plateau et ses règles - jeu de go, jeu d’échec
La musique, avec les règles de mélodie - étendue par le Jazz par exemple pour la créativité de niveau 2, qui ajoute entre autre dans la définition de la musique un accord septième
La physique newtonienne- étendue par la physique quantique (innovation de rupture)

L’art se questionne sur lui-même et pousse les limites de ce dont il est capable perpétuellement c’est pourquoi il est difficile de s’arrêter sur un ensemble de règles initiales claires et on pourra par ailleurs s’arrêter sur le médium utilisé - la peinture et le tableau, la musique et les notes que l’on peut produire avec un instrument, etc.

Peut-on créer un modèle de créativité basé sur les techniques de machine learning ?

Si on reprend la définition assez explicite de l’apprentissage automatique par le Pr Tom Mitchell, c’est celle qui, étend donné une métrique d’évaluation prédéfinie, permet de s’améliorer par l’expérience sur une tâche spécifique.

En data science, on va ainsi définir des métriques (la vraisemblance en probabilité par exemple), une méthode d’amélioration (e.g. la descente de gradient) et l’expérience = le jeu de données.

Pour cela, on utilise la plupart du temps un modèle - par exemple un réseau de neurones. Ce modèle permet de compresser l’information apprise à travers les données afin de résoudre la tâche.

Dès lors qu’un espace peut être défini par des règles initiales - la musique est différente d’un bruit, un visage différent d’un autre type d’objet, etc. il convient de conclure que le manifold associé existe, et possède un ensemble de règles qui le définissent.

On a ainsi fréquemment observé les manifold associés à certains types d’observations afin de déterminer si le modèle avait bien intégré les règles implicites qui caractérisent cet espace. On compresse souvent cette représentation en features vectorielles de moindre dimension que l’expression finale de cet objet dans la réalité captée (cf ci dessus, un visage représenté par des milliers de pixels est réduit à un vecteur de deux dimensions).

Donc on retiendra les phases de fonctionnement du processus créatif ainsi défini :

Déterminer de manière implicite ou explicite l’espace dans lequel on se situe.
Trouver une manière d’explorer cet espace topologique.
Trouver une manière d’évaluer la qualité des observations.
Aller sur un niveau d’abstraction supplémentaire et donc explorer l’espace des espaces possibles, en trouvant de nouveaux axiomes pour créer ce nouvel espace et ensuite l’explorer à nouveau - la créativité de niveau 2.

Les premiers balbutiements et leurs applications pratiques

De manière assez grossière, on peut considérer que d’un point de vue cognitif, le machine learning a fait ses preuves en perception. En d’autres termes, capter et comprendre au degré 1 le monde qui l’entoure. Comprendre ici au sens de discriminer les éléments d’un domaine :

Un chat ou un chien, une catégorie ou une autre.

Après cette phase de perception, la seconde phase ou famille de méthodes, s’intéresse à la génération d’observations. Il convient de noter que les modèles génératifs possèdent déjà implicitement la capacité de discriminer les observations.

Dans ce cadre, on pense tout de suite aux résultats des GAN même si il en existe d’autres. Ces modèles génératifs représentent effectivement l’outil exploratoire nécessaire au niveau 1 de créativité : pouvoir générer une observation dans le domaine observé, sans qu’elle ait forcément existé (qu’elle soit nouvelle).

Maintenant, reste la question de la mesure et l’optimisation de la qualité de l’output.

Pour l’instant, nous n’avons pas trouvé forcément de modèle de machine learning qui explicitement cherche à optimiser une métrique de “qualité”, mis à part potentiellement en apprentissage par renforcement, avec la formulation de la reward.

Un des mouvements du modèle Alpha Go a d’ailleurs été considéré “créatif” au sens absolu par des observateurs, n’ayant jamais été vu auparavant tout en permettant de gagner la partie.

Comment créer une métrique de “qualité” d’oeuvre ou d’idée?

Dans l’art, on peut associer cette appréciation à un inconscient collectif, potentiellement culturel, parfois évolutionnaire qui permet d’apprécier la qualité d’une oeuvre :

choquante = en décalage avec le connu = le plus éloigné de ce que l’on observe, tout en restant dans les règles
appréciable = correspond à la fois aux règles d’harmonie du domaine mais appelle également les instincts primitifs générant des hormones du bonheur par exemple (dopamine,oxytocine,etc.) par exemple

Une idée serait donc de créer une fonction “qualité” qui contiendrait l’équivalent de ces hormones
- dopamine = surprise = différence entre la prédiction et la création
- adrénaline = évaluation du risque/danger associé
- oxytocine = fonction de “confort”/affection du sujet, etc.

Chacune de ces métriques pourrait se situer à l’instar de la fonction “réaliste” d’un GAN en adversaire du modèle génératif (bonne chance pour stabiliser ce modèle en revanche...).

Dans le cadre des innovations, on peut aussi définir des métriques d’innovation telle que la rentabilité, la faisabilité, la simplicité, la rapidité, etc.

On a ainsi : un modèle de perception qui comprend le monde + un modèle génératif qui explore ce monde + une métrique qui permet de diriger cette exploration.

En attendant ce type de modèle, qu’en est-t-il des applications actuelles?

En attendant, on peut considérer, à part quelques rares exceptions, qu’on est, en pratique, dans une phase de créativité augmentée, dans laquelle la machine propose des explorations, dont la qualité est alors jugée par un humain.

Des entreprises originellement à l’interface entre le digital software et la création possèdent d’intéressantes ouvertures sur ce type de travail - Adobe, NVidia, Apple en tête de ligne :

Adobe a sorti récemment dans Photoshop un ensemble de fonctionnalités pour transformer les images sur des facteurs difficiles à expliciter.

Une démo également du futur de ce type d’applications, chez NVidia

Il existe énormément de démos d’exploration de sous-domaines d’images : le style transfert pour explorer un espace d’un style spécifique, la génération de pose ou de visages, la génération d’un type d’objet, etc.

Les modèles génératifs de musique telles que Wavenet de Deepmind ou musenet de OpenAI
Persado crée des textes de publicités automatiquement pour optimiser le clic through rate

Pour vos propres expérimentations, la librairie Magenta de Tensorflow permet d’explorer un certain nombre de ces possibilités de manière assez accessible.

C’est tout pour cette semaine. Si vous avez des questions ou remarques, n’hésitez pas à répondre directement à cet email.

ML Academy Newsletter

Ready for more?