J’ai entendu, voire même écouté, comme nombre d’entre vous, certains "produits" de l’Intelligence Artificielle en termes de musique, qui ont été fort médiatisés ces derniers temps.
Je veux parler bien sûr de ces reprises, par la voix de Michael Jackson, de The Weeknd, pas forcément réalistes à mon sens, ou, plus bluffante, de celle de "Tu ne sauras jamais" des BB, ou encore de la cover de "Thriller" par le défunt Freddie Mercury…
Il y a dans ces manipulations technologiques beaucoup de curiosité, et c’est normal, puisqu’on n'en est qu’aux balbutiements. On aime être surpris, on aime rêver à des débouchés extraordinaires ou, à l’inverse, on aime se faire peur. Quant aux médias, plus que de faire de la pédagogie, il me semble que c’est faire le "buzz" qui les intéresse.
Certaines de ces covers sont franchement artificielles : compte tenu du nombre de filtres posés sur la voix assez monolithique de The Weeknd, on peine à trouver l’ "âme" de la voix de Michael Jackson, étriquée dans ce cadre imposé. D’autres sont un peu plus convaincantes, quoique les effets vocaux de respiration et d’inflexions vocales typiquement jacksoniens appliqués au "moule" de la voix de Mercury sur "Thriller" donnent l’impression – à l’instar du monstre dans le ventre du maire de "Ghosts" – que l’un n’a pas tout à fait été digéré par l’autre et qu’il cherche à tout prix à s’extraire de là. Enfin, d’autres sont intéressantes, presque émouvantes, toute raison gardée (je pense à "Tu ne sauras jamais").
Mais avant d’aller plus loin sur notre perception et notre ressenti, revenons tout d’abord un peu en arrière et interrogeons-nous…
Ce phénomène d’imitation / "copie dans le style de…" par l'IA est-il nouveau ?
En réalité, non. De nombreux musiciens, compositeurs, théoriciens ont travaillé à vouloir rationnaliser la musique. Et pour cause ? N’a-t-elle pas été enseignée dans le Quadrivium dans l’Antiquité et jusqu’à l’enseignement scholastique du Moyen-Âge, aux côtés de l’arithmétique, de la géométrie et de l’astronomie ?
L’aspect mathématique et physique de la musique, avec ses fréquences, ses harmoniques, son système pythagoricien n’est plus à démontrer. Ne dit-on pas que la musique, c’est "le nombre rendu audible" ? Elle se prête si bien à des raisonnements logiques vus comme des séquences que le compositeur français de l’époque baroque Jean-Philippe Rameau (1683-1764) avait imaginé un début de modélisation avec son Traité de l'harmonie réduite à ses principes naturels. On pourrait aussi parler des techniques mathématiques très évidentes dans l’œuvre de Jean-Sébastien Bach, son contemporain, qui marquaient déjà les époques précédentes mais étaient assez systématiques chez lui (contrepoint, canon, fugue, comme autant d’expressions sonores de l’équation, de la symétrie, de l’équilibre, du déploiement géométrique etc.).
De ce fait, au XXe siècle, la musique a également été l'un des premiers champs d'application de l'informatique et l’on considère que la "Suite Illiac", en 1956, a été le premier morceau créé avec une IA : il s’agissait alors de générer une œuvre musicale inspirée par le style de Jean-Sébastien Bach.
Comment cela est-il possible ? Comment l’IA peut-elle composer, créer de nouvelles œuvres sonores ?
Eh bien, cette fameuse « Suite Illiac », par exemple, utilisait les techniques de chaînes de Markov : ce sont des techniques statistiques utilisées pour modéliser des processus temporels, ou, pour le dire plus simplement, pour trouver un modèle capable de prévoir le prochain événement en se basant sur des événements passés. Tout cela est réalisable si l’on considère la musique comme un enchaînement de séquences, d'événements, composés de notes ou d'accords. On peut alors prédire, faire des statistiques, reproduire des boucles, des schémas, des enchaînements de grilles harmoniques, de lignes de notes, de principes d’arrangements.
De nos jours, l’IA s’appuie, pour fabriquer de la musique, sur des réseaux de neurones artificiels* : il s’agit d’un ensemble organisé de neurones interconnectés, inspiré du cerveau humain, permettant la résolution de problèmes complexes tels que la vision par ordinateur ou le traitement du langage naturel. D’autres principes, comme le "machine learning" (ou apprentissage) sont combinés. On nourrit la machine d’exemples dont il faut s’inspirer ou qu’il faut imiter, afin qu’elle les "digère", les analyse, et soit capable de les régurgiter recombinés de multiples manières.
Ce sont ces récentes technologies des réseaux de neurones qui ont beaucoup évolué ces dernières années, au point de se révéler fort efficaces dans l'imitation stylistique ou la synthétisation réaliste de la voix chantée.
De la fonction de l’art et de notre relation à l’œuvre et à l’artiste
Mais enfin…
Au-delà de ces pirouettes et expérimentations, cela peut-il vraiment fonctionner ? Quel intérêt pour l’artiste et pour l’humanité ?
Se demander si, demain, la voix produite par l’IA pourra remplacer celle de l’être humain, du chanteur de chair et d’os revient, en fait, à se poser la question de la fonction de l’art, et de notre relation, en tant qu’humain, avec lui, quel que soit son mode d’expression (musique, peinture, sculpture, littérature…)
Car, pour en revenir à celui qui nous intéresse, cherche-t-on vraiment à entendre de la nouveauté (je pense aux chasseurs d’inédits) au point de se laisser séduire par des inédits et des covers qui n’ont jamais été interprétés par Michael Jackson ? Qu’est-ce qui nous intéresse ? La voix, uniquement, une voix ressemblante, même si elle n’est que le produit de puissants logarithmes ? Une voix encore présente, mais nouvelle, sorte de pansement sur la jambe de bois de la mort qui flatterait, aux confins de notre cerveau reptilien, notre rêve d’immortalité ?
Non, je ne crois pas. En tous cas, pas encore. Pas notre génération.
Au-delà d’une fréquence vocale, une voix est une expression. L’expression de sentiments. Le produit d’un corps de chair, de sang et d’os. Le fruit d’une âme, d’un vécu, d’une expérience, de réussites ou de déboires, de convictions, de combats. La prolongation d’un corps, d’un esprit, d’un souffle et d’une respiration, bien vivante et aléatoire, capable de défaillir, à l’image de la condition humaine, à tout instant. Un moment partagé de présence, une parenthèse, une bulle de vie.
Walter Benjamin, dans son ouvrage L’Œuvre d’art à l’époque de sa reproductibilité technique, publié en 1936, s’inquiétait déjà de la valeur de l’art dès lors que celui-ci était devenu reproductible et, donc, pour la musique enregistrable et diffusable, dès lors que celle-ci était dissociable de son émetteur (l’artiste, le chanteur, le musicien) et ce, des millions de fois (grâce à des supports tels que le disque et ses appareils de diffusion).
Le philosophe était conscient du fait que "l’œuvre d’art a toujours été fondamentalement reproductible" et que ce qu’un homme avait fait pouvait toujours être reproduit par un autre. Mais la révolution qui a particulièrement marqué son époque est la "reproduction technique" de l’œuvre, à l’échelle massive et industrielle, celle qui n’implique désormais plus la main de l’homme ou tout autre organe bien vivant de son expression.
Sans doute sommes-nous, en 2023, au seuil d’une révolution comparable avec l’intrusion de l’IA dans la production ou la "création" artistique et musicale.
Pour Benjamin, l’œuvre d’art possédait un caractère unique car la meilleure des reproductions n’aurait jamais su "l’ici-et-maintenant de l’œuvre d’art", c’est-à-dire "le caractère absolument unique de son existence". Question de conception ? Car, force est de constater qu’au-delà de son appréhension vis-à-vis de ces nouvelles formes techniques de création, l’esprit humain a depuis bien évolué et que nous sommes désormais portés à considérer, depuis de nombreuses décennies, que l’enregistrement d’une voix nous donne malgré tout accès à cet "instant présent", à cet "ici-et-maintenant" certes passé, mais qui a vu et entendu naître, dans le micro, dans l’intimité du studio, telle ligne mélodique au moment de son enregistrement.
Le souffle, la respiration de Michael Jackson, souvent clairement et volontairement distinguables dans le micro de Bruce Swedien et dans le mix, nous connectent beaucoup à cet instant et à cette présence, les rendant tangibles et nous donnant la sensation de voir cet espace de studio où les choses se produisent et, peut-être, d’y être cachés dans un coin. Cela a sans doute contribué à compenser cette perte d’aura que craignait Walter Benjamin : "ce qui dépérit à l’époque de la reproductibilité technique de l’œuvre d’art, c’est son aura" – cette aura qu’il définissait comme "l’apparition unique d’un lointain", ce que l’on ressent par exemple lorsqu’on suit du regard "un calme après-midi d’été, une chaîne montagneuse à l’horizon". Pour lui, ce déclin de l’aura s’expliquait par le fait que les masses exigeaient de "rendre les choses plus proches de soi spatialement et humainement". C’est bien ce qui s’est produit avec la fabrication des "stars" et ce souci de dessiner les contours d’une personnalité vocale bien identifiable, tangible, proche, corporalisée, grâce à des stratégies d’enregistrement visant à restituer jusqu’au souffle, au bruit de bouche, au pincement velouté des lèvres. Bref, une présence, une proximité voire une inimité bien virtuelle, mais à laquelle cependant nous croyons un peu et qui finit de nous tisser notre relation et nos liens avec l’artiste.
Que dirait Walter Benjamin du relais pris désormais par l’Intelligence Artificielle, capable non seulement de reproduire, mais encore plus de "fabriquer" (je n’emploie volontairement pas le verbe "créer") des chansons ou des musiques inédites, singeant avec talent le style de tel ou tel compositeur ou auteur, ou encore des lignes vocales qui ne sont jamais sorties d’aucun corps vivant ?
Sans parler ici de la problématique question juridique et financière des droits d’auteurs, sur laquelle je reviendrai très rapidement, il me semble que c’est la question éthique et sociétale qui devrait inquiéter.
Cela nous intéresse-t-il d’entendre une voix ressemblant à celle de Michael Jackson, qui n’est même pas produite par un quelconque imitateur, mais produite par une machine sans âme ni conscience ? Qu’écoutons-nous quand nous écoutons Michael Jackson (ou tout autre artiste vivant ou ayant vécu) ? Plus qu’une voix, nous écoutons son âme, son émotion, son cœur, sa capacité de nous convaincre (que ce soit vrai ou non) que ce qu’il raconte là, ce qu’il partage là, est la chose la plus importante du monde pour lui à cet instant et qu’il l’a vécue. Nous nous sentons compris, accompagnés dans nos vies et nos épreuves, nous ne sommes pas seuls, nous nous identifions et créons un attachement avec lui, même si nous ne le connaîtrons jamais vraiment et que lui nous connaîtra encore moins.
Mais pouvons-nous nous laisser berner par une machine dont nous savons pertinemment, en dépit de ses prouesses, qu’elle n’a ni âme, ni conscience, qu’elle n’a rien vécu et n’a même pas la volonté de partager du mensonge et de l’artificiel avec des êtres dont elle ne peut même pas "savoir" qu’ils existent ?
Faut-il s’inquiéter de l’intrusion de l’IA dans la musique, voire dans la société ?
De nos jours, les spécialistes, tels que François Pachet** ne semblent pas très inquiets à ce sujet et pensent que l’IA est limitée car, si elle demeure (à ce jour) très performante en termes de production (génération et combinaison de sons), elle ne l’est pas (encore) pour la composition ou la création mélodique. C'est d'ailleurs ce qui expliquerait son efficacité plus grande dans le rap (où harmonie et mélodie sont relégués au dernier plan) au profit de la scansion d’un texte par une voix (rarement harmonisée par des chœurs). Le modèle à imiter relève moins de la créativité et de l’originalité que du schéma technique facilement pastichable par la machine. Mais qu’en sera-t-il demain ?
On peut aussi opposer le fait que les synthétiseurs numériques ont opéré une révolution assez similaire dans les années 1980, suivis de près par l'échantillonnage : qui s’émeut aujourd’hui d’entendre un son de violon samplé plutôt que de vraies cordes qui vibrent dans un corps en érable séculaire ? De rares oreilles éveillées et éduquées ? Quelques puristes rétrogrades ?
Je note d’ailleurs que, d’une manière générale, lorsqu’on interroge certains spécialistes sur la légitimité d’être inquiet face à ces nouvelles fonctionnalités, la plupart pense immédiatement "droits d’auteur". Si cet aspect semble important, il ne me semble pas central. Certes, l’argent est le nerf de la guère et il existe une inadéquation des principes du droit d'auteur traditionnel aux techniques d'IA. La directive proposée par le Parlement européen n’a pas suffi et il va forcément falloir que la législation évolue. En effet, le droit d'auteur est très complexe en musique et se décline à plusieurs niveaux : droit d'édition, de composition, d'enregistrement mais aussi droit moral lié à l'utilisation du nom d'un artiste. Tout cela finira bien par être tranché par des discussions entre experts.
Que l'IA permette à des artistes de "créer" quelque chose de nouveau ou de mener des projets qu'ils n'auraient pas pu réaliser seuls, pourquoi pas. On ne pourra pas empêcher l’homme d’utiliser et de faire évoluer la technologie. Mais jusqu’où faut-il aller ? Pour quel objectif ? Peut-on considérer que les ersatz de pop façon Beatles, ou de rock’n’roll façon Elvis, ont le même intérêt, le même message, le même impact, la même valeur en termes de patrimoine culturel, qu’ils aient été réalisés par une IA ou par des cerveaux humains de musiciens ?
Pour ma part (ce doit être mon côté conservateur ou "rétrograde"), je pense au film "Her" et à cet homme, tombé amoureux d’une voix, d’une IA évolutive devenue sa meilleure amie à force de capacité de lui répondre et d’interagir avec lui comme une vraie personne qu’on n’aurait qu’au téléphone ou sur les réseaux sociaux parce qu’elle est à l’autre bout du monde. Peut-être, dans quelques années, les prochaines générations, habituées à ces IA et aux robots, seront capables de se laisser berner, de tout confondre, d’apprécier, d’aimer même, ces non-individus pour ce qu’ils ne sont pas. Mais n’est-ce pas là l’antichambre de la folie qui nous guette ?
Et… est-ce bien la société dans laquelle nous souhaitons que nos enfants, petits- et arrière-petits-enfants vivent ? Dans ce rapport à la "réalité" – une notion à même d’évoluer plus vite que prévu… ?
Je considère comme positif et très pédagogique que l’on médiatise ces leurres. Au-delà du "buzz", de la surprise et des gens qui trouvent (sincèrement, les pauvres…) formidable que demain nous n’ayons plus rien à faire (vive l’hélicoptère monétaire et le métavers), ces tromperies amusantes ont au moins le mérite d’éveiller notre conscience et de nous interroger. Allons-nous laisser faire et, si oui, jusqu’où ?
Personnellement, je trouve intéressant que l’IA puisse apporter de l’aide, des accélérations, dans des domaines utiles comme la médecine, où il y a urgence pour bon nombre de maladies encore et toujours incurables, mais je pense qu’elle ne devrait être sollicitée qu’avec parcimonie, et non sans une bonne part d’éthique, dans des domaines où le propre de l’homme (y compris pour sa santé physique et mentale) est d’exploiter et de développer son intelligence et ses dons, de remplir sa mission de "cocréateur" sur cette planète. Je pense que l’homme, qui a une fâcheuse tendance à l'oisiveté et à la destruction, devrait continuer à développer et à soigner l’intelligence qu’il possède, laquelle mérite d’être travaillée plus que remplacée. Compter sur la machine pour réparer ce qu’il pourrait éviter de casser et "créer" des œuvres qui n’auront jamais la portée et la valeur symbolique, culturelle et civilisationnelle qu’ont eu les siennes propres, me semble pernicieux. A l'heure où l'on parle d'écologie, de développement durable, de retour à la terre, de préservation des ressources, de circuit court, le recours à l'IA n'est-il pas un brin paradoxal ? Le circuit le plus court entre l'esprit et l'objet, entre l'imagination et l'œuvre, n'est-il pas le chemin cerveau/cœur-main ? Pourquoi faire un détour via une externalisation énergivore, immanquablement polluante et fort aléatoire, un outil que nous maîtriserons peut-être de moins en moins ?
En fait, pour résumer, mon opinion tout à fait personnelle rejoint celle de Margaret Atwood, qui disait ceci :
« Quand une civilisation n’est plus que cendres et poussières… il ne reste plus que l’art ». Alors que restera-t-il si l’art lui-même, ce moyen d’expression suprême, n’est plus dans ses compétences, à force de l’avoir confié à des algorithmes ?
Je pense encore au propos de James Joyce : « Ce qui importe par-dessus tout dans une œuvre d’art, c’est la profondeur vitale de laquelle elle a pu jaillir. » Que dire…
Surtout, je crains, comme Hannah Arendt, qu’avec cette possibilité de laisser le robot faire, imaginer, façonner à sa place, la société finisse par « ne plus vouloir l’art, mais seulement les loisirs »…
Et si demain, l’art n’est plus, comme le disait André Malraux, « le plus court chemin de l’homme à l’homme », mais celui de la machine à l’homme, quel sera l’objectif de cette machine ? Notre assujettissement à un outil qui, loin de nous donner le change, à force de digérer nos connaissances, nos mots, nos réactions, nos sens logiques, finira par nous supplanter ?
Michael Jackson va-t-il entamer une "nouvelle" carrière posthume grâce à l'Intelligence Artificielle ? Michael Jackson reconstitué par les avatars et la synthèse vocale et en tournée dans le monde en 2059 sera-t-il le double parfait de celui que nous avons connu ? Quel que soit l'ambition lucrative (plus qu'artistique) de tels projets, je gagerai que pour nous, la réponse est non. Pour les prochaines générations, je préfère garder l’espoir…
*Réseau de Neurones artificiels : Dans le domaine de l’intelligence artificielle, un réseau de neurones artificiels est un ensemble organisé de neurones interconnectés permettant la résolution de problèmes complexes tels que la vision par ordinateur ou le traitement du langage naturel.
Il s’agit d’un type particulier d’algorithmes d’apprentissage automatique (comme les machines à vecteur de support (SVM en anglais), arbres de décision, K plus proches voisins, etc.) caractérisés par un grand nombre de couches de neurones, dont les coefficients de pondération sont ajustés au cours d’une phase d’entraînement (apprentissage profond).
Il existe de nombreux type de réseaux de neurones artificiels tels que les réseaux de neurones récurrents, les auto-encodeurs, les réseaux transformeurs ou encore les réseaux antagonistes génératifs (generative adversarial networks). Source : CNIL
**François Pachet est un scientifique, musicien, chercheur auprès du géant du streaming Spotify. Il est à l'origine d'Hello World, le premier album composé à l'aide de l'intelligence artificielle, sorti en 2018.
En savoir plus ?
🎧Ecoutez ce court podcast de France Musique : "Musique et Intelligence Artificielle, le son du futur est déjà là !"
📖Lisez l'article de France 24, Musique et intelligence artificielle : "l'idée d'une substitution de l'artiste est un fantasme"
🎧Ecoutez la 1ère oeuvre inventée par un ordinateur, la "Suite Illiac"
Et... n'oubliez pas de m'aider dans le financement de la traduction de mon dernier ouvrage, issu de ma thèse de doctorat sur Michael Jackson, en cliquant sur le lien suivant :
➡️Leetchi, cagnotte participative pour la traduction de l'ouvrage d'Isabelle Petitjean "Michael Jackson, black or white?" en anglais
J'ai besoin de vous !
Comments