eBook

Les valeurs sont compliquées et fragiles

Un jour, mon ami Niel a demandé à sont assistante virtuelle en Inde de lui trouver un vélo qu’il pourrait acheter ce jour là. Elle lui envoya une liste de vélos à vendre dans le monde entier. Niel a dit « Non, j’ai besoin d’un vélo que je puisse acheter aujourd’hui à Oxford, ça doit être local. » Elle lui envoya alors une longue liste de vélos disponibles à Oxford, la plupart chers. Niel clarifia qu’il voulait un vélo bon marché. Elle lui envoya alors une liste de vélos pour enfants. Il clarifia alors qu’il avait besoin d’un vélo local, bon marché qui convienne à un homme adulte. Elle lui envoya alors une liste de vélos pour adultes à Oxford qui avaient besoin d’être réparés.

D’habitude les humains comprennent les désires des autres mieux que cela. Notre unité psychologique qui vient de l’évolution fait que nous partageons un bon sens et des désires communs. Demandez moi de vous trouver un vélo, et je vais supposer que vous en voulez un qui soit en état de marche, qui convienne à votre taille, qui ne soit pas fait en or, etc. — bien que vous n’ayez rien dit de cela.

Mais une architecture d’esprit différente, une qui n’a pas évolué avec nous, ne va pas partager notre bon sens. Elle ne saura pas ce qui ne doit pas être fait. Comment faites vous un gâteau? « N’utilisez pas de calamar. N’utilisez pas de radiations gamma. N’utilisez pas de Toyotas. » La liste de ce qui ne doit pas être fait est sans fin.

Certaines personnes pensent qu’une IA avancée serait une sorte de super majordome, faisant tout ce que vous lui demandez avec une efficacité incroyable. Mais il est plus correcte d’imaginer une pompe à issues: un appareil non conscient qui rend certaines issues plus probables et d’autres issues moins probables. (La pompe à issues n’est toutefois pas magique. Si vous lui demander une issue qui est trop improbable, elle va se casser).

Maintenant, supposez que votre mère est piégée dans un immeuble en feu. Vous êtes dans une chaise roulante, donc vous ne pouvez pas l’aider directement. Mais vous avez une pompe à issues:

Vous criez « Sortez ma mère de l’immeuble! » … et vous appuyer sur Entrer.

Pendant un moment il semble que rien ne se passe. Vous regardez autour de vous, vous attendez que le camion de pompier s’arrête et que les secours arrivent — ou juste qu’un coureur rapide et fort tire votre mère hors de l’immeuble —

BOOM! Avec un grondement de tonnerre, la conduite de gaz principale sous l’immeuble explose. Alors que la structure se désintègre, vous apercevez, comme si c’était un ralentit, le corps de votre mère voler en éclats dans les airs, se déplaçant vite, augmentant rapidement sa distance à ce qui était le centre de l’immeuble.

Heureusement, la pompe à issues a un bouton de regret qui annule ce qui s’est produit. Vous appuyez dessus et essayez à nouveau. « Sortez ma mère de là sans faire exploser l’immeuble, » dites-vous et vous appuyez sur Entrer.

Alors votre mère tombe par la fenêtre et se brise la nuque.

Après une douzaine de nouvelles utilisations du bouton de regret, vous dites à la pompe à issues:

Au cours des dix minutes qui suivent, bougez ma mère (définie comme la femme qui partage la moitié de mes gènes et qui m’a donné la vie) de sorte à ce qu’elle soit assise confortablement dans cette chaise à coté de moi sans dommages corporels ou mentaux.

Vous regardez les treize pompiers se précipiter tous ensemble dans la maison. Il se trouve que l’un d’entre eux trouve rapidement votre mère et la sauve. Tous les autres meurent ou ont des blessures qui les rendent handicapés. Le pompier dépose votre mère dans la chaise, puis se retourne pour examiner ses collègue morts et blessés. Vous avez eu ce que vous avez souhaité, mais vous n’avez pas eu ce que vous vouliez.

Le problème est que votre cerveau n’est pas assez large pour contenir toutes les affirmations qui spécifient tous les détails possibles de ce que vous voulez et de ce que vous ne voulez pas. Comment avez vous su que vous vouliez que votre mère s’échappe de l’immeuble en bonne santé sans tuer ou mutiler une douzaine de pompiers? Ce n’est pas parce que votre cerveau contenait quelque part l’affirmation « Je veux que ma mère s’échappe de l’immeuble en bonne santé sans tuer ou mutiler une douzaine de pompiers ». Au lieu de cela, vous avez vu votre mère s’échapper de l’immeuble en bonne santé alors qu’une douzaine de pompiers étaient morts ou mutilés, et vous vous êtes rendu compte, « Oh, merde. Je ne voulais pas cela. » Ou vous auriez pu imaginer ce scénario spécifique et sous rendre compte, « Oh, non, je ne veux pas cela. » Mais rien de si spécifique n’a été écrit quelque part dans votre cerveau avant que ça ne se passe, ou avant que vous n’imaginiez le scénario. Ce n’est pas possible; votre cerveau n’a pas la place.

Mais vous ne pouvez pas vous permettre de rester assis là, la pompe à issues dans vos mains à imaginer des millions d’issues possibles et à remarquer celles vous voulez et celles que vous ne voulez pas. Votre mère va mourir avant que vous ayez le temps de faire cela.

Et si sa tête était écrasée, laissant son corps? Et si son corps était écrasé, laissant sa tête? Et s’il y a une équipe de cryonie qui attend dehors, prête à suspendre sa tête? Une tête congelée est-elle une personne? Terry Schiavo est-il une personne? Combien vaut un chimpanzé?

Cependant, votre cerveau n’est pas infiniment complexe. Il y a un certain ensemble fini d’affirmations qui peut décrire le système qui détermine les jugements que vous feriez. Si nous comprenions comment chaque synapse, neurotransmetteur et protéine du cerveau fonctionnait, et si nous avions une carte complète de votre cerveau, alors une IA pourrait au moins en principe calculer quel jugements vous feriez à propos d’un ensemble fini d’issues possibles.

La morale est qu’il n’y a pas de souhait sûr qui soit plus petit qu’un système complet de valeurs humaines.

Il y a trop de chemins possibles à travers le Temps. Vous ne pouvez pas visualiser toutes les routes qui mènent à la destination que vous donnez à [la pompe à issues]. « Maximiser la distance entre votre mère et le centre de l’immeuble » peut être fait de façon encore plus efficace en détonant une arme nucléaire. … Ou, a des niveaux supérieurs d’intelligence de pompe à issues, faire une chose à laquelle ni vous ni moi ne penserions, de la même manière qu’un chimpanzé ne penserait pas à détonner une arme nucléaire. Vous ne pouvez pas visualiser tous les chemins à travers le temps, pas plus que vous ne pouvez programmer une machine qui joue aux échecs en codant en dur un coup pour chaque configuration possible de l’échiquier.

Et la vie réelle est bien plus compliquée que les échecs. Vous ne pouvez pas prédire à l’avance, lesquelles de vos valeurs seront nécessaires pour juger le chemin à travers le temps que [la pompe à issues] prend. Surtout si vous souhaitez quelque chose à plus long terme ou à plus grande échelle que sauver votre mère d’un immeuble en feu.

… La seule [IA] sûre est une [IA] qui partage tous vos critères de jugement, et dans ces conditions, vous pouvez juste dire « Je souhaite que vous fassiez ce que je devrais souhaiter ».

Il y a toute une industrie où les gens proposent Le Principe Simple qui va faire faire à l’IA ce que nous voulons. Aucuns d’eux ne va marcher. Nous n’agissons pas seulement pour le bonheur ou le plaisir à lui seul. Ce à quoi nous donnons de la valeur est très complexe. L’évolution nous a donné un millier de fragments de désire. (Pour voir le désordre que cela crée dans votre neurobiologie, lisez les deux premiers chapitres de Neuroscience of Preference and Choice.)

C’est aussi pourquoi les philosophes de la morale ont passé des milliers d’années à échouer à trouver un ensemble simple de principes qui, s’ils sont appliqués créeraient un monde que nous voudrions. Chaque fois que quelqu’un propose un petit ensemble de principes moraux, quelqu’un d’autre montre où sont les failles. Laissez de coté quelque chose, même quelque chose qui semble trivial, et la situation peut devenir désastreuse:

Considérez la valeur humaine incroyablement importante de « l’ennui » — notre désire de ne pas faire « la même chose » beaucoup de fois d’affiler. Vous pouvez imaginer un esprit qui contiendrait la spécification presque complète des valeurs humaine, presque toutes les morales et les méta-morales, mais qui laisserait de coté juste cette chose–

— et alors, jusqu’à la fin des temps, et jusqu’aux confins de son cône de lumière (portion de l’espace-temps atteignable par la lumière), il passera son temps à rejouer une expérience optimisée, encore et encore.

Ou imaginez un esprit qui contient presque toute la spécification des sentiments que les humains apprécient le plus — mais pas l’idée que ces sentiments aient d’importants référents extérieurs. Alors l’esprit va juste sentir qu’il a fait une découverte importante, sentir qu’il a trouvé l’amour parfait, sentir qu’il a aidé un ami, mais en réalité il ne fera rien de cela, étant devenu sa propre machine à expérience. Et si l’esprit poursuivait ces sentiments et leurs référents, ce serait un bon et vrai futur, mais parce que cette seule dimension des valeurs a été laissée de coté, le future est devenu ennuyeux. Ennuyeux et répétitif, car bien que cet esprit sente qu’il rencontre des expériences d’une nouveauté incroyable, ce sentiment n’est aucunement vrai.

Ou le problème contraire: un agent qui contient tous les aspects des valeurs humaines sauf la valeur de l’expérience subjective. Le résultat est alors un optimiseur non conscient qui ferait des découvertes authentiques, mais les découvertes ne seraient pas savourées ou appréciées car il n’y aurait personne pour en être conscient…

Vous pouvez voir où cela nous mène. Puisque nous n’avons jamais décodé un système entier de valeurs humaines, nous ne savons pas quelles valeurs donner à une IA. Nous ne savons pas ce que nous souhaitons créer. Si on créait une IA super-humaine demain, nous ne pourrions lui donner qu’un système de valeurs incomplet et désastreux, et elle ferait des choses que nous ne voulons pas, parce qu’elle ferait ce que nous avons souhaité plutôt que ce que nous voulions.

Aujourd’hui, nous ne savons que construire des IA qui optimisent pour des buts autres que ce que nous voulons. Nous ne savons que construire des IA dangereuses. Pire, nous apprenons à créer des IA sûrs bien plus lentement que nous apprenons à créer des IA puissantes, parce que nous affectons plus de ressources aux problèmes de la capacité de l’IA que nous en affectons aux problèmes de la sûreté de l’IA.

Le temps presse. L’IA arrive. Et nous ne sommes pas prêts.