价值是复杂而脆弱的
有一天,我的朋友尼尔(Niel)让他在印度的虚拟助理给他找一辆自行车,等他到达的那天就可以直接购买了。她给他发送了一个列满来自世界各地自行车出售信息的清单。尼尔说:“不对,我只需要一辆今天就可以在牛津(Oxford)买到的自行车;它必须能在当地买得到。”然后她又给他发送了一长串可以在牛津买到的自行车信息,大部分价格昂贵。于是尼尔澄清说,他想要的是一辆便宜的自行车。之后她又发了一张儿童自行车信息的列表给他。他又澄清说,他需要的是一辆能在当地买到,便宜并适合成年男性骑的自行车。因此她又给他发送了一张清单,列明了在牛津当地的废旧成人自行车。
通常来说,人类对彼此间愿求的理解都会比这个例子好。我们的进化心理统一驱使我们能理解共同的常识及共同的愿求。如果让我给你找一辆自行车,我就会假设你想要的是一辆能满足正常使用、适合你的尺寸,无需用金子打造而成,等等这些条件的车子。——尽管你实际上并未透露任何这类信息。
但如果一个具备不同思想架构,没有与我们一同进化的人,又如何了解我们的共同常识呢。他甚至不知道什么不该做。你会如何做蛋糕呢?“不要用鱿鱼。不要用伽马辐射。也不要用丰田车。”什么不该做这张清单上的名目真是多不胜数啊。
有些人认为,先进的人工智能机器会是某种超级管家,以令人难以置信的效率执行他们发出的任何指令。其实更准确地来说,应该要将其想象成一个结果气泵:一个没有感情的装置,可以使某些结果具有更大的可能,其他的结果则可能性更少些。(虽然这个结果气泵并不具备什么魔法。所以,如果你让它执行一个可能性极低的结果,它就会中断)。
现在,让我们来假设,你的母亲被困在一座着火的大楼里。你正坐在轮椅上,所以你不能直接去救她。但是你却拥有这个结果气泵:
于是你会大喊“将我母亲从大楼里救出来!”…并按下确认键。
过了一会儿,好像什么都没有发生。你向四周张望,等待消防车架起云梯,救援人员的到达——甚至只是一个强壮、又跑得快的人来将你母亲从大楼里拖出来……
轰隆一声!紧随着雷鸣般的咆哮,在大楼底下的煤气总管发生了爆炸。随着大楼整体结构的分裂,像是慢镜头在播放,你瞥见自己母亲支零破碎的尸体被抛到了空中,快速地炸开去,离之前大楼的中心位置越来越远。
幸运的是,结果气泵有一个反悔按钮,可以将时间倒流。于是你按下按键,再次发指令。“不要炸毁大楼,带我母亲离开那儿,”你说完,马上按下确认键。
然后你母亲就从窗外坠落,并摔断了她的脖子。
在按了十多次的反悔按钮后,你又告诉结果气泵:
在接下来的十分钟里,将我母亲(定义为:跟我有着一半相同基因,及生下我的女人)带离,让她舒服地坐在我身旁的这把椅子上,不受任何身体或精神上的伤害。
于是你看到全体13个消防员在第一时间冲进了房子。他们当中的一个碰巧找到了你母亲,并且很快地将她带到安全的地方。剩余的所有人要么丧生,要么受了重伤。那个消防队员将你母亲安放到椅子上,然后转身回到他那些丧生或受重伤的同事们的身边。虽然你的愿望是达成了,但是却没有得到你想要的结果。
问题是,对于你想要与不想要的结果,你的大脑还没有大到足以包含了注明每个可能性细节的指令。你怎么会知道你既希望自己母亲能毫发无损地逃离大楼,同时又不要让一打的消防员丧生或致残呢?这可不是因为你的大脑遍布了“我希望我母亲能毫发无损地逃离大楼,同时不要让一打的消防员丧生或致残”的指令。相反地,当你看到自己母亲得以安全逃离大楼的时候,却牺牲了一打的消防员,你才意识到“哦,该死的。那不是我想要的。”或许,你早就可能已经想像到那具体的情景,并意识到“哦,不,那并不是我想要的。”可是,在事情发生之前,或在你想像当时的情景之前,在你的大脑里却遍寻不着那么具体的信息。那是不可能的,因为你的大脑根本没有这样的空间啊。
但是你承担不起如此大的代价,你不能愣坐在那里,将结果气泵握在手里,一边想像着数百万种可能发生的结果,一边留意哪些是你想要的,哪些是不想要的。当你还在思前想后的时候,你母亲早已命送黄泉了。
要是她的头被压碎了,只留下身体呢?要是她的身体被压碎,只剩下头呢?如果有一支人体冷冻队伍在外等候,准备做头部冷冻呢?一个冷冻的头代表一个人吗?特里·夏沃(Terry Schiavo)是一个人吗?一只黑猩猩会值多少钱?
始终,你的大脑还没达到极其复杂的程度。有部分有限的指令合集,可以描述出那个让你做出判断的系统。如果我们能理解大脑里的每个神经元、神经递质与蛋白质是如何运作的,并且拥有一张大脑的完整地图,那么一个人工智能机器至少能在原则上计算出,对于一个有限的可能性结果合集,你会做出怎样的判断。
这里要阐明的寓意是并没有比整个人类价值体系还小的安全愿望:
有太多可能穿越时间的路径了。你难以想象出你给【结果气泵】发出指令后,能通往目的地的所有的路径来。“如果要将你母亲与大楼中心之间的距离最大化”,更有效的方法莫过于引爆核武器了……或者利用【结果气泵】的更高水平智力,做一些你我都想不到的事情来,就像一只黑猩猩不会想到引爆核武器这个点子一样。你不可能想象出所有穿越时间的路径来,比你对一个象棋机进行编程,通过对每个可能的棋盘里的每一步棋进行硬编码还要多的路径。
而真正的生活要比国际象棋复杂得多。你不能提前预知,提前用你哪个需要的价值观来判断出,【结果气泵】用于穿越时间的路径。特别是,除了从着火的大楼拯救出你母亲之外,如果你还有更长期或更大范围的愿望。
…唯一安全的【人工智能只不过是一台机器】做法是,对其分享你所有的判断标准,在这一点上,你只要说出“我想要你执行我该要做的事情。”
有一群来自家庭作坊的人提出了一个简单的原理,说可以让人工智能机器执行我们想要做的。却没有一个会行得通。我们的行为不仅仅是为了 幸福或快乐。我们所评价的是高度复杂的东西。进化为你带来的是欲望的千块碎片。(如需了解它是如何让你的神经生物学变成一团糟的话,可以阅读神经科学的偏好和选择一书的前两章。)
这也是为什么道德哲学家们花上几千年的时间,还未能找到一套简单、一旦颁布就能创造出一个我们渴求世界的准则。每当有人提出一小套的道德准则,其他人总是能找出些漏洞来。酌情地删减,甚至一些看起来微不足道,却可以引发致命错误的漏洞:
细想下作为极为重要的人类价值之一的“烦恼”——我们希望不要一次又一次地“重蹈覆辙”。你可以想像一种思想,囊括了几乎人类价值的整体规范,几乎所有的道德与元道德,可是唯独遗忘了这件事——
——所以它耗尽了一切,直到时间的尽头,直到光锥的最远点,反反复复地回放着单次高度优化的体验。
或者想像一种思想,几乎囊括了人类最喜欢的感觉类型的整体规范——但并不意味着,那些感觉都有着重要的外部参照对象。这样的话,你的想法只能围绕着感觉打转,就像找到了一项重大发现一样,感觉它已经找到了完美的爱人,感觉它帮助了一个朋友,但其实并没真正在做那些事情,却已经沦为了自己的体验机。并且一旦思想追寻那些感觉和参照对象,它就将成为美好的未来与真理;但却由于这一价值的单面度被忽视了,未来也就成为了枯燥的东西。无聊却不断重复着,因为虽然这种思想觉得它正适逢难以置信的新奇体验,而这种感觉已经不再明智与真实。
或者来看一个相反的问题:一个机器具备了人类所有的价值,除了主观经验的估值之外。因此,得出的结果是,一个没有感情的优化器,绕着制造真实的发现而转,然而这些发现却不见得令人享受与喜爱,因为那里根本没有人这么做……
价值不仅是复杂的,它还是脆弱的。人类的价值绝非单面的,如果这样的话,那么只要失去了一件东西,未来就会变得毫无价值了。只需吹一口气,就能粉碎掉所有的价值。并不是所有价值都如此的不堪一击——但如果使用超过“一口气”的功力,或许能办到。
你应该可以预见事情将会如何进展。因为我们从来没有对整个人类价值体系进行过解码,我们不知道应该如何为人工智能机器制定价值。我们不知道该抱什么希望。如果将来我们创造出超级人工智能机器,我们只能给它一个可悲而不完整的价值体系,然后它将继续做那些我们不愿发生的事情,因为它将会按照我们所希望的去做,而不是我们想要的。
现在,我们只知道如何建造出能够进行优化处理,却并非获得我们想要结果的人工智能机器。我们只知道如何建造出危险的人工智能机器。更糟糕的是,当我们研究如何使人工智能机器变得安全时,要远远落后于研究如何使其强大的速度,因为我们将更多的资源分配到人工智能机器的功能问题上,这要比我们对人工智能的安全性问题投入得多。
时间在流逝。人工智能即将到来。可我们还没准备好。