Hodnota je zložitá a krehká
Jedného dňa môj kamarát Niel požiadal svoju virtuálnu asistentku v Indii, aby mu našla bicykel, ktorý si ešte v ten deň môže kúpiť. Poslala mu zoznam bicyklov na predaj z celého sveta. Niel povedal: „Nie, potrebujem taký, ktorý si môžem kúpiť v Oxforde ešte dnes; musí byť miestny.“ Tak mu poslala dlhý zoznam bicyklov dostupných v Oxforde, väčšina z nich bola drahá. Niel upresnil, že chce lacný bicykel. Tak mu poslala zoznam detských bicyklov. Upresnil, že chce miestny lacný bicykel vhodný pre dospelého muža. Tak mu poslala zoznam bicyklov pre dospelých v Oxforde, ktoré vyžadovali opravu.
Ľudia zvyčajne rozumejú želaniam tých druhých lepšie než v tomto prípade. Naša vyvinutá psychologická jednota spôsobuje, že máme spoločný zdravý úsudok a spoločné túžby. Požiadajte ma, aby som vám našiel bicykel, a ja budem predpokladať, že chcete fungujúci, primeraný vašej výške, nie vyrobený zo zlata, atď. – aj keď ste nič z toho v skutočnosti nepovedali.
Avšak odlišná architektúra mysle, ktorá sa nevyvinula spolu s nami, nebude zdieľať náš zdravý úsudok. Nevedela by, čo nemá urobiť. Ako urobiť koláč? „Nepouži kalmáre. Nepouži žiarenie gama. Nepouži Toyotu.“ Zoznam toho, čo nerobiť, je nekonečný.
Niektorí ľudia si myslia, že pokročilá UI bude akýsi superslužobník, ktorý urobí všetko, o čo ho požiadate, neuveriteľne efektívne. Ale presnejšie je predstaviť si Výsledkovú pumpu: nevedomé zariadenie, ktoré robí niektoré výsledky viac pravdepodobné, iné výsledky menej pravdepodobné. (Výsledková pumpa však nevie čarovať. Ak ju požiadate o výsledok, ktorý je príliš nepravdepodobný, pokazí sa.)
Predstavte si teraz, že vaša matka je uväznená v horiacej budove. Vy ste na vozíčku, takže nemôžete priamo pomôcť. Máte však Výsledkovú pumpu:
Zakričíte: „Dostaň moju mamu von z budovy!“… a stlačíte Enter.
Chvíľku sa zdá, že sa nič nestane. Obzeráte sa, čakáte, kedy sa objaví požiarnicke auto a prídu záchranári – alebo aspoň nejaký silný a rýchly bežec, ktorý by vyniesol vašu matku z budovy…
BUM! S hromovým revom vybuchne hlavný prívod plynu pod budovou. Ako sa stavba pomaly rozpadá, zazriete polámané telo svojej matky vymrštené vysoko do vzduchu, rýchlo letiace, prudko sa vzďaľujúce od bývalého stredu budovy.
Našťastie, Výsledková pumpa má tlačidlo Ľútosť, ktoré vie vrátiť čas. Stlačíte ho a skúsite znovu: „Dostaň moju mamu von bez výbuchu budovy,“ poviete a stlačíte Enter.
Vaša matka vypadne z okna a zlomí si väz.
Po desiatich ďalších stlačeniach tlačidla Ľútosť poviete Výsledkovej pumpe:
Počas najbližších desiatich minút presuň moju matku (definovanú ako ženu, s ktorou mám spoločnú polovicu génov a ktorá ma porodila) tak, aby pohodlne sedela na tejto stoličke vedľa mňa, bez telesných a duševných zranení.
Sledujete, ako všetkých 13 požiarnikov naraz vbehlo do budovy. Jeden z nich rýchlo našiel vašu matku a vyniesol ju do bezpečia. Všetci ostatní zomreli alebo utrpeli zranenia, ktoré ich zmrzačili. Ten jeden požiarnik posadí vašu matku na stoličku a potom sa otočí, aby prezrel svojich mŕtvych a trpiacich kolegov. Dostali ste, čo ste si želali, ale nedostali ste to, čo ste chceli.
Problém je, že váš mozog nie je dosť veľký na to, aby obsahoval tvrdenia konkretizujúce všetky možné podrobnosti toho, čo chcete a čo nechcete. Ako ste vedeli, že chcete, aby vaša matka unikla z budovy v dobrom zdraví bez zabitia alebo zmrzačenia tuctu požiarnikov? Nebolo to preto, že by váš mozog niekde obsahoval vetu: „Chcem, aby moja matka unikla z budovy v dobrom zdraví bez zabitia alebo zmrzačenia tuctu požiarnikov.“ Namiesto toho ste videli, ako vaša matka uniká z budovy v dobrom zdraví, zatiaľ čo tucet požiarnikov tam zabilo alebo zmrzačilo, a uvedomili ste si: „A sakra. Toto nechcem.“ Alebo ste si dokázali predstaviť túto konkrétnu situáciu a uvedomiť si: „Ach nie, toto nechcem.“ Ale nič takéto konkrétne nebolo zapísané nikde vo vašom mozgu, kým sa to nestalo, alebo kým ste si tú situáciu nepredstavili. Nemohlo to tam byť: váš mozog nemá toľko miesta.
Nemôžete si však dovoliť tam sedieť s Výsledkovou pumpou v ruke, predstavovať si milióny možných výsledkov a sledovať, ktoré chcete a ktoré nechcete. Vaša matka dovtedy zomrie.
Čo ak sa zničí jej hlava, ale telo zostane? Čo ak sa zničí jej telo, a zostane iba jej hlava? Čo ak vonku čaká kryonický tím, pripravený odložiť jej hlavu? Je zmrazená hlava osobou? Je Terry Schiavo osobou? Akú hodnotu má šimpanz?
Váš mozog však nie je nekonečne zložitý. Existuje konečná množina tvrdení, ktoré by mohli popísať systém, ktorým rozhodujete o svojich úsudkoch. Keby sme rozumeli, ako pracuje každá synapsa, neurotransmiter a proteín v mozgu, a keby sme mali úplnú mapu vášho mozgu, potom by UI prinajmenšom teoreticky mohla spočítať, aké úsudky by ste urobili ohľadom konečnej množiny možných výsledkov.
Ponaučenie je, že neexistuje bezpečné želanie menšie než celý ľudský hodnotový systém:
Existuje priveľa rôznych ciest Časom. Nedokážete si predstaviť všetky cesty, ktoré vedú k cieľu, ktorý ste zadali [Výsledkovej pumpe]. „Maximalizovať vzdialenosť medzi vašou matkou a stredom budovy“ možno omnoho efektívnejšie odpálením jadrovej bomby… Prípadne, na vyšších úrovniach inteligencie [Výsledkovej pumpy], urobením niečoho, na čo by sme ani vy ani ja nepomysleli, podobne ako by šimpanz ani nepomyslel na odpálenie jadrovej bomby. Nedokážete si predstaviť všetky cesty časom, rovnako ako nedokážete naprogramovať šachový stroj tak, že mu natvrdo určíte ťah pre každú možnú pozíciu na šachovnici.
A skutočný život je omnoho zložitejší než šach. Nedokážete dopredu predpovedať, ktoré z vašich hodnôt budú potrebné na posúdenie cesty časom, ktorú si [Výsledková pumpa] vyberie. Najmä ak si želáte niečo dlhodobejšie a rozsiahlejšie než záchranu svojej matky z horiacej budovy.
Jediná bezpečná [UI je UI], ktorá zdieľa všetky vaše hodnotiace kritériá, a v tom bode môžete jednoducho povedať: „želám si, aby si urobila to, čo by som si mal želať.“
Existuje domáci priemysel ľudí, ktorí predkladajú Jeden Jednoduchý Princíp, ktorý spôsobí, že UI urobí to, čo chceme. Žiaden z nich nebude fungovať. My nejednáme iba na základe šťastia alebo potešenia. Čo si ceníme, je veľmi zložité. Evolúcia vám dala tisíce úlomkov túžby. (Aby ste videli, aký chaos to robí vo vašej neurobiológii, prečítajte si prvé dve kapitoly knihy Neuroveda preferencií a voľby.)
To je dôvod, prečo morálni filozofi strávili tisíce rokov márnym hľadaním jednoduchej množiny princípov, ktoré, keby sme sa nimi riadili, vytvoria svet, aký chceme. Vždy keď niekto navrhne malú množinu morálnych princípov, niekto iný mu ukáže, kde sú diery. Vynechajte niečo, hoci aj niečo napohľad nepodstatné, a veci môžu dopadnúť katastrofálne:
Vezmime si neuveriteľne dôležitú ľudskú hodnotu „nudy“ – našej túžby nerobiť „to isté“ opäť a opäť a opäť dokola. Môžete si predstaviť myseľ, ktorá obsahuje takmer celú špecifikáciu ľudských hodnôt, takmer celú morálku a metamorálku, a chýba jej iba táto jediná vec…
…a tak bude až do konca času, až po najvzdialenejšie hranice svojho svetelného kužeľa, opakovať jediný vysoko optimalizovaný zážitok, opäť a opäť a opäť dokola.
Alebo si predstavte myseľ, ktorá obsahuje takmer celú špecifikáciu pocitov, ktoré má väčšina ľudí rada – okrem myšlienky, že tieto pocity majú dôležité externé referenty. Takáto myseľ by teda žila s pocitom, že urobila významný objav; pocitom, že stretla dokonalého milenca; pocitom, že pomohla priateľovi, ale v skutočnosti by nerobila žiadnu z týchto vecí, pretože by bola iba svojím vlastným automatom na zážitky. Keby sa táto myseľ naozaj snažila o tieto pocity a o ich referenty, bola by to dobrá a pravdivá budúcnosť; no kvôli vynechaniu tohto jedného rozmeru hodnoty by budúcnosť bola čosi tupé. Nudné a opakujúce sa, pretože hoci by táto myseľ cítila, že prežíva zážitky neuveriteľnej originality, tento pocit by nebol ani trochu pravdivý.
Alebo opačný problém: agent, ktorý obsahuje všetky stránky ľudskej hodnoty, okrem oceňovania subjektívneho zážitku. Výsledkom by bol potom nevedomý optimalizátor, ktorý ide a robí skutočné objavy, ale tieto objavy si nikto nevychutnáva a neužíva, pretože tam nikto nie je…
Hodnota nie je len komplikovaná, je krehká. Existuje viac než jedna dimenzia ľudskej hodnoty, kde ak stratíte iba jedinú vec, Budúcnosť je o ničom. Jediný úder a celá hodnota sa rozbije. Nie každý úder samotný rozbije celú hodnotu – ale existuje viacero možných „samotných úderov“, ktoré to dokážu.
Vidíte, kam to smeruje. Keďže sme nikdy nerozlúštili celý ľudský hodnotový systém, nevieme, aké hodnoty dať UI. Nevieme, aké želanie máme vysloviť. Ak zajtra vytvoríme nadľudskú UI, vieme jej dať iba katastrofálne neúplný hodnotový systém, a ona potom bude robiť veci, ktoré nechceme, pretože bude robiť to, čo sme si želali, namiesto toho, čo sme chceli.
Práve teraz vieme zostrojiť iba také UI, ktoré optimalizujú na niečo iné než chceme. Vieme iba ako zostrojiť nebezpečné UI. Čo je horšie, učíme sa, ako urobiť UI bezpečnou omnoho pomalšie než sa učíme, ako urobiť UI mocnou, pretože venujeme viac prostriedkov problémom schopností UI než problémom bezpečnosti UI.
Hodinky tikajú. UI prichádza. A my nie sme pripravení.