多巴胺思维:基因与我们、魔药与旋钮、奴役与自控

多巴胺(Dopamine)——它是基因奴役我们的魔药,也是我们自控的旋钮。

本文,将会深入浅出地全面介绍,有关多巴胺如何“操控”我们的演化现实,而透过**“多巴胺视角”或许我们会发现,其实我们每个人的人生都是——“多巴胺人生”**。

那么,相信本文所提供的**“多巴胺思维”“多巴胺旋钮”两个认知工具,将会让我们对人生及生活,拥有更多的自由感和更大的自控力**。

接下来,就让我们开始这次洞见之旅吧。

主题目录如下:

  • 多巴胺的功能
  • 多巴胺的通路
  • 多巴胺的实验
  • 多巴胺与快乐
  • 多巴胺与学习
  • 多巴胺与演化
  • 多巴胺思维
  • 多巴胺旋钮
  • 结语
  • 后记1:未来有多远
  • 后记2:秘技
  • 后记3:注意力与预测误差
  • 后记4:奖励感的漏洞
  • 后记5:意志力的来源

多巴胺的功能

多巴胺——主要负责:行为动机、强化学习、运动控制,核心词:奖励预测

其一,行为动机,就是指我们执行一个行为背后的驱动力。

通常,我们会认为一个行为的发生,取决于我们自由意志的喜好,即:越是喜欢,就越容易去执行一个行为,越是不喜欢,就越困难去执行一个行为。

但在大脑的神经层面,并没有什么自由意志的“实体”,而是多巴胺的浓度,设定了行为发生的难易度。也就是说,多巴胺越多,就越容易触发一个行为(动机强),多巴胺越少,就越难以触发一个行为(动机弱)。

换言之,多巴胺决定了你想要的程度,理论上被称为——激励显著性(Incentive Salience)。

其二,强化学习,是指基于环境信息的反馈,不断调整行为,从而获得最大化的收益。

那么,如果行为带来奖励(如快乐),就会触发正强化学习——这是趋利(增强冒险),如果行为带来惩罚(如痛苦),就会触发负强化学习——这是避害(增强保守)。

可见,强化学习——就是通过奖励与惩罚,来动态调整行为,以实现趋利避害的机制。

事实上,强化学习(Reinforcement Learning)原本是(人工智能领域)机器学习中的概念,即:通过反馈信号,来评价动作的好坏,以引导“机器”自主地试错学习,并更新模型参数的一种策略(有多种算法实现)。

然后,神经科学家(Wolfram Schultz,Peter Dayan,Read Montague)将其借用来解释,多巴胺在大脑中的一种功能运作。

也就是说,多巴胺是一种神经反馈信号,用来衡量行为结果的好坏(化学奖励是好,化学惩罚是坏),以引导我们的试错学习,并更新可以快速做出趋利避害判断的颅内模型

现代脑科学研究表明:多巴胺强化学习 = 即时差分学习算法 + 分布式学习。

而相关理论最早在1997年由Wolfram Schultz提出,被称为——奖励预测误差假说(Reward Prediction Error hypothesis,RPE)。

即时差分学习算法(Temporal difference Learning,TD) ——是指在每个时间点上,都在进行预测误差的计算(即:当前预测奖励 - 之前预测奖励 + 当前实际奖励),并将结果代入下个时间点的计算,从而连续调整对奖励的预测(这个预测就是即时差分信号)。其作用是,精准地评估未来可获得的奖励,以动态地调控多巴胺的释放量。

分布式学习——是指不同通道的多巴胺细胞,对预测误差的计算是不同的,或说是独立的。换言之,对同一个奖励信号,不同通道的多巴胺细胞,将会给出不同的预测误差,结果有些得到了正误差(奖励超出预期),有些则得到了负误差(奖励低于预期)。

参看: 多巴胺强化学习中的价值分布编码

其三,运动控制,就是运动的自控与调节,比如保持一个姿势,或是执行一个动作,更复杂的就是完成有难度和技巧的运动。

那么,将以上看似无关的三点,串联起来的就是——奖励预测。其逻辑就在于:动机需要预测可能、学习需要预测误差、运动需要预测轨迹

也就是说,预测到奖励就会有——动机,实际奖励与预测有误差就会有——学习,而任何运动过程都会耗费更多的能量——所以需要动机,同时运动轨迹的精确控制——需要学习

例如,一种新品冰淇淋,我们没吃过,但脑回路中记录了曾经吃其它冰淇淋时的体验奖励,于是我们就会对新品产生预期奖励,从而就有想吃的动机,并且曾经体验得到的奖励越多,想吃的动机就越强烈,接着通过一系列的运动控制,我们吃到了新品冰淇淋,此时体验奖励预期奖励就会有误差——正误差我们会学习到新品更好吃(以后吃新品),负误差我们会学习到新品不好吃(以后不吃新品),零误差我们会什么都没学习到(以后不确定吃新品)。

由此可见,多巴胺是先利用先验信息产生行为动机,接着利用运动控制试图消除预测误差,最后则利用强化学习将无法消除的误差更新入先验信息,以备后用。

当然,最最初的先验信息,就是基因算法所编写的本能欲望,就如食物与繁衍,天然就会带来预期奖励

同理,那些不愉快与痛苦的经历,就会带来预期惩罚,这会降低某些区域的多巴胺的浓度,从而减少动机,抑制行为的发生——但也会增加另些区域的多巴胺浓度,以激活避害行为的发生。

例如,被热水壶烫过,再次遇到热水壶,就会降低**“动机多巴胺”,增加“运动多巴胺”,前者负责减少对触碰热水壶的动机,后者负责增加避免触碰热水壶的运动——从此也可以看出,为什么多巴胺系统是分布式学习**,即对同一个信息,不同的多巴胺细胞会学习到不同的结果。

所以,多巴胺所预期的奖励——其实是颅内的化学奖励(即正面感受),所预期的惩罚——其实是颅内的化学惩罚(即负面感受)。

换言之,对于化学奖励,我们有追逐的动机,对于化学惩罚,我们有逃避的动机。

例如,对于快乐体验(为了追逐)我们喜欢更多——容易忽略已有的利,对于痛苦体验(为了逃避)我们重视更多——容易记住已有的害。

例如,对于好消息(包括正面评价,为了追逐)我们喜欢更多——容易忽略已有的利,对于坏消息(包负面评价,为了逃避)我们重视更多——容易记住已有的害。

例如,开心的事情或经历,不能让你一直开心,甚至平淡的速度超乎你的想象,并且回忆起昔日的快乐,还可能会有伤感缅怀的惆怅情绪;但被蜘蛛或蛇咬伤的记忆,就可以让你一想起来就心有余悸,甚至某些痛苦体验导致的PTSD(即创伤后应激障碍),还会让人精神崩溃到生活不能继续。

可见,快乐与痛苦、好消息与坏消息,对于我们的记忆与影响,具有神经性的**“选择不对称性”**。

换个角度来看,趋利**“利要多”——就不能沉迷过往(轻视拥有,极端如贪婪自私),避害“害要少”——就不能忘记经历(记忆深刻,极端如反刍思考),所以对于化学奖励与惩罚,为了实现最大化的趋利避害**,我们必然会演化出不对称的身心反应。

而实际奖励低于预期奖励,即奖励负误差,也可以看成是一种惩罚——它带来失望情绪,以及降低下次相同行为的动机(或说驱动力)。

因此可以说,负面情绪——就是心理预期与现实(或在感觉上)的奖励负误差,正面情绪——就是心理预期与现实(或在感觉上)的奖励正误差,现实与未来——就是在这两种情绪下被慢慢插值计算的结果。

那么按此视角,我们会发现,有关多巴胺参与的功能,就都能够解释的通了。

例如,注意力需要行为动机与运动控制(眼球),昼夜节律需要运动控制(身体),情绪感受来自预期误差,时间感知来自运动预测,以及等等。

甚至说,我们每一步的行动都需要奖励,而在执行每一个行为的之前与之时,我们都会一遍遍地预测,以做出选择与判断,并从中学习到更好的决策模型——这背后都需要多巴胺的参与支持。

因此,多巴胺在正常的大脑中,一直都是存在的只是浓度和区域不同,而用奖励预测比奖赏预测更好,因为多巴胺并没有**“赏”你什么,而是在“励”**你去完成什么。

最后,对于预测误差,神经科学有这样一种观点,即:预测是大脑中一切活动的**“通货”,不同的脑区之间交易的,就是不同种类的“预测”**。

换言之,大脑的**“预测”是货币,购买的是“误差”,那么“通货膨胀”就是无视误差(就像抑郁症、自闭症),“通货紧缩”**就是消除一切误差(就像强迫症)。

多巴胺,就是买到误差之后,大脑所调配出的一种**“神经饮品”**。

有趣的是,从**“预测交易”角度来看,“天才病”(适当的自闭症 + 强迫症)就是大脑中“预测交易”市场的混乱,结果天才会把所有的“预测货币”,都用来购买某一类“预测误差”,并体验到极强的“神经驱动力”,这种强烈的“交易”不平衡性,必然会带来不可思议的“单点突破”——这是用一种极端换取了另一种极端的“等价交换”**。

多巴胺的通路

多巴胺,是一种神经递质,也就是一种化学物质,能够释放多巴胺的神经细胞,被称为“多巴胺神经元”。

在大脑中,多巴胺细胞,主要集中在中脑区域的——基底核(Basal Ganglia),而在基底核之中,具体由两个区域——黑质致密部(Substantia Nigra Pars Compacta)和腹侧被盖区 (Ventral Tegmental Area) ,负责产生多巴胺。

那么,产生的多巴胺,需要投射到其它脑区才能发挥作用,这个投射路径就被称为——多巴胺通路,并且不同的通路会有不同的作用。

多巴胺系统的主要通路有三条,如下:

  • 第一条,中脑皮层通路(Mesocortical Pathway)——从腹侧被盖区到 => 前额叶皮层(Prefrontal Cortex)、前扣带回皮层(Anterior Cingulate Cortex)、眼眶额叶皮层(Orbitofrontal Cortex)。
  • 第二条,中脑边缘通路(Mesolimbic Pathway),又称奖励回路(Reward Pathway)——从从腹侧被盖区到 => 伏隔核(Nucleus Accumbens)。
  • 第三条,黑质纹状体通路(Nigrostriatal Pathway)——从黑质致密部到 => 纹状体(Striatum)。

显然,从通路所抵达的脑区功能,就可以大体看出这条通路的作用,这对应了前文所说的多巴胺的主要三种功能,如下:

  • 第一,中脑皮层通路——负责行为动机,这条通路上的脑区,与复杂认知、逻辑推理、模式识别、长远计划相关,也就是我们通常所说的理性思维
  • 第二,中脑边缘通路——负责强化学习,伏隔核被认为主导了奖励、激励和成瘾,因此这条通路除了学习,还能调控重复想要的欲望。当然,控制学习与欲望的基础是,控制注意力。所以这条通路,很容易主导我们的注意力。
  • 第三,黑质纹状体通路——负责运动控制,纹状体的功能在于,调节肌肉张力和协调复杂运动,如果黑质细胞死亡就没有多巴胺投射到纹状体,这会导致运动控制相关的疾病,如震颤、癫痫、多动症、帕金森等。

关于中脑皮层通路有一个深刻的洞见,即:理性思维其实是服务于感性思维的,也就是前者为后者提供行动的理由

因为,人脑的抽象理性思维系统,是位于大脑背外侧-前额叶皮层——但背外侧-前额叶皮层并不是一个独立的系统,它正好和(中脑皮层通路的)多巴胺系统紧密地联系在一起。

具体来说,前额叶皮层包括两个子区域:背外侧-前额叶皮层(Dorsolateral Prefrontal Cortex)与腹内侧-前额叶皮层(Ventromedial Prefrontal Cortex),前者负责理性思维,后者负责感性思维,两者合作即综合理性与感性,做出决策。

需要指出的是,思维这种高级功能,只能出现在前额叶皮层,而感性思维的作用就是,评估各种情绪(或说倾听各种情绪)的强弱与冲突,这些情绪来自边缘系统(属于本能),如贪婪与恐惧、喜爱与厌恶、渴望与胆怯、崇拜与妒忌、勇敢与害羞,或各种复杂微妙的混合,等等。

边缘系统(Limbic System)——包括海马体、杏仁核、内嗅皮层、前扣带回等,主要负责调控记忆、情绪、嗅觉、感觉等。另外,它可以影响中脑边缘通路的多巴胺投射到伏隔核,所以它可以一边输出情绪,一边激活奖励多巴胺回路。

我们知道多巴胺代表了动机(浓度代表了强度),而当多巴胺通过中脑皮层通路,被投射到理性思维区域时,其目的(或说效用),就是让理性思维来给**“动机”**寻找到一个行动的理由。

注意,如果没有中脑皮层通路的多巴胺投射,依然可以理性思考,但如果过量,就会引起过度地模式识别认知推理,即在没有规律的地方发现规律、在没有意义的地方发现意义,如迷幻剂效应。

而这个**“动机”,通常都是来自于情绪**(可能有多种),情绪来自本能,本能追逐奖励——所以真实情况是,腹内侧-前额叶皮层(即感性)评估多种情绪的强弱,背外侧-前额叶皮层(即理性)为最强的(或说胜出的)情绪寻找理由。

例如,同一件事情,我们想做的时候——会找出一堆需要做的理由(比如就做一次,对健康没有影响),不想做的时候——同样会找出一堆不需要做的理由(比如每做一次,都有癌变的概率),这些理由都是由理性思维,根据感受,刻意地“后见之明”。

**例如,**看一个人顺眼,他做什么都可以找出合理性——比如偏心,看一个人不爽,他做什么都可以挑出毛病——比如妒忌。

那么,动机越强烈(一般取决于奖励预测),理性就会越卖力地寻找理由,一旦理由充分(也可能在找理由的同时),多巴胺就会通过其它通路,激活运动控制强化学习,并展开行动。

甚至,在某些强烈情绪的支配下,可以不需要理由,直接行动,这是边缘系统绕过前额叶皮层的**“本能决策”,如愤怒地攻击、恐惧地逃跑、紧张地失态,等等——当然行为之后,理性就会给本能决策找出各种合理性,但这些都是事后解释**,而不是事前理由

可见,主导我们的一直都只是感性,当然感性动机有多种可能与路径,而所谓理性,只是在“倾听”感性的各种动机,并给出决策依据,以选出“获胜”的感性动机

**例如,**饥饿的时候——会找出一堆理由可以进食(想到各种进食的道理),吃饱的时候——会找出一堆理由需要断食(想到各种断食的道理)。

例如,“是坚持,还是放弃”——这个哲学问题的答案,往往取决于事后结果的好坏,即:坚持有好结果,就会觉得当初应该坚持(并会找出一堆需要坚持的理由);放弃有好结果,就会觉得当初应该放弃(并会找出一堆需要放弃的理由);反之亦反。

有时候,看起来貌似是理性改变(或是抑制)了感性,但其本质只是,理性为一个本来“弱小”(或是潜意识)的感性,找到了强有力的理由,从而让其在感性博弈中胜出。

也就是说,我们都是——**根据(感性)感觉找观点,然后根据观点找(理性)理由,**而感觉来自环境信息的刺激。

所以,大脑常常做出矛盾的举措,表面是双标多标,其背后的神经运作都是——理性对感性的本能服从——这看似是服从理性,其实是理性的服从

换个角度来看,理性可以告诉你现实是什么有哪些可能,但应该怎么办是感性的判断、决策和选择。

至于那些,忍痛延迟,是预测到未来可能的巨大奖励,致使多巴胺系统战胜了当前的化学惩罚,从而激活了动机、理性、学习与行为控制的神经通路

血清素——用于惩罚预测误差,低浓度会带来抑郁和自我否定,反之则会感到积极和自我满足。

当然,如果预测眼前奖励大于未来奖励——也就是想象即时享乐的多巴胺浓度,大于想象延迟享乐的多巴胺浓度——那么理性思维就会(找出理由)说服自己接受短期诱惑(如娱乐),反之理性思维则会(找出理由)说服自己坚持长远计划(如自律)。

可见,理性思维它既可以支持即时享乐,也可以支持延迟享乐——这一切都取决于你的预测想象(即颅内模拟)所产生的本能情绪——毕竟,本能情绪是更早演化的功能,是更快的算法,是更底层的神经运作,是更有保障的自然选择。

事实上,多巴胺、奖励、惩罚、动机、想要、欲望等等,都是基因构造的产物,我们一直也只能遵循基因算法的逻辑行事——理性只是一个**“配角”**。

只不过,理性系统中的智能,是一个可以独立演化的系统,它已经从逻辑角度,看出了本能的种种缺陷与问题,也探索出了各种方法,去对抗本能

如今,在基因演化之后,顺着人类文明的发展,模因(meme,文化基因)的演化已经拉开了序幕,而智能本能的博弈才刚刚才开始。

最后,我们还能看出一点,运动控制是一件耗费能量的事情,自然选择要求**“效能比”,因此多巴胺就成为了运动与生存之间的“引导物”——换言之,没有多巴胺指令,我们就不能行动,也没有动机,犹如进入了“待机模式”**。

值得一提的是,多巴胺还是去甲肾上腺素的前体,即合成后者需要前者,类似爱情是繁衍的前体——当然,某些生物没有爱情也能繁衍,但有些生物没有爱情就会拒绝繁衍。

去甲肾上腺素负责——注意力、应激反应、运动能力,核心词:立即行动,即:脑内释放去甲肾上腺素(同时体内释放肾上腺素),能够让我们迅速对环境信息,做出反馈行为——如“战或逃”。

可见,大量的多巴胺不仅带来了强力动机,还配套地为强力行动的“燃料”合成,做好了准备。

多巴胺与实验

多巴胺的功能,并非**“空穴意淫”**,而是来自动物实验的证据,接下来概括性的,简述几个有趣的动物实验。

第一,行为动机。

成瘾药物会劫持多巴胺系统,使得动物对药物本身产生强烈的动机。在重复给药之后,动物对药物就会产生不可自控的欲望

但增加或减少脑内多巴胺浓度,并不会改变动物对药物的快感强度,只会改变对药物的欲望强弱。而对动物快感的测量,主要是对它们表情的观察——就如同我们的表情,可以体现我们快乐的程度一样——显然,愉快与狂喜是不一样的。

需要说明的是,与人类不同,动物几乎无法伪装自己的表情,所以它们的表情,很大概率就是它们快感强度的标识——当然也可以,找出特定表情背后对应的颅内状态,以作判断标准,只不过如果表情与颅内状态是对应关系,那么测量表情就是一个简单有效又高效的方法。

接下来,如果使用药物,抑制动物脑内的多巴胺合成,它们就会丧失所有的行为动机,甚至——连吃喝的欲望都会消失,以至于饿死渴死,都没有觅食的动力。

欲望与快感的区别在于:前者是想要体验,后者是爽在当下。而拥有高浓度的多巴胺,你会特别想要(行动力爆表),而不会满足当下(心急如焚),并没有快感(只有对快感的预期)。

多巴胺:行为动机实验。

第二,强化学习(使用Pavlovian巴甫洛夫式条件反射,符合Rescorla-Wagner模型)。

奖励预测正误差

  1. 动物听到声音,可以得到糖水,反复训练,直至听到声音就会去糖水区。
  2. 针对(1)的动物,把声音替换成“听到声音 + 看到灯光”,然后重复(1)的训练。
  3. 针对(2)的动物,给与灯光,动物不会去糖水区。
  4. 重复(2)的训练,给与两倍糖水。
  5. 针对(4)的动物,给与灯光,动物会去糖水区。
  6. 重复(2)的训练,但激活多巴胺。
  7. 针对(6)的动物,给与灯光,动物会去糖水区。

给与,是物质上的、具体的;给予,是精神上的、抽象的。

以上实验说明:

  • **“声音与糖水”**建立奖励预测。
  • “声音 + 灯光”给与预期奖励,即:预测零误差,无法学习**“灯光与糖水”**的关联。
  • “声音 + 灯光”给与两倍奖励,即:预测正误差,可以学习**“灯光与糖水”**的关联。
  • “声音 + 灯光”给与“预期奖励 + 激活多巴胺”,即:创造预测正误差,可以学习到**“灯光与糖水”**的关联。

结论:多巴胺浓度的正误差,带来了学习,即:奖励预测正误差,学习关联性。

多巴胺:奖励预测正误差实验。

奖励预测负误差

  1. 动物听到声音,可以得到糖水,反复训练,直至听到声音就会去糖水区。
  2. 动物看到灯光,可以得到糖水,反复训练,直至看到灯光就会去糖水区。
  3. 动物“听到声音 + 看到灯光”,可以得到单份糖水,反复训练,直到“听到声音 + 看到灯光”就会去糖水区。
  4. 针对(3)的动物,给与声音,动物停留在糖水区的时间下降,说明对声音的反应强度降低。
  5. 重复(3)的训练,但给与两倍糖水。
  6. 针对(5)的动物,给与声音,动物停留在糖水区的时间不变,说明对声音的反应强度不变。
  7. 重复(3)的训练,但给与两倍糖水,同时抑制多巴胺。
  8. 针对(7)的动物,给与声音,动物停留在糖水区时间下降,说明对声音的反应强度降低。

以上实验说明:

  • **“声音与糖水”“灯光与糖水”**分别建立奖励预测。
  • “声音 + 灯光”给与单份奖励,即:预测负误差,可以学习降低**“声音与糖水”**的关联。
  • “声音 + 灯光”给与预期奖励,即:预测零误差,无法学习降低**“声音与糖水”**的关联。
  • “声音 + 灯光”给与“预期奖励 + 抑制多巴胺”,即:创造预测负误差,可以学习降低**“灯光与糖水”**的关联。

结论:多巴胺浓度的负误差,带来了学习,即:奖励预测负误差,学习无关性。

多巴胺:奖励预测负误差实验。

那么,抽象概括来看,我们可以得到以下关系:

  • 预期0,奖励1,误差1——多巴胺细胞兴奋。
  • 预期1,奖励1,误差0——多巴胺细胞静息。
  • 预期1,奖励0,误差-1——多巴胺细胞抑制。

综上可见,多巴胺控制了我们的——想要与学习,以及执行想要与学习的行为。

当然,“想要”看起来就是“喜欢”,但其实想要并不是喜欢,更不是快乐,甚至不喜欢、不快乐,但依然可以想要。

而从脑科学角度来说,想要喜欢——其实来自不同的大脑系统:前者是多巴胺系统的调控,后者是内啡肽系统的调控——两种系统各自包含不同的脑区,并形成回路,即:想要可以激发喜欢喜欢可以激发想要

内啡肽——用于止痛、欣快,也就是痛快,即痛并快乐着。换言之,吃苦忍痛的行为(如刻意练习),就可以获得内啡肽的快感奖励,也因此心流状态的激发,必须要有挑战。

但如果回路平衡失调(被某种“输入信息”劫持),就会产生想要喜欢的不对称(两个系统的阈值差距较大),甚至想要没有喜欢(内啡肽系统低迷),或喜欢没有想要(多巴胺系统低迷)。

那么,抽象概括来看,**“想要”是多巴胺,“喜欢”**是内啡肽,前者是追求,后者是奖励。

人生的悲剧就在于,“没有奖励的追求”,这就是让人无法自控的**“瘾”——而“没追求还有奖励”,这种基因注定会被淘汰,但演化的冗余性带来了“意外”——这就是“药”“毒”**。

多巴胺与快乐

通过前文的论述,多巴胺与快乐的关系已经显而易见,即:多巴胺是对快乐的预测,有多巴胺不一定快乐,但快乐一定会有多巴胺。

首先,有多巴胺没快乐,即是有想要快乐的欲望,但快乐只是预测到的可能性,还没切实得到(或说切身体验)。

**例如,**吃糖会快乐,想到吃糖就会激活多巴胺对快乐的预测,于是就会想找糖吃,但找糖吃只是欲望,吃到糖才真有快乐。

**例如,**饥饿的时候,人们会难以自控地大快朵颐,但此时并没有享受到多少味蕾的快乐,而是在快速满足饥饿的欲望。

**例如,**强迫症患者,常常会做出重复性的动作,此时多巴胺系统的整体兴奋,会让他们难以停止行为,但又没有任何获得快乐的可能。

**例如,**很多人因为爱情,会憧憬和对方在一起的未来,而多巴胺系统对于繁衍从不吝啬,于是原来做不到的事情,也就能够做得到了,比如健身、减肥、学习、工作等等——这些都是延迟奖励(即奖励在未来),而在当下更多的是不快乐地忍痛。

这意味着,人可以追求没有结果的事情,只要有多巴胺,也可以无视有结果的追求,只要没有多巴胺。

那么,再对比一下快乐与痛苦的记忆,我们会发现:回忆痛苦就可以体验到痛苦(甚至是恐惧),但回忆快乐往往体验到的是欲望,只有满足欲望才能体验到快乐(且比较短暂),甚至有时回忆快乐也会体验到痛苦,因为现在此刻,欲望得不到满足。

可见,在快乐之前的一步,永远是满足欲望(无论是环境刺激,还是颅内模拟),而想要的欲望,就是来自多巴胺的调控,至于后续的快乐能否如期而至,多巴胺并不负责。

其次,有快乐就会有多巴胺,这也是为什么,最初人们会觉得多巴胺就是快乐本身的原因,但为什么快乐一定会有多巴胺呢?

这是因为,在获得快乐之后,奖励预测误差就会出现,多巴胺开始驱动强化学习,即:如果快感上升,就要学习趋利,快感下降就要学习避害,快感不变就要学习路径

同时这也解释了,为什么我们在做快乐的事情时(如游戏、美食和繁衍),难以中断停止,充满了不顾一切都要继续的动力。

例如,像情不自禁地看美女,就是为了维持快乐,多巴胺系统会控制身体、头部与眼睛,跟随美女的运动轨迹,否则就会出现奖励预测误差,并让我们产生有消除这个误差的欲望——至于为啥看美女就会快乐,还不是因为基因想要繁衍,而繁衍的前提就是“锁定目标”(与“学习目标”),基因会奖励繁衍路径上的“点点滴滴”,即可能促成繁衍的所有操作。

最后,在得了某些精神疾病的情况下,才会出现有快乐没有多巴胺的非常正常情况。

例如,抑郁症,不是感觉不到快乐,只是没有追求的动力,觉得一切都没有意思,这和多巴胺系统低迷关系密切。

但问题在于,无法去追求快乐,就不会获得快乐——这就像给你很多钱,但你又没有途径去消费——你还能快乐吗?所以,抑郁症只有无欲无求的死灰之感。

**综上可见,**如果要用一句话来形容,多巴胺与快乐的关系,我觉得就是:

声色犬马学的快纵情声色难自控”——前者是“预测快乐 + 强化学习”,后者是“维持快乐 + 强化学习”。

因此,我们可以洞见到:

  • 贪婪只是欲望(奖励预测),
  • 适止才能快乐(减少误差),
  • 否则凡事太尽(误差太大),
  • 快乐势必早尽(不可抵达)。

而积极心理学奠基人、“心流之父”——米哈里·契克森米哈赖**,《心流》**中,指出:

“任何有乐趣的活动几乎都会上瘾,变成不再是发乎意识的选择,而是会干扰其他活动。……当一个人沉溺于某种有乐趣的活动,不能再顾及其他事时,他就丧失了最终的控制权,亦即决定意识内涵的自由。”

所以,更严重地说,不能干预调控多巴胺系统,不仅只有欲望没有快乐,还最终会失去自由——意识的自由、精神的自由、人生的自由。

多巴胺与学习

人类最重要的能力,就是学习能力,而学习的关键在于好奇心,如果没有好奇心,就会不想学、也学不进,如果被迫学习,就会学不好、也学不会,并且还会滋生各种负面情绪。

俄裔美籍作家——弗拉基米尔·纳博科夫(Vladimir Nabokov),曾说过:“好奇心是不服从最纯粹的形式。”(Curiosity is insubordination in its purest form)——这里不服从的可以是任何一种秩序,如常识、常理、惯常、主流、亦或是传统,显然这也是学习的副产物之一。

那么,好奇心来自于何处呢?

其实是来自于——不确定性,更准确地说:

  • 完全确定,我们就会感到无聊——舒适区,舒适久了就是无聊;
  • 完全不确定,我们就会感到恐惧——恐慌区,恐惧 + 惊慌;
  • 确定小于不确定,我们就会感到风险——挑战区,冒险就要承担损失;
  • 确定大于不确定,我们就会感到好奇——学习区, 熟悉 + 未知。

当然,如果接受了某种**“不确定性”,可能就不会恐惧,但这是确定的不确定性,其本质是确定性,即确定的是概率,如投资的回报与损失;那么,没有确定的概率,即完全不确定,此时哪怕不确定的是“奖励”**,也会带来一定程度的恐惧,因为(由随机性导致的)不确定的不符合预期,相当于是一种惩罚。

可见,不确定性心理效用的关键是预期,即:不确定的失去让人恐惧(低于预期即失去),不确定的得到让人兴奋(高于预期即得到)——显然,只有存在高于预期的不确定性,才能带来好奇,否则只能感到风险。

而如果我们对一个事物充满好奇,或一个事物能够令我们持续地好奇,我们就会情不自禁地喜欢,接着喜欢又会激发更多的好奇好奇继续加深喜欢

显然,一旦有了好奇与喜欢的回路增强,我们就能够拥有兴趣与热爱,进而就会更容易沉浸在心流之中,而心流——就是学习的**“终极化学武器”。**

那么从多巴胺的角度来看,不确定性会带来预测误差,这个误差就会激活多巴胺,带来动机,动机会驱动行动,行动产生反馈,反馈关联到颅内的**“化学奖励”,进而激活学习,最终消除预测误差——完成多巴胺系统**的回路训练。

事实上,“好奇、喜欢、兴趣、热爱”其实都是为了消除“预测误差”的多巴胺效应

例如,眼睛进入了一只小飞虫,想揉眼睛的预测误差就会在大脑中涌现,除非执行这个动作消除误差,否则这个**“误差感”**就会一直存在——并不断试图掌控你的行为。

例如,过敏性的奇痒,抓挠可以消除痒感误差,但过程会带来疼感误差,结果这两种**“误差感”**会形成一个动作循环,即:痒了抓,抓了疼,疼了停,停了痒,痒了再抓,等等——难以自控,又不能自已。

例如,故事中的英雄,如果被打倒打败,我们就会在颅内产生预测误差,而英雄战胜困难、再次崛起、王者归来,这个**“误差感”消除的过程,就会让我们体验到“满足感”——就像我们消除“想要的”**误差时一样。

那么,“好奇、喜欢、兴趣、热爱”所代表的预测差异,就在于:

  • 好奇 = 熟悉 + 不确定的奖励,如:猫好像能说话。
  • 喜欢 = 熟悉 + 意外的奖励, 如:猫真的能说话。
  • 兴趣 = 熟悉 + 确定的奖励, 如:猫经常和你说话。
  • 热爱 = 熟悉 + 确定的高奖励,如:猫说的都是你爱听的话。

由此可见,**“熟悉 + 奖励”就是“好奇、喜欢、兴趣、热爱”的底层逻辑,其中“熟悉”代表着已有的确定性,“奖励”**代表着预期的不确定性(即存在奖励预测误差),而学习的动机就是——确定不确定性奖励的欲望。

例如,我们对盲盒剧情反转的喜欢与兴趣,其实都是——熟悉 + 意外的奖励 + 确定的奖励。

需要指出的是,兴趣与热爱的奖励路径是确定的,此时多巴胺的意义是——维持奖励路径,消除预测误差,如成瘾行为中的难以自拔——同时这也是我们能够,不断重复兴趣与热爱的原因所在。

那么,如果(脑回路)确定奖励存在,但又不确定必然的路径,这时多巴胺系统就会激活,以进行强化学习。

例如,斯坦福大学的神经科学家——罗伯特·萨波尔斯基(Robert Sapolsky)发现:当我们查看自己的社交网络时,有时候会发现回复,有时候没有,下一次查看时又有了评论或赞赏,这时大脑中的多巴胺,会有**400%**的激增。

萨波尔斯基将这种——“戏弄”的不确定性,称之为**“可能性的魔力”,其分散一个人注意力的程度,竟然已经达到了上瘾**的程度。

事实上,为了消除不确定性,多巴胺不仅能让人感到兴奋,并快速做出行动,还能够加深神经元的连接,让脑回路可以更好地记忆和计算,以减少未来的预测误差。

经过脑科学相关的调研,超级畅销书作家——史蒂芬·科特勒 (Steven Kotler),在**《盗火》**中,指出:

“在非寻常状态中(即出神时),多巴胺通常会大大增加,而前额叶皮层的活动则骤然减少。突然之间就能找到,以前从未想到过的思想之间的联系。那些联系中,有些是合理合法的灵感,有些则是天马行空的想象一滑而过。”

而在2009年,瑞士神经科学家——皮特·布鲁格(Peter Brugger)发现:神经系统中含有更多多巴胺的人,相信秘密阴谋与异形绑架的可能性会更大。这些人正遭受着一种被富有意义的巧合所征服的趋向,而且常常会察觉到一些其他人浑然不觉的模式。

显然,神经元连接的增强(尤其是遥远连接的增强),不仅带来了创造力,同时也提高了我们模式识别的能力,也就是发现规律和意义的能力。

换言之,如果多巴胺不足,我们就会找不到规律和意义;相反,如果多巴胺过多,本没有规律和意义,我们也会强行找出规律和意义。

由此可见,多巴胺就像是大脑学习引擎的**“燃料”,太少就无法驱动引擎(欠拟合),太多又容易学到虚幻(过拟合),只有适量才能准确有效地消除预测误差**。

欠拟合(Under Fitting)——学习不到特征规律,模型无法识别预测。 过拟合(Over Fitting)——学习了太多特征细节,模型不够泛化通用。

至此,我们会发现多巴胺的作用,其实并不是奖励最大化,而是最小化预测误差,即:如果奖励正误差高,就会调高预期,如果奖励负误差高,就会调低预期,如果奖励与不确定性都高,就会有不切实际的预期。

例如,博彩的不确定性高奖励,就会导致多巴胺过多,让人找到其中**“确定”的中奖规律,而总结成功人士的成功规律,除了后见之明,就是预期奖励**产生多巴胺的功效。

但换个角度来看,虽然最小化预测误差,不一定是奖励最大化,但却是可获得利益的最大化——因为奖励与风险成正比——这是自然选择的结果,也是多巴胺强化学习的优势所在。

最后,所有的不满意不爽不顺眼,包括着急焦虑,其实也都是误差,但实际上,消除这种误差未必就可以获得奖励,并常常也消除不了,且消除的过程往往还会带来不愉快——这可谓是有关(多巴胺)学习的学习。

多巴胺与演化

事实上,大脑时刻都在使用环境信息,来校准颅内模型,以不断提高对未来的预测能力

在数学上,这就像是一个贝叶斯推理的迭代过程,即:不断使用新信息来更新先验概率,从而迭代出更为准确的预测概率。因此有很多人认为**,贝叶斯推理就是我们大脑的工作机制,而我们的大脑其实就是一个“贝叶斯大脑”**。

那么,在生物学层面,用来实现贝叶斯推理的神经引物,就是基因对多巴胺细胞的编码——奖励预测误差

显然,在环境信息颅内模型之间,必然会存在预测误差,当多巴胺消除这个误差之后,即意味着,颅内模型更新了对环境信息的认知,并将其存储为先验动机,以指导对未来的预期与决策。

换言之,多巴胺利用环境信息的反馈,消除了大脑对未来预测的不确定性——这正是信息论中**“信息可以消除不确定性”**的——生物版实现。

那么不难想象,在演化过程中,具有可迭代的预测能力,一定是具有选择优势的,所以多巴胺系统就顺理成章的,成为了基因“必备”的控制系统,而多巴胺,则就成为了基因控制“生存机器”的魔药

从前文的实验来看,动物对奖励会有预期,预期偏差会校准它们的行为,这完全是多巴胺系统调控的结果——有趣的是,纵观多巴胺的动物实验,就像是人类的“多巴胺”(行为)可以预测到动物的“多巴胺”(行为)一样。

接着更进一步,顺着演化视角,我们会恍然发现——从动物进化到智人,强大的多巴胺**“预期”仿佛也一起发生了进化,即:从“预期”生存与繁衍,演变成了“预期”**想象与虚构。

换言之,智人的多巴胺系统自我意识地结合,(在月明星稀的篝火旁)让**“预期”进化出了“故事”**。

自此之后,多巴胺就可以驱动智人,为了故事中想象出的预期奖励,而试错学习忍痛合作,以及做出任何以前**“想都不敢想”的事情——此时限制智人行动的,就只剩下了编织故事**的想象力了。

或许,正是因为故事与现实之间的预测误差——有着天壤云泥之别,所以人类才可以创造出自然界中“不可预见”的事物。

那么,回到演化视角,事实上时至如今,基因通过多巴胺,依然在控制着我们每一个人,而利用**“多巴胺思维”**,我们将能够更加深入地看清人生更多的真相。

多巴胺思维

所谓,多巴胺思维,就是把多巴胺看成是基因奴役我们的魔药,其关键点就在于把握住——奖励与误差

首先,表面上奖励就是快感,但本质上是基因所编写的算法——如盐、糖、脂肪、繁衍等,可称之为**“先验奖励”,以及算法冗余性所带来的“意外”激发物——如药物、宗教、运动、设备等,可称之为“后验奖励”**。

其中,先验奖励相当于是“出厂”内置的,可以直接激活多巴胺,而后验奖励则是后天习得的——也就是说,对待某个事物,本来不会激活多巴胺,但一旦体验过奖励之后,就习得了对它的奖励预测,如:极限运动与药物成瘾。

为什么吃喝繁衍,做起来如此容易毫不费力,而工作学习,却做起来如此困难耗时费劲

显然,前者是先验奖励,后者是后验奖励,你得体验过工作学习的奖励(越多越好),才能建立起多巴胺对它的**“预测强度”**,而总是体验到痛苦或不愉快(得不到奖励),多巴胺不仅不会激活,还会抑制,从而降低你的行动力。

例如,解题猜谜皆是误差,误差总是消除不了,就会彻底放弃——这是被判定为无法消除的“无用误差”。

需要指出是,后验奖励也要通过先验奖励的预设路径才能起效,因为奖励落实到神经层面,都是相同的神经反馈,如:内啡肽与花生四烯乙醇胺,而基因算法的“Bug”就是冗余性带来的毫无生存意义的奖励,如:迷幻蘑菇颅内电击

**其次,**再看误差,为什么人性,对变化(或说新鲜感)有着不可磨灭需求?为什么缺少变化,我们就会感到无聊与乏味?为什么重复某些行为会让我们上瘾,而另外一些则会让我们痛苦?

事实上,在这些不同场景不同感受的背后,统统都指向了**“魔药多巴胺”——因为,变化即会带来预测误差**,而多巴胺的作用就是消除误差,所以:

  • 如果变化指向确定奖励,就会感到——兴趣与热爱。
  • 如果变化指向意外奖励,就会感到——好奇与喜欢。
  • 如果变化指向不确定性,就会感到——排斥与抗拒。
  • 如果变化指向没有变化,就会感到——无聊与乏味。

由此再看,强化学习,其实它动态设定了**“奖励感”**——这取决于最终奖励获得的情况,包括即时性、可能性和预测误差。换言之,确定的小奖励(奖励感高)会比不确定的大奖励(奖励感低),激发更多的多巴胺。

注意,这里**“确定奖励”是指,奖励存在的确定性(体验过就确定性高),但其过程和强度**仍具有不确定性,这是变化的来源。

因此,就如前文所说,多巴胺学习的目标不是奖励最大化,而是利益最大化,即:奖励与耗能比率的最优。

所以,太困难、太复杂、太辛苦、太耗时等等,都会拉低我们对预期奖励的渴望,进而感受到多巴胺浓度降低所带来的**“排斥、抗拒、无聊、乏味”——尽管我们(的智能)知道,延迟享乐延迟满足,在未来将会有巨大的奖励,但也无法改变“多巴胺现实”**。

更或许,永远无法消除的预测误差就是——遗憾,即:整个人生都将为这个误差,而处在永复往返地负强化学习之中。

那么相反,习以为常亦或是习惯了的感觉,就是因为预测误差不存在了。

例如,经历过至暗时刻,我们就不会再害怕黑暗——就是因为黑暗,已经无法再让我们产生预测误差

例如,为什么**“循环”会让人觉得没意思很无聊——比如西西弗斯推石头——因为一旦循环了,就没有不确定性了,也就是可以被预测了,即预测误差**不存在了。

值得一提的是,在微观神经运作层面,预测误差对应了神经元的离子通道,对外界刺激的响应**“强度”——这个强度并不是刺激强度所决定的,而是由刺激强度的“变化”**所决定的。

最后,从某种角度来看,脑神经科学是心理学的源头,心理学是心理痛苦的解药,因此可以说,所有的心理痛苦,都可以在脑神经科学中找到解答,而奖励预测误差,就是大部分心理痛苦的神经性根源所在。

因此,降低奖励预测,就可以缓解很多的心理问题,但奖励预测真的可以“手动”降低吗?

多巴胺旋钮

很多人,都无法控制自己的欲望,进而就无法控制自己的行为,最终就无法得到想要的结果,其实这都是被**“魔药多巴胺”**控制的表现和结果。

而有了多巴胺思维,我们就应该将——欲望与目标区分开:欲望是先验奖励,来自本能的预测;目标是后验奖励,来自智能的预测。

重要的是,相对于智能模型,本能模型是短视与陈旧的,满足欲望的结果未必是好的,例如无法自控地上瘾,这是多巴胺系统被劫持的表现,属于基因算法无法适应当今时代的缺陷,因为**“盐、糖、脂肪”早已不再是稀缺资源,“药物、设备、网络”是丛林时代所没有的,而本能预测**却没有及时地调整策略。

相反,智能模型是长远规划与快速更新的,因为它来自神经网络的逻辑推理强化学习,就像健身会遭遇反复的疼痛,开始本能会强烈地排斥,但长期健身必会受益,最终在获得巨大的后验奖励之后,连本能也会支持智能的决策。

事实上,就如前文所说,欲望带来的是想要,没有奖励只有不得的焦虑,而目标就像是智人脑海里编织的故事,充满希望又不那么急切——显然,前者是短期的生存目的(动物都有),后者是长期的生存意义(人类才有)。

那么,面对本能所带来的欲望,除了“忍痛”,还有更好的方法吗?

其实,控制本能欲望的关键,就在于对多巴胺的调控,而调控多巴胺的关键,就在于找到那个——“多巴胺旋钮”

由前文可知,与多巴胺浓度密切相关的是**“奖励感”,而它就是调控多巴胺的“旋钮”**。

换言之,欲望控制执行了某个行为,欲望就想从某个行为中获得奖励,如果这个奖励被“打断”(即奖励感降低),就会削弱欲望的动机——也就是降低了多巴胺的浓度。

例如,动物触碰机关就会得到食物,经过多次训练,动物就会产生触碰机关的欲望,而消除它欲望最快的方法,不是在它触碰机关的时候电击它(惩罚),而是在触碰机关后什么也得不到(打断正反馈的奖励)——可见没有奖励的欲望,其脑回路就会(为了节能而)被重塑。

而打断**“欲望奖励循环”**的方法有很多,例如:

  • 转移注意力——运动、游戏、看剧、吃东西,
  • 切换新欲望——做另一个特别感兴趣的事情,
  • 激发目标感——用故事唤醒脑回路中的意义,
  • 等等。

关键点就在于,让欲望得不到满足,以削弱多巴胺系统对奖励的正向预测。

那么,换个角度,**“多巴胺旋钮”**除了逆时针减弱——本能欲望,还有顺时针增强——智能目标

例如,长远规划、延迟奖励、冒险试错、承担风险、经历失败等等,都需要逆转多巴胺系统的低迷,才能激发爆表的行动力,然后不断进步逼近目标,而方法还是调控**“奖励感”。**

按照规律,奖励感 = 即时性 + 可能性 + 预测误差,但智能目标必然是:“高延迟 + 低可能性”的——这还如何提高奖励感呢?

解决方案就是:创造短期的小目标,完成可控的小任务,获得即时的正反馈(增强输入行为),训练高效的脑回路

换言之,就是把大目标分解成各种小目标,把小目标分解成各种小任务,从小任务中获得正反馈,从正反馈中获得即时奖励控制感(或掌控感),通过这个任务**“游戏化”的过程,就可以像“玩游戏”一样,用一个个小胜利与小进步,塑造希冀、可控与期待的脑回路**。

需要强调的是,没有正反馈,多巴胺就会疲软,从而丧失控制感掌控感奖励感,更不会有心流体验,最终就无法行动。

例如,程序加载的进度条,就是一种及时反馈,如果没有,人们等待的行为就很难触发和维持,而游戏的乐趣,很重要的部分就是来自于,即时反馈。

而具体方法,就像资深商业调查记者——查尔斯·都希格(Charles Duhigg),在**《习惯的力量》**中所说的,养成好习惯需要三样东西:

  • 第一,线索(Cue)——启动习惯,遇到相应情境,如:时间、地点、情绪、交互。
  • 第二,例程(Routine)——训练习惯,执行具体动作。
  • 第三,奖励(Reward)——完成习惯,要给予正反馈,如:满足欲望的物质或活动。

同理,斯坦福大学行为设计实验室的创始人——福格教授(BJ Fogg),总结了一个行为模型(Fogg Behavior Model),即:B = MAP,

行为(Behavior)= 动机(Motivation)+ 能力(Ability)+ 提示(Prompt)。

简单说,就是行为(B)发生在动机(M)、能力(A)、提示(P)同时出现的时候——当行为没有发生时,这三个元素中至少有一个缺失,其中:

  • 动机,就是行动的意愿,如解决:痛点、爽点、痒点;
  • 能力,就是行动的难度,如感到:简单、流畅、顺滑;
  • 提示,就是行动的触发,如产生:浏览、推荐、提醒。

可见,对应到养成好习惯(行为)——动机就是获得奖励,能力就是完成例程,提示就是触发线索。

那么,除了以上三点,还有事半功倍的两点,非常值得融入,即:强化启动(把注意力放在启动习惯上) + 不要停下(一旦开始习惯就不要中断),所以合起来就是:

行为习惯 = 奖励动机 + 例程能力 + 线索提示 + 强化启动 + 不要停下,如:

  • 健身 = 健康 + 跑步 + 手环 + 教练 + 打卡。
  • 学习 = 智识 + 时间 + 软件 + 课程 + 挑战。
  • 写作 = 系统 + 思考 + 专栏 + 计划 + 任务。

值得一提的是,强化**“提示、线索、启动”**是至关重要的一步棋,因为人脑总是需要从环境信息的输入反馈,来激活内部深邃、庞大、繁密的信息回路,并且只能从上一个信息连接到下一个信息。

而养成好习惯,还有一个额外的好处,就是**“习惯回路”一旦建立,打破习惯就会受到化学惩罚**——这是对抗欲望强有力的**“化学武器”**。

最后,在**“奖励感”中,最易调节转动的变量——就是预测误差**,即变化,或说意外,也就是加入随机性,心理学上称之为——“可变奖励原则”(Principle of Variable Rewards)。

所以,若想快速转动**“多巴胺旋钮”,对于简单重复的行为——可以用时间间隔来获得变化(熟悉的意外),而对于复杂艰难的行为——可以用深入探索**来获得变化(未知的意外)。

例如,电影看过了可以间隔重看,技艺学习了可以精益至臻,而繁衍既可以间隔冷却,也可以深度解锁

相反,本身就充满多样性的行为,如游戏、购物、旅行等,拥有充足的变化(参差多态的意外),所以调控**“多巴胺旋钮”**,就需要避免接触与抑制想象。

那么,无论是(逆时针转动)抑制欲望,还是(顺时针转动)追求目标,必不可少的一步都是,在变化过后一定要注入——正反馈的奖励,因为它能带来回路增强的,动机、学习和控制,否则大概率会遭遇到,无聊、懈怠和失控。

例如,要把事情做到极致的**“十倍思维”(即数量级的差异)——就是要创造远远超越市场的变化阈值**,从而能带给用户非凡的正反馈奖励,这样一下就能让用户的多巴胺激增,从而获得他们的注意力、好奇心与新鲜感,进而获得他们的情绪认可偏好追逐——相反,不够极致(即多巴胺激发不足),就学习不到——“你是谁,你有何不同?”,那么——“为何选你?”。

**例如,富人苦于买不到好东西,穷人苦于买不起好东西——这不是东西的问题,而是富人穷人对变化的“感受阈值”**不同。

例如,想要在信息洪流中被注意到,就得和周围的事物形成反差——反差制造变化,变化强化记忆——只要通过差异化呈现,就可以赢在信息传播的起跑线上。

例如,主播经常更换人物造型与背景装饰,就会带来除了内容之外,另一个维度的变化,从而就能够提高观众的新鲜感,增加直播的吸引力。

例如,电视直播,如果出现临场问题,导致节目不能正常进行,此时收视率反而会提高,这说明人们对意外的变化,甚至超越了节目内容本身。

事实上,意外惊吓带来的变化,是改变观念、产生记忆、调整行为最高效的方式,这是演化在生死压力之下,所编写的**“快速通道”**。

当然,变化(即预测误差)是一把双刃剑,它会获得我们的注意力,影响我们的判断力,产生认知偏差,就如风险哲学家、随机性大师、“黑天鹅之父”——纳西姆·塔勒布,在**《反脆弱》**中,所说:

“我们对变化的注意,远远多过扮演重要角色但不变的事物。局部的变化,总是比全局更容易被大脑注意(和存储),需要的内存空间也更小。这种心理启发法(通常,我们自己也意识不到它的运作),即:以变化取代整体的错误是相当普遍的,甚至很容易被观察到。”

跑步机效应——是指我们迅速厌倦我们所拥有的东西,并不断寻找升级版的“被迫冲动”。我们之所以期待新品,购买后又迅速失去兴趣(尤其是与新品比较时),就在于我们更关注不同版本之间的变化而非共性。

而在更整体的层面上,著名理论物理学家、圣塔菲研究所前所长——杰弗里·韦斯特(Geoffrey West),在**《规模》**中,指出:

“我们一直在进化的体系,很大程度上仰仗人们持续想要获得:新的汽车、新的手机、新的玩意儿、新的衣服以及新的洗衣机、新的兴奋点、新的娱乐等几乎所有新东西,即使他们手中已经拥有了足够多的东西。这或许并不是一个完美的画面,而且也不会得到每一个人的认同,但截至目前,对于我们大多数人而言,这很奏效,而且很明显,我们大多数人都希望这一欲望能够继续下去。”

可见,人类文明的整体进化,其实是依赖于个人本能的局部追求,即被**“变化欲望”无止尽地驱使的,那么如何在整体进化局部追求之间取得平衡,就在于——我们是利用变化来提高生活品质,还是被变化利用成为一台“欲望机器”**。

所以,我们不是学会掌控变化,就会被变化所掌控——对此,如果我们能够(通过正念冥想)养成一个时刻反思自己**“内在动机”的行为习惯,或许就不至于在“多巴胺奴役之路”上,越陷越深以至于无法自拔到积重难返**。

最后,如果消除了颅内变化(即预测误差),结果会是怎样?

可以想象,好消息你能麻木,坏消息你也能适应,赞美之词你会听腻,冷嘲热讽你也会习惯,神经系统的**“预测零误差”,就是你处变不惊的泰然自若**。

结语

拥有多巴胺思维,可以看清很多很多事情和行为,简直就像打开了新世界的大门,而使用多巴胺旋钮,可以获得更多的自由与自控,简直就像进入了一个新世界。

那么,进入了新世界,就可以问出一个新问题,即:大脑的奖励系统,到底是谁在奖励谁呢?

答案,是基因在奖励神经、大脑、以及意识,因为整个奖励系统的运作都是基因编码的表达,其中自然也包括多巴胺的**“奖励预测算法”**。

事实上,人类的行为动机强化学习,其多巴胺编码都是基因亿万年的演化积累,虽然很多策略已经略显过时,**但其深邃的以时间和存亡为代价打磨出的逻辑,**仍然在左右着我们与各种环境的交互。

甚至我们引以为豪的智能,也只能在本能所预设的环境范围内演化——试想,学习研究与探索发现,需要在**“多巴胺感受”**(即好奇、喜欢、兴趣、热爱)的指引下才能进行,我们就能够看清这一点。

要知道,基因利用穷举启发法演化出了无数算法,而经过几十亿年的迭代试错,留存的**“适者算法”**可以打败所有的逻辑推理,以及刻意练习。

例如,微生物水熊虫,通过迭代试错“构建”出了——损坏抑制蛋白(Damage suppressor protein,Dsup),以保护DNA免受极端环境的压力冲击,结果水熊虫对极端环境(如高压、高温、高辐射、以及低温与真空),有着超越生命极限(与人类想象)的耐受性。

显然,人工智能还没有亿万年生死压力下的积累,而人类智能在本能的制约下将会走向何处,也充满未知,但智能的未来可期,这是演化逻辑(整体熵增局部有序)的选择,不是吗?

回到目前,大部分人,都只能在基因的奴役下,跟随自己的多巴胺行事,而不自知——因为多巴胺赐予了我们动机、想要、渴望与欲望——同时我们也会把这些,就当成自己不容置疑的目标。

**坏消息是:**多巴胺通路告诉我们,理性是要服务于感性的,所以只要欲望与想要,持续的时间足够久,理性就一定会说服自己,找到行动的充分理由的。

**好消息是:**虽然多巴胺系统是一个二级混沌系统,具有二级效应,也就是说,你在被多巴胺驱动的时候,无法想象和感受到没有的时候,但智能可以从逻辑角度,推理并理解到。

例如,人总是喜欢从享乐角度,去设想未来,但真到了设想的未来,感受就变了,接着新的设想就会出现,行动随之而变,结果就可能打破从前的想法与设定,并会为此找出一堆理由。

那么,我们可以管理自己的预期(管理自己的想象),掌控自己的欲望吗?

从演化角度来看,学习 = 突变 + 选择——多巴胺的条件反馈就是突变,而如何选择突变,则决定了学习,接着学习决定了能力,能力决定了路径,路径决定了未来。

而一个人的行为,可以看成是其自身一套稳定的演化系统,最大化自身利益的过程——这套系统是本能与智能的博弈,充满了偏差与偏好,最终落实在了心智对多巴胺的妥协与服从之上。

那么,多巴胺思维多巴胺旋钮,就是来自智能的逻辑与选择——运用它们,将让我们成为基因奴役下的一个**“觉醒者”**。

事实上,几乎所有强者的共同秘密,就是:动机 + 专注 + 学习——这全系于多巴胺的调控——这是基因的魔药,同样也是**“觉醒者”的魔药。而有时候,利用魔药消除内心世界的“误差感”,其实就是改变世界**的过程。

最后一点,神经现实,其实就是基因在你颅内编码的故事,你可以顺应这个故事,也可以改写这个故事,一切都在于你**“自由意志”**的选择……不是吗……?

后记1:未来有多远

在微观,同样都是无差别的**“多巴胺浓度控制”**,对应到宏观的行为表现,会有什么本质的区别吗?

换言之,学习、健身、努力就一定比,娱乐、吃喝、繁衍更高级吗?看书比看片、解题比追星、工作比生活的高级感是从何而来的呢?

其实是路径,准确地说是**“多巴胺路径”,因为不同的路径,将会“引领”我们走向不同的未来,而让人感到高级的,正是那条路径可以通向的“未来”**。

但在此不要忘了,路径会有历史依赖,即:历史路径依赖(如同惯性与习惯,需要外力才能改变),或许**“多巴胺魔药”**的可控与不可控性——早在受精卵,不,是在“创世纪闪光”(即宇宙大爆炸)的时候,就已经被设定。

路径依赖——是指一旦进入某一路径,就会依赖这一路径进行演化,从而一直在这路径上走下去。通俗地说,你做出了某种选择,选择的结果会随时间形成路径,你在这条路上,走越远越难以反悔,比如婚恋时间越长,越难以分手。

那么更或许,在化学感受面前,人们根本不知道**“未来”**有多远。

后记2:秘技

目标提供了误差,误差提供了行动,行动提供了误差,直到目标完成,产生下一个目标——而意识,就可以看成是一个**“目标系统”(无目标的时刻本身就是一种目标),所有的心理活动其实都围绕着“目标”**来展开。

换言之,所有的化学反应都围绕着**“目标”**展开。

那么,“目标”其实来自于注意力投射后的捕获(环境信息或颅内信息),注意力又来自**“目标系统”**的引导。

所以,意识(即目标系统)会根据注意力的**“历史投射路径”,来引导注意力的投射,而这条注意力的“路径”**上,流淌的就是——多巴胺

需要指出的是,这里目标——是指可执行的“小目标”,目标系统(即意识)可以产生“大目标”,“大目标”可以产生“小目标”,而注意力在投射这个“小目标”的过程中,也可以产生“临时小目标”——它会干扰注意力原本的投射,甚至改变目标系统的路径。

可见,我们可以通过**“强力意志”控制注意力,来控制大脑的信息输入,从而控制多巴胺的流动,进而控制目标、误差、行动、及整个目标系统**(即整个意识)。

换个角度说,你的注意力控制着你的感受,你的感受控制着你的行为,你的行为控制着你的人生。

因此,用意志力控制注意力,就是控制人生的关键秘技。

具体来说,就是给自己的**“目标系统”,设定一个确定的“小目标”,然后把所有的注意力都投射到这个“小目标”上,并运用意志力锁死注意力**,以压制任何**“临时小目标”的干扰,直至使用足够的体力和精力完成这个“小目标”后,才可以释放意志力注意力**的控制。

再简单来说,设定目标,强控注意力,完成目标,释放注意力,或仅仅控制注意力,不要投射到那些,偏离你**“目标系统”**的事物上。

是的,用意志力控制注意力,就是控制人生的关键秘技。

**小技巧:**用倍速听音频、看视频、阅读学习,可以提高注意力的专注度,因为快速的信息流,不集中注意力捕捉就会错过,这种“速度压”会迫使思维高度集中。同理,微弱的声音也会因为听不清的压力,迫使人集中注意力。

而当你的意志力,完全控制了注意力的时候,就会看到前所未见的“东西”,即:注意到之前不曾注意的,感受到之前不曾感受的,领悟到之前不曾领悟的,闪念到之前不曾闪念的,获得到之前不曾获得的……——因为你**“目标系统”**的运作模式(包括优先级算法)已经被完全改变与掌控。

是的,纯粹的意志(Pure Will)可以鞭策并驱动整个人生,拥有强大的力量与无限的可能,我们只需要纯粹的意志,而纯粹的意志,来自于洞见与思想。

那么,核心的奇技淫巧,就在这里(或隐藏在全文字句的脉络里)了,余生是主宰多巴胺,还是被多巴胺主宰,就看我们自己的(……)了。

后记3:注意力与预测误差

注意力是有限的吗?注意力可以被消耗吗?沉迷于小说、电影、游戏、网购会耗费注意力吗?

从全文可见,注意力是用来捕捉并消除预测误差的,即:有误差就会注意到,误差没有消除,注意力就会保持,直至消除误差。

于是,消除误差的方式,就会主导注意力的使用和消耗,如以下情况:

**第一,**如果这个误差很容易消除,就不怎么消耗注意力,只会转移注意力。

例如,问题的答案是自己已知的,即消除误差的是自己的经验和知识。

**第二,**如果这个误差由外界快速消除,就会感到“从意外到熟悉的喜欢”,此时不会转移也不怎么消耗注意力。

例如,逛街或看电影,意外是由新品或剧情带来的误差,这个误差由后续体验消除,就会喜欢这种体验,并且轻松愉快。

**第三,**如果这个误差需要脑力消除,就会消耗注意力。

例如,思考、推理、计算、记忆,都需要用意志力来保持注意力,否则很容易转移注意力。

所以,无论做什么:

  • 如果有难度感到挑战,就会消耗注意力;
  • 如果太容易毫无挑战,就会转移注意力;
  • 如果有难度适当的挑战,就会持续低耗注意力,并感到喜欢。

这就是为什么,忙了一整天,到家可以继续看电影、玩游戏、刷网页——但有些烧脑电影、解谜游戏、学习网页,就没有精力(能量)继续体验。

事实上,注意力带来了创造的可能性,但注意力不等于创造力,大量注意力集中,可能什么也创造不了,并且注意力的转移,也不等于注意力的耗散。

那么,注意力的流动,最底层必然需要的是能量,它可以看成是一种能量流动的形式,因此,注意力其实需要多巴胺的强力驱动(耗能的都需要多巴胺),即:预测误差带来多巴胺,然后多巴胺驱动运动力与注意力去消除误差。

从某种角度说,能量流动带来了“连接变化”,而连接(尤其是长程连接)才能创造创新——对于大脑,遥远脑区的连接即是创意。

显然,在能量流的上层,注意力流也能带来连接,不同的是,能量带来的连接具有**“物理强迫性”,注意力带来的连接往往在颅内,并且这些“思维连接”**大部分都会被滤掉,即神经连接脉冲的时间极短(衰减极快)。

因此,注意力转移耗散是很少的(没有长时间的长程连接),所以注意力不集中比集中注意力要轻松容易许多,这是一种节能模式,即大脑的**“默认模式网络”**(Default Mode Network)。

换言之,我们天生擅长保持长时间地注意力不集中——如随机漫步东看看西看看,偶尔地集中注意力——如“盐糖脂肪和繁衍”与“听故事看故事”。

好在大脑具有可塑性,我们需要逆转这个“擅长”,反向成——长时间集中注意力(耗能连接),偶尔的注意力不集中(放松休息)——结果就会是脑力过度补偿性的冗余变强,其副作用就是心智的升级——这是超越**“盐糖脂肪和繁衍”**的体验。

后记4:奖励感的漏洞

奖励感的强弱,关联着奖励预测误差的大小,从而影响欲望、想要、驱动力、及行动力的大小。

通常,我们会通过预测误差来调节奖励感——如:喜欢 = 熟悉 + 意外,这个**“意外”就是预测误差的调控因子——也就是说,通过(随机性产生的)“意外”,可以改变预测误差**,从而改变奖励感,最终影响我们的欲望与行动。

但从另一个方面来看,奖励感本身也具有神经性的阈值,即:相同程度的频繁刺激,会令神经回路的兴奋趋于缓和,甚至平静到不再做出响应——这是一种**“饱和效应”**(Saturation Effects)。

可见,神经回路的兴奋阈值,决定了奖励感的阈值,这反过来也决定了预测误差的大小,即:奖励感阈值高,就不容易有奖励感,也就不容易产生较大的预测误差——显然,都没有奖励感,何来奖励预测误差。

例如,吃饱了就不想吃(没有吃的奖励感),玩累了就不想玩(没有玩的奖励感),满足了就不想要(没有想要的奖励感),等等。

换言之,习惯成自然,就是奖励感的阈值增加,提高了获得化学奖励的门槛,此时一般的意外已经无法带来喜欢,而是需要时间间隔(即奖励感阈值冷却)或是刺激升级(即出现黑天鹅体验),才能获得有效的奖励感预测误差

那么据此,我们就可以利用奖励感阈值这个“漏洞”,来打破欲望与想要,对我们行为的掌控,即:在奖励感低(奖励感阈值高)的时候,采取果断的阻隔动作,以阻止奖励感高(奖励感阈值低)的时候,我们被欲望想要驱动的行为。

具体来说,就是在我们低欲望不想要的时候,身心可以较容易地舍弃抛弃设置障碍,以增加欲望想要回归之时的阻力感。

例如,吃饱了就把吃得都扔掉(包括优惠卷、打折卡等),玩累了就把玩的都卖掉(包括玩游戏机、电脑等),不想要了就把后路堵死(包括事做绝、话说绝等)——这样待到日后,欲望涌起再次想要,其行动的阻力可想而知,而这是我们想要的、让我获得自由的“正面阻力”。

可见,正是奖励感阈值的**“漏洞”,给予了我们对抗欲望想要**的机会、时机与行动力。

后记5:意志力的来源

通常,我们认为意志力是一个消耗品,即:意志力就像体力一样,会随着使用而不断下降,并需要休息时间才能恢复。

换言之,同样难度的一件事情,在意志力充沛的时候可以完成,而在意志力匮乏的时候就难以完成,并且如果这件事情的难度保持不变,就会出现我们起初可以完成,但随着意志力的消耗,做着做着我们就变得无法完成了。

那么,意志力的运作,真的是这样吗?

实际中,如果你做这件事情没什么难度(如电影、游戏、美食),你就不需要什么意志力来做这件事情;如果事情有一定的难度(如健身、节食、读书),你就需要一定的意志力;如果事情的难度超出了你的预计(如劳累、饥饿、苦闷),你就需要很多的意志力来做这件事情。

可见,意志力的作用,其实就是用来对坑各种负面感受的——注意,抑制自己不去获得近在迟尺、唾手可得的化学奖励,也需要承受一定的负面感受

而换个角度来看,我们之所以能够使用意志力去克服负面感受,一定是因为我们的思维认知,首先战胜了负面感受,即:智能说服本能看到更多的可能性,以及计算更长远的趋利避害。

试想,如果一件事情,我们在思维认知上觉得毫无意义、毫无希望、毫无价值,我们还会有意志力去对抗负面感受,并强制自己执行吗?

事实上,改变了思维就改变了感受,改变了感受就改变了行为——表面上我们看到,是意志力战胜了负面感受,但其背后,必然是有思维模式带来的认知水平,减弱了负面感受在**“本能决策”中的影响权重——否则,本能计算的结果,一定是服从负面感受**所主导的行为驱使。

例如,小孩子没什么意志力来对抗吃药打针,是因为小孩子的认知水平无法对抗本能感受,而大人的认知水平则可以说服本能感受,接受吃药打针的趋利避害。

例如,为了梦想可以忍受痛苦压力,为了信仰可以牺牲自我,这是意志力强大的表现,但其底层其实是,思维模式认知水平本能算法,达成利益最大化的**“预测共识”**。

需要指出的是,为了爱情和亲情的忍受忍痛,并不是思维认知战胜负面感受,而是繁衍本能自身优先级排序的调度算法——因为智能的目标是帮助个体生存最大化,本能的目标是帮助基因遗传最大化。

由此可见,意志力并不是一个消耗品,而是一种思维改变感受的能力,其来源于思维能力,即:思维能力越强,意志力就越强,就越可以对抗、克服、抑制、战胜感受,反之亦反。

当然,意志力在生理层面,要受限于生理极限(包括生理潜力)的上限,而生理极限是一个消耗品——如体力充沛与匮乏时,凭借意志力控制生理可以完成的事情,也必定不尽相同——这正是意志力看似可以**“被消耗”的原因所在,但在与生理无关的心理层面(如怕不怕死),意志力只和思维能力**有关。