世界的随机性与不确定性:智能与预测、局部与整体、概率与一切
本文,将会深入分析解读,随机性与不确定性的概念、来源和它们之间的关系,以及在随机不确定的世界里,智能、预测、概率各自所扮演色角色和意义。
最后,还会在局部与整体的不同视角下,探讨概率的呈现与连接,以及概率世界下的概率思维。
主题目录如下:
- 随机性与不确定性
- 智能与预测
- 局部与整体
- 统计与概率
- 概率与视角
- 极限与概率
- 结语
- 后记1:从不确定到确定
- 后记2:不确定性与痛苦
- 后记3:概率隐藏着未知
随机性与不确定性
随机性(Randomness),这个词描述的是我们无法预测的变化,我们也会因为无法预测,而认为具有随机性。预测的目的是为了确定,如果我们对具有随机性的事件进行预测,就会得到——不确定性(Uncertainty)。
例如,掷骰子的结果具有随机性,预测这个随机结果,就会得到不确定性——我们可以说,掷骰子是随机事件,其结果是不确定的。
由此可见,随机性——来自于物理现实的自然运作,不确定性——来自于预测随机性得到的结果。而不确定性的结果,通常是一个概率,这代表随机性在统计上所呈现的量化规律,同时也代表着,不确定性在逻辑上的扩展。
需要注意的是,就算我们可以确定随机性的概率分布(Probability Distribution),如骰子每个面的概率均是1 / 6,但这仅仅代表的是一个可能性,其投掷结果依然是无法准确预测的不确定——但它是一个确定的不确定。
那么,在物理现实中,为什么会有随机性呢?其来源,可以从微观与宏观两个角度来看:
首先,在微观上,量子力学只准许我们得到不确定性。
也就是说,对于微观的物理过程,我们的理论无法得到确定的结果,只能得到确定的概率,即不确定的结果,例如:热力学噪声、光电效应、量子效应等等,都是如此。这是宇宙系统内在的不确定性。
从理论角度来看,量子力学的不确定性,表述如下:
- 第一,不确定性原理——表明无法确定粒子的全部状态,只能确定部分状态。
- 第二,波函数状态演化——表明粒子没有确定的状态,只有状态的概率分布。
- **第三,**波函数坍缩——这是一个不可计算、不需要时间、不可控、且超越数学逻辑与方程求解的随机过程。
而这个不确定性的背后,就是微观物理现实的随机性——这是我们永远无法准确预测的变化,可以称之为——真随机,它是完全不确定的。
那么,这种由理论模型(即数学逻辑与公式)给出的不确定性,也称为偶然不确定性(Aleatoric Uncertainty),或统计不确定性,即:已知的未知,或已知的不确定性,或确定的不确定性。
例如,哥德巴赫猜想就是——已知的未知,量子力学就是——统计不确定性。
而微观的随机性,其影响不仅仅只会在微观,它们会通过从量变到质变的积累效应,最终在宏观形成巨大的差异性,这一过程也被称为——蝴蝶效应,即:微小的随机性,造就天壤之别的不确定性。
事实上,蝴蝶效应源于混沌系统,虽然混沌系统在宏观,被认为是一个初值敏感的确定系统,但其初值的精确性,最终会从宏观来到微观,并受限于不确定性原理。
混沌系统——是指因对初值敏感,而表现出不可预测性的非线性确定系统,而初始值敏感的原因,就在于非线性相互作用的存在,这会导致“失之毫厘,谬以千里”的现象。
例如,进化就是一种初值敏感的非线性混沌系统,因为极其微小的随机变异,在自然的选择压力下,经过非线性的长期积累作用,最后就可以呈现出不可预测的——天壤云泥之别的生存差异性。
其次,在宏观上,因为数据量不够(不完全观测,没有模式)、或是数据量过于庞大(不完全计算,算力不够)、更或是缺少有效理论(不完全建模,认知缺陷),都会导致我们无法准确预测。
而我们会把这些因素导致的不确定性,也都归结为具有随机性,例如:
- 预测行为,会因为数据量少(没有模式),而不确定。
- 预测经济,会因为数据量大(算力不够),而不确定。
- 预测黑洞,会因为缺少理论(认知缺陷),而不确定。
但这些随机性,都会随着人类不断地积累数据和掌握规律,最后变的可以被预测确定。所以,这些随机性,可以被称之为——伪随机,它是确定可能的。
那么,这种由认知模型缺陷导致的不确定性,也称为认知不确定性(Epistemic Uncertainty),或**系统不确定性,**即:未知的未知,或未知的不确定性,或不确定的不确定性。
例如,大统一理论就是——未知的未知,金融危机就是——系统不确定性。
那么,这种系统不确定性,往往会带来未知错误,这也被称为——系统性错误,或框架错误,或未知风险。
显然,从伪随机到确定的过程,就是从未知到已知的过程,但已知范围增大,随之也会让未知范围增大。因为未知范围,就是已知与未知的交界范围,如果已知增大,交界范围就会增大,随之未知也就会增大。
这也就是为什么,我们知道的越多,不知道的就更多的原因所在。
那么,在交界范围之外的未知——就是未知的未知,这代表着我们不知道还不知道什么。而我们把伪随机当成真随机的根本原因,就在于存在未知的未知,即存在我们不知道的未知。
对于伪随机,风险哲学家、随机性大师、“黑天鹅之父”——纳西姆·塔勒布,在**《黑天鹅》**中,曾说道:
“即使历史是由某个「世界方程式」生成的非随机序列,只要人类没有求出这个方程的能力,它就应该被认为是「随机」的,并且不被冠以「确定性混沌」的名字。 ”
例如,一串数字由一个未知方程生成,只要人类还没有征服这个方程(或发现这个方程与这串数字之间的关联),这串数字对人类来说就是随机,尽管本质上它并不是随机。
但需要指出的是,在实际中,有时明明不是随机(即我们可以准确预测),但我们假装它是随机,这种情况的随机性,也被称为**“伪随机”**,即:假装随机的意思。
例如,计算机程序中的随机函数,都是可以被准确预测的**“伪随机”**,但我们却“假装”随机函数给出的是真随机数字,这在游戏中被大量使用(如宝箱、抽卡、浮动属性值等)。
综上所述,随机性——意味着预测的不确定性,而随机性有——真随机与伪随机,其中:
- 真随机——可能是已知的不确定性,即完全不确定的已知的未知,如量子力学;也可能是未知的不确定性,即确定可能的未知的未知,如人类意识。
- 伪随机——要么是可以被预测的确定性,要么就是**未知的不确定性,**如强人工智能。
同时,我们会发现,在宏观抛开那些未知的未知,剩下的,就都是可以被准确预测的确定性——如:化学反应、机械运动、能量转换、飞行控制、天体运行等等——这是由于粒子之间相互影响,令它们的波粒二象性呈现了粒子确定性。
但当这些宏观确定性,深入到微观的时候,就会从确定性变成不确定性。也就是说,宏观确定性,依然是由微观不确定性所构成的,即:在宏观可以确定结果,在微观仅能确定概率。
可见,是概率连接了微观(不确定性)与宏观(确定性)。
然而,任何随机性,都会随着时间变化,最终得到确定的结果,即:不确定的概率随机出确定的结果。
可见,是概率连接了随机与确定。
事实上,概率就是发生事件与可能事件的比值,但如果我们不知道可能事件的个数(或说可能出现结果的选项),就没法得到准确的概率,只能根据最新情况不断调整这个概率,以逼近真实的情况。
例如,骰子可能结果的个数是确定的(随机播放的歌曲库同理),命运可能结果的个数是不确定的(黑天鹅的始作俑者同理),前者是已知的不确定性(已知的未知),后者是未知的不确定性(未知的未知)。
但不论选项是否可知,概率是否准确,是真随机还是伪随机,最终概率都是确定存在的,它源于贯穿微观与宏观的统一规律——不确定性原理。
智能与预测
事实上,随机性对我们最大的影响,就是干扰预测,而预测就是根据已知信息,逻辑推理与归纳出未来可能的变化,这种“输入数据-处理数据-输出结果”的预测模式,也是智能最基本的工作模式。
显然,智能是人类进化出的盗火神力,而智能帮助人类适应环境、操控现实、应对未来的重要手段就是——预测未来。因此,可以说预测未来的能力**,就是智能**的体现(或度量)。
例如,人类是所有生物中,最擅长预测未来的物种,因为其它生物,基本上都是“活在当下”,只有人类可以“遥想未来”,甚至没事就喜欢“幻想未来”(当然也有追忆过去),有研究就发现,在一天之中,人们竟有接近50%的时间,是在“想象未来”的事情。
那么,对未来预测的越准确,同时可以预测的范围越广,可以预测的时间越长,智能就越高。相反,预测的范围越窄、时间越短、越不准确,智能就越低。
而我们的大脑,其实无时无刻不在预测未来,短期预测——形成了潜意识、下意识与直觉(没有逻辑推理与归纳),长期预测——形成了思考、决策与选择(有逻辑推理和归纳),前者是本能,后者是智能(有时会与本能混合)。
潜意识——是本能潜在的推理预测,代表着你对环境信息的判断和情绪(来自腹内侧前额叶)。
下意识——是本能对外界刺激预设的行为反馈,代表着你对环境信息的非自控行为(来自边缘系统,尤其是其中的杏仁核)。
其中短期预测,还可以填补感官没有捕捉到的信息模糊与空白,并且这种预测行为,十分常见,只不过我们平时除非刻意感知,否则难以察觉。
例如,阅读文章,常用词组有错别字,或是文字顺序颠倒,都不会影响我们的阅读理解,甚至都不容易发现,因为阅读的过程中,潜意识一直都在预测可能出现的文字组合。
例如,一段听不清的音频,听一遍清晰版本,再回去听就能够听清了,一段看不清的文字,看一遍清晰版本,再回去看就能看清了。
而长期预测,还可以针对遥远的未来,进行非凡的天马行空的颅内模拟,这种预测就是通常我们所说的——想象与幻想。
事实上,从某个角度来看,预测能力——就是(利用信息)消除不确定性的能力,而智能——就是从随机性中寻找模式与规律的能力。
那么,随着人类智能不断增强,预测能力不断提高,最终我们能够从世界的随机性中,消除掉多少不确定性呢?
首先,不确定性原理是一种边界限制。
因此,我们应该放弃尝试,在微观进行准确预测,转而只在宏观确定性中,寻求最大限度的消除不确定性。
而在宏观(原子尺度之上),我们所有的科学知识(即理论信息),其重要作用,就是减少现实世界的随机性,让我们可以更好的预测未来。要知道,所有的创造与创新,都是在预测轨迹中,不断迭代试错(这会反作用于预测),从而得到预测(即预期)结果的。
但理论上的准确预测,并不等于现实中准确预测。
例如,圆周率π,其数字序列虽然是无限不循环,且每一位数字的出现概率均等又随机分布,但却有算法可以预测出某一位的数值——所以,我们认为圆周率π,不是随机的,因为我们拥有算法(即理论)可以预测其数值。
可如果圆周率π的某一位,超过了算力的极限——目前是小数点后31.4万亿位——那么在这个极限后的一位,显然我们就已经无法预测了,那么这一位算不算是随机的呢?
可见,(在宏观)是随机还是确定,取决于我们预测能力的极限,而这个极限又取决于——智能所创造的理论与工具——显然理论是上限,工具是下限,两者共同决定了极限。
其次,从宇宙宏观整体来看,是没有随机性的。
因为,宇宙现实运作的所有规律,都是客观不变的,即规律具有时间和空间对称性,那么宇宙演化路径中的每一步状态,就都是数据与规律的必然推导,这就如同**“结果 = 数据 + 规律”**一般确定。
只不过对人类来说,宇宙却是**“真随机”**的,因为我们无论如何都无法准确预测,宇宙未来的变化,除了微观不确定性的限制,在宏观确定性上也有无法解决的障碍,如:认知缺陷、工具限制、数据不足、算力不够等等。
而究其本质,是因为人类是宇宙的一部分,部分的任何变化都会影响整体的演化——这是贯穿,从微观到宏观的相互作用。换言之,只要身在宇宙之中,任何预测行为,都会成为预测结果的一部分,那么预测与否,就会造就不同的宇宙结果,因而宇宙的未来,并不存在不受预测干扰的确定。
可见,整体包含部分,部分对整体的预测形成了一种自我指涉关系,而自我指涉会带来不可避免的悖论(如集合论悖论)——这限制了我们对未来的预测力。那么如果想要摆脱自指干扰,就只有来到“宇宙之外”脱离宇宙整体才行,显然这是不可能的。
因此,宇宙虽然没有随机性,但在宇宙之中的演化过程,却充满了不可预测的随机性——比如命运,我可以说,它是已知的不确定性,或说已知的未知。
最后,预测往往确定了不确定的结果。
预测会干扰结果,这是贯穿从微观到宏观的自指特性,但干扰的结局却可以是确定,即:预测行为,有时候就是让预测结果发生的原因和前提。
因此,我们所谓的预测未来,其本质是:我们在创造预测中的未来,而关于未来,每次你观测它,它就会发生改变,但你预测它,它就会向着你预测的结局变化。
从此可以看出,观测与预测的不同,观测——是不带目的地改变未来,而预测——则是怀有目的地创造未来。
- 对个人,预测就像是自证预言,相信预言,就会有动力去行动,然后就有可能实现预言**。**
- 对群体,预测就像是一个故事,相信故事,就会有动机去合作,然后就有可能实现故事。
- 对智能,预测就像是计算误差,产生误差,就会有目标去消除,然后就有可能消除误差。
那么,智能与预测的重要作用,正是印证了图领奖得主——阿伦·凯(Alan kay)所说那句话:预测未来的最好方式,就是创造一个预测的未来。
局部与整体
从字面角度来说,整体与部分、全局与局部,是两组对立的表达。但整体比部分,多出了视角的内涵,如:整体角度与部分角度无法对应,而局部比全局,多出了事物本身的内涵,即:“局”指代视角,“部”指代事物,因而局部比部分,更能够与整体对应。
那么,关于局部与整体,我们能够看到以下五个层面的意义:
第一,局部与整体,信息不对称。
局部视角下的信息,是落后于整体视角下的信息的,因而局部视角,是无法看清和理解整体变化的。
例如,在数学上,函数f(x) = x / x,那么f(0)等于多少呢?局部来看:如果分子为0,结果就是0;如果分母是0,结果就是未定义的;但整体来看:结果却始终就是1。
可见,不同的局部视角,将会严重影响——我们观察、计算和预测的结果,即:命运的轨迹**。**
而在量子力学中,当几个粒子彼此相互作用后,由于各个粒子所拥有的特性,已关联成为一个整体系统,所以单个粒子就会表现出,配合服从整体性质的变化,而这种粒子之间神秘的关联现象——就是量子纠缠。
注意,如果几个粒子一直保持独立不相互作用,就不会产生量子纠缠。
可见,在广域的整体下,局部间的协变,会展现出未知(即不可理解)的不确定性。这就像是量子效应或是无理数(如π或e),在宇宙整体之下可以是确定的,但在我们立身的局部架构之下,却是无法确定的。
例如,有时候局部的不平衡,是因为在整体层面,建立起了新的平衡,此时整体的调整,会扰动局部,让局部看起来“不合常理”,但其实在整体的秩序上,却是合理的。
所以,我们不能了解宇宙的一切,除非我们能够拥有足够的整体视角,即:宇宙之外。
第二,局部与整体,信息对称。
如果说,人类作为一个部分,被包含在宇宙之中,是无法完全了解宇宙的。但,从人是由细胞构成,细胞内的基因蓝图拥有人的全部遗传信息来看,基因蓝图是可以克隆出一个完整的人的——但除了记忆和思维,因为这些是大脑通过环境信息学习和训练出来的。
那么,作为局部的我们,也可能拥有宇宙全部的信息。其原理就在于,通常我们认为,整体大于其任意一部分,但是在无限领域内,部分可以和整体等势。这有点像全息宇宙理论,即:每一个部分都包含了整体的全部信息。
例如,偶数是正整数的真子集,但偶数集和正整数集等势,也就是包含的数可以一一对应,这是与整体大于其任意部分相矛盾的,但在无限领域内却是成立的。
在此视角下,虽然我们是宇宙的部分,但却可以拥有宇宙全部的信息并与其等势——也就是能找到一一对应的映射关系——那么人类就可以通过自身了解到整个宇宙的秘密,那么每个量子就会拥有有宇宙的全部信息,那么量子就是无限小与无限大的交点——有趣的是,在计算机中,数值溢出,就会有极大值与极小值的转换,这或许就是为什么计算机,可以在最底层模拟我们的世界。
量子——是指一个物理量如果存在最小的不可分割的基本单位,则这个物理量就是量子化的,并把最小单位称为量子。通俗地说,量子是能表现出某物质或物理量特性的最小单元。
事实上,那些所谓高深复杂的理论,就如同儿童试图用乐高积木建模宇宙一般——如果宇宙是一杯水,宏观微观各不同,我们就如同水分子,预测不了水的特性,也看不透其它水分子的个性——但局部与整体的信息对称性,或许就是通向终极本质的一条途径。
因此,虽然我们每个人都很渺小,但我们却连接着无限大。
第三,局部与整体,量变与质变。
事实上,量变与质变和局部与整体的视角息息相关。因为我们看微观和局部,往往看到的是量变,而看宏观和整体,往往看到的就是质变。
也就是说,微观局部在积累量变,而宏观整体在发生质变。
但量变与质变是那么的不同,会让我们根本搞不清楚,从微观到宏观、从局部到整体,是如何连贯发展演变的——而涌现,就是这个过程表现出的现象。
涌现——是指系统从低层次到高层次的发展过程中,一些特性不存在于低层系统中,却突然出现在了高层系统中。简而言之,就是系统特性呈现出了,整体大于(甚至不同于)局部之和的现象。这其中必然存在着,从量变到质变的非线性变化,即从0到1。
- 例如,字词构成了句子——但句子整体的含义,比局部字词的含义之和更为丰富。
- 例如,细胞构成了人脑——但人脑整体的功能,比局部细胞的功能之和更为复杂。
- 例如,像素构成了图片——但图片整体的内涵,比局部像素的内涵之和更为多变。
事实上,局部之和也会小于整体,但这里没有涌现,例如:团队里都是“顶级专家”,结果相互不服,合作效率低下;爱下蛋的母鸡好斗,在一起不下蛋只打架;一个和尚有水喝,三个和尚没水喝。
第四,局部与整体,关联着矛盾性。
在整体的局部,因为视角和数据的局限,矛盾会隐藏在现实的背后——显然事物越少关系越简单,越不容易产生矛盾——但在整体范围上,矛盾就会更容显现出来,而要解决矛盾,则可能需要上升到更整体的层面上。
例如,在数学上,毕达哥拉斯定理与有理数的矛盾,就导致了无理数的发现;在物理学上,麦克斯韦方程组与经典力学方程的矛盾,就导致了相对论的提出。
因此,常常从微观局部来看是没有矛盾的,但从宏观整体来看矛盾就出现了。这就是为什么,持有整体视野的人,往往知道什么可以什么不可以(即清晰的边界思维),而持有局部视野的人,就需要通过不断试错,才能找出那些在整体上才可见的矛盾。
例如,艾舍尔的画作,常常会有循环怪圈,局部看没有问题,但是整体看就会出现“矛盾”。
图片来自《哥德尔、艾舍尔、巴赫》,艾舍尔《瀑布》,局部看水路正常,整体看水路空间矛盾
那么,人脑智能处理矛盾的方式,就有两种:
- 其一,通过掌握更底层的规律,上升到更整体视角,去化解矛盾。例如,弦理论可以解决量子力学和广义相对论的矛盾。
- 其二,通过分层,下降到更局部视角,就可以保持不矛盾(虽然在整体上可能是矛盾的)。例如,减少关系和事件,可以消除矛盾的人与事。
对于第二点,对应到我们的观念行为之中,就是我们把矛盾的事物割裂开来,放置到不同的情景、时间、上下文中单独理解体会(过程充满了自我说服),然后得出一个在局部完全没有矛盾的结论,最后执行这些局部视角下的**“合理行为”——但事实上,在整体跨越时间和场景的视角下,这些所谓“合理行为”**,其实充满了矛盾性(但这并不会立竿见影的影响生存)。
- 例如,一个人可以,喜欢吃苹果超过橙子,喜欢成吃橙子超过橘子,但喜欢吃橘子超过苹果。
- 例如, 一个人可以,既相信死后可以上天堂“享福”,又可以特别害怕死亡去“享福”。
另外,从某个角度来看,局部——也是可以解决矛盾的,甚至还可以解决很多的问题。
例如,有一个概念,对硬件和软件、系统设计和性能,都有着极大的影响——那就是局部性,程序应该倾向于创造和使用临近的数据——显然这不仅有速度性,当然还有(局部的)正确性。
第五,局部与整体,是循环关系。
我们知道,局部与整体取决于尺度和视角,即:更大的范围来看——整体就是局部,更小的范围来看——局部就是整体。
而局部与整体构成了——循环,即:局部到整体,接着是(整体转换视角下的)局部,再到(另一个)整体,等等。
这和微观与宏观的概念,是相互等价的,也就是说,微观与宏观也构成了——循环,即:微观到宏观,接着是(宏观转换视角下的)微观,再到(另一个)宏观,等等。
事实上,局部就是——微观,整体就是——宏观,它们之间构成了——嵌套循环。
第六,局部随机,整体确定。
显然,如果预测是在局部,将会充满变数,如:个人想法、事件发展;但如果预测是在整体,将会非常稳定,如:地球自转、宇宙膨胀。
究其原因,就在于局部的相互作用,较多又不均衡,而整体的相互作用较少且平衡,如:系统外部的相互作用,由于幂律分布会少有对抗,而内部的相互作用,会在时间线上不断抵消。
统计与概率
抛一枚硬币,其可能是正面,也可能是背面,这是一个随机事件,结果具有不确定性。但我们知道,硬币是正面还是背面的概率,各自为50%——这是我们通过理论计算,得到的统计平均概率。
然而,如果我们只抛一次硬币,通过结果计算出的概率,必然是一面100%,另一面0%,接着,如果我们继续不停抛硬币,正面和背面会交替出现,但结果并不会是各自50%,因为此时样本容量还很小,无法体现出抛硬币系统的统计平均概率。
那么,如果我们不知死活地抛硬币,当抛掷次数抵达成千上万次的时候,硬币正反面的概率,就会趋向于各自50%——这也是实验上的样本平均概率,回归到了统计学上的理论平均概率。
在数学上,这种大量随机重复事件,随着样本容量的增加,其样本平均值趋向理论平均值的现象,被称为——大数定律,这是被数学严格证明的一个定理。换言之,大数定律是把局部的随机性,变成了整体上的确定性,即确定的概率。这也可以理解为,偶然中包含着必然,或是不确定性中包含着确定性。
由此可见,局部的随机性,来到整体的不确定性时,就会呈现出一个统计概率——其代表着确定结果的可能分布——也可以说,微观的定量分析,就是宏观的定性分析。
例如,在物理的双缝干涉实验中,单个电子的运动是随机的,但多个电子的运动就是确定的(统计概率);单个电子的一次运动是随机的,但单个电子的多次运动就是确定的(统计概率),即:这两种情况,都在侦测屏上,形成了有规律的干涉条纹。
因此,统计概率表明了整体的发展趋势,但统计概率并不能代表局部的结果,局部结果也不能代表整体的趋势,或是用来作为推翻统计概率的证明。
**例如,**宇宙整体在熵增,局部在熵减,我们就不能因为人类在局部创造熵减,就认为人类在逆转宇宙整体的熵增,反而我们需要从人类是宇宙熵增的产物,这个整体视角去看待生命与智能的演化。
其原理就在于,局部的熵减,会在整体创造更多的熵增,于是整体的熵增就会驱使产生,善于创造局部熵减的产物,即生命与智能。并且,智能越高,就越善于制造局部熵减(消耗能量与信息),让整体更加的熵增,而这就是生命与智能的进化方向。
**例如,**基因进化有一个整体的趋势——就是复制遗传,我们就不能用个体(或是小范围内的个体),所表现出的“异常行为”——如丁克人群(能生却选择不生),去否定基因进化过程中,整体复制遗传的趋势。
那么,需要注意的是,样本概率回归理论概率,在整体上是确定的,但在局部却是不确定的,这个视角对于解读现实世界的局部概率,至关重要。
**例如,**抛一枚硬币,连续50次连续都是正面,那么第51次的反面概率会大于50%吗?
如果从理论角度来看,抛硬币是独立随机重复事件,每次的概率都是正反各自50%,不会受到前后独立事件的影响。
但从实验角度来看,样本概率是要回归理论概率的,现在已经有了50次连续正面——这是100%正面概率,0%的反面概率——那么接下来的反面概率要大于50%,才能够让实验整体的反面概率回归理论值。
这里的问题就在于,虽然样本概率是要回归的,但这是在整体,并且需要样本容量足够大,而在样本容量比较小的局部,回归点会在哪里出现是不确定的。
换言之,抛硬币1000次,正反面概率趋于50%,那么500次以内,或是200次以内,亦或是150次以内等等,都可以是正面概率大于反面概率——因此,第51次的反面概率,会不会大于50%(即回归理论值),在局部是不确定的,但理论上是确定50%的。
事实上,实验回归理论,是实验概率被**“稀释”**成理论概率的过程,即当抛100万次硬币的时候,前50次连续正面的概率已经不再重要,或说忽略不计了。
换言之,回归理论的过程,是通过大量的**“正常数据”,来“稀释”之前“异常数据”的影响——原因就在于,理论上的正常值比实验上的异常值**,其出现的概率要大,甚至是大得多。
那么显然,我们可以期待**“概率”的回归,但“稀释”**操作本身却与诸多变量(如时间、次数)构成了——局部的不确定性。
由此可见,大数定律回归的必然,其实是一种概率的整体分布。
概率与视角
事实上,概率是一个至关重要,贯穿一切的视角。因为,由大数定律可知,微观局部的随机性,上升到宏观整体的不确定性,就会以概率的形式呈现在我们面前。
而微观与宏观,局部与整体,是取决于视角的循环关系,即:一切都是相对的,一切都是可以相互转化的,是概率连接了微观与宏观,是概率连接了局部与整体。
试想,离开是了实验室,离开了理想的数学与物理模型,在现实世界有什么是可以被理论公式,所准确预测的?
显然,一切都是近似,一切都有误差,一切都是概率。
那么,虽然概率依然是不确定的,但概率却代表着规律与趋势,甚至是宏观的确定性,即:拥有忽略不计(或更少)的误差概率。
**例如,**在机器翻译中,可以不去分析语言的文法,转而从历史语言习惯(即语料库)的数据中,统计出字词句组合搭配的概率,最后用这个概率去处理人类语言的翻译,就可以获得比分析语法更准确的结果。
**例如,**我们的眼睛所能看到的一切,都依赖感光细胞对光子的捕获,而捕获一个光子是不可预测的随机,但捕获大量光子就形成了稳定的视觉图像。
例如,天气是短期不可预测的,超过十天的天气预报,其准确率和随机预测,并没有什么本质的区别;相反,气候是由一天天的天气,所组成的长期预测,而从几十年、几百年、几万年的尺度上观测,就会发现气候是可以被准确预测的。
**例如,**尽管无法精确预测一个人的死亡时间,但却可以预测出人类的自然寿命大约为100岁。
可见,在宏观漫长的时间尺度下,局部的随机性,就会在整体不可抗拒的趋势下——演变成必然。也就是说,历史数据决定了概率,概率连接了必然的未来。
那么,这个必然的最外层,就是前文所说的——宇宙整体演化的确定性与必然性。
例如,进化在局部是随机,但在整体有趋势,而趋势呈现方向,随机就变成了迭代。因此,进化从微观局部来看——是随机试错,但从宏观整体来看——就是迭代试错。
那么,对于局部随机,可以通过定量分析——获得统计概率,而对于整体趋势,则可以通过定性分析——获得确定规律。
而在数学上,其实我们早就发现了这样的规律,即:无限小数和无限数列的极限可以是一个确定的数,以及无限小数可以塞进一个有限的区间套内——这就像无限随机的局部,最终其极限将会构成一个,有限确定的整体一样。
极限与概率
极限——是数学中微积分的基础概念(其具有严格的数学定义),可以理解为**“无限逼近却不等于”**的意思。
例如,当n趋向于无限大时,1/n的值将无限逼近0,但其值又不可能等于0,此时1/n的极限就是0,即极限值。
但只有n不断趋向无限大,1/n的极限才存在,而如果n一旦停止了变化的趋势,停留在了某个确定的数值上,显然此时1/n的值就确定不是0,那么其极限也就不存在了。
由此可见,极限——是一种变化趋势的描述,那么从变化的角度来看,极限可以理解为——无限逼近而不停止。
于是很自然的,我们就会疑问,极限是建立在无限之上的,是一个永不停止的变化趋势,那它到底是什么呢?
从某种角度来说,极限——就是一种概率。因为在极限处,状态仍在变化,我们并不能够抵达某个确定态,但我们却又拥有了一个明确的值——极限值,这显然是可以用一种概率,来完美描述的。
也就是说,概率描述了——极限的不确定性与确定性,即:无限逼近的变化与那个确定的极限值。
那么,逼近极限的过程,也就是概率——从不确定性,向着确定性变化的过程。最终,在极限处,概率仍在变化,但其随机出的结果,却已近是无限确定的了,即:那个极限值。
由此也可以看出,为什么在数学上,应用极限所描述的——那些看似是“无限变化”的过程,却可以映射到,那些明确、清晰、确定的结果之上。
- 例如,无限正多边形的面积,可以等一个圆的面积。
- 例如,0.999……(无限个9)可以等于1。
可见,虽然极限代表着,永不停止的变化与永不可抵达的结果,但现实背后的概率,却在极限处——把看似无限的不确定性,随机到了可以被稳定感知到的确定区间之内。
事实上,对于现实的观测和感知,我们依据的只是概率随机的结果,而不是概率随机的过程,即:只要有一个确定的结果,我们就确定(感知)了(宏观的)现实,而忽略了其背后(由微观构建宏观的)不确定性的过程。
例如,微观粒子在观测之前,具有无限的不确定性,但观测之后,概率随机出结果,这可以看成是无限被确定成了极限。
换言之,无限的不可计算性,可以通过极限变得可计算,而当把无限和极限等同的时候,一个不可计算、不可操控、不现实的东西,就变得现实到可以被计算操控了。
所以,极限并不是人脑中,一种虚无缥缈的抽象,而是准确描述的现实,原因就在于,现实与极限的背后,其实都是——概率。
结语
综上可见,随机性与不确定性,就是这个世界,甚至是这个宇宙的本质,而概率,就是对随机性与不确定性——最直接、直观、真实的描述。
那么,概率的特点就是——越局部越随机不确定,越整体越确定有规律(即大数定律),例如:
- 想找到命中注定,可以靠运气,想拥有幸福的婚姻,就只能靠经营与学习。
- 想培养将帅之才,可以靠运气,想建立强大的军队,就只能靠制度与体系。
- 想招募人才精英,可以靠运气,想组建优秀的团队,就只能靠文化与管理。
- 想孕育绝世天才,可以靠运气,想推动文明的发展,就只能靠种族与基因。
- 想突变优势物种,可以靠运气,想保持物种的延续,就只能靠进化与选择。
因此,我们需要牢记心中的是:局部、个体、个例、零碎的信息、片段的信息、少量的信息——是不具有意义的不确定(甚至可以说是毫无意义的随机),而只有随着样本数量的增多,即数据信息量的增加,其整体体现出的规律和趋势,才是事物背后的真相所在。
例如,一个人一时间的言辞、喜好、判断、表现,都只是在服从一个历史概率分布的随机落点,其背后的“瞬时动机”,很大程度取决于就近环境与条件反射。
那么,我们在面对这个随机不确定的世界时——追求的就不应该是绝对的正确,而应该是正确的概率,以及正确的效用和期望——这就是概率思维。
例如,反常识、反常理、反科学、反主流的结论,既不能冒然相信,也不能全然否定,而是应该先计算概率,再判断决策。
最后,如果一切都是概率,那么我们应该和能做的——就是成为概率的概率,从而得到我们想要的一切。
所谓概率的概率——就是说,虽然我们身处概率,且本身就是概率,但我们仍可以对抗和左右概率,这需要成为那个——概率的概率(但还是概率)。
因为,虽然所有的“真相”,都隐藏在了概率现实的背后,但按照宇宙的设计,了解宇宙我们唯一需要的工具只是概率,而我们就是概率,且概率本身就是一种概率(递归),成为概率的概率——就可以了解并控制概率。
显然,万事皆有可能,重要的是概率——它是至高无上的第一原理,或说是第一原理的原理。
而如果按照概率来划分,世间万物则可以分为:确定的(100%)、不可能的(0%)、完全不确定的(已知的未知)、以及确定可能的(未知的未知)。
那么,我们的大脑,就是通过(向内建的贝叶斯算法)输入信息,来消除对世界的认知不确定性,即:把确定可能的(未知的未知)——转化为确定的、不可能的、以及完全不确定的(已知的未知)。
后记1:从不确定到确定
塔勒布在**《反脆弱》**中,认为:
“当随机性以及一些小的经常性的混乱,分散在为数众多的小单元里,我们就得到了——确定性;而当随机性集中起来,我们则看到了——诡谲的不确定性。”
“事实上,由大量独立而相互竞争的小单元,构成的系统是稳定的,因为这些小单元靠一己之力并不足以危及整个系统,或使其从一个状态进入另一个状态。此时,随机性被分散而不是被集中在一起。”
“因此,单元的规模大小其实比系统更为重要。”
可见,正是微观的不确定性构成的**“随机小单元”——才形成了上层结构的确定性**,而来到宏观层面,由小单元组合形成大单元——这带来了幂律分布的量变与质变,以及系统性的规模脆弱性,即:大单元推动系统的跳变。
例如,一个人就是一个小单元,如果一个人的权力过大,就会威胁到整个系统的稳定性,相反每个人的权力都很小,系统就会呈现相互制约的稳定性——同理,把小单元换成系统中的一个小团体、小群体、或小组织,也是一样的。
例如,微观粒子具有不确定性,但在构成宏观物质时,粒子之间会相互影响,导致每个粒子的波粒二象性,都呈现了粒子确定性。
例如,个体的随机性可以互相抵消,形成群体的确定性,就如一家餐馆,某日某人来不来是随机的,但每天的总顾客数却是差不多的,因为有人随机不来,就会有人随机来,两者相互抵消。
所以,微观不确定性,不仅带来了宏观确定性,还(通过冗余性)带来了稳定性与适应性,前提就是微观单元要足够小、足够随机——微观粒子构成宏观物质,就是大自然给出的绝佳示例。
换言之,微观随机,宏观确定,微观的随机不会积累出宏观的随机,相反微观越随机宏观越确定——而距离就是时间,微观与宏观的距离,就是微观与宏观的时间,即:短期随机,长期确定。
就如同历史,短期的不确定性,不会顺着因果链,形成不确定的未来,因为因果链上的各种因素会相干制约,致使过去走向确定的未来——历史总是分形重复又押韵的。
在此不由想起,查理·芒格的一句话:“宏观是我们必须接受的,微观才是我们可以有所作为的。”
那么可见,在宏观消除随机性的最佳方法,就不是试图屏蔽或压制随机性,而是利用更小单元的随机性,来产生随机性之间互相抵消——比如降噪耳机的降噪原理,就是如此。
后记2:不确定性与痛苦
事实上,不经历真正的痛苦,就无法理解随机性与不确定性,尤其是那些一帆风水的人——因为,不确定性对一部分人呈现可能,对另一部分人呈现不可能,而这个过程呈现随机性。
有趣的是,认识到世界的不确定性,以及世界的本质是随机性,反而会带来内心极大的确定性与确定感——因为,我们至少确定了这么一点“确定性”。
后记3:概率隐藏着未知
一个关键问题,我们怎么知道**“真随机”不是“伪随机”?换言之,我们怎么知道随着信息、认知与知识的完整完备,“真随机”不会变成“伪随机”**?
更为关键的是,会不会存在,我们永远都无法获取的——信息、认知与知识,导致我们将**“伪随机”永远地看成是“真随机”**?
试想,从某个无理数的无限不循环的数字序列中,截取10亿位后的一段区间,对我们来说这串数字是**“真随机”**的吗?
显然,要是不知道这串数字与无理数序列的关系,即缺少可预测的相关信息,它就是真随机,否则它就是伪随机——那么,某个物理系统所呈现的随机性,有没有可能是与某个无理数的某段数字序列有关呢?
事实上,抛硬币、掷骰子、抽彩票的结果,完全可以在“黑盒”之下,控制其取决于某个无理数的某段数字序列——如将π序列映射到硬币正反、骰子点数、彩票数字上——这样表面看起来是真随机,实则是伪随机——只要没人知道是哪个无理数及哪段数字序列即可。
要知道,无限不循环序列,意味着可以出现任意排列组合的**“数字序列”——这么来看,一个物理系统所呈现的随机性,完全可以是来自于其“上层系统”设定参数的结果,而不是真随机**——就像我们可以设定**“下层系统”的参数一样,只不过“下层系统”**并不知道和理解参数的来源。
例如,物理系统的常数、初值、参数等,决定了其(在固定模式之下)的演化结果,这些数值没有原因没有推导,就像是随机出现的数字序列——而这就可能是来自某个无理数的**“设定序列”**。
例如,量子系统具有随机性,这个随机性具有统计规律(即呈现概率),而无理数取一个固定范围内的数字序列,也会出现固定的统计结果。
那么,从数学角度来看,编程大师——查尔斯·佩佐德(Charles Petzold),在**《图灵的秘密》**一书中说道:
“我们生活在一种很安逸的幻觉中:有理数比无理数多得多,代数数比超越数多得多,这些都是我们的一厢情愿,事实上,在实数的世界中,几乎每一个数都是超越数。这些超越数到底是什么?它们中大多数仅仅就是,随机的数字序列,完全没有模式、规则和意义可言。实际上,任何一个随机的数字序列,几乎都是超越数。”
超越数——是指不是代数的数,即不是任何代数方程的解,且无限不循环的数;它是无理数的子集,即所有超越数都是无理数,但有些无理数不是超越数。
换言之,实数集中绝大部分数都是超越数,而我们无法通过代数方程找到超越数,所以目前已被证明的超越数很少,如π和e就是两个已知的超越数(也是无理数)。
由此可见,如果某个物理系统的随机性,真的是关联到某个超越数的,那我们也只会把它当成一个真随机系统,但其实它是一个伪随机系统——需要我们找到某个超越数,以及它与这个超越数的关系时,才能确认。
而介于未知超越数的庞大数量,我们有理由相信,几乎所有系统的**“真随机”,可能都与某个超越数有关,即:这个真随机是可以被预测的伪随机**。
所以说,我们所无法预测的随机不确定的概率,其实都隐藏着未知(包括未知的未知,以及不可知)——或说,任何概率都隐藏着未知。
换言之,概率即代表着我们某种程度上的**“无知”**。
或许,原子、分子、天体的运动轨迹,看起来完全不同的概率呈现,其实只是我们不同程度的无知呈现,而所有物质的演化并没有什么不同,都是在相同宇宙规律下的运作,只是参数范围的设定不同。