统计力学中的概率论基础
2024年05月14日
56
技术背景统计力学是一门通过粒子的纯粹微观量来表示系统宏观量的学科,从统计分布出发,用无偏/有偏估计来研究各种不同的系综。本文内容部分参考自郑伟谋老师所著《统计力学导引》,主要介绍其中概率论基础的部分。但因为大多是个人的理解,如有差错,与参考文献作者无关。事件与概率假定我们抛一枚质地未知的硬币,正面事件记为A𝐴,反面事件记为B𝐵。

技术背景

统计力学是一门通过粒子的纯粹微观量来表示系统宏观量的学科,从统计分布出发,用无偏/有偏估计来研究各种不同的系综。本文内容部分参考自郑伟谋老师所著《统计力学导引》,主要介绍其中概率论基础的部分。但因为大多是个人的理解,如有差错,与参考文献作者无关

事件与概率

假定我们抛一枚质地未知的硬币,正面事件记为𝐴,反面事件记为𝐵。那么经过多次的测试,可以得到一个统计概率:𝑃(𝐴)=𝑛𝐴𝑁,𝑃(𝐵)=𝑛𝐵𝑁。这里就可以有一些基本性的结论:


𝑃(𝐴)0,𝑃(𝐵)0𝑃(𝐴)+𝑃(𝐵)=1


因为这里面事件𝐴和事件𝐵是互斥事件(发生𝐴的同时不可能发生𝐵),那么发生𝐴𝐵的概率就可以表示为:


𝑃(𝐴𝐵)=𝑛𝐴+𝑛𝐵𝑁=𝑃(𝐴)+𝑃(𝐵)


以上就是概率函数的3个基本特性。假如在此基础上,再进行一轮测试,那么此时得到𝐴的概率为:


𝑃(𝐴)=𝑛𝐴(1)+𝑛𝐴(2)𝑁1+𝑁2


由于样本数的不一致,这里有:


𝑃1(𝐴)+𝑃2(𝐴)=𝑛𝐴(1)𝑁1+𝑛𝐴(2)𝑁2𝑃(𝐴)=𝑃1(𝐴)𝑁1𝑁1+𝑁2+𝑃2(𝐴)𝑁2𝑁1+𝑁2


也就是说,如果要获取多份样本中的同一个事件的总概率,需要依照样本数做一个加权平均。

条件概率

如果问题变得更加复杂一些,我们一次抛2个硬币,并且记1号硬币正面朝上为事件𝐴,反面朝上为事件𝐵,2号硬币正面朝上为事件𝐶,反面朝上为事件𝐷。那么类似的有𝑃(𝐶)=𝑛𝐶𝑁,𝑃(𝐷)=𝑛𝐷𝑁,这是对2号硬币的结果的概率统计。此时如果我们去统计一个联合概率,1号硬币正面朝上2号硬币也正面朝上的概率为:


𝑃(𝐴𝐶)=𝑛𝐴𝐶𝑁=𝑛𝐴𝑁𝑛𝐴𝐶𝑛𝐴=𝑃(𝐴)𝑃(𝐶|𝐴)


其中𝑃(𝐶|𝐴)表示事件𝐴发生的条件下,事件𝐶发生的概率,是一个条件概率。

同样在这个案例中,因为事件𝐶发生的概率为𝑛𝐶𝑁,因此在𝑛𝐴的样本数下,事件𝐶发生的频次的期望值为𝑛𝐴𝐶=𝑛𝐶𝑁𝑛𝐴,因此有:


𝑃(𝐴𝐶)=𝑛𝐴𝑁𝑛𝐴𝐶𝑛𝐴=𝑛𝐴𝑁𝑛𝐶𝑁=𝑃(𝐴)𝑃(𝐶)


贝叶斯定理

满足这种条件的事件𝐴𝐶,又称为独立事件。并由此可以得到贝叶斯(Bayes)定理


𝑃(𝐴|𝐶)𝑃(𝐶)=𝑃(𝐶|𝐴)𝑃(𝐴)


或者写为这种更加常见的形式:


𝑃(𝐴|𝐶)=𝑃(𝐶|𝐴)𝑃(𝐴)𝑃(𝐶)


还是在这个案例中,因为我们知道第一个硬币正面朝上(事件𝐴)的条件下,对应的第二个硬币,要么正面朝上(事件𝐶),要么反面朝上(事件𝐷),而事件𝐴的概率可以表示为两个条件概率的加和:


𝑃(𝐴)=𝑃(𝐴|𝐶)+𝑃(𝐴|𝐷)


该公式又称为边际分布

累积分布函数

如果我们随机投一个骰子,它朝上的一面对应的值,有可能是整数1~6之间的一个。因为在投之前,我们并不知道会出现什么数字朝上,因此我们将朝上的数字定义为一个随机变量𝑋。对于一个随机变量𝑋而言,其分布函数被定义为:


𝐹(𝑥)=𝑃(𝑋𝑥)


表示的是𝑋取值不大于𝑥的概率,例如,开小的概率为𝐹(3)=𝑃(𝑋3)=12,开大的概率为𝐹(6)𝐹(3)=𝑃(𝑋6)𝑃(𝑋3)=12。其导数𝑓(𝑥)=𝐹(𝑥)概率密度函数。累积分布函数有如下的一些特性:

  1. 累积分布函数是有界的:lim𝑥𝐹(𝑥)=0,lim𝑥+𝐹(𝑥)=1

  2. 累积分布函数具有单调性:𝐹(𝑥1)𝐹(𝑋2),𝑥1𝑥2

  3. 𝑃(𝑥1<𝑥𝑥2)=𝐹(𝑥2)𝐹(𝑋1)

  4. 当我们写出上面这个式子时,我们应当注意到,这是一个左开右闭的区间。其实也容易理解,比如狄拉克函数的积分在𝑥=𝑥0处有一个突跃的位置,那么比较显然的是,𝐹𝑥𝑥0(𝑥)=0,𝐹𝑥=𝑥0(𝑥)=1,𝐹𝑥𝑥0+(𝑥)=1。更一般的,我们可以理解其为右连续的累积分布函数:lim𝑥𝑥0+𝐹(𝑥)=𝐹(𝑥0)

如果考虑一个离散情形的概率密度函数,有:


𝑓(𝑥)Δ𝑥=𝑃(𝑥𝑋𝑥+Δ𝑥)


分布函数唯一地决定随机变量的全部数字特征。

对于这个投骰子的问题,虽然我们没办法知道下一次会投出什么数字来,但是我们可以计算出出现的数字的平均值,或者叫期望值


𝐸(𝑋)=1𝑃(𝑋=1)+2𝑃(𝑋=2)+...+6𝑃(𝑋=6)=16+26+...+66=72


也就是说,最终得到的点数的平均值应该为3.5。那么假如对于这个随机变量,有一个函数𝑌=(𝑋),那么关于𝑌的期望值为:


𝐸(𝑌)=𝐸((𝑋))=(1)𝑃(𝑋=1)+(2)𝑃(𝑋=2)+...+(6)𝑃(𝑋=6)


对于连续型的随机变量来说,期望值可以写为:


𝜇(𝑋)=𝐸(𝑋)=𝑥𝑓(𝑥)𝑑𝑥


带函数的期望值可以写为:𝐸((𝑥))=(𝑥)𝑓(𝑥)𝑑𝑥,例如𝑋𝛾阶绝对矩为:


𝑀𝛾(𝑋)=𝐸(|𝑋|𝛾)=|𝑋|𝛾𝑓(𝑥)𝑑𝑥


此时要回顾起一个跟期望值/平均值息息相关的函数:方差函数。在概率论中,方差被定义为:


𝜎2(𝑋)=𝐸[(𝑋𝐸(𝑋))2]=𝐸[𝑋22𝐸(𝑋)𝑋+𝐸(𝑋)2]=𝐸(𝑋2)2[𝐸(𝑋)]2+[𝐸(𝑋)]2=𝑀2(𝑋)[𝜇(𝑋)]2=(𝑥𝜇)2𝑓(𝑥)𝑑𝑥


有了方差,自然就有了标准差


𝜎(𝑋)=𝑀2(𝑋)[𝜇(𝑋)]2


如果是多变量情形,我们还可以定义一个协方差(Covariance)用于衡量两个变量之间的总体偏差:


𝐶𝑜𝑣(𝑋,𝑌)=𝐸{[𝑋𝐸(𝑋)][𝑌𝐸(𝑌)]}=𝐸[𝑋𝑌𝑌𝐸(𝑋)𝑋𝐸(𝑌)+𝐸(𝑋)𝐸(𝑌)]=𝐸(𝑋𝑌)𝐸(𝑋)𝐸(𝑌)


需要注意的是,协方差可以用于计算一维的随机变量𝑋,𝑌,也可以用于计算高维的随机变量X,Y。我们可以想象出来,对于一个shape为(𝑛,)的随机变量X而言,对其计算期望值𝐸(X),得到的结果也是(𝑛,)的shape。如果给定的是两个高维的随机变量X,Y,假设其shape分别为(𝑛,)(𝑚,),那么得到的期望值𝐸(XY)的结果shape为(𝑛,𝑚)。类似的,𝐸(X)𝐸(Y)的结果shape也是(𝑛,𝑚)。这样一来,协方差𝐶𝑜𝑣(X,Y)的结果shape也是(𝑛,𝑚)

母函数

母函数,又称生成函数(Generating function),是一种形式幂级数,其每一项的系数可以提供关于这个序列的信息。例如我们有可能得到这样的一个母函数:


𝑔(𝑥)=2𝑥1+3𝑥4


这个形式的母函数表示,事件1发生的概率为22+3=25,事件4有可能发生的概率为35。具体的母函数构造方法是这样的,还是以抛硬币为例子。假设硬币正面朝上为事件𝐴,硬币反面朝上为事件𝐵,那么可以这样构造一个母函数:


𝑔(𝑥)=𝑃(𝐴)+𝑥𝑃(𝐵),𝑃(𝐴)+𝑃(𝐵)=1


这里面𝑥只是一个形参,没有具体含义。那么如果我们抛两次硬币,得到的母函数形式为:


𝑔(𝑥)=[𝑃(𝐴)+𝑥𝑃(𝐵)][𝑃(𝐴)+𝑥𝑃(𝐵)]=𝑥0𝑃(𝐴)2+2𝑥1𝑃(𝐴)𝑃(𝐵)+𝑥2𝑃(𝐵)


写成这个形式之后,就可以分别获得三个不同事件的概率。事件0:两次都是正面朝上,概率为𝑃(0)=𝑃(𝐴)2,事件1:一次正面朝上一次反面朝上,概率为𝑃(1)=2𝑃(𝐴)𝑃(𝐵),事件2:两次都是反面朝上,概率为𝑃(2)=𝑃(𝐵)2。那么假设投的是一块质地均匀的硬币,这样我们得到的三个事件的概率分别为:


𝑃(0)=14,𝑃(1)=12,𝑃(2)=14


这里事件1记录的是一个无序事件,如果要记录为有序事件,即第一次正面朝上、第二次反面朝上和第一次反面朝上、第二次正面朝上为不同事件的话,那表示方法又会有所不同。母函数更多的用于记录可能出现的组合的数量,也就是无序事件的场景用的会更多一些。

总结概要

本文的主要内容是一些统计力学中的基础的概率论知识,如密度函数、分布函数和贝叶斯定理的一些基本概念,主要作为一个简单的知识内容记录和分享。