文章

数学(1`概率与统计学)

概率与统计学

方差

概率论和统计学方差: 衡量 随机变量 / 一组数据 离散程度的统计量

1742113681168

概率论中方差:度量 随机变量的取值 和其 期望 之间的偏离程度,其中—x是期望

即每个(样本取值 - 期望)^2 的总和 的均值

1742111233123

1742111238162

统计中的方差:是各个 样本数据平均数 之间的偏离程度,其中—x是平均数

即每个(样本数据 - 平均数)^2 的总和 的均值

随机变量X(): 是一个将样本映射到实数的函数,以确保每个样本都能被唯一实数对应

  • 离散型:取值是有限个或可列无限个(扔骰子有6种可能,对应6个实数)
  • 连续型:取值无限个,充满某个区间

1742112492521

期望 / 均值:E(X)是每个 样本取值xi * 对应概率pi 的总和,可以理解为加权平均值

1742113776559

1742119859111

标准差 / 均方差:方差的平方根,u表示期望,标准差的单位与原始数据的单位相同,这使得它在实际应用中更具直观性

  • 68%落在均值u加减1个标准差o的范围内,95%落在均值加减2个标准差的范围内,99.7%落在均值加减3个标准差的范围内
  • 例如:如果知道总人数,均值是70分,标准差是10,并且分数符合正太分布,那么就可以求出60-80分数的约有多少人

1742120171927

均方误差MSE:是各数据偏离真实值差值(误差) 的平方和 的平均数, 用做衡量模型拟合的一个度量, 观测值yi,预测值^yi

解积分

有时积分难以解析求得积分结果,我们可以通过估计来计算

先了解大数定律,指选择一个无偏(完全随机)的子集样本估计整体,会得到一个相对接近真相的答案,一下两种解积分方法正是建立在大数定律的基础上,并不会考虑所有(无限个)样本,而是从总体中随机挑选样本 N生成采样值

黎曼积分

1742449258952

黎曼积分的思想是将定积分ab区间围成的面积,分割为N个小长方形求面积和

每个小长方形的x坐标用(x1,x2……xn)表示,其中(a-b)/N 作为小长方形宽,f(xi)作为高

其中因为每个小长方形宽均等,因此可以将(a-b)/N 提到求和外,结果是一致的

另一种理解的思想就是把1/N提取出来,也就是计算每个大长方形(b-a)的宽度 * fxi的高度,最后*1/N求均值

蒙特卡洛积分

1742462070950

蒙特卡洛积分思想依旧用长方形估计面积,但是进行了加权,因此小长方形的宽不再均等,

1·为什么通过引入pdf概率密度函数作为这个权重?

原函数权重均等(可以忽略掉),求得的每个长方形面积variance方差较大,可以用一个简明的分布 pdf,variance reduction减小方差,来加快收敛速度

2·为什么乘以1/N?

每个大长方形加权求和后需要平均, 就如同黎曼积分的第2种理解方式,通过 * 1/N 求均值

3·为什么除以pdf而非乘pdf?

先看简单的均等pdf情况,每个概率为1 / (b-a),那么fx /(1 / (b-a),即fx * (b-a),也就是每次都以(b-a)作为长方形的宽,最后将求得的每个大长方形求平均面积,这和黎曼的思想是一样的

也就是虽然用除法,但可以依旧理解为 * 宽度,只不过作为分母来说,概率越大,分母越大,值越小

要variance reduction减小方差,高度更高 * 更小的宽度(例如pdf == 5/10 == 1/2 == 0.5 宽度为2倍) ,高度更低 * 更大的宽度(例如pdf == 2/10 == 1/5 == 0.2 宽度为5倍),从而更易贴近准确结果

采样

对于无偏采样(完全随机)随着样本数量的不断增加,我们最终将收敛到积分的精确解

对于有偏采样(伪随机)会以更快的速度收敛到精确解,但是由于其有偏性,可能永远不会收敛到精确解(在计算机图形学中,视觉上可以接受,解决方案的精确性就不太重要)

收敛速度:在相同的样本下,具有更准确的结果

重要性采样

重要性采样正属于有偏采样的一种,可以使得在对积分结果贡献大的区域进行更多的采样,从而提高积分估计的准确性和效率

低差异序列

低差异序列 / 拟随机序列,该序列生成的仍然是随机样本,但样本分布更均匀,能够更有效地覆盖积分区域,使用低差异序列生成蒙特卡洛样本时,称为拟蒙特卡洛积分,具有更快的收敛速度

常见类型:

  • Van der Corput 序列:通过反转自然数序列的base−n表示来构造的
  • Halton 序列:基于不同底数(通常为质数)的 Van der Corput 序列生成
  • Hammersley :是基于 Van Der Corput 序列,该序列是把十进制数字的二进制表示镜像翻转到小数点右边而得
  • Sobol 序列:每一个维度都是由底数为2的 radical inversion 组成,但每一个维度的 radical inversion 都有各自不同的矩阵
本文由作者按照 CC BY 4.0 进行授权
本页总访问量