1912 年, Fisher 提出了最大似然估计(MLE)的思想,彻底改变了统计学。他的核心洞察是:参数的最佳估计应该使观测数据出现的概率最大。这个看似简单的想法,背后隐藏着深刻的数学结构——从概率空间的公理化定义,到统计推断的渐近性质,再到贝叶斯学派与频率学派的哲学分歧。
机器学习的核心是不确定性建模。线性回归假设误差服从高斯分布;逻辑回归假设标签服从伯努利分布;隐马尔可夫模型假设状态转移服从马尔可夫链。所有这些模型都建立在概率论的坚实基础上。本章从 Kolmogorov 公理出发,严格推导统计推断的数学理论。
概率空间与测度论基础
概率空间的公理化定义
定义 1(概率空间):概率空间是一个三元组
- 样本空间 $:所有可能结果的集合
- 事件域
的子集族,满足 - 若 ,则 (对补集封闭) - 若
,则 _{i=1}^A_i $(对可数并封闭)
- 若
- 概率测度
,满足 Kolmogorov 公理: - 非负性:
,A $ - 规范性: - 可数可加性:若 互不相交,则
- 非负性:
为什么需要 $- 代数?
在无限样本空间中,不是所有子集都可测。例如,实数区间
定理 1(概率的基本性质):
2. 3. 若 ,则 4. (容斥原理)
证明性质 1:
由可数可加性,令
$$
P() = P({i=1}^A_i) = {i=1}^P(A_i) = _{i=1}^P() $$
此式成立当且仅当
条件概率与独立性
定义 2(条件概率):设
$$
P(A|B) = $$
定理 2(乘法公式):
$$
P(A_1 A_2 A_n) = P(A_1) P(A_2|A_1) P(A_3|A_1 A_2) P(A_n|A_1 A_{n-1}) $$
定理 3(全概率公式):设 {B_1, B_2, , B_n}
$$
P(A) = _{i=1}^n P(A|B_i) P(B_i) $$
证明:
$$
A = A = A ({i=1}^n B_i) = {i=1}^n (A B_i) $$
由于
$$
P(A) = {i=1}^n P(A B_i) = {i=1}^n P(A|B_i) P(B_i) $$
证毕。
定理 4(Bayes 定理):设
$$
P(A|B) = = $$
其中第二个等式使用了全概率公式。
Bayes 定理的意义:
: 先验概率(prior),在观测数据前对 的信念 : 似然(likelihood),在 发生条件下观测到 的概率 : 后验概率(posterior),在观测到 后对 的更新信念 : 证据(evidence),数据的边缘概率
Bayes 定理是贝叶斯统计的核心,它提供了从数据更新信念的数学框架。
定义 3(独立性):事件
$$
P(A B) = P(A) P(B) $$
等价地,若
定义 4(条件独立):事件
$$
P(A B | C) = P(A|C) P(B|C) $$
注意:独立不蕴含条件独立,条件独立也不蕴含独立。
反例:考虑抛两枚硬币:
: 第一枚是正面 : 第二枚是正面 : 恰有一枚正面
显然
随机变量与分布
定义 5(随机变量):随机变量是从样本空间
$$
X: $$
可测性要求:对任意 Borel 集
定义 6(累积分布函数,CDF):随机变量
$$
F_X(x) = P(X x) $$
CDF 的性质:
- 单调非降:
2 . 右连续: {h ^+} F_X(x+h) = F_X(x) , {x } F_X(x) = 1$
定义 7(概率密度函数,PDF):若存在非负函数
$$
F_X(x) = _{-}^x f_X(t) , dt $$
则称
定义 8(概率质量函数,PMF):对离散型随机变量
$$
p_X(x) = P(X = x) $$
定义 9(联合分布):随机变量
$$
F_{X,Y}(x, y) = P(X x, Y y) $$
联合 PDF(若存在):
$$
f_{X,Y}(x, y), F_{X,Y}(x, y) = {-}^y {-}^x f_{X,Y}(s, t) , ds , dt $$
定义 10(边缘分布):
$$
f_X(x) = {-}^f{X,Y}(x, y) , dy $$
定义 11(条件分布):
$$
f_{X|Y}(x|y) = , f_Y(y) > 0 $$
定义 12(随机变量的独立性):随机变量
$$
f_{X,Y}(x, y) = f_X(x) f_Y(y), x, y $$
期望、方差与特征函数
期望的定义与性质
定义 13(期望):随机变量
- 离散型:
- 连续型:
定理 5(期望的线性性):
$$
E[X + Y] = E[X] + E[Y] $$
对任意常数 , $ 和随机变量
证明(连续型):
证毕。
定理 6(全期望公式):
$$
E[X] = E[E[X|Y]] $$
证明:
证毕。
方差与协方差
定义 14(方差):
定理 7(方差的性质):
- (X + ) = ^2 (X)
X Y
证明性质 2:
若
定义 15(协方差):
性质:
- (X, X) = (X)
(对称性) - (X + Y, Z) = (X, Z) + (Y, Z)$(双线性)
- 若
和 独立,则 (X, Y) = 0$(但逆命题不成立)
定义 16(相关系数):
定理 8(Cauchy-Schwarz 不等式):
即
证明:考虑任意
这是关于
证毕。
特征函数
定义 17(特征函数):随机变量
特征函数的性质:
- _X(0) = 1
| _X(t)| (共轭) - 若
, 则 _Y(t) = e^{itb} X(at) X若 Y $ 独立,则 {X+Y}(t) = _X(t) _Y(t)$和
定理 9(特征函数唯一性):分布由特征函数唯一决定。即若
_X = _Y
定理 10(矩生成性质):若
$$
E[X^n] = |_{t=0} $$
证明:
对
令
证毕。
常见概率分布
离散分布
1. 伯努利分布(Bernoulli)
定义:
$$
P(X = k) =$$
期望与方差:
$$
E[X] = p, (X) = p(1-p) $$
应用:二元分类、逻辑回归的输出分布。
2. 二项分布(Binomial)
定义:
$$
P(X = k) = p^k (1-p)^{n-k}, k = 0, 1, , n $$
期望与方差:
$$
E[X] = np, (X) = np(1-p) $$
推导期望:
设
$$
E[X] = _{i=1}^n E[X_i] = np $$
推导方差:
由方差的独立可加性:
3. 泊松分布(Poisson)
定义:
$$
P(X = k) = {k!}, k = 0, 1, 2, $$
期望与方差:
$$
E[X] = , (X) = $$
推导期望:
$$
E[X] = {k=0}^k {k!} = e^{-} {k=1}^k = e^{-} _{k=1}^ {(k-1)!} = e^{-} e^= $$
泊松定理:当
证明:
当
-
- (1 - )^{-k} $ 故 。证毕。
应用:稀有事件计数(如网站访问次数、放射性衰变)。
连续分布
1. 均匀分布(Uniform)
定义:
$$
f_X(x) =$$
期望与方差:
$$
E[X] = , (X) = $$
2. 指数分布(Exponential)
定义:
$$
f_X(x) = e^{-x}, x $$
期望与方差:
$$
E[X] = , (X) = $$
无记忆性:
证明:
$$
P(X > s + t | X > s) = = {e^{-s}} = e^{-t} = P(X > t) $$
证毕。
应用:等待时间、寿命分布、泊松过程的事件间隔。
3. 高斯分布(Gaussian/Normal)
定义:
$$
f_X(x) = (-) $$
期望与方差:
$$
E[X] = , (X) = ^2 $$
标准正态分布:
标准化变换:若
多元高斯分布:
$$
f_X(x) = (-(x - )^T ^{-1} (x - )) $$
性质:
- 线性变换的不变性:若
, 则 2 . 边缘分布是高斯:若 联合高斯,则 和 的边缘分布也是高斯 - 条件分布是高斯:若
联合高斯,则 和 也是高斯 - 不相关蕴含独立:对高斯随机变量,(X, Y) = 0 X Y$
为什么高斯分布如此重要?
- 中心极限定理:独立同分布随机变量之和的分布趋向高斯
- 最大熵原理:在给定均值和方差的所有分布中,高斯分布熵最大
- 解析性好:高斯分布的卷积、线性变换仍是高斯
- 广泛出现:自然界中许多现象近似高斯(如测量误差)
4. Gamma 分布
定义:
$$
f_X(x) = x^{} e^{-x}, x > 0 $$
其中 () = _0t{} e^{-t} dt$ 是 Gamma 函数。
期望与方差:
$$
E[X] = , (X) = $$
特例:
- = 1
- = n/2, = 1/2指 数 分 布 卡 方 分 布
5. Beta 分布
定义:
$$
f_X(x) = x^{} (1-x)^{}, < x < 1 $$
期望与方差:
$$
E[X] = , (X) = $$
应用:贝叶斯推断中的共轭先验(伯努利/二项分布的先验)。
分布之间的关系
定理 11(Gamma 函数与 Beta 函数的关系):
$$
B(, ) = _0^1 x^{} (1-x)^{} dx = $$
定理 12(卡方分布):若
定理 13(t 分布):若
$$
T = t_n $$
其中
$$
f_T(t) = (1 + )^{-(n+1)/2} $$
定理 14(F 分布):若
$$
F = F_{n_1, n_2} $$
下图展示了机器学习中最常用的 6 种概率分布族:高斯分布、 Beta 分布、伽马分布、二项分布、泊松分布和卡方分布。这些分布构成了概率建模的基础工具箱:

极限定理
大数定律
定义 18(依概率收敛):随机变量序列 {X_n}
定理 15(Markov 不等式):若
$$
P(X a) $$
证明:
$$
E[X] = _0^x f_X(x) dx _a^x f_X(x) dx a _a^f_X(x) dx = a P(X a) $$
证毕。
定理 16(Chebyshev 不等式):若
$$
P(|X - | ) $$
证明:应用 Markov 不等式于
$$
P(|X - | ) = P((X - )^2 ^2) = $$
证毕。
定理 17(弱大数定律,WLLN):设
证明:
$$
E[{X}_n] = , ({X}_n) = $$
由 Chebyshev 不等式:
$$
P(|{X}_n - | ) = (n ) $$
证毕。
定理 18(强大数定律,SLLN):在 WLLN 的条件下:
$$
P(_{n } {X}_n = ) = 1 $$
即 {X}_n$ 几乎必然收敛到
几乎必然收敛 vs 依概率收敛:
- 几乎必然收敛(a.s.):样本轨道收敛
- 依概率收敛(in probability):概率质量集中
几乎必然收敛强于依概率收敛。
中心极限定理
定理 19(中心极限定理,CLT):设
$$
Z_n = = $$
则:
$$
Z_n (0, 1) $$
其中 $ 表示依分布收敛。
证明思路(利用特征函数):
令
$$
Z_n = _{i=1}^n Y_i $$
展开 _Y(t/)$(Taylor 展开):
因此:
而 $ e{-t2/2}
CLT 的意义:
- 解释了为什么正态分布如此普遍:许多现象是大量小随机效应的叠加
- 为统计推断提供理论基础:样本均值的分布近似正态
- 给出近似误差界:{X}_n (, ^2/n)$
多元中心极限定理:设
参数估计
点估计
定义 19(估计量):设
定义 20(无偏性):若
例子:
- 样本均值 {X}n = {i=1}^n X_i
的无偏估计是 总 体 均 值 - 样本方差
是总体方差 ^2$ 的无偏估计
为什么样本方差除以
证明样本方差的无偏性:
关键步骤:
若除以 $ n
定义 21(相合性):若 _n
定义 22(均方误差,MSE):
其中 (_n) = E[_n] - $。
偏差-方差分解:
- 偏差(bias):估计的系统误差
- 方差(variance):估计的随机性
- 两者的权衡是统计学习的核心
最大似然估计(MLE)
定义 23(似然函数):给定样本
$$
L() = _{i=1}^n f(x_i; ) $$
对数似然函数:
定义 24(最大似然估计):MLE 定义为:
例子 1:伯努利分布的 MLE
设
$$
L(p) = _{i=1}^n p^{x_i} (1-p)^{1-x_i} = p^{x_i} (1-p)^{n - x_i} $$
对数似然:
求导:
解得:
例子 2:高斯分布的 MLE
设
对 $ 求偏导:
对 ^2$ 求偏导:
解得:
注意:这是有偏估计!无偏估计应除以
定理 20(MLE 的渐近性质):在正则条件下,MLE 具有以下性质:
- 相合性: _{} _0$(真实参数)
- 渐近正态性: (_{} - _0) (0, I(_0)^{-1})$3. 渐近有效性: 在所有相合估计中,MLE 的渐近方差达到 Cram é r-Rao 下界
其中
$$
I() = -E= E$$
贝叶斯估计
贝叶斯范式:将参数
后验分布:由 Bayes 定理:
定义 25(后验均值估计):
定义 26(最大后验估计,MAP):
例子:Beta-Bernoulli 共轭
先验:(, )$
似然:
$$
f(x|) = {x_i}(1-){n - x_i} $$
后验:
这是 (+ x_i, + n - x_i)$。
后验均值:
解释:
- 先验参数 ,
个成功,$ 个失败可 视 为 伪 观 测 先 验 认 为 有 - 后验是先验与数据的结合:+ x_i
个失败个 成 功 - 当 $ n
(MLE)后 验 均 值
贝叶斯 vs 频率:
| 特性 | 频率学派 | 贝叶斯学派 |
|---|---|---|
| 参数 | 固定但未知 | 随机变量 |
| 推断基础 | 重复抽样 | 条件概率 |
| 先验知识 | 不使用 | 显式建模 |
| 不确定性 | 置信区间 | 可信区间 |
| 计算 | 通常较简单 | 可能需要 MCMC |
下图对比了最大似然估计( MLE)与最大后验估计( MAP)的差异:左图展示 MLE 仅依赖似然函数寻找使数据概率最大的参数;右图展示 MAP 如何结合先验知识与似然函数得到后验分布,在小样本情况下 MAP 通常更稳定:

假设检验与置信区间
假设检验
定义 27(统计假设):关于总体分布的陈述。
- 原假设
: 默认假设(通常是"无效应") - 备择假设
: 研究者希望证明的假设
定义 28(检验统计量):基于样本构造的随机变量
定义 29(拒绝域):若
两类错误:
| 真实情况 | 接受 |
拒绝 |
|---|---|---|
| ✓ | 第 I 类错误($) | |
| 第 II 类错误($) | ✓(检验力 |
定义 30(显著性水平):= P( H_0 | H_0 )$, 通常取
定义 31(p 值):在
决策规则:若 p 值
例子:单样本 t 检验
假设:
$$
T = $$
在
拒绝域:
置信区间
定义 32(置信区间):随机区间
$$
P() = 1 - $$
注意:这是关于随机区间的概率陈述,而非参数的概率陈述(频率观点)。
例子:均值的置信区间
设
因此:
$$
P(| | z_{/2}) = 1 - $$
变形得:
是 $ 的
若 ^2$ 未知,用
代码实现:分布、估计与检验
1 | import numpy as np |
代码解读:
- 概率分布演示:可视化常见分布的 PDF/PMF,展示其形状特征
- 中心极限定理:从不同分布抽样,展示样本均值的正态化过程
- 最大似然估计:计算高斯分布的 MLE,可视化似然函数,展示估计的收敛性
- 贝叶斯估计:演示 Beta-Bernoulli 共轭,展示先验、数据和后验的关系
- 假设检验:单样本 t 检验,计算 p 值和置信区间,可视化拒绝域
❓ Q&A:概率论常见疑问
Q1:为什么需要 $- 代数?不能直接对所有子集定义概率吗?
Vitali 集的反例:
在区间
矛盾证明
设 {r_n} $ 枚举
性质:
互不相交(否则存在 使 , 即 , 矛盾于 的构造)- _n V_n = [0, 1]
V $ 可测,则若 可测且 (平移不变性)。由可数可加性:
- 若
, 右边 , 矛盾 - 若
, 右边 , 矛盾
因此
Q2:独立与不相关有什么区别?为什么高斯随机变量中二者等价?
独立 vs 不相关:
| 概念 | 定义 | 蕴含关系 |
|---|---|---|
| 独立 | ||
| 不相关 | (X, Y) = 0 |
反例(不相关但不独立):
设
(奇函数积分) - 因此 (X, Y) = E[XY] - E[X]E[Y] = 0 Y但 X $ 决定,显然不独立!完 全 由
为什么高斯随机变量中二者等价?
定理:若
证明思路:
联合高斯的 PDF:
$$
f_{X,Y}(x, y) = (-) $$
其中 = (X, Y) = $。
当 = 0$ 时:
$$
f_{X,Y}(x, y) = e^{-(x-_X)^2/(2_X^2)} e^{-(y-_Y)^2/(2_Y^2)} = f_X(x) f_Y(y) $$
即
关键:高斯分布的特殊性在于,其 PDF 可以完全因式分解为边缘 PDF 的乘积,当且仅当协方差为 0 。
Q3:为什么样本方差要除以 而不是 ?
自由度的直观解释:
样本方差
这意味着给定
数学证明:
展开:
取期望:
$$
E= n^2 - 2n E[({X}_n - )^2] + n E[({X}_n - )^2] = n^2 - n = (n-1)^2 $$
因此:
$$
E[S_n^2] = E= ^2 $$
Q4:最大似然估计(MLE)为什么是"好"的估计?
MLE 的三大渐近性质:
- 相合性:_{} 0$2 . 渐近正态性:({} - _0) (0, I(_0)^{-1})$3. 渐近有效性:MLE 达到 Cram é r-Rao 下界(在所有无偏估计中方差最小)
Cram é r-Rao 下界:
定理:设
其中
$$
I() = E$$
证明思路:
由无偏性:
定义
由 Cauchy-Schwarz 不等式:
整理得:()
MLE 达到下界:
在正则条件下,MLE 的渐近方差 $ 正好是 CR 下界,因此 MLE 是渐近有效的。
Q5:贝叶斯估计与 MLE 有什么区别?何时更优?
哲学差异:
| 特性 | 频率派(MLE) | 贝叶斯派 |
|---|---|---|
| 参数 $ | 固定但未知 | 随机变量 |
| 数据 |
随机 | 观测到后为固定值 |
| 推断 | ||
| 不确定性 | 估计的抽样分布 | 参数的后验分布 |
MAP vs MLE:
MAP = MLE + 先验正则化。
例子:Ridge 回归 vs MLE
线性回归 $ y = X+
MLE:
贝叶斯(高斯先验 (0, ^2 I)$):
这正是 Ridge 回归!正则化参数 = $ 反映了先验强度。
何时贝叶斯更优?
- 小样本:先验提供额外信息,减少过拟合
- 高维问题:正则化防止奇异性
- 不确定性量化:后验分布提供完整不确定性描述,而非点估计
- 序贯更新:易于增量学习(后验→下次先验)
何时 MLE 更优?
- 大样本:数据主导,先验影响消失
- 计算简单:无需积分后验
- 客观性:无先验主观性争议
Q6:p 值到底是什么?为什么不能说"参数有 95%概率落在置信区间"?
p 值的正确解释:
p 值 = 在原假设
常见误解:
❌ "p 值是
$$
P(H_0|) = $$
p 值只是分子的一部分,不涉及
置信区间的正确解释:
95%置信区间
✅ 如果我们重复实验无数次,95%的区间会包含真实参数。
❌ 参数有 95%概率落在此区间。
为什么第二种说法错误?
频率观点下,参数 $ 是固定的(虽然未知)。一旦构造了区间
图示:
1 | 重复实验 100 次,构造 100 个 95%置信区间: |
每个区间要么包含 $(1)要么不包含(0),但我们不知道是哪种情况。"95%"是关于重复抽样程序的频率陈述,而非单次区间的概率陈述。
贝叶斯可信区间:
贝叶斯派可以说"参数有 95%概率落在可信区间",因为他们将 $ 视为随机变量,可信区间是后验分布的分位数。
Q7:中心极限定理为什么如此重要?有什么局限性?
CLT 的重要性:
- 普适性:适用于几乎任何分布(只需有限方差)
- 解释正态分布无处不在:许多现象是大量小随机效应的叠加
- 统计推断的基础:
- 样本均值的置信区间
- t 检验、 ANOVA 等依赖正态近似
- 回归系数的渐近分布
应用例子:
- 测量误差:多个独立误差源的叠加
- 生物特征:身高、智商等受多基因影响
- 金融:资产收益是多因素综合作用
CLT 的局限性:
- 收敛速度:
- 对高度偏斜分布,需要很大的
才能近似正态 - Berry-Esseen 定理给出误差界:_x |F_n(x) - (x)|
2 . 厚尾分布:其 中 - 若 (X_i) = $(如 Cauchy 分布),CLT 不适用
- 此时样本均值甚至不收敛到任何分布!
- 对高度偏斜分布,需要很大的
- 相依性:
- CLT 假设独立同分布
- 对时间序列等相依数据,需要修改版本(如 Lyapunov CLT)
- 多峰分布:
- 若混合多个相距很远的分布,样本均值可能呈现多峰,而非正态
替代方案:
- Bootstrap:无需正态假设,用重抽样估计抽样分布
- Permutation test:精确检验,无需渐近近似
- Robust statistics:对异常值不敏感的估计(如中位数)
Q8:为什么高斯分布如此特殊?
高斯分布的独特性质:
- 再生性:
, 独立,则 $X + Y (_1 + _2, _1^2 + _2^2) X (, )线 性 变 换 不 变 性 A X + b (A+ b, AA^T)则 边 缘 与 条 件 分 布 均 为 高 斯 ( , ) $$
则: -
不相关蕴含独立:仅对高斯成立
最大熵原理:给定均值和方差,高斯分布熵最大
最大熵推导:
目标:在约束
Lagrange 函数:
变分法,对
解得:
$$
f(x) (-_2 (x-)^2) $$
确定常数后,得:
$$
f(x) = (-) $$
这正是高斯分布!
意义:在只知道均值和方差的情况下,高斯分布是最"无偏"的选择(信息熵最大,假设最少)。
Q9:什么是共轭先验?为什么要使用它?
定义:若先验分布 ()
常见共轭对:
| 似然 | 共轭先验 | 后验 |
|---|---|---|
| Bernoulli/Binomial | Beta | Beta |
| Poisson | Gamma | Gamma |
| Gaussian(均值) | Gaussian | Gaussian |
| Gaussian(方差) | Inverse-Gamma | Inverse-Gamma |
| Multinomial | Dirichlet | Dirichlet |
例子:Gaussian-Gaussian 共轭
似然:
先验:(_0, _0^2)$ 后验:
后验均值是加权平均:
$$
E[| X] = {x} + _0 $$
权重 = 精度(方差的倒数)。
为什么使用共轭先验?
- 解析解:后验有闭式形式,无需数值积分
- 可解释性:先验参数有直观含义(如"伪观测")
- 序贯更新:后验作为新的先验,易于增量学习
- 计算效率:对大规模数据尤其重要
局限性:
- 可能不反映真实先验信念
- 分布族选择受限
非共轭先验:使用 MCMC(如 Gibbs 采样、 Metropolis-Hastings)或变分推断。
Q10:偏差-方差分解在统计推断中有何意义?
偏差-方差分解:
几何解释:
1 | θ (真实参数) |
权衡:
- 低偏差,高方差:过拟合(如高次多项式拟合)
- 高偏差,低方差:欠拟合(如线性模型拟合复杂数据)
- 最优:平衡两者
例子:Ridge vs OLS
OLS(普通最小二乘):
- 无偏:
- 方差:(_{} ) = ^2 (XTX){-1}$ - 当 接近奇异时,方差爆炸!
Ridge:
- 有偏:
- 方差更小:正则化稳定估计
定理(Ridge 的 MSE 优势):存在 > 0$ 使得:
特别是当
实践启示:
- 无偏估计不一定最优(可能方差巨大)
- 适度偏差换取方差大幅下降,常能降低 MSE
- 正则化、收缩估计(如 Lasso 、 Ridge)正是基于此思想
🎓 总结:概率论核心要点
记忆公式:
- Bayes 定理: $$
P(|x) =
- 期望的线性性: $$
E[X + Y] = E[X] + E[Y]
中心极限定理: $ (0, 1)
MLE 的渐近分布:
$
记忆口诀:
Bayes 更新先验信念(后验∝似然×先验)
大数定律保证收敛(样本均值→总体均值)
中心极限给出正态(和的分布近似正态)
MLE 达到效率下界(Cram é r-Rao 界)
实战 Checklist:
📚 参考文献
Casella, G., & Berger, R. L. (2002). Statistical Inference (2nd ed.). Duxbury Press.
Wasserman, L. (2004). All of Statistics: A Concise Course in Statistical Inference. Springer.
Murphy, K. P. (2022). Probabilistic Machine Learning: An Introduction. MIT Press.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis (3rd ed.). Chapman and Hall/CRC.
Lehmann, E. L., & Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer.
van der Vaart, A. W. (1998). Asymptotic Statistics. Cambridge University Press.
Billingsley, P. (2008). Probability and Measure (Anniversary ed.). Wiley.
Durrett, R. (2019). Probability: Theory and Examples (5th ed.). Cambridge University Press.
Ferguson, T. S. (1996). A Course in Large Sample Theory. Chapman and Hall/CRC.
Robert, C. P., & Casella, G. (2004). Monte Carlo Statistical Methods (2nd ed.). Springer.
下一章预告:第 4 章将深入探讨优化理论基础,包括凸优化、梯度下降、牛顿法、拟牛顿法、约束优化等,为机器学习算法的训练提供数学工具。
- 本文标题:机器学习数学推导(三)概率论与统计推断
- 本文作者:Chen Kai
- 创建时间:2021-09-06 10:45:00
- 本文链接:https://www.chenk.top/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E6%95%B0%E5%AD%A6%E6%8E%A8%E5%AF%BC%EF%BC%88%E4%B8%89%EF%BC%89%E6%A6%82%E7%8E%87%E8%AE%BA%E4%B8%8E%E7%BB%9F%E8%AE%A1%E6%8E%A8%E6%96%AD/
- 版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!