1. SVGMM 和 GMM 的核心区别

特性 GMM(Gaussian Mixture Model) SVGMM(Spatially Variant Gaussian Mixture Model)
高斯分布参数 所有样本共享一组固定的混合权重、均值和协方差矩阵 参数是位置依赖的(每个像素/点的位置会影响它的混合分布参数)
适用场景 数据点独立同分布(i.i.d.)的聚类、密度估计 空间数据(如图像)中存在局部统计差异,需要考虑空间位置的上下文
平滑/先验 没有显式空间先验 通常引入空间平滑先验(如 Markov Random Field、Total Variation 等)防止噪声导致过拟合
参数变化 全局参数相同 每个位置的混合权重/均值/方差可随位置变化(但会约束变化的平滑性)

直观理解

  • GMM:好比说整个图像用同一套高斯混合去解释,不管像素在左上角还是右下角,统计规律是一样的。
  • SVGMM:允许左上角是一个高斯混合模型,右下角是另一套,但要求它们在空间上变化不能太突兀(这就需要平滑约束)。

2. SVGMM 的平滑方式

SVGMM 在训练时常常需要给空间可变的参数(尤其是混合权重)加上平滑约束,防止每个像素的参数完全独立导致噪声放大。常见方式有:

(1) MRF / Potts Model 平滑

  • 用马尔可夫随机场约束空间上相邻像素的标签或混合权重。

  • 目标函数会多一项:

    Esmooth=β(i,j)Nδ(zizj)E_{\text{smooth}} = \beta \sum_{(i,j)\in \mathcal{N}} \delta(z_i \neq z_j)

    或连续版本

    Esmooth=β(i,j)Nπiπj2E_{\text{smooth}} = \beta \sum_{(i,j)\in \mathcal{N}} \| \pi_i - \pi_j \|^2

  • 优点:明确利用空间一致性;缺点:需要额外优化(比如 graph cut 或 loopy belief propagation)。


(2) 高斯平滑(Gaussian Smoothing)

  • 在每次 E-step 后,对混合权重或参数图做空间卷积平滑:

    πi(Gσπ)i\pi_i \leftarrow (G_\sigma * \pi)_i

  • 优点:实现简单,速度快;缺点:会模糊边缘。


(3) Total Variation (TV) 正则

  • 约束参数场的梯度范数:

    ETV=λiπi1E_{\text{TV}} = \lambda \sum_i \|\nabla \pi_i\|_1

  • 优点:保持边缘清晰,抑制噪声;缺点:优化稍复杂(需用交替方向乘子法 ADMM 等)。


(4) 拉普拉斯平滑(Laplacian Smoothing)

  • 用图拉普拉斯约束参数的二阶变化:

    Elap=λ(i,j)N(πiπj)2E_{\text{lap}} = \lambda \sum_{(i,j)\in \mathcal{N}} (\pi_i - \pi_j)^2

  • 类似于热扩散方程,适合局部平滑但可能会模糊边界。


(5) 分层/多尺度平滑

  • 在低分辨率上先拟合参数,然后逐步上采样并微调到高分辨率。
  • 可以避免直接在全分辨率上过拟合噪声。

3. 总结

  • GMM:参数全局共享,忽略空间依赖。

  • SVGMM:参数随位置变化,但需要平滑先验防止噪声影响。

  • 平滑方法常见有:

    1. MRF / Potts(边界保持好,计算复杂)
    2. 高斯卷积(简单,但会模糊)
    3. Total Variation(去噪保边)
    4. 拉普拉斯平滑(柔和过渡)
    5. 多尺度策略(全局一致性更好)

1. 从 Q 函数到带平滑的目标函数

Q(ΘΘt1)Q(\Theta \mid \Theta^{t-1}) 是标准 EM 的 期望对数似然

Q(Θ)=k=1Mi=1Nlnαk  γik+k=1Mi=1Nlnpk(xiθk)  γikQ(\Theta) = \sum_{k=1}^{M} \sum_{i=1}^{N} \ln \alpha_k \; \gamma_{ik} + \sum_{k=1}^{M} \sum_{i=1}^{N} \ln p_k(x_i \mid \theta_k) \; \gamma_{ik}

其中 γik=p(kxi,Θt1)\gamma_{ik} = p(k \mid x_i, \Theta^{t-1})后验责任度

在 SVGMM 中,如果参数(尤其是 αk\alpha_k 或均值、方差)随位置 ii 变化,那么我们会加一个正则项 R(Θ)\mathcal{R}(\Theta) 来约束空间平滑性:

Qreg(Θ)=Q(Θ)λR(Θ)Q_{\text{reg}}(\Theta) = Q(\Theta) - \lambda \, \mathcal{R}(\Theta)


2. 常见的正则化形式

(a) 全变分 (Total Variation)

对参数场(如混合权重图 αk(i)\alpha_k(i))加上 TV 正则:

RTV=k=1Miαk(i)1\mathcal{R}_{\text{TV}} = \sum_{k=1}^M \sum_{i} \|\nabla \alpha_k(i)\|_1

这样可以保持边缘不被模糊,同时去掉噪声。


(b) 拉普拉斯 (Laplacian) 平滑

二阶变化惩罚:

RLap=k=1M(i,j)N(αk(i)αk(j))2\mathcal{R}_{\text{Lap}} = \sum_{k=1}^M \sum_{(i,j)\in \mathcal{N}} \left( \alpha_k(i) - \alpha_k(j) \right)^2

等价于在图上做二次平滑,有点像热扩散。


3. 如何优化

在 EM 里,加平滑的效果是:

  • E-step:不变,仍然计算 γik\gamma_{ik}

  • M-step:最大化的是 Q(Θ)λR(Θ)Q(\Theta) - \lambda \mathcal{R}(\Theta)

    • 如果 R\mathcal{R} 是二次的(拉普拉斯),可以得到封闭解(或者解一个线性系统)。
    • 如果是 TV(L1 范数),通常需要数值优化方法(ADMM、梯度下降)。

4. 小结

带平滑的 M-step 就是:

Θt=argmaxΘ[Q(ΘΘt1)λR(Θ)]\Theta^{t} = \arg\max_{\Theta} \left[ Q(\Theta \mid \Theta^{t-1}) - \lambda \, \mathcal{R}(\Theta) \right]

可以理解成:

  • 原来的 Q 函数是“拟合数据”
  • 平滑项是“遵循空间先验”
  • λ 决定两者的平衡