
本文探讨如何计算三维空间角度数据的离散程度,等效于在单位球面上的数据点的离散程度如何刻画。
离散程度小,可直接使用平面近似方法。
当离散程度大时,“方差”的概念不再适用。
引入“方差”概念基于两个假设:数据的偏差位置在概率上符合正态分布,每个数据点的偶然偏差正态分布的σ相同。在实际应用中,虽然强行使用方差可能得到较好的结果,但严格来说,只有在满足上述条件时,方差才能表示离散程度。
接下来以一维为例进行解释:测量某物长度三次,得到数据x1、x2、x3。除了物体本身的固有原因,还有温度变化、测量误差等因素影响测量值。需解答两个问题:下次测量时,哪个数值出现概率最大?哪些因素导致测量值波动?通常情况下(满足上述假设),第一个问题答案为“平均数”,第二个问题答案为“方差”。
通过推导,假设测量值由固定值x0和变化值Δx相加得到,其中Δx由多个微小影响因素叠加而成,遵循随机行走的概率分布,其分布为正态分布g(x)=exp-((x-x0)/σ)²。测量值在平直空间中遵循此分布。x0和σ的具体值未知,我们试图找到x0'和σ',使得实际值等于它们的概率最大。
问题等价于选取x0'使得(x1-x0')²+(x2-x0')²+(x3-x0')²的值最小,从而得到“平均数”x0'。同时,使用(x1-x0')²+(x2-x0')²+(x3-x0')²定义残差,s≡⅓[(x1-x0')²+(x2-x0')²+(x3-x0')²]。同样,s为σ²的概率极大值。
对于二维情况,可以使用相同方法得到线性拟合公式,即找到实际斜率和截距的最大概率值。
然而,在球面上,随机行走的分布结果并非正态分布,因此“方差”的概念不存在。需要根据球面上的随机行走分布函数重新定义离散度指标。
使用协方差矩阵计算离散程度也存在问题,因为它有适用范围。在非平直空间中,协方差计算会低估离散程度较小的数据集,而高估离散程度适中的数据集。因此,应根据具体情况进行离散度指标的选择和计算。