经验分布函数(EDF,empirical distribution function)是与样本经验测度相关的分布函数,是在n个数据点的每一个上跳1/n的阶跃函数; 经验分布函数Fn(x)是一个阶跃函数。
经验分布函数是对样本中生成点的累积分布函数的估计; 根据 Glivenko-Cantelli 定理,它以概率 1 收敛到这个基础分布。 也有一些结果量化了经验分布函数和基础累积分布函数之间的收敛速度。
经验分布函数Fn(x)是事件在n次重复独立实验中的频率{X<=x}。
设 (x1,x2…xn) 是独立同分布的实随机变量,具有共同的累积分布函数 F(t)。 然后按升序重新排列为(x1*,x2*…xn*),对于任意实数x,定义一个函数
当样本量增加时,相邻两个步之间的跳跃变低,步宽变窄。 这样的阶梯式折线几乎就是一条曲线。 如果人口 x 的分布函数是 F(x),那么 Fn(x) 非常接近 F(x)。
Fn(x)是单调的,非递减的,左连续的,每个点的跳跃值都是1/n; 经验分布函数和总体分布函数具有进一步收敛的关系。
由于随着 n 趋于无穷大,n 12 趋近于 1,因此上面给出的两个定义的渐近性质是相同的。
根据大数定律,对于t的每一个值,估计Fn(t)收敛于F(t),Fn(t)——> F(t)
弱大数定律和强大数定律条件相同,区别在于结论; 弱大数意味着以概率收敛,强数意味着以概率 1 收敛(或几乎处处收敛)。 按概率收敛是指如果任意指定一个正数ε,不管n有多大,Xbar与μ之差大于ε的可能次数是无穷大的,但只要n足够大(比如 为满足切比雪夫不等式),差值大于ε的次数所占比例趋于0。
容量为10个实例的EDF分解过程
数据来源- 容量为10的样本X,其值为3.2,2.5,-2,2.5,0,3,2,2.5,2,4
排序:将样本值按升序排列:
Range:最大观测值和最小观测值的差值,R=max(cc)-min(cc)=6
Number of groups:这个有多少组 区间分为,一般
Group distance:将区间[-2:4]分成m个cell之间,每个cell之间的距离称为group distance;
Group distance= (max(cc)-min(cc))/m=2.2
样本X实验 ence 的分布函数Fn(x)为:
经验分布函数EDF是根据样本的频率估计概率得到的实际分布函数的近似数。 具体构建思路是频率估计概率; 本例得到的EDF是频率估计概率的系统,最大值为1,最小值为0。
直方图显示EDF如下:
hist( cc,breaks=c(-2,-0.1,1.9,2.4,2.9,3.2,4),freq=T, col.axis=’red’)
线(密度(cc),lwd =3,lty=3,col=’lightblue’)
软件R的实现
经验分布函数图的绘制
par(las=1,col.axis=’green’,col=’red’,cex=1.4)
plot(ecdf(cc),do.p=T,verticals=T)
绘图(ecdf(cc),do.p=T,verticals=T)
p>
mtext(side=3,’sample size 10′,line=0)
函数密度计算核密度估计
核密度估计的默认方法是 使用给定的内核和带宽进行单变量观察。
使用的算法 density.default 将经验分布函数的质量分散在至少包含 512 个点的规则网格上,然后使用快速傅里叶变换将此近似值与内核的离散版本进行卷积,A 然后使用线性近似来评估密度指定的点。
ccx<-密度(cc);ccx
ccxx<-ccx$x;ccxy<-ccx$y
dx<-diff(ccxx)
plot(ccxx,cumsum(ccxy*dx),col=rainbow(512),tck=0.01)
mtext(side=3,’样本大小10′,line= -1)