博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Bootstrap Method】Evaluating The Accuracy of a Classifier
阅读量:6975 次
发布时间:2019-06-27

本文共 1102 字,大约阅读时间需要 3 分钟。

自助法介绍:

非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:

(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。
(2)根据抽出的样本计算给定的统计量T。
(3)重复上述B次(一般大于1000),得到N个统计量T。
(4)计算上述B个统计量T的样本方差,得到统计量的方差。
举个例子:
1.背景。比如要算一个统计量T,它是是一个从样本(X1,X2,X3……Xn)得来的函数,比如中位数,就是从(X1,X2,X3……Xn)中取中间的那个数,计算过程写成函数T0=T(X1,X2,X3……Xn)
2.做法。根据一次样本(X1,X2,X3……Xn)我们只能得到一个T的值,然后就是关键步骤了,在{X1,X2,X3……Xn}这个集合中有放回的抽取N个元素出来,这N个元素(可能出现两次X1)重新做为样本,计算一次T,把这个结果记为T1,这样重复抽取B次,我们就算了B个T出来。
3. 结论。这B个T的方差,就是统计量T的方差的估计。

  应该说Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。通过方差的估计可以构造置信区间等,其运用范围得到进一步延伸。 

具体抽样方法举例:想要知道池塘里面鱼的数量,可以先抽取N条鱼,做上记号,放回池塘。 
进行重复抽样,抽取M次,每次抽取N条,考察每次抽到的鱼当中有记号的比例,综合M次的比例,在进行统计量的计算。

  在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random samplingwith replacement)。对于小数据集,自助法效果很好。

  简而言之,bootstrap方法就是重抽样。为什么需要bootstrap方法呢?因为bootstrap方法使得我们无需分布理论的知识也可以进行假设检验,获得置信区间。当数据来自未知分布,或者存在严重异常点,又或者样本量过小,没有参数方法解决问题时,bootstrap方法将是一个很棒的方法。

转载地址:http://pwrsl.baihongyu.com/

你可能感兴趣的文章
数据结构--树,二叉树
查看>>
MySQL优化—工欲善其事,必先利其器之EXPLAIN
查看>>
mysql性能优化学习笔记
查看>>
禁止 favicon.ico 请求
查看>>
CSS隐藏元素的N种实现方式。
查看>>
Hadoop概念学习系列之为什么hadoop/spark执行作业时,输出路径必须要不存在?(三十九)...
查看>>
UVa567_Risk(最短路)(小白书图论专题)
查看>>
Redis Sentinel实现的机制与原理详解
查看>>
nginx php-fpm安装手记
查看>>
spring注解工具类AnnotatedElementUtils和AnnotationUtils
查看>>
[转]简单介绍如何使用robotium进行自动化测试
查看>>
post和get的区别?
查看>>
android 滚动视图(ScrollView)
查看>>
无限级别菜单下拉
查看>>
Linux oprofile命令
查看>>
HashMap 实现原理(复习)
查看>>
Leetcode: LFU Cache && Summary of various Sets: HashSet, TreeSet, LinkedHashSet
查看>>
JAVA数据结构--队列
查看>>
[zz]配置RHEL6使用CentOS6的yum源
查看>>
linux debug : addr2line追踪出错地址
查看>>