如何确定抽样统计的最小样本量
- 格式:doc
- 大小:75.85 KB
- 文档页数:3
报告中的样本选取与样本量确定样本选取与样本量确定在报告中扮演着至关重要的角色。
它们直接影响着研究结果的准确性和可靠性。
在进行科学研究或者市场调查时,正确选择样本和确定样本量是保证研究的可信度和代表性的关键步骤。
本文将从样本选取的原则、方法和样本量的确定等方面进行讨论。
一、样本选取的原则和方法1. 随机抽样原则随机抽样是最常用的样本选取方法。
它能够消除主观偏差,使得样本具有代表性。
随机抽样可以采用简单随机抽样、分层抽样、系统抽样等方法。
简单随机抽样适用于样本总体具有均匀分布的情况,分层抽样适用于样本总体具有明显不均匀分布的情况,系统抽样适用于样本总体具有周期性分布的情况。
2. 最大化样本代表性原则样本选取应该尽可能代表总体的特征。
在进行样本选取时,需要根据研究目的和研究对象的特点选择最具代表性的样本。
例如,进行市场调查时,选择具有不同地域、不同年龄、不同职业等特征的被调查对象,以充分反映总体情况。
二、样本量的确定确定合适的样本量是保证研究结果有效性的重要步骤。
样本量的确定需要考虑以下几个因素:1. 总体大小总体大小直接影响到样本量的确定。
总体越大,样本量需要越大才能保证结果的精确性。
一般来说,总体越大,选择的样本比例应该越小,以达到一定的随机性。
同时,总体越大,样本量增加对结果的影响也越小,因此要综合考虑成本和精确度。
2. 误差容忍度误差容忍度是指研究者能够接受的最大误差范围。
误差容忍度越小,需要的样本量就越大。
一般来说,研究结果对误差的容忍度越低,则研究者需要选择更大的样本量。
3. 显著性水平显著性水平是指判定研究结果是否具有统计学意义的标准。
常见的显著性水平有0.05和0.01两个水平。
显著性水平越低,需要的样本量就越大。
选择适当的显著性水平取决于研究目的和研究对象的特点。
4. 角度多样性角度多样性是指样本中各个角度、各个维度的覆盖程度。
样本中应包含不同观点、不同经验和不同状况,以减少主观偏差对结果的影响。
样本量的确定方法及公式在统计学和实证研究中,样本量的确定对于获得可靠的结果非常重要。
一个足够大的样本量可以减少统计误差和提高研究的可信度。
样本量的确定需要考虑多个因素,包括所需的可靠性水平,总体大小和总体变异性等。
以下是一些常用的样本量确定方法和公式。
一、样本量计算方法:1. 参数估计方法(Parameter Estimation):用于计算总体均值、总体比例等参数的估计。
通常使用的方法有点估计和区间估计。
在参数估计方法中,一般需要考虑总体的平均数、标准差、置信水平和误差容忍度等因素。
2. 假设检验方法(Hypothesis Testing):用于检验两个总体之间差异是否显著。
常用的假设检验方法有t检验、方差分析等。
在假设检验方法中,需要考虑所需的显著性水平、效应大小、标准差等因素。
3. 相关分析方法(Correlation Analysis):用于研究两个或多个变量之间的关联关系。
常用的相关分析方法有皮尔逊相关系数、斯皮尔曼等级相关系数等。
在相关分析方法中,需要考虑相关系数、显著性水平等因素。
二、样本量计算公式:1.参数估计中的样本量计算公式:a.总体比例(Proportion):n = [(Z * Z) * P * (1-P)] / E^2其中,n表示样本量,Z表示所需的置信度对应的Z值,P表示总体比例的估计值,E表示误差容忍度。
b.总体均值(Mean):n = [(Z * s) / E]^2其中,n表示样本量,Z表示所需的置信度对应的Z值,s表示总体标准差的估计值,E表示误差容忍度。
2.假设检验中的样本量计算公式:a.均值差异(Mean Difference):n = [(Z * s) / E]^2其中,n表示样本量,Z表示所需的显著性水平对应的Z值,s表示总体标准差的估计值,E表示效应大小。
b.总体比例差异(Proportion Difference):n = [(Z * Z) * (P1* (1-P1) + P2 * (1-P2))] / E^2其中,n表示样本量,Z表示所需的显著性水平对应的Z值,P1和P2分别表示两个总体比例的估计值,E表示效应大小。
流行病学调查中的样本选择和样本量计算在流行病学调查中,样本选择和样本量计算是非常重要的步骤。
正确选择样本和确定合适的样本量,可以保证研究结果的准确性和可靠性。
本文将讨论流行病学调查中的样本选择和样本量计算的相关问题。
一、样本选择的原则在进行流行病学调查时,样本选择是需要注意的核心问题。
合理的样本选择应符合以下原则:1.代表性:应根据研究目标选择代表性的样本。
样本应能反映出被研究群体的整体特征。
2.随机性:样本的选择要遵循随机抽样原则,即每个个体都有等概率被选择到样本中,避免主观性和选择性的引入。
3.有效性:样本量应足够大,以保证研究结果的可靠性。
同时,根据具体研究目标和预期效应大小,合理确定最小样本量。
4.可行性:样本选择应考虑实际可操作性,避免过于庞大或过于复杂的样本选择方案。
二、样本选择方法在流行病学调查中,常用的样本选择方法有以下几种:1.简单随机抽样:通过随机数表或者随机数生成器,从总体中按照相同的概率抽取样本。
2.分层抽样:将总体按照某些特征特点划分为若干层,然后在每一层中进行简单随机抽样,保证不同层次的特点都能得到充分的反映。
3.整群抽样:将总体按照某些特定的划分方式,分为若干互不相交的群体,然后随机抽取若干群体进行研究。
4.区域抽样:将总体按照地理区域进行划分,再在每个区域中进行简单随机抽样。
三、样本量计算方法确定合适的样本量是流行病学调查中必须要考虑的问题。
样本量的大小直接影响到研究结果的可靠性。
下面介绍几种常用的样本量计算方法:1.根据预期的效应大小:根据研究假设和预期的效应大小,运用统计学方法计算出合理的样本量。
例如,根据两个比例之间的差异,可以使用卡方检验的样本量计算公式来估计所需样本量。
2.根据统计功效和显著性水平:根据研究的统计功效目标和显著性水平,使用样本量计算表或统计软件来确定所需样本量。
3.根据可提供精确结果的最小样本量:根据所需的相对误差范围和总体参数的变异程度,使用公式计算出所需的最小样本量。
抽样调查中样本量N的确定方法说实话抽样调查中样本量N的确定方法这事,我一开始也是瞎摸索。
我就先从看些理论书籍开始。
书上讲了好多公式,什么根据总体方差来算呀。
可我当时就想,总体方差我哪知道啊。
就好比你要数一片森林里的树到底有多粗差别多大,这多费劲啊。
我最开始就犯了个错,在不知道总体方差的时候就随便猜了个数放进去,结果算出来的样本量完全不实用。
后来我试过一些比较笨的方法。
我就想,能不能看以前类似的调查呢?我去翻了好多以前别人做的抽样调查,看他们的样本量。
比如说,有个调查咱们这个城市居民消费水平的,他们取了500个样本。
我就琢磨,那我这种类似但又不完全一样的调查能不能也用这个数呢,结果发现不行。
因为每个调查的精度要求、总体规模、调查的复杂程度都不一样。
这就像做菜,别人用一匙盐你不一定也能用一匙盐,得看你做的菜量有多少、你本身口味重不重这些因素。
我也试过根据总体规模来确定。
我听说有个经验性的做法是总体个数的某个比例。
比如取总体的10%或者20%做样本。
可是这也有坑啊。
要是总体特别大,那10%也是很大的样本量了,可能会浪费很多资源。
我有次调查一个特别大的消费者群体,我按照这个法子取样本量,结果收集数据的时候简直是要累死人,各种统计分析起来也特别耗时,而且到最后发现其实不需要这么大的样本量就能达到我的调查精度了。
后来我就老老实实地学那个基于精度、置信水平和总体方差的计算公式了。
这就像解一道复杂的数学题。
比如说在95%的置信水平下,要达到一定的误差范围,精确地来计算样本量。
虽然这个公式开始看起来复杂,但是我就一点点搞清楚每个参数是什么意思。
像标准差这个概念,我开始总是模糊,后面反复看例子才明白。
不过这里面也有个不确定的地方,就是有时候总体方差还是得靠自己预估,这也不是那么精准的。
再后来啊,我还听说一些新的方法,像是利用一些软件或者在线工具,输入一些基本信息就能给你推荐个样本量。
不过我还没深入试过,也不知道靠不靠谱。
统计学中的样本量的计算公式在统计学中,样本量是指用来进行统计推断的样本的大小。
样本量的确定对于统计分析的准确性和可靠性至关重要。
样本量的计算公式是根据统计学原理和假设推导出来的,通过计算得到合适的样本量可以提高统计推断的精确性。
样本量的计算公式主要基于以下几个因素:总体大小、置信水平、置信区间、总体方差、误差限、显著水平、样本误差和效应大小等。
下面将逐一介绍这些因素对样本量计算的影响。
1. 总体大小:总体大小是指所研究的总体中个体的数量。
总体大小对样本量的要求有一定的影响,总体越大,所需的样本量相对较小;总体越小,所需的样本量相对较大。
这是因为总体大小的增加可以提高总体的代表性,从而减少样本误差。
2. 置信水平:置信水平是指统计推断的可信程度,通常表示为1-α,其中α为显著性水平。
常见的置信水平为95%或99%。
置信水平越高,要求的样本量相对较大,因为需要更高的置信度来保证统计推断的准确性。
3. 置信区间:置信区间是指估计总体参数的范围。
置信区间的宽度与样本量有关,置信区间越窄,要求的样本量相对较大。
这是因为较小的置信区间可以提供更精确的估计结果。
4. 总体方差:总体方差是指所研究总体的变异程度。
总体方差越大,要求的样本量相对较大;总体方差越小,要求的样本量相对较小。
这是因为较大的总体方差需要更大的样本量来减少抽样误差。
5. 误差限:误差限是指估计结果与真实值之间的差异。
误差限越小,要求的样本量相对较大;误差限越大,要求的样本量相对较小。
较小的误差限可以提供更精确的估计结果。
6. 显著水平:显著水平是指拒绝零假设的临界值。
显著水平越小,要求的样本量相对较大;显著水平越大,要求的样本量相对较小。
较小的显著水平可以提高统计推断的严谨性。
7. 样本误差:样本误差是指样本统计量与总体参数之间的差异。
样本误差越小,要求的样本量相对较大;样本误差越大,要求的样本量相对较小。
较小的样本误差可以提供更准确的估计结果。
最小样本量
随着社会的不断发展,统计学在许多学科中已经受到普遍重视,越来越多的研究者开始利用统计方法来解决问题,在统计学中,最小样本量是一个非常重要的概念。
最小样本量(Minimum Sample Size)是指有效地表达研究对象
某一性质或现象所需要的最少数量。
它不仅受到研究内容的影响,还受到研究者的要求以及相应的资源等多种因素的影响。
首先,研究者需要认真审慎地分析统计要求。
一般来说,当需要进行统计比较或预测时,最小样本量应该在10-30之间;而当只是进行基本的描述统计分析时,最小样本量可以小于10。
其次,研究者
需要确定样本大小时,要考虑试验的可靠性和精度,如果样本过小的话,就很难准确地表征出试验结果;另外,还要注意抽样设计,以便样本可以有效地代表整体情况。
此外,研究者还需要考虑计算量和研究资源的情况。
因为最小样本量随着研究资源的减少而相应减小,例如,样本量越小,计算量也会减少,从而可以减少研究成本;而如果计算量过大,无法满足研究者的需求,则研究者可能会采取替代方案,常见的替代方案包括使用计算机模拟,通过对每个样本做反复测试来提高统计精度等。
最后,研究者要认真思考最小样本量,因为它是确定统计分析准确率和可靠性的重要因素,样本量的太小会导致无法得出准确的结论,样本量太大会导致统计分析成本大大提高。
因此,在研究中,最小样本量的选取是非常重要的,它不仅受到研究内容的影响,还受到研究
者的要求以及相应资源的影响,需要综合考量才能有效地控制样本大小,从而取得理想的统计效果。
市场调研中的样本量确定方法市场调研是企业制定市场营销策略和决策的重要依据,但是如何确定合适的样本量来进行调研分析是一个关键问题。
样本量的确定涉及到调研结果的可靠性和有效性,合理的样本量可以提高调研的准确性,降低误差的可能性。
下面将介绍几种常用的样本量确定方法。
一、无限总体法无限总体法是一种理想的样本量确定方法,适用于总体规模非常庞大的情况。
它假设总体规模无限,即样本量与总体规模之比很小,所以抽取的样本几乎不会影响总体的特征。
根据统计理论,当总体规模无限时,可以通过对总体的标准差和抽样误差的要求,计算得出样本量的大小。
然而在实际调研中,总体规模往往是有限的,因此无限总体法并不常用。
二、有限总体法有限总体法是一种适用于总体规模有限的情况的样本量确定方法。
根据有限总体法,样本量的大小与总体规模的比例有关。
根据具体的调研目的和需求,可以通过抽样误差的要求和总体的标准差,计算出合适的样本量。
三、公式法公式法是一种常用的样本量确定方法,它根据统计学原理和公式来计算样本量的大小。
常见的公式有泰勒公式、高斯公式等。
这些公式通常基于置信区间、抽样误差、显著水平等统计学概念,通过输入相关参数,可以计算出合适的样本量。
此种方法简单易懂,适用于一般情况下的市场调研。
四、经验法经验法是一种基于经验和历史数据的样本量确定方法。
调研人员通过自身经验或借鉴已有的市场调研案例,结合调研目的和需求,来确定合适的样本量。
这种方法的优点在于简便快捷,但是受限于个人或案例的经验,可能存在一定的主观性。
五、预调研法预调研法是一种在实际调研之前进行小规模的预调研,通过对预调研结果的分析和总结,来确定合适的样本量。
预调研可以帮助调研人员了解市场情况、收集初步的数据,并对样本量的需求进行初步估计。
这种方法可以提高调查的准确性和可靠性,减少不必要的调研成本和工作量。
在确定样本量时,还需考虑到调研所需要的资源、时间和预算等因素。
实际应用中,经常会结合使用多种方法来确定最终的样本量,以达到最佳的调研效果。
样本量的确定方法在进行各种研究和调查时,样本量的确定是一个至关重要的环节。
合适的样本量能够保证研究结果的准确性和可靠性,而样本量过小可能导致结论不具有代表性,样本量过大则会造成资源的浪费。
那么,如何科学合理地确定样本量呢?首先,我们需要明确研究的目的和问题。
不同的研究目的和问题对于样本量的要求是不同的。
比如,如果是要对总体参数进行精确估计,那么就需要较大的样本量;而如果只是进行初步的探索性研究,样本量可以相对较小。
影响样本量确定的因素众多。
其中,总体的变异程度是一个关键因素。
总体变异程度越大,为了获得具有代表性的样本,就需要更大的样本量。
举个例子,如果研究的是一个人群中身高的分布情况,由于身高的变异程度相对较小,所需的样本量可能相对较少;但如果研究的是人群中收入的分布,由于收入的变异程度较大,就需要更多的样本来准确反映总体的情况。
另一个重要因素是研究的精度要求。
精度要求越高,意味着对样本的代表性和准确性要求越高,从而需要更大的样本量。
比如说,在进行市场调查时,如果要求对某种产品的市场占有率估计误差在 ±2% 以内,那么所需的样本量就会比允许误差在 ±5% 以内的情况要大得多。
还有一个不可忽视的因素是置信水平。
通常我们会选择95% 或99% 的置信水平。
置信水平越高,为了达到相同的精度,所需的样本量就越大。
以 99% 的置信水平为例,相比于 95% 的置信水平,需要更多的样本来保证对总体参数估计的可靠性。
在确定样本量时,常用的方法有多种。
一种是基于总体均值估计的方法。
假设我们要估计某个总体的均值,已知总体的标准差为σ,允许的误差为 E,置信水平为1 α,那么样本量 n 可以通过以下公式计算:\n =\left( \frac{Z_{1 \alpha/2} \sigma}{E} \right)^2\其中,\(Z_{1 \alpha/2}\)是对应于置信水平1 α 的标准正态分布的分位数。
-----------------------------------Docin Choose -----------------------------------豆 丁 推 荐↓精 品 文 档The Best Literature----------------------------------The Best Literature2009年第9期科技经济市场一种合理、可行的抽样方案,不仅需要针对调查对象选择适宜的抽样方法,还应根据调查研究的精度及预算情况来决定样本容量。
我们知道,在系统误差确定的条件下,抽样的准确性取决于抽样误差,抽样误差又与样本容量有直接关系。
若样本容量过大,会使得实施难度增大,增加经费的开支;而若样本容量过小,可能会影响样本的代表性,使抽样误差增大,影响了调查研究推论的精确性。
因此在实际工作中,如何确定样本容量是很重要的。
下面就对两种抽样情况进行分析,讨论如何确定样本容量。
1简单随机抽样时样本容量的计算1.1重复抽样假设(x 1,x 2,…,x n )是来自于总体的一个简单随机抽样,而总体的期望为μ,方差为σ2。
根据中心极限定理,即从正态总体中,随机抽取样本容量为n 的样本,则样本均数x 服从正态分布。
若当n 足够大时,即使是从偏态总体中抽样,样本均数x 也近似服从期望为μ,方差为的正态分布,即,转化成标准正态分布,则有。
根据统计学中区间估计知识可知:。
(1-α为置信水平)(1)从另一个角度来看。
在一定的置信概率条件下,抽样允许的最大误差称为抽样极限误差,或称允许误差,一般用△表示,而平均数的抽样极限误差就可以用△x 来表示。
由于总量指标是一个确定的值,抽样指标是围绕总体指标波动的随机变量。
那么,抽样指标与总体指标离差的绝对值就是抽样误差的可能范围。
抽样均值的极限误差△x 可表示为△x =|x-μ|。
根据△x 的定义可知:(2)比较(1)式和(2)式,可以得到:,即:(3)1.2不重复抽样当采用不重复抽样时,x 的方差为,即。
市场调研中的样本选择与样本量确定市场调研在确定目标受众和进行市场分析时起到了至关重要的作用。
其中,样本选择和样本量的确定是市场调研过程中必不可少的环节。
本文将就样本选择和样本量确定的原则和方法进行探讨,以帮助读者更好地进行市场调研。
一、样本选择的原则和方法在市场调研中,样本选择是一项极为重要的工作,其结果的准确性直接影响到调研结果的可靠性。
以下是样本选择的原则和方法。
1. 代表性原则样本选择的首要原则是代表性。
样本的代表性要求能够真实反映总体的特征和分布情况。
为了确保样本代表性,我们需要根据所研究的对象的特点,选择具有相似特征的人群或单位作为样本。
2. 随机性原则样本选择中的随机性原则是指每个个体或单位都有相同的机会被选择为样本,避免主观或偏见的干扰。
常用的随机化方法有简单随机抽样、分层抽样、整群抽样等,根据实际情况选择适当的方法。
3. 多样性原则样本选择中的多样性原则是指样本需要具有一定的多样性,可以覆盖不同地区、不同性别、不同年龄、不同职业等因素。
这样可以提高样本选择的可靠性和代表性。
二、样本量的确定样本量的确定是市场调研中关键的一环。
合理的样本量可以保证调研结果具有一定的可信度和统计学意义。
以下是样本量确定的原则和方法。
1. 总体大小原则样本量的确定需要考虑总体的大小。
当总体较大时,相同的误差水平需要较大的样本量,以保证结果的精度。
相反,当总体较小时,相同的误差水平需要较小的样本量。
2. 信心水平和置信度原则样本量的确定还涉及到信心水平和置信度的考虑。
信心水平是指调研结果的可靠程度,常见的信心水平有95%和99%。
置信度是指在样本误差范围内,对总体的估计结果。
3. 调查方法和目标变量原则样本量的确定还需要根据调查方法和所要研究的目标变量来确定。
不同的调查方法和目标变量会对样本量的要求产生不同的影响。
一般来说,较为复杂的调查方法和目标变量需要更大的样本量。
三、总结市场调研中的样本选择和样本量的确定是确保调研结果可靠性的重要环节。
【转】如何确定样本量调查一般分为普查和抽样调查,只有抽样调查才涉及到样本量的问题。
例如某企业有100名员工,在进行员工满意度调查时就无需抽样,只要全部调查即可。
那么,样本量是不是越大越好呢?当然不是,调查是要消耗大量人力财力和时间的,并且,从统计学上讲,当样本量达到一定程度以后,再增加样本,对于提高调查效果的作用(样本对于总体的估计效应)就不大了,反而会增加经费和时间。
那么是不是随便确定一个样本量就可以呢?当然也不行。
样本量的大小受许多因素制约,如调研的性质、总体指标的变异程度、调研精度、样本设计、回答率、项目经费和时间等。
市场潜力等涉及量比较严格的调查所需样本量较大,而产品测试,产品定价,广告效果等人们间彼此差异不是特别大或对量的要求不严格的调查所需样本量较小些;探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。
针对子样本分析比只限于对总样本分析,所需样本量要大得多;总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。
简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。
在实际中,在确定样本量时,不考虑时间和费用这两个极为重要的因素是不可思议的。
最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。
最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。
它还可能需要重新审查初始样本量、数据需求、精度水平、调查计划的要素和现场操作因素,并作必要的调整。
通常,统计调查机构和客户寻求在最有效使用费用的基础上(例如缩短访问时间),使用户能对所需的样本量提供经费支持。
注意一个误区:"大城市多抽,小城市少抽",这种说法原则上是不对的。
抽样数量的确定探索性研究,样本量一般较小,而描述性研究,就需要较大的样本;收集有关许多变量的数据,样本量就要大一些;如果需要采用多元统计方法对数据进行复杂的高级分析,样本量就应当更大;如果需要特别详细的分析,如做许多分类等,也需要大样本。
针对子样本分析比只限于对总样本分析,所需样本量要大得多;总体指标的差异化越大,需要的样本量就越高;调研的精度越高,样本量越大。
简单随机抽样设计,设计效应等于1;分层抽样设计,设计效应一般小于等于1;整群或多阶抽样设计,设计效应一般大于等于1。
在实际中,在确定样本量时,不考虑时间和费用这两个极为重要的因素是不可思议的。
最终确定的样本量必须与可获得的经费预算和允许的时限保持一致。
最终样本量的确定需要在精度、费用、时限和操作的可行性等相互冲突的限制条件之间进行协调。
有关样本量的经验估计:如果是大型城市、省市一级的地区性研究,样本数在500-1000之间可能比较适合;而对于中小城市,样本量在200-300之间可能比较适合;如果是多省市或者全国性的研究,则样本量可能在1000-3000之间比较适合。
对于分组研究的每组样本量应该不少于50个。
通过试验设计所作的研究,可以采用较小的样本量。
如产品试用(留置)调查,在经费有限的情况下,可以将每组的样本量降低至30个左右,最好每组在50以上,每组超过100个可能是一种资源浪费。
样本量的计算公式:1)对于简单随机抽样,给定均值估计的精度(100%回答)简单随机抽样下,通常使用误差限和估计量的标准差来确定所需的样本量。
其中,为置信区间的值,为估计量的标准差,e为调查误差,N为总体大小。
回答率)2) 对于简单随机抽样,给定比例估计的精度(100%)变为:市场调研中常采用该公式来确定最低样本量。
下表是一些常用的样本量。
容许的抽样误差e (%)样本量n 容许的抽样误差e (%)样本量n 1.010000 5.53201.54500 6.02772.02500 6.52372.516007.02043.011007.51783.58168.01564.06258.51384.54949.01235.04009.511010.01003)对一般抽样设计,给定比例估计的精度,逐步计算样本量(回答率小于100%)。
浅析审计抽样样本规模的确定作者:刘亚楠来源:《财会通讯》2011年第04期在审计抽样中,恰当地确定样本规模是一个至关重要的问题。
样本规模过小,不能反映出总体特征,会增大审计风险;样本规模过大,会加大审计成本,降低审计效率,失去抽样的意义。
我国目前对这一问题的研究还比较少,本文通过研究目前准则规定的样本规模的确定公式,分析影响样本规模的确定因素,并针对目前存在的问题提出针对性意见,以期对有关的实务和理论研究有所贡献。
为便于分析,仅以统计抽样为例。
一、我国目前采用的样本规模确定公式(一)控制测试中样本规模的确定内部控制制度符合性测试,即属性抽样,是依据统计学中假设检验的原理设计的。
审计属性抽样,是指只有两种可能结果(信赖和不信赖)的随机试验,其概率分布为二项分布。
由于二项分布计算公式比较复杂,而泊松分布近似于总体很大的二项分布。
统计学家编制了“累积泊松分布数值表”,这样按照统计学确定样本容量的思想,利用泊松分布确定过度信赖风险系数来体现统计抽样规模计算式中标准差及系数;用可容忍偏差率上限,体现统计学中由极限误差(Δρ)形成区间的上限。
建立审计属性抽样样本容量计算公式:样本容量=信赖过度风险系数÷可容忍偏差率使用上列计算公式来计算样本容量,在事先并不知道样本容量为多少的情况下,样本可能发生的偏差数很难预计。
就是有了样本预计偏差发生数,还要通过查表确定过度依赖风险系数,再用公式计算样本容量,比较麻烦。
为了提高审计效果和效率,人们根据泊松分布和不重复抽样原理,编制了供实务应用的统计抽样样本规模确定表。
我国准则指南中详细介绍了样本规模的确定,注册会计师根据可接受的信赖过度风险选择相应的抽样规模表,然后读取预计总体偏差率找到适当的比率。
接下来注册会计师确定与可容忍偏差率对应的列。
可容忍偏差率所在列与预计总体偏差率所在行的交点就是所需的样本规模。
由此可见,在控制测试中,注册会计师主要关注抽样风险中的信赖过度风险。
统计学中样本量大小的定义咱们来唠唠统计学里样本量大小这个事儿。
样本量啊,就像是从一大锅汤里舀出来的一勺汤。
这锅汤呢,就是咱们要研究的总体,那勺汤就是样本。
要是这勺汤就那么几滴,你能尝出这锅汤的味道吗?肯定不能啊。
样本量太小,就好比那几滴汤,根本代表不了整锅汤的味道,也就是不能很好地反映总体的特征。
比如说,你想知道全校学生对学校食堂饭菜的看法,你就问了两三个人,这两三个人能代表全校成百上千的学生吗?答案显然是否定的。
那样本量越大是不是就越好呢?这就好比你想知道一个城市的空气质量,你把城市里每个角落都检测了一遍,这当然能非常准确地反映空气质量了,可这得花费多少人力物力啊。
所以样本量也不是越大越好。
就像你去买苹果,你想知道这一批苹果甜不甜,你没必要把整箱苹果都尝个遍吧,尝几个就大概能知道了。
在统计学里,确定样本量大小可真是个技术活。
它跟好多因素有关呢。
比如说总体的大小。
如果总体就那么几十个人,那可能取个一半作为样本就挺合适的。
但要是总体有几万人,你取一半可就太多了。
这就像在一个小村子里选村长,村子里就百来号人,你让一半人参与投票就挺能代表大家的想法的。
可要是在一个大城市选市长,能让一半人都参与投票吗?那不得乱了套。
还有就是总体的变异程度。
啥叫变异程度呢?就像人的身高,有的人很高,有的人很矮,差异很大。
如果总体里的个体差异很大,那你就得取大一点的样本量,这样才能更准确地反映总体情况。
这就好比从一堆大小形状差异很大的石头里挑石头,你得多挑几块才能知道这堆石头大概的情况。
如果这些石头都长得差不多,那你挑几块可能就够了。
再说说抽样方法对样本量大小的影响。
简单随机抽样的话,样本量可能相对比较好确定。
可要是分层抽样呢,这就复杂了。
比如说要研究一个城市的居民收入情况,这个城市有高收入区、中等收入区和低收入区,这就得分层来抽样。
那每层取多少样本合适呢?这就得好好琢磨琢磨了。
这就像要做一个混合口味的蛋糕,有巧克力层、草莓层和香草层,你得考虑每层放多少原料才能做出一个好吃的蛋糕。
∙a方支持率为45.3%;
∙b方支持率为30.2%;
∙c方支持率为8.5%;
∙...
最后都会说明一下,此次电话调查的数量2352,置信度为95%﹐最大抽样误差为±2.5%。
抽样调查的典型情景:对一个大的集合(比如:数千万选民)做一次调查的成本较高,抽样调查可以低成本的用近似的(可接受的)数据反映实际情况;在用户调研中,也经常通过通过抽样调查的方式并对比打分的方法做评估。
这里就需要了解置信度和抽样误差的概念;
抽样误差:假如相同规模的抽样调查进行多次,抽样均值在真实均值的上下波动,相对于整体均值的偏移波动就是抽样误差,而这个误差的分布是符合标准正态分布的,例如下图:横轴为整体的均值,圆点是每次抽样的均值,而红色那次抽样就是加上误差后都未覆盖到均值线的情况);
最小抽样量的计算公式:抽样量需要> 30个才算足够多,可以用以下近似的误差/样本量估算公式;
n:为样本量;
:方差,抽样个体值和整体均值之间的偏离程度,抽样数值分布越分散方差越大,需要的采样量越多;
E:为抽样误差(可以根据均值的百分比设定),由于是倒数平方关系,抽样误差减小为1/2,抽样量需要增加为4倍;
: 为可靠性系数,即置信度,置信度为95%时,=1.96,置信度为90%时,=1.645,置信度越高需要的样本量越多;95%置信度比90%置信度需要的采样量多40%;
为了体现相对差距:假设抽样均值为y
相对抽样误差h = E / y
变异系数C= σ / y
以下是基于抽样得分的抽样误差估算表格:方差越大需要的样本量越多,数据离散度越低,需要的抽样量越少;
相对抽样误差(假设:C=0.4)
π为按照经验得出的最后比例,在未知时π可取50%,待算出结果后再重新拟合,比例越悬
从而看出大部分的电话抽样调查:95%置信度的情况下,误差要控制在2%以内取样量一般在2000-5000;为了方便计算抽样调查的误差和估算抽样量,制作了一个Excel表格附后,调整颜色框中的抽样量数字就可以得到相应的误差或根据指定的误差范围估算出抽样量;。