Binomial分布、Multinomial分布、Beta分布、Dirichlet分布
- 格式:pptx
- 大小:1.05 MB
- 文档页数:15
名词解释:医学统计学:用统计学的原理和方法研究生物医学问题的一门学科。
变量(variable):观察单位的某项特征变量值(value of variable):变量的观察结果(测量值)总体(population):是根据研究目的确定的同质的观察单位的全体,确切的说是同质的所有的观察单位某种变量值的集合。
样本(sample)从总体中随机抽取部分由代表性的观察单位,其测量值的集合称为样本。
随机抽样(random sample):按随机化原则从总体中抽取部分观察单位的过程。
同质(homogeneity):是针对被研究指标来讲,其影响因素相同。
简单地理解就是指对研究指标影响大约可以控制的主要因素应尽可能相同。
变异(variation):指在自然地状态下,个体测量结果在同质基础上的差异。
等级资料(ordinal data):将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位称为等级资料,如患者的治疗结果可分为治愈,好转,有效,无效,死亡。
有序变量(定性变量的一种)。
概率(probability):是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大,0<P(A)<1,小概率事件。
频率(frequency):在相同的条件下,独立重复做n次实验,事件A出现了m次,比值m/n称为随机事件A在n次实验中出现的频率。
随机误差(random error):排除了系统误差后的尚存的误差,受多种因素影响,使观察值不按照方向性和系统性而随机的变化,误差变量一般服从正态分布,可以通过统计处理来估计。
系统误差(system error):由于受试对象,研究者,仪器设备,研究方法等非实验因素影响等确定性原因造成,有一定倾向性或规律性的误差,可以避免。
随机变量(random variable):是指取值不能事先确定的观察结果,不能用一个正常数来表示,每个变量的取值服从特定的概率分布。
---------------------------------------------------------------最新资料推荐------------------------------------------------------ 医学统计学名词解释精心整理(带英文) 同质 (Homogeneity):医学研究对象具有的某种共性。
变异 (Variation) :同质研究对象变量值之间的差异。
总体 (Population):根据研究目的确定的所有同质的观察单位某项观测值的全体称为总体。
样本 (Sample):来自于总体的部分观察单位的观测值称为样本。
参数 (Parameter):由总体中全部观测值所计算出的反映总体特征的统计指标。
统计量 (Statistic):由样本观测值所计算出的反映样本特征的统计指标。
变量 (Variable) :指观察单位的某项特征。
它能表现观察单位的变异性。
概率 (Probability):是随机事件发生可能性大小,用 P 表示,其取值为[0,1]。
频率 (Frequency) :在相同的条件下,独立地重复做 n 次试验,随机事件 A出现 m1/ 8次,则比值 m/n 为随机事件 A 出现的频率。
随机误差 (Random error):是由于一系列实验或观察条件等因素的随机波动造成的测量值与真实值之间的差异。
随机误差是不可避免的,且大小和方向都不固定。
抽样误差 (Sampling error):由个体变异产生、随机抽样造成的若干个样本统计量之间以及样本统计量与总体参数之间的差异称为抽样误差。
系统误差 (Systematic error) :实际观测中,由于仪器未校正,测量者感官的某种偏差,医生掌握疗效标准偏高或偏低等,而使观测值有方向性、系统性或周期性地偏离真值。
四分位数间距 (Quartile range) :上四分位数与下四分位数的差值,用 Q表示。
通常用来描述偏态分布资料的离散趋势。
统计学复试专业词汇汇总population 总体sampling unit 抽样单元sample 样本observed value 观测值descriptive statistics 描述性统计量random sample 随机样本simple random sample 简单随机样本statistics 统计量order statistic 次序统计量sample range 样本极差mid-range 中程数estimator 估计量sample median 样本中位数sample moment of order k k阶样本矩sample mean 样本均值average 平均数arithmetic mean 算数平均值sample variance 样本方差sample standard deviation 样本标准差sample coefficient of variation 样本变异系数standardized sample random variable 标准化样本随机变量sample coefficient of skewness (歪斜)样本偏度系数sample coefficient of kurtosis (峰态) 样本峰度系数sample covariance 样本协方差sample correclation coefficient 样本相关系数standard error 标准误差interval estimator 区间估计statistical tolerance interval 统计容忍区间statistical tolerance limit 统计容忍限confidence interval 置信区间one-sided confidence interval 单侧置信区间prediction interval 预测区间estimate 估计值error of estimation 估计误差bias 偏倚unbiased estimator 无偏估计量maximum likelihood estimator 极大似然估计量estimation 估计maximum likelihood estimation 极大似然估计likelihood function 似然函数profile likelihood funtion 剖面函数hypothesis 假设null hypothesis 原假设alternative hypothesis 备择假设simple hypothesis 简单假设composite hypothesis 复合假设significance level 显著性水平type I error 第一类错误type II error 第二类错误statistical test 统计检验significance test 显著性检验p-value p值power of a test 检验功效power curve 功效曲线test statistic 检验统计量graphical descriptive statistics 图形描述性统计量numerical descriptive statistics 数值描述性统计量classes 类(组)class 类class 组class limits; class boundaries 组限mid-point of class 组中值class width 组距frequency 频数frequency distribution 频数分布histogram 直方图bar chart 条形图cumulative frequency 累积频数relative frequency 频率cumulative relative frequency 累积频率sample space 样本空间event 事件complementary event 对立事件independent events 独立事件probability [of an event A] [事件A的]概率conditional probability 条件概率distribution function [of a random variable X] [随机变量X的]分布函数family of distributions 分布族parameter 参数random variable 随机变量probability distribution 概率分布distribution 分布expectation 期望p-quantile; p-fractile p分位数median 中位数quartile 四分位数univariate probability distribution 一维概率分布univariate distribution 一维分布multivariate probability distribution 多维概率分布multivariate distribution 多维分布marginal probability distrubition 边缘概率分布marginal distribution 边缘分布conditional probability distribution 条件概率分布conditional distribution 条件分布regression curve 回归曲线regression surface 回归曲面discrete probability distribution 离散概率分布discrete distribution 离散分布continuous probability distribution 连续概率分布continuous distribution 连续分布probability [mass] function 概率函数mode of probability [mass] function 概率函数的众数probability density function 概率密度函数mode of probability density function 概率密度函数的众数discrete random variable 离散随机变量continuous random variable 连续随机变量centred probability distribution 中心化概率分布centred random variable 中心化随机变量standardized probability distribution 标准化概率分布standardized random variable 标准化随机变量moment of order r r阶[原点]矩means 均值moment of order r = 1 一阶矩mean 均值variance 方差standard deviation 标准差coefficient of variation 变异系数coefficient of skewness 偏度系数coefficient of kurtosis 峰度系数joint moment of order r and s (r,s)阶联合[原点]矩joint central moment of order r and s (r,s)阶联合中心矩covariance 协方差correlation coefficient 相关系数multinomial distribution 多项分布binomial distribution 二项分布Poisson distribution 泊松分布hypergeometric distibution 超几何分布negative binomial distribution 负二项分布normal distribution, Gaussian distribution 正态分布standard normal distribution, standard Gaussian distribution 标准正态分布lognormal distribution 对数正态分布t distribution; Student's distribution t分布degrees of freedom 自由度F distribution F分布gamma distribution 伽玛分布, Γ分布chi-squared distribution 卡方分布,χ2分布exponential distribution 指数分布beta distribution 贝塔分布,β分布uniform distribution, rectangular distribution 均匀分布type I value distribution; Gumbel distribution I型极值分布type II value distribution; Gumbel distribution II型极值分布Weibull distribution 威布尔分布type III value distribution; Gumbel distribution III型极值分布multivariate normal distribution 多维正态分布bivariate normal distribution 二维正态分布standard bivariate normal distribution 标准二维正态分布sampling distribution 抽样分布probability space 概率空间。
第1章 背景飞机和飞鸟形态、结构和原理都不相同,但都能飞翔,人工智能未来也许如此。
LDA算法使用的全部知识的渊源可以追溯到18世纪的欧拉,欧拉(Leonhard Euler ,1707年4月15日~1783年9月18日),瑞士数学家。
欧拉一生贡献颇丰,1734年,欧拉解决巴塞尔问题就立即出名了,巴塞尔问题如下:(1.1)这个问题困扰了几个世纪的数学家,当时的数学家只知道该级数的值小于2,但不知道具体精确值,欧拉准确的推导出该式的值=,欧拉的方法聪明而新颖,他创造性将有限多项式的观察推广到无穷级数,并假设相同的性质对于无穷级数也是成立的:(1.2)欧拉最后的发现是令人惊奇的,π这个数字在于圆周率无关的场合中出现了,这足以说明数学之中、自然之中、冥冥之中存在着某些神秘的联系。
虽然以现代数学的眼光来看,欧拉的证明还不严密。
但作为第一个(富有创造性的)证明,欧拉的这个证明永远有着其宝贵的价值。
欧拉的另一个发现就是发现了gamma函数,该函数后被广泛应用于概率论,这个函数也是本文的主角之一。
图 1.1 Euler作为算法标题之一的Dirichlet, wiki一下,一个19世纪的人映入了我们的眼帘,Dirichlet(1805~1859)德国数学家,生与现德国 Duren(当时属法国),卒于哥廷根。
他是解析数论的奠基者,也是现代函数观念的定义者。
在本文中该数学家的主要贡献是Dirichlet分布。
图 12 Peter Gustav Lejeune Dirichlet但是这还不是故事的全部,说到底19世纪的时候还没有发明计算机,LDA应该不是这哥们发明的,于是继续search,最后查明英国剑桥大学的David M.Blei是最初LDA论文的作者。
Blei同学借用了Dirichlet Distribution,而创造了Latent DirichletAllocation。
下面这张照片的blei以PLSA(LDA之前的另一个概率模型)为基础,加上了贝叶斯先验,从而诞生了LDA算法,LDA算法最初的论文使用的是变分EM方法训练(Variational Inference)。
概率论-常见的概率分布模型常见的概率分布模型离散概率分布函数 离散概率分布也称为概率质量函数(probability mass function),离散概率分布的例⼦有 伯努利分布(Bernoulli distribution) ⼆项分布(binomial distribution) 泊松分布(Poisson distribution) ⼏何分布(geometric distribution)等连续概率分布函数 连续概率分布也称为概率密度函数(probability density function),它们是具有连续取值(例如⼀条实线上的值)的函数,连续概率分布的例⼦有 正态分布(normal distribution) 指数分布(exponential distribution) β分布(beta distribution)等联合分布函数 给定⼀个随机变量(X,Y),称定义域为整个平⾯的⼆元实值函数F(x,y)=P(X≤x,Y≤y)−∞≥x,y≤∞该⼆元实值函数为随机变量(X,Y)的分布函数,也可以称为是(X,Y)的联合分布函数。
按照联合分布函数的定义,F(x,y)=P((X,Y)∈D xy),其中D xy如下图所⽰Processing math: 100%多项分布(Multinomial Distribution )多项分布简介 多项分布是⼆项分布的推⼴,他们的区别是⼆项分布的结果只有0和1两种,多项式的结果可以有多个值。
多项分布的典型例⼦是掷骰⼦,6个点对应6个不同的数,每个点的概率都为16 与⼆项分布类似,多项分布来⾃于(p 1+p 2+⋯+p k )n 多项式的展开多项分布公式解析 以掷骰⼦为例,掷骰⼦的时候掷1−6的概率都为16,记作p 1−p 6,可以发现p 1+p 2+p 3+p 4+p 5+p 6=1,现在把p 1+p 2+p 3+p 4+p 5+p 6记作做⼀次抽样各种事件发⽣的概率和,即可得(p 1+p 2+p 3+p 4+p 5+p 6)n =1n 为n 次抽样所有事件相互组合对应的概率和,之后使⽤多项式展开(注:使⽤多项式定理展开,由于多项式定理不在本节提及范围内,不多赘述),如果它不是掷骰⼦,⽽是⼀个有n 种可能的问题,会得到⼀个多项式展开的公式P (X 1=x 1,…,X k =x k )=n !x 1!⋯x k !(p x 1⋯p x k )when ∑k i =1x i =n0otherwise这个多项式表⽰X 1出现x 1次,X 2出现x 2次,…,X k 出现x k 次的出现概率,这样就得到了上述所⽰的多项分布的多项展开式公式。