当前位置：文档之家› 第4章数据的概括性度量习题答案

第4章数据的概括性度量习题答案

第四章数据的概括性度量

一、单选

1.C ；

2.B ；

3.A ；

4.C ；

5.A ；

6.C ；

7.A ；

8.B ；

9.C ；10.B 二、多选

1.ABD ；

2.ABCD ；

3.AC ；

4.BD ；

5.AE

6.ABD ；

7.BCE ；

8.CD ；

9.ABD ；10.ACE 三、计算分析题

1、解：（1）R=32；x =48.333；2

σ=82.444；σ=9.0799；（2）Vσ甲=0.188，Vσ乙=0.24。

可见两地区空气质量指数的平均水平很接近，甲地区微微优于乙地区；而从标准差或标准差系数来看，甲地区空气质量状况更稳定。总的来说，甲地区空气质量状况较好。 2、解：（1）原品种x =294元；改良品种x =272元；原品种牛的利润总额=294×600=176400元；改良品种牛的利润总额=272×750=204000元；所以应该选择改良品种牛。

（2）若改良品种牛的平均利润少于235.2元（176400÷750）时，牧场主会选择原品种牛。 3、甲企业总平均成本=

=++=++++40

801254800

30200120160016200020011600200019.6元

乙企业总平均成本=

=++=++++33.3

80262.56800

100020160016420010001600420018.1元

原因为：尽管两个企业单位成本相同，但甲企业高单位成本（30元）占16%且低单位成

本（16元）占51%；而乙企业的高单位成本（30元）所占比例13%且低单位成本（16元）占比70%，故甲企业总平均成本高。 4、（1）计算各组月收入组中值，则有

∑∑100

118600

f xf x 1186元 =?-+--+=??+??+

=100)

1130()2030()

2030(1200211d L M o 1234.5元

3.12310030

2100

12002

1=?-+=?-+

=-∑d f S f

L M m

m e 元

由于o e M M x <<，则月收入为左偏分布。（2）、4.16267.263671

1002610400

)

==-=

--=

∑n f

x x S

（3）109.04

.16210046588800

)

-=?-=

∑nS f

x x SK <0，故为负偏或左偏分布； 577.24

.162100107924.1)(4114

=??=-=

∑nS f

x x K <3,故为平顶分布。 5、A 项测试标准分数=

120150

130-=-=-S x x B 项测试标准分数=

67.060

600

560-=-=-S x x 由于A 项测试标准分数=－1小于B 项测试标准分数－0.67，所以应试者A 项测试相对

分数较高，所以B 项测试更为理想。

（2）=+++++++++==∑10

0.88.76.76.73.71.70.78.66.60.6n

x x 7.18分钟

由定义或EXCEL 均可计算：=--=

∑1

)

n x x S 0.61分钟

（3）==

3.786.11

11x S v 0.255； ===18

.761

.0222x S v 0.08 （4）选择第二种排队方式，因为12v v <，说明第二种排队方式对待相对时间较短。

依题意：星期三和星期四失去了控制。 8、（1）应该采用离散系数，因为它消除了不同组数据水平高低的影响。（2）成人组离散系数 3.95

0.023172.7v =

= 幼儿组离散系数 2.71

0.03870.5

v =

= 由于幼儿组离散系数大于成人组离散系数，说明幼儿组身高差异较大。

基于数据挖掘的符号序列聚类相似度量模型

—178 — 基于数据挖掘的符号序列聚类相似度量模型郑宏珍，初佃辉，战德臣，徐晓飞 (哈尔滨工业大学智能计算中心，264209) 摘要：为了从消费者偏好序列中发现市场细分结构，采用数据挖掘领域中的符号序列聚类方法，提出一种符号序列聚类的研究方法和框架，给出RSM 相似性度量模型。调整RSM 模型参数，使得RSM 可以变为与编辑距离、海明距离等价的相似性度量。通过RSM 与其他序列相似性度量的比较，表明RSM 具有更强的表达相似性概念的能力。由于RSM 能够表达不同的相似性概念，从而使之能适用于不同的应用环境，并在其基础上提出自组织特征映射退火符号聚类模型，使得从消费者偏好进行市场细分结构研究的研究途径在实际应用中得以实现。关键词：符号序列聚类；数据挖掘；相似性模型 Symbolic Sequence Clustering Regular Similarity Model Based on Data Mining ZHENG Hong-zhen, CHU Dian-hui, ZHAN De-chen, XU Xiao-fei (Intelligent Computing Center, Harbin Institute of Technology, Harbin 264209) 【Abstract 】From a consumer point of the sequence of preference, data mining is used in the field of symbolic sequence clustering methods to detect market segmentation structure. This paper proposes a symbolic sequence clustering methodology and framework, gives the similarity metric RSM model. By adjusting RSM model, parameters can be changed into RSM and edit distance, Hamming distance equivalent to the similarity metric. RSM is compared with other sequence similarity metric, and is more similar to the expression of the concept of capacity. As to express different similarity, the concept of RSM can be applied to different applications environment. Based on the SOM annealing symbol clustering model, the consumer preference for market segmentation can be studied in the structure, which means it is realized in practical application. 【Key words 】symbolic sequence clustering; data mining; similarity model 计算机工程Computer Engineering 第35卷第1期 V ol.35 No.1 2009年1月 January 2009 ·人工智能及识别技术·文章编号：1000—3428(2009)01—0178—02文献标识码：A 中图分类号：TP391 1 概述在经济全球化的环境下，面对瞬息万变的市场和技术发展，企业要想在国内外市场竞争中立于不败之地，必须对客户和市场需求做出快速响应。目前，通过市场调研公司或企业自身的信息系统，收集来自市场和消费者的数据相对容易，而如何理解数据反映的市场细分结构和需求规律却是相当困难的。为解决这一问题，许多研究者选择消费者的职业、收入、年龄、性别等特征数据作为细分变量，利用统计学传统聚类方法得到市场细分结构[1-2]。在实际应用中，不同的细分变量会导致不同的市场细分结果[3]。为此，本文从用户偏好序列数据对市场进行细分。通过对符号序列数据相似性的研究，给出一个可形式化的RSM 相似性度量模型和算法概要。该度量模型考虑了2对象之间相似与相异2个方面的因素，通过参数的调整，可以根据问题的具体性质表达不同的相似性概念。并在此基础上，将在数值型数据领域表现良好的SOM 神经网络引入到符号序列数据的聚类问题上，给特征符号序列的机器自动识别提供了可能性。 2 符号序列聚类问题序列聚类问题作为发现知识的一种重要的探索性技术，受到数据挖掘与知识发现研究领域的极大重视。企业决策者在进行市场和产品相关战略时，迫切需要某些技术手段来理解序列数据，这也正是本文研究的序列聚类问题的工程背景。下面给出符号序列的相关定义。定义1 设12{,,,}n A a a a ="为有限符号表，A 中的l 个符号12,,,l a a a "构成的有序集称为符号序列，记为s = 12{,,,}l a a a "，并称l 是s 的长度，记为s 。A 上所有有限长度符号序列集合记为A *。例如：符号表{a , b , c , d , e , f , g }，则, 是符号序列。定义2 设12{,,,,,}t n P S S S S =""，S t 是A *上的某个符号序列。符号序列聚类是指寻找P 上的划分P 1, P 2,…, P k ，使属于同一划分的符号序列间的相似性尽量大，而属于不同划分的符号序列间相似性尽量小。 3 符号序列的正则相似度量模型相似性度量往往与问题的应用背景具有紧密联系，并影响符号序列聚类结果。为此建立符号序列形式化的相似性度量模型，并在此基础上研究符号序列的聚类问题。 3.1 正则相似度量模型下面给出形式化的相似度量模型——正则相似度量模型基金项目：国家“863”计划基金资助项目“CIMS 模型驱动的智能化软构件与软件生成技术”(2006AA01Z167) 作者简介：郑宏珍(1967－)，女，副教授，主研方向：数据挖掘，智能计算；初佃辉，副教授、硕士；战德臣、徐晓飞，教授、博士收稿日期：2008-06-24 E-mail ：hithongzhen@https://www.doczj.com/doc/b210380649.html,

数值分析试题及答案汇总

数值分析试题一、填空题（2 0×2′） 1. ?? ????-=? ?????-=32,1223X A 设x =是精确值x *=的近似值，则x 有 2 位有效数字。 2. 若f (x )=x 7－x 3＋1，则f [20,21,22,23,24,25,26,27]= 1 ， f [20,21,22,23,24,25,26,27,28]= 0 。 3. 设，‖A ‖∞＝___5 ____，‖X ‖∞＝__ 3_____， ‖AX ‖∞≤_15_ __。 4. 非线性方程f (x )=0的迭代函数x =?(x )在有解区间满足 |?’(x )| <1 ，则使用该迭代函数的迭代解法一定是局部收敛的。 5. 区间[a ,b ]上的三次样条插值函数S (x )在[a ,b ]上具有直到 2 阶的连续导数。 6. 当插值节点为等距分布时，若所求节点靠近首节点，应该选用等距节点下牛顿差商公式的前插公式，若所求节点靠近尾节点，应该选用等距节点下牛顿差商公式的后插公式；如果要估计结果的舍入误差，应该选用插值公式中的拉格朗日插值公式。 7. 拉格朗日插值公式中f (x i )的系数a i (x )的特点是：=∑=n i i x a 0)( 1 ；所以当系数a i (x )满足 a i (x )>1 ，计算时不会放大f (x i )的误差。 8. 要使 20的近似值的相对误差小于%，至少要取 4 位有效数字。 9. 对任意初始向量X (0)及任意向量g ，线性方程组的迭代公式x (k +1)=Bx (k )+g (k =0,1,…)收敛于方程组的精确解x *的充分必要条件是 ?(B)<1 。 10. 由下列数据所确定的插值多项式的次数最高是 5 。 11. 牛顿下山法的下山条件为 |f(xn+1)|<|f(xn)| 。 12. 线性方程组的松弛迭代法是通过逐渐减少残差r i (i =0,1,…,n )来实现的，其中的残差 r i ＝ (b i -a i1x 1-a i2x 2-…-a in x n )/a ii ，(i =0,1,…,n )。 13. 在非线性方程f (x )=0使用各种切线法迭代求解时，若在迭代区间存在唯一解，且f (x )

数值分析课后题答案

数值分析第二章 2．当1,1,2x =-时，()0,3,4f x =-,求()f x 的二次插值多项式。解： 0120121200102021101201220211,1,2, ()0,()3,()4;()()1 ()(1)(2)()()2()()1 ()(1)(2) ()()6 ()()1 ()(1)(1) ()()3 x x x f x f x f x x x x x l x x x x x x x x x x x l x x x x x x x x x x x l x x x x x x x ==-===-=--==-+-----==------= =-+-- 则二次拉格朗日插值多项式为 2 20 ()()k k k L x y l x ==∑ 0223()4() 14 (1)(2)(1)(1)23 537623 l x l x x x x x x x =-+=---+ -+= +- 6．设,0,1,,j x j n =L 为互异节点，求证：（1） 0()n k k j j j x l x x =≡∑ (0,1,,);k n =L （2） ()()0n k j j j x x l x =-≡∑ (0,1,,);k n =L 证明（1）令()k f x x = 若插值节点为,0,1,,j x j n =L ，则函数()f x 的n 次插值多项式为0 ()()n k n j j j L x x l x == ∑。

插值余项为(1)1() ()()()()(1)! n n n n f R x f x L x x n ξω++=-= + 又,k n ≤Q (1)()0 ()0 n n f R x ξ+∴=∴= 0()n k k j j j x l x x =∴=∑ (0,1,,);k n =L 0 000 (2)()() (())()()(()) n k j j j n n j i k i k j j j i n n i k i i k j j i j x x l x C x x l x C x x l x =-==-==-=-=-∑∑∑∑∑ 0i n ≤≤Q 又由上题结论可知 ()n k i j j j x l x x ==∑ ()()0 n i k i i k i k C x x x x -=∴=-=-=∑原式 ∴得证。 7设[]2 (),f x C a b ∈且()()0,f a f b ==求证： 21 max ()()max ().8 a x b a x b f x b a f x ≤≤≤≤''≤- 解：令01,x a x b ==，以此为插值节点，则线性插值多项式为 10 101010 ()() ()x x x x L x f x f x x x x x --=+-- =() ()x b x a f a f b a b x a --=+-- 1()()0()0 f a f b L x ==∴=Q 又

数值分析试题及答案

一、单项选择题（每小题3分，共15分） 1. 3.142和3.141分别作为π的近似数具有（）和（）位有效数字. A ．4和3 B ．3和2 C ．3和4 D ．4和4 2. 已知求积公式 ()()2 1 121 1()(2)636f x dx f Af f ≈ ++? ，则A ＝（） A ． 16 B ．13 C ．12 D ．2 3 3. 通过点 ()()0011,,,x y x y 的拉格朗日插值基函数()()01,l x l x 满足（） A ． ()00l x ＝0， ()110l x = B ． ()00l x ＝0， ()111l x = C ．() 00l x ＝1，()111 l x = D ． () 00l x ＝1，()111 l x = 4. 设求方程 ()0 f x =的根的牛顿法收敛，则它具有（）敛速。 A ．超线性 B ．平方 C ．线性 D ．三次 5. 用列主元消元法解线性方程组 1231231 220223332 x x x x x x x x ++=?? ++=??--=? 作第一次消元后得到的第3个方程（）. A ． 232 x x -+= B ．232 1.5 3.5 x x -+= C ． 2323 x x -+= D ． 230.5 1.5 x x -=- 单项选择题答案 1.A 2.D 3.D 4.C 5.B 得分评卷人二、填空题（每小题3分，共15分）

1. 设T X )4,3,2(-=, 则=1||||X ，2||||X = . 2. 一阶均差 ()01,f x x = 3. 已知3n =时，科茨系数()()() 33301213,88C C C ===，那么 () 33C = 4. 因为方程()420 x f x x =-+=在区间 []1,2上满足，所以()0f x =在区间内有根。 5. 取步长0.1h =，用欧拉法解初值问题 ()211y y y x y ?'=+?? ?=? 的计算公式 . 填空题答案 1. 9和29 2. ()() 0101 f x f x x x -- 3. 1 8 4. ()()120 f f < 5. ()12 00.1 1.1,0,1,210.11k k y y k k y +???? ?=+? ?=+???? =??L 得分评卷人三、计算题（每题15分，共60分） 1. 已知函数 21 1y x = +的一组数据：求分段线性插值函数，并计算 () 1.5f 的近似值. 计算题1.答案 1. 解 []0,1x ∈， ()1010.510.50110x x L x x --=?+?=---% []1,2x ∈，()210.50.20.30.81221x x L x x --=?+?=-+--%

数值分析整理版试题及答案

例1、已知函数表 x -1 1 2 ()f x -3 0 4 求()f x 的Lagrange 二次插值多项式和Newton 二次插值多项式。解：（1）k x -1 1 2 k y -3 0 4 插值基函数分别为 ()()()()()()()()()() 1200102121()1211126 x x x x x x l x x x x x x x ----= ==-------- ()()()()()()()() ()()021******* ()1211122x x x x x x l x x x x x x x --+-= ==-+---+- ()()()()()()()()()()0122021111 ()1121213 x x x x x x l x x x x x x x --+-= ==-+--+- 故所求二次拉格朗日插值多项式为 () ()()()()()()()()()()2 20 2()11131201241162314 121123537623k k k L x y l x x x x x x x x x x x x x ==?? =-? --+?-+-+?+-????=---++-=+-∑ （2）一阶均差、二阶均差分别为

[]()()[]()()[][][]010********* 011201202303 ,11204 ,412 3 4,,5 2,,126 f x f x f x x x x f x f x f x x x x f x x f x x f x x x x x ---===-----= = =----=== --- k x ()k f x 一阶二阶 -1 -3 1 0 3/ 2 2 4 4 5/6 故所求Newton 二次插值多项式为 ()()[]()[]()() ()()()20010012012,,,35 311126537623P x f x f x x x x f x x x x x x x x x x x x =+-+--=-+ +++-=+- 例2、设2 ()32f x x x =++，[0,1]x ∈，试求()f x 在[0, 1]上关于()1x ρ=，{} span 1,x Φ=的最佳平方逼近多项式。解：若{}span 1,x Φ=，则0()1x ?=，1()x x ?=，且()1x ρ=，这样，有

数据挖掘期末

（一）概述为什么要数据挖掘（Data Mining）？存在可以广泛使用的大量数据，并且迫切需要将数据转转换成有用的信息和知识什么是数据挖掘？数据挖掘（Data Mining）是指从大量数据中提取或“挖掘”知识。对何种数据进行数据挖掘？关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据（二）数据预处理为什么要预处理数据？为数据挖掘过程提供干净、准确、简洁的数据，提高数据挖掘的效率和准确性，是数据挖掘中非常重要的环节；数据库和数据仓库中的原始数据可能存在以下问题：定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势：均值、加权均值、中位数、众数度量数据的离散程度：全距、四分位数、方差、标准差基本描述数据汇总的图形显示：直方图、散点图度量数据的中心趋势集中趋势：一组数据向其中心值靠拢的倾向和程度。集中趋势测度：寻找数据水平的代表值或中心值。常用的集中趋势的测度指标：均值：缺点：易受极端值的影响中位数：对于不对称的数据，数据中心的一个较好度量是中位数特点：对一组数据是唯一的。不受极端值的影响。众数：一组数据中出现次数最多的变量值。特点：不受极端值的影响。有的数据无众数或有多个众数。

度量数据的离散程度反映各变量值远离其中心值的程度（离散程度），从另一个侧面说明了集中趋势测度值的代表程度。常用指标：全距（极差）：全距也称极差，是一组数据的最大值与最小值之差。 R=最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。受极端值的影响。四分位距 (Inter-Quartilenge, IQR)：等于上四分位数与下四分位数之差（q3-q1）反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。四分位数：把顺序排列的一组数据分割为四（若干相等）部分的分割点的数值。分位数可以反映数据分布的相对位置（而不单单是中心位置）。在实际应用中四分位数的计算方法并不统一（数据量大时这些方法差别不大）。对原始数据： SPSS中四分位数的位置为(n+1)/4， 2(n+1)/4， 3 (n+1)/4。 Excel中四分位数的位置分别为(n+3)/4， 2(n+1)/4，（3 n+1)/4。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。方差和标准差：方差是一组数据中各数值与其均值离差平方的平均数，标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。基本描述数据汇总的图形显示直方图(Histogram)：使人们能够看出这个数据的大体分布或“形状” 散点图如何进行预处理定性数据的数字化表示：二值描述数据的数字化表示例如：性别的取值为“男”和“女”，男→1，女→0 多值描述数据的数字化表示例如：信誉度为“优”、“良”、“中”、“差” 第一种表示方法：优→1，良→2，中→3，差→4 第二种表示方法：

数值分析第四版习题及答案

第四版数值分析习题第一章绪论 1. 设x >0,x 的相对误差为δ,求ln x 的误差. 2. 设x 的相对误差为2％,求n x 的相对误差. 3. 下列各数都是经过四舍五入得到的近似数,即误差限不超过最后一位的半个单位,试指出它们是几位有效数字: *****123451.1021,0.031,385.6,56.430,7 1.0.x x x x x =====? 4. 利用公式求下列各近似值的误差限: ********12412324(),(),()/,i x x x ii x x x iii x x ++其中**** 1234 ,,,x x x x 均为第3题所给的数. 5. 计算球体积要使相对误差限为1％,问度量半径R 时允许的相对误差限是多少? 6. 设028,Y =按递推公式 1n n Y Y -=…) 计算到100Y .(五位有效数字),试问计算100Y 将有多大误差? 7. 求方程2 5610x x -+=的两个根,使它至少具有四位有效数字. 8. 当N 充分大时,怎样求 2 11N dx x +∞ +? ? 9. 正方形的边长大约为100㎝,应怎样测量才能使其面积误差不超过1㎝2 ? 10. 设 212S gt = 假定g 是准确的,而对t 的测量有±秒的误差,证明当t 增加时S 的绝对误差增加,而相对误差却减小. 11. 序列 {}n y 满足递推关系1101n n y y -=-(n=1,2,…),若0 1.41y =≈(三位有效数字), 计算到 10y 时误差有多大?这个计算过程稳定吗? 12. 计算61)f =, 1.4≈,利用下列等式计算,哪一个得到的结果最好? 3 -- 13. ()ln(f x x =,求f (30)的值.若开平方用六位函数表,问求对数时误差有多大?若改用另一等价公式 ln(ln(x x =- 计算,求对数时误差有多大?

数值分析习题集及答案Word版

数值分析习题集（适合课程《数值方法A 》和《数值方法B 》）长沙理工大学第一章绪论 1. 设x >0,x 的相对误差为δ,求ln x 的误差. 2. 设x 的相对误差为2％,求n x 的相对误差. 3. 下列各数都是经过四舍五入得到的近似数,即误差限不超过最后一位的半个单位,试指出它们是几位有效数字: *****123451.1021,0.031,385.6,56.430,7 1.0.x x x x x =====? 4. 利用公式(3.3)求下列各近似值的误差限: ********12412324(),(),()/,i x x x ii x x x iii x x ++其中**** 1234 ,,,x x x x 均为第3题所给的数. 5. 计算球体积要使相对误差限为1％,问度量半径R 时允许的相对误差限是多少? 6. 设028,Y =按递推公式 1n n Y Y -=…) 计算到100Y .27.982(五位有效数字),试问计算100Y 将有多大误差? 7. 求方程2 5610x x -+=的两个根,使它至少具有四位有效数字27.982). 8. 当N 充分大时,怎样求2 1 1N dx x +∞+?? 9. 正方形的边长大约为100㎝,应怎样测量才能使其面积误差不超过1㎝2 ? 10. 设 212S gt = 假定g 是准确的,而对t 的测量有±0.1秒的误差,证明当t 增加时S 的绝对误差增加,而相对误差却减小. 11. 序列 {}n y 满足递推关系1101n n y y -=-(n=1,2,…),若0 1.41y =≈(三位有效数字), 计算到 10y 时误差有多大?这个计算过程稳定吗? 12. 计算6 1)f =, 1.4≈,利用下列等式计算,哪一个得到的结果最好? 3 -- 13. ()ln(f x x =,求f (30)的值.若开平方用六位函数表,问求对数时误差有多大?

数值分析试题及答案

数值分析试题及答案一、单项选择题（每小题3分，共15分） 1. 3.142和3.141分别作为的近似数具有（）和（）位有效数字. A．4和3 B．3和2 C．3和4 D．4和4 2. 已知求积公式，则＝（） A． B．C．D． 3. 通过点的拉格朗日插值基函数满足（） A．＝0，B．＝0， C．＝1，D．＝1， 4. 设求方程的根的牛顿法收敛，则它具有（）敛速。 A．超线性B．平方C．线性D．三次 5. 用列主元消元法解线性方程组作第一次消元后得到的第3个方程（）. A．B． C．D．单项选择题答案 1.A 2.D 3.D 4.C 5.B 得分评卷人二、填空题（每小题3分，共15分） 1. 设, 则， . 2. 一阶均差 3. 已知时，科茨系数，那么 4. 因为方程在区间上满足，所以在区间内有根。 5. 取步长，用欧拉法解初值问题的计算公式.填空题答案

1. 9和 2. 3. 4. 5. 得分评卷人三、计算题（每题15分，共60分） 1. 已知函数的一组数据：求分段线性插值函数，并计算的近似值. 计算题1.答案 1. 解，，所以分段线性插值函数为 2. 已知线性方程组（1）写出雅可比迭代公式、高斯－塞德尔迭代公式；（2）对于初始值，应用雅可比迭代公式、高斯－塞德尔迭代公式分别计算（保留小数点后五位数字）. 计算题2.答案 1.解原方程组同解变形为雅可比迭代公式为高斯－塞德尔迭代法公式用雅可比迭代公式得用高斯－塞德尔迭代公式得 3. 用牛顿法求方程在之间的近似根（1）请指出为什么初值应取2？（2）请用牛顿法求出近似根，精确到0.0001. 计算题3.答案

数据挖掘_概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同？有哪些相似之处？答：区别：数据仓库是面向主题的，集成的，不易更改且随时间变化的数据集合，用来支持管理人员的决策，数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成，是面向操作型的数据库，是组成数据仓库的源数据。它用表组织数据，采用ER数据模型。相似：它们都为数据挖掘提供了源数据，都是数据的组合。 1.3 定义下列数据挖掘功能：特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库，给出每种数据挖掘功能的例子。答：特征化是一个目标类数据的一般特性或特性的汇总。例如，学生的特征可被提出，形成所有大学的计算机科学专业一年级学生的轮廓，这些特征包括作为一种高的年级平均成绩(GPA：Grade point aversge)的信息，还有所修的课程的最大数量。区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓，就像具有高GPA 的学生的75%是四年级计算机科学专业的学生，而具有低GPA 的学生的65%不是。关联是指发现关联规则，这些规则表示一起频繁发生在给定数据集的特征值的条件。例如，一个数据挖掘系统可能发现的关联规则为：major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一个表示学生的变量。这个规则指出正在学习的学生，12% （支持度）主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98%（置信度，或确定度）。分类与预测不同，因为前者的作用是构造一系列能描述和区分数据类型或概念的模型（或功能），而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具：分类被用作预测目标数据的类的标签，而预测典型的应用是预测缺失的数字型数据的值。聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。数据演变分析描述和模型化随时间变化的对象的规律或趋势，尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测，这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。――――――――――――――――――――――――――――――――――――― 年龄频率――――――――――――――――――――――――――――――――――――― 1~5 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110 44 ―――――――――――――――――――――――――――――――――――――计算数据的近似中位数值。解答：先判定中位数区间：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 对应中位数区间。

数值分析整理版试题及答案

例1、已知函数表求()f x 的Lagrange 二次插值多项式和Newton 二次插值多项式。解：（1）插值基函数分别为 ()()()()()()()()()() 1200102121()1211126 x x x x x x l x x x x x x x ----= ==-------- ()()()()()()()() ()()021******* ()1211122x x x x x x l x x x x x x x --+-= ==-+---+- ()()()()()()()()()()0122021111 ()1121213 x x x x x x l x x x x x x x --+-= ==-+--+- 故所求二次拉格朗日插值多项式为 () ()()()()()()()()()()2 20 2()11131201241162314 121123537623k k k L x y l x x x x x x x x x x x x x ==?? =-? --+?-+-+?+-????=---++-=+-∑ （2）一阶均差、二阶均差分别为 []()()[]()()[][][]010********* 011201202303 ,11204 ,412 3 4,,5 2,,126 f x f x f x x x x f x f x f x x x x f x x f x x f x x x x x ---=== -----= ==----=== ---

故所求Newton 二次插值多项式为 ()()[]()[]()() ()()()20010012012,,,35 311126537623P x f x f x x x x f x x x x x x x x x x x x =+-+--=-+ +++-=+- 例2、设2 ()32f x x x =++，[0,1]x ∈，试求()f x 在[0, 1]上关于()1x ρ=，{} span 1,x Φ=的最佳平方逼近多项式。解：若{}span 1,x Φ=，则0()1x ?=，1()x x ?=，且()1x ρ=，这样，有 ()()()()()()()()1 1 200110 1 1 2011000 1 210 1 ,11, ,3 1 23 ,,, ,3226 9,324 dx x dx xdx f x x dx f x x x dx ??????????==== ====++= =++= ????? 所以，法方程为 01123126119234a a ??????????=?????????? ??????? ?? ?，经过消元得012311 62110123a a ??? ???? ???=???????????????????? 再回代解该方程，得到14a =，011 6 a = 故，所求最佳平方逼近多项式为* 111 ()46 S x x = + 例3、设()x f x e =，[0,1]x ∈，试求()f x 在[0, 1]上关于()1x ρ=，{}span 1,x Φ=的最佳平方逼近多项式。解：若{}span 1,x Φ=，则0()1x ?=，1()x x ?=，这样，有

数值分析最佳习题(含答案)

第一章绪论姓名学号班级习题主要考察点：有效数字的计算、计算方法的比较选择、误差和误差限的计算。 1 若误差限为5105.0-?,那么近似数有几位有效数字（有效数字的计算）解：2*103400.0-?=x ，325*102 1102 1---?=?≤-x x 故具有3位有效数字。 2 14159.3=π具有4位有效数字的近似值是多少（有效数字的计算）解：10314159.0?= π，欲使其近似值*π具有4位有效数字，必需 41*102 1 -?≤-ππ，3*3102 1102 1--?+≤≤?-πππ，即14209.314109.3*≤≤π 3 已知2031.1=a ，978.0=b 是经过四舍五入后得到的近似值，问b a +， b a ?有几位有效数字（有效数字的计算）解：3*1021 -?≤-a a ，2*102 1-?≤-b b ，而1811.2=+b a ，1766.1=?b a 2123****102 1 10211021)()(---?≤?+?≤ -+-≤+-+b b a a b a b a 故b a +至少具有2位有效数字。 2123*****102 1 0065.01022031.1102978.0)()(---?≤=?+?≤ -+-≤-b b a a a b b a ab

故b a ?至少具有2位有效数字。 4 设0>x ，x 的相对误差为δ，求x ln 的误差和相对误差（误差的计算）解：已知δ=-* *x x x ，则误差为 δ=-= -* **ln ln x x x x x 则相对误差为 * * ** * * ln ln 1ln ln ln x x x x x x x x δ = -= - 5测得某圆柱体高度h 的值为cm h 20*=，底面半径r 的值为cm r 5*=，已知cm h h 2.0||*≤-，cm r r 1.0||*≤-，求圆柱体体积h r v 2π=的绝对误差限与相对误差限。（误差限的计算）解：*2******2),(),(h h r r r h r r h v r h v -+-≤-ππ 绝对误差限为 πππ252.051.02052)5,20(),(2=??+????≤-v r h v 相对误差限为 %420 1 20525) 5,20() 5,20(),(2 ==??≤ -ππv v r h v 6 设x 的相对误差为%a ,求n x y =的相对误差。（函数误差的计算）解：%* *a x x x =-， )%(* **** *na x x x n x x x y y y n n n =-≤-= - 7计算球的体积，为了使体积的相对误差限为%1，问度量半径r 时允许的相对误差限为多大（函数误差的计算）

数据挖掘考试习题汇总

第一章 1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3、数据处理通常分成两大类：联机事务处理和联机分析处理。 4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据集中的信息。 5、ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。 6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。 7、数据仓库系统的体系结构根据应用需求的不同，可以分为以下4种类型：两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。 8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的（但是可“挥发”的）、企业级的、详细的数据库，也叫运营数据存储。 9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。 10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。第二章 1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此，我们要求ETL 过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即时的和质量可控制的。 3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库，增量抽取用于进行数据仓库的维护。 4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合程度越低，回答查询的种类越多。 5、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理，主要数据都在庞大的事实表中。 6、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式：一种是采用自然键，另一种是采用代理键。 7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：早期细节级、当前细节级、轻度综合级和高度综合级。第三章 1、SQL Server SSAS提供了所有业务数据的同意整合试图，可以作为传统报表、在线分析处理、关键性能指示器记分卡和数据挖掘的基础。 2、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部分（包括名称、维度、类别、层次和度量）全面地描述出来。 3、数据仓库的逻辑模型通常采用星型图法来进行设计，要求将星型的各类逻辑实体完整地描述出来。 4、按照事实表中度量的可加性情况，可以把事实表对应的事实分为4种类型：事务事实、快照事实、线性项目事实和事件事实。 5、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据拥护需求设计聚合模型。 6、在项目实施时，根据事实表的特点和拥护的查询需求，可以选用时间、业务类型、区域和下属组织等多种数据分割类型。

数值分析第三版课本习题及答案

第一章绪论 1.设x>0,x得相对误差为δ,求得误差、 2.设x得相对误差为2％,求得相对误差、 3.下列各数都就是经过四舍五入得到得近似数,即误差限不超过最后一位得半个单位,试指出它们就是几位有效数字: 4.利用公式(3、3)求下列各近似值得误差限: 其中均为第3题所给得数、 5.计算球体积要使相对误差限为1％,问度量半径R时允许得相对误差限就是多少? 6.设按递推公式 ( n=1,2,…) 计算到、若取≈27、982(五位有效数字),试问计算将有多大误差? 7.求方程得两个根,使它至少具有四位有效数字(≈27、982)、 8.当N充分大时,怎样求? 9.正方形得边长大约为100㎝,应怎样测量才能使其面积误差不超过1㎝? 10.设假定g就是准确得,而对t得测量有±0、1秒得误差,证明当t增加时S得绝对误差增加,而相对误差却减小、 11.序列满足递推关系(n=1,2,…),若(三位有效数字),计算到时误差有多大?这个计算过程稳定吗? 12.计算,取,利用下列等式计算,哪一个得到得结果最好? 13.,求f(30)得值、若开平方用六位函数表,问求对数时误差有多大?若改用另一等价公式计算,求对数时误差有多大? 14.试用消元法解方程组假定只用三位数计算,问结果就是否可靠? 15.已知三角形面积其中c为弧度,,且测量a ,b ,c得误差分别为证明面积得误差满足第二章插值法 1.根据(2、2)定义得范德蒙行列式,令证明就是n次多项式,它得根就是,且、 2.当x= 1 , 1 , 2 时, f(x)= 0 , 3 , 4 ,求f(x)得二次插值多项式、 3.给出f(x)=ln x得数值表用线性插值及二次插值计算ln 0、54 得近似值、

数据挖掘课程论文

中南林业科技大学课程论文院系理学院专业信息与计算科学课程名称数据挖掘论文题目面向社会网络分析的数据挖掘方法姓名王磊学号20104255 指导教师孙玉荣 2013年10月

面向社会网络分析的数据挖掘方法摘要随着信息技术的发展，越来越多的社会关系数据被收集。如果能够有效地对它们进行分析，必将加深人们对社会学的理解，促进社会学的发展。但是数据量的增大同时对分析技术提出了巨大的挑战。如今社会网络的规模早已超出了原有分析手段的处理能力，必须借助更为有效的工具才能完成分析任务。数据挖掘作为一种帮助人们从海量数据中发现潜在有用的知识的工具，在很多领域发挥了重要的作用。社会网络分析又称为链接挖掘，是指用数据挖掘的方法处理社会网络中的关系数据。本文对数据挖掘和社会网络分析中的一些方法进行了介绍并对数据挖掘算法在社会网络分析的应用进行了概括。关键词：设会网络分析；数据挖掘；链接挖掘

1.引言传统的机器学习处理的社会学中的对象是单独的数据实例，这些数据实例往往可以用一个包含多个属性值的向量来表示，同时这些数据实例之间假设是统计上独立的。例如要训练一个疾病诊断系统，它的任务是诊断一个被试者是否患有某种传染病。传统的学习算法用一个向量来表示一个被试者，同时假设两个被试者之间的患病情况是相互独立的，即知道一个确诊病人对于诊断其他被试者是否患病不能提供任何帮助。直观经验告诉我们这种假设是不合理的。直到二十世纪30 年代，Jacob Moreno 和哈佛大学的一组研究人员分别提出了社会网络模型来分析社会学中的现象和问题。现代社会学主要研究现代社会的发展和社会中的组织性或者团体性行为。社会学家发现社会实体之间存在着相互的依赖和联系，并且这种联系对于每个社会实体有着重要的影响。基于这样的观察，他们通过网络模型来刻画社会实体之间的关系，并进一步用来分析社会关系之间的模式和隐含规律。为了更好的研究这个问题，他们试图用图结构来刻画这种社会网络结构。一个社会网络由很多节点（node）和连接这些节点的一种或多种特定的链接（link）所组成。节点往往表示了个人或团体，也即传统数据挖掘中的数据实例，链接则表示了他们之间存在的各种关系（relation），如朋友关系、亲属关系、贸易关系、性关系等。由于数据收集方式的限制，早期的社会网络局限于一个小的团体之内，往往仅包含几十个结点。借助于图论和概率统计的知识，人工处理可以从中分析出一些简单的性质和模式。但是，随着现代的通信技术的发展，越来越多的数据被收集和整合在一起，建立一个大的社会网络成为可能。例如，可以通过电子邮件的日志来建立使用者之间的联系网络，或者通过网络日志及网络通讯录等方式将用户提交的联系人信息建立社会网络。所以，现在的社会网络规模比早期网络庞大，通常包含几千或者几万的结点，甚至有多达百万个结点的网络。面对这样庞大复杂的网络，简单的数学知识和原始的人工处理已经不可能进行有效的分析。数据挖掘是从巨量数据中发现有效的、新颖的、潜在有用的并且最终可理解的模式的非平凡过程。数据挖掘就是为了解决当今拥有大量数据，但缺乏有效分析手段的