当前位置:文档之家› portscan实验报告

portscan实验报告

portscan实验报告
portscan实验报告

portscan实验报告

学号:041040101

姓名: 张倩

实验目的:熟悉并实现网络扫描的基本原理。了解网络扫描的几种常用的方法。

端口扫描的目的:

判断目标主机上开放了哪些服务,判断目标主机的操作系统。如果入侵者掌握了目标主机开放了哪些服务运用何种操作系统,他们就能够使用相应的手段实现入侵。

工作原理

扫描器通过选用远程TCP/IP不同的端口的服务,并记录目标给予的回答,通过这种方法,可以搜集到很多关于目标主机的各种有用的信息.

常用的端口扫描技术

TCP connect() 扫描

这是最基本的TCP扫描。操作系统提供的connect()系统调用,用来与每一个感兴趣的目标计算机的端口进行连接。如果端口处于侦听状态,那么connect()就能成功。否则,这个端口是不能用的,即没有提供服务。这个技术的一个最大的优点是,你不需要任何权限。系统中的任何用户都有权利使用这个调用。另一个好处就是速度。如果对每个目标端口以线性的方式,使用单独的connect()调用,那么将会花费相当长的时间,你可以通过同时打开多个套接字,从而加速扫描。使用非阻塞I/O允许你设置一个低的时间用尽周期,同时观察多个套接字。但这种方法的缺点是很容易被发觉,并且被过滤掉。目标计算机的logs文件会显示一连串的连接和连接是出错的服务消息,并且能很快的使它关闭。

TCP SYN扫描

这种技术通常认为是“半开放”扫描,这是因为扫描程序不必要打开一个完全的TCP连接。扫描程序发送的是一个SYN数据包,好象准备打开一个实际的连接并等待反应一样(参考TCP的三次握手建立一个TCP连接的过程)。一个SYN|ACK的返回信息表示端口处于侦听状态。一个RST返回,表示端口没有处于侦听态。如果收到一个SYN|ACK,则扫描程序必须再发送一个RST信号,来关闭这个连接过程。这种扫描技术的优点在于一般不会在目标计算机上留下记录。但这种方法的一个缺点是,必须要有root权限才能建立自己的SYN 数据包。

TCP FIN 扫描

有的时候有可能SYN扫描都不够秘密。一些防火墙和包过滤器会对一些指定的端口进行监视,有的程序能检测到这些扫描。相反,FIN数据包可能会没有任何麻烦的通过。这种扫描方法的思想是关闭的端口会用适当的RST来回复FIN数据包。另一方面,打开的端口会忽略对FIN数据包的回复。这种方法和系统的实现有一定的关系。有的系统不管端口是否打开,都回复RST,这样,这种扫描方法就不适用了。并且这种方法在区分Unix和NT 时,是十分有用的。

IP段扫描

这种不能算是新方法,只是其它技术的变化。它并不是直接发送TCP探测数据包,是将数据包分成两个较小的IP段。这样就将一个TCP头分成好几个数据包,从而过滤器就很难探测到。但必须小心。一些程序在处理这些小数据包时会有些麻烦。

TCP 反向ident扫描

ident 协议允许(rfc1413)看到通过TCP连接的任何进程的拥有者的用户名,即使这个连接不是由这个进程开始的。因此你能,举个例子,连接到http端口,然后用identd来发现服务器是否正在以root权限运行。这种方法只能在和目标端口建立了一个完整的TCP连接后才能看到。

FTP 返回攻击

FTP协议的一个有趣的特点是它支持代理(proxy)FTP连接。即入侵者可以从自己的计算机https://www.doczj.com/doc/624073231.html,和目标主机https://www.doczj.com/doc/624073231.html,的FTP server-PI(协议解释器)连接,建立一个控制通信连接。然后,请求这个server-PI激活一个有效的server-DTP(数据传输进程)来给Internet 上任何地方发送文件。对于一个User-DTP,这是个推测,尽管RFC明确地定义请求一个服务器发送文件到另一个服务器是可以的。但现在这个方法好象不行了。这个协议的缺点是“能用来发送不能跟踪的邮件和新闻,给许多服务器造成打击,用尽磁盘,企图越过防火墙”。

我们利用这个的目的是从一个代理的FTP服务器来扫描TCP端口。这样,你能在一个防火墙后面连接到一个FTP服务器,然后扫描端口(这些原来有可能被阻塞)。如果FTP服务器允许从一个目录读写数据,你就能发送任意的数据到发现的打开的端口。

对于端口扫描,这个技术是使用PORT命令来表示被动的User DTP正在目标计算机上的某个端口侦听。然后入侵者试图用LIST命令列出当前目录,结果通过Server-DTP发送出去。如果目标主机正在某个端口侦听,传输就会成功(产生一个150或226的回应)。否则,会出现"425 Can't build data connection: Connection refused."。然后,使用另一个PORT 命令,尝试目标计算机上的下一个端口。这种方法的优点很明显,难以跟踪,能穿过防火墙。主要缺点是速度很慢,有的FTP服务器最终能得到一些线索,关闭代理功能。

这种方法能成功的情景:

220 https://www.doczj.com/doc/624073231.html, FTP server (Version wu-2.4(3) Wed Dec 14 ...) ready.

220 https://www.doczj.com/doc/624073231.html, FTP server ready.

220 https://www.doczj.com/doc/624073231.html, FTP server (Version wu-2.4(3) Tue Jun 11 ...) ready.

220 lem FTP server (SunOS 4.1) ready.

220 xxx.xxx.es FTP server (Version wu-2.4(11) Sat Apr 27 ...) ready.

220 elios FTP server (SunOS 4.1) ready

这种方法不能成功的情景:

220 https://www.doczj.com/doc/624073231.html, FTP server (Version DG-2.0.39 Sun May 4 ...) ready.

220 https://www.doczj.com/doc/624073231.html, Version wu-2.4.2-academ[BETA-12](1) Fri Feb 7

220 ftp Microsoft FTP Service (Version 3.0).

220 xxx FTP server (Version wu-2.4.2-academ[BETA-11](1) Tue Sep 3 ...) ready.

220 https://www.doczj.com/doc/624073231.html, FTP server (Version wu-2.4.2-academ[BETA-13](6) ...) ready.

UDP ICMP端口不能到达扫描

这种方法与上面几种方法的不同之处在于使用的是UDP协议。由于这个协议很简单,所以扫描变得相对比较困难。这是由于打开的端口对扫描探测并不发送一个确认,关闭的端口也并不需要发送一个错误数据包。幸运的是,许多主机在你向一个未打开的UDP端口发送一个数据包时,会返回一个ICMP_PORT_UNREACH错误。这样你就能发现哪个端口是关闭的。UDP和ICMP错误都不保证能到达,因此这种扫描器必须还实现在一个包看上去是丢失的时候能重新传输。这种扫描方法是很慢的,因为RFC对ICMP错误消息的产生速率做了规定。同样,这种扫描方法需要具有root权限。

UDP recvfrom()和write() 扫描

当非root用户不能直接读到端口不能到达错误时,Linux能间接地在它们到达时通知用户。比如,对一个关闭的端口的第二个write()调用将失败。在非阻塞的UDP套接字上调用recvfrom()时,如果ICMP出错还没有到达时回返回EAGAIN-重试。如果ICMP到达时,返回ECONNREFUSED-连接被拒绝。这就是用来查看端口是否打开的技术。

ICMP echo扫描

这并不是真正意义上的扫描。但有时通过ping,在判断在一个网络上主机是否开机时非常有用。

典型扫描工具:nmap

实验环境:w i n d o w s,C语言

实验内容:用C语言编写一个在l i n u x下扫描局域网内主机的程序。要求可以显示局域网内的主机名列表,I P地址列表,并可以显示哪些主机开放了哪些端口。

实验代码:

//////////////////////////////////////////////////////////

//P o r t S c a n.c p p

#i n c l u d e

#i n c l u d e

#i n c l u d e

#i n c l u d e

#i n c l u d e

#p r a g m a c o m m e n t(l i b,"W S2_32.l i b")

//-----------------b y z h a n g q i a n041040101----------------------

//////////////////////////////////////////////////////////

//函数原型

//欢迎界面

v o i d p s T i t l e(c h a r*);

//默认扫描方式

v o i d p s1(c h a r*,c h a r*);

//自定义扫描方式

v o i d p s2(c h a r*,c h a r*,c h a r*,c h a r*);

//获得主机信息

v o i d G e t L o c a l D a t e(v o i d);

//线程函数

D W O R D W I N A P I p s P r o c(

L P V O I D l p P a r a m e t e r//t h r e a d d a t a

);

//////////////////////////////////////////////////////////

//全局变量

//目标地址和目标端口

c h a r g_s z T a r g e t I P[20];

i n t g_n T a r g e t P o r t;

//默认常用探测端口

i n t g_n P o r t s[23]={

21,22,23,25,53,79,80,110,111,119,135,139,143,

443,445,512,554,1080,1433,1521,2401,3306,3389

};

//端口开放数量

i n t g_n O p e n P o r t s;

//////////////////////////////////////////////////////////

//类

//载入和释放W i n s o c k2库的类

c l a s s C I n i t S o c k

{

p u b l i c:

C I n i t S o c k(B Y T E m i n o r V e r=2,B Y T E m a j o r V e r=2)

{

W O R D w V e r s i o n R e q u e s t e d;

W S A D A T A w s a D a t a;

i n t e r r;

w V e r s i o n R e q u e s t e d=M A K E W O R D(m i n o r V e r,m a j o r V e r);

e r r=::W S A S t a r t u p(w V e r s i o n R e q u e s t e d,&w s a D a t a);

i f(e r r!=0)

{

r e t u r n;

}

i f(L O B Y T E(w s a D a t a.w V e r s i o n)!=m i n o r V e r||H I B Y T E(w s a D a t a.w V e r s i o n)!=

m a j o r V e r)

{

::W S A C l e a n u p();

r e t u r n;

}

}

~C I n i t S o c k()

{

::W S A C l e a n u p();

}

};

//参数输入错误类

c l a s s C G e t E r r o r

{

p u b l i c:

v o i d P o r t E r r o r(i n t n S t a r t P o r t,i n t n E n d P o r t)

{

i f(n S t a r t P o r t<0||n S t a r t P o r t>65535||n E n d P o r t<0||n E n d P o r t>65535)

{

p r i n t f("错误:端口输入\n");

e x i t(1);

}

i f(n S t a r t P o r t>=n E n d P o r t)

{

p r i n t f("错误:端口输入\n");

e x i t(1);

}

}

v o i d I P E r r o r(v o i d)

{

D W O R D I P m a x=i n e t_a d d r("255.255.255.255");

D W O R D I P m i n=i n e t_a d d r("0.0.0.0");

D W O R D n o w I P=i n e t_a d d r(g_s z T a r g e t I P);

i f(n o w I P>=I P m a x||n o w I P<=I P m i n)

{

p r i n t f("错误:I P地址输入\n");

e x i t(1);

}

}

v o i d D e l a y T i m e E r r o r(i n t n D e l a y T i m e)

{

i f(n D e l a y T i m e<0||n D e l a y T i m e>65535)

{

p r i n t f("错误:等待时间输入\n");

e x i t(1);

}

}

};

////////////////////////////////////////////////////////// //主函数用于命令行参数输入

v o i d m a i n(i n t a r g c,c h a r*a r g v[])

{

i f(a r g c==1)

{

p s T i t l e(a r g v[0]);

e x i t(1);

}

e l s e i f(a r g c==3)

{

p s1(a r g v[1],a r g v[2]);

}

e l s e i f(a r g c==5)

{

p s2(a r g v[1],a r g v[2],a r g v[3],a r g v[4]);

}

e l s e

{

p r i n t f("错误:参数输入\n");

e x i t(1);

}

}

//欢迎界面

v o i d p s T i t l e(c h a r*h e l p)

{

p r i n t f("-------------------------------------------------------\n");

p r i n t f("P o r t s c a n端口扫描器\n");

p r i n t f("-----------------------本机信息--------------------------\n");

G e t L o c a l D a t e();

p r i n t f("-----------------------功能说明--------------------------\n");

p r i n t f("常用端口扫描:\n");

p r i n t f("P o r t s c a n<目标I P>[等待时间(毫秒)]\n");

p r i n t f("自定义端口扫描:\n");

p r i n t f("P o r t s c a n<目标I P>[开始端口][结束端口][等待时间(毫秒)]\n");

p r i n t f("举例:\n");

p r i n t f("P o r t s c a n127.0.0.11\n");

p r i n t f("p o r t s c a n127.0.0.10655351\n");

p r i n t f("------------------------------------------------------\n");

}

//默认扫描方式

v o i d p s1(c h a r*t a r g e t,c h a r*d e l a y)

{

//初始化C G e t E r r o r

C G e t E r r o r p s E r r o r;

i n t n D e l a y T i m e=a t o i(d e l a y);//把字符串转换成长整型数

//初始化W i n s o c k库

C I n i t S o c k i n i t S o c k;

H A N D L E h T h r e a d1;

s t r c p y(g_s z T a r g e t I P,t a r g e t);

//输入错误处理

p s E r r o r.I P E r r o r();

p s E r r o r.D e l a y T i m e E r r o r(n D e l a y T i m e);

p r i n t f("\n------------------------------------------------------\n");

p r i n t f("目标地址:");

p u t s(t a r g e t);

p r i n t f("目标端口:默认常用端口");

p r i n t f("\n-----------------------扫描报告-----------------------");

f o r(i n t i=0;i<23;i++)

{

g_n T a r g e t P o r t=g_n P o r t s[i];

//N U L L使用缺省的安全性

//0采用调用线程一样的大小

//p s P r o c指定线程入口函数的地址

//N U L L传递给线程的一个参数

//0创建的标记为0一旦创建立即运行

//N U L L线程的I D不需要使用

//当使用C r e a t e P r o c e s s调用时,系统将创建一个进程和一个主线程。C r e a t e T h r e a d 将在主线程的基础上创建一个新线程

h T h r e a d1=C r e a t e T h r e a d(N U L L,0,p s P r o c,N U L L,N U L L,N U L L);

C l o s e H a n d l e(h T h r e a d1);

S l e e p(n D e l a y T i m e);

}

p r i n t f("\n\n共扫描到%d个端口开放",g_n O p e n P o r t s);

p r i n t f

("\n-------------------------------------------------------------\n");

p r i n t f("\n\n端口扫描完毕\n");

}

//自定义扫描方式

v o i d p s2(c h a r*t a r g e t,c h a r*s t a r t,c h a r*e n d,c h a r*d e l a y)

{

//初始化C G e t E r r o r

C G e t E r r o r p s E r r o r;

i n t n S t a r t P o r t=a t o i(s t a r t);

i n t n E n d P o r t=a t o i(e n d);

i n t n D e l a y T i m e=a t o l(d e l a y);//把字符串转换成长整型数

//初始化W i n s o c k库

C I n i t S o c k i n i t S o c k;

H A N D L E h T h r e a d2;

s t r c p y(g_s z T a r g e t I P,t a r g e t);

//输入错误处理

p s E r r o r.P o r t E r r o r(n S t a r t P o r t,n E n d P o r t);

p s E r r o r.I P E r r o r();

p s E r r o r.D e l a y T i m e E r r o r(n D e l a y T i m e);

p r i n t f("\n------------------------------------------------------\n");

p r i n t f("目标地址:");

p u t s(t a r g e t);

p r i n t f("目标端口:%d--%d:",n S t a r t P o r t,n E n d P o r t);

p r i n t f("\n--------------------扫描报告--------------------");

f o r(i n t p o r t=n S t a r t P o r t;p o r t<=n E n d P o r t;p o r t++)

{

g_n T a r g e t P o r t=p o r t;

//N U L L使用缺省的安全性

//0采用调用线程一样的大小

//p s P r o c指定线程入口函数的地址

//N U L L传递给线程的一个参数

//0创建的标记为0一旦创建立即运行

//N U L L线程的I D不需要使用

h T h r e a d2=C r e a t e T h r e a d(N U L L,0,p s P r o c,N U L L,N U L L,N U L L);

C l o s e H a n d l e(h T h r e a d2);

S l e e p(n D e l a y T i m e);

}

p r i n t f("\n\n共扫描到%d个端口开放",g_n O p e n P o r t s);

p r i n t f("\n---------------------------------------------------------\n");

p r i n t f("\n\n端口扫描完毕\n");

}

//获得主机信息

v o i d G e t L o c a l D a t e(v o i d)

{

//初始化W i n s o c k库

C I n i t S o c k i n i t S o c k;

c h a r s z H o s t[256];

//获取本地主机名

::g e t h o s t n a m e(s z H o s t,256);

//通过主机名获取主机信息

h o s t e n t*p H o s t=::g e t h o s t b y n a m e(s z H o s t);

//打印出所有I P

i n_a d d r a d d r;

f o r(i n t i=0;;i++)

{

c h a r*p;

c h a r*s z l p;

p=p H o s t->h_a d d r_l i s t[i];

i f(p==N U L L)

b r e a k;

m e m c p y(&a d d r.S_u n.S_a d d r,p,p H o s t->h_l e n g t h);

s z l p=::i n e t_n t o a(a d d r);

p r i n t f("本地主机名:%s\n",s z H o s t);

p r i n t f("本地主机I P:%s\n",s z l p);

}

}

//调用辅线程来循环扫描每个端口

D W O R D W I N A P I p s P r o c(

L P V O I D l p P a r a m e t e r//t h r e a d d a t a

)

{

//创建套接字

S O C K E T p s S o c k=s o c k e t(A F_I N E T,S O C K_S T R E A M,0);

//s o c k a d d r_i n结构

s t r u c t s o c k a d d r_i n p s A d d r;

i f(p s S o c k==I N V A L I D_S O C K E T)

{

p r i n t f("E r r o r:s o c k e t\n");

e x i t(1);

}

//将p s A d d r中的前s i z e o f(p s A d d r)个字符都替换成0

m e m s e t(&p s A d d r,0,s i z e o f(p s A d d r));

//填充s o c k a d d r结构

p s A d d r.s i n_f a m i l y=A F_I N E T;

p s A d d r.s i n_a d d r.S_u n.S_a d d r=i n e t_a d d r(g_s z T a r g e t I P);

p s A d d r.s i n_p o r t=h t o n s(g_n T a r g e t P o r t);

i f(c o n n e c t(p s S o c k,(s o c k a d d r*)&p s A d d r,s i z e o f(p s A d d r))!=S O C K E T_E R R O R)

{

p r i n t f("\n端口%d开放",n t o h s(p s A d d r.s i n_p o r t));//将一个无符号短整形数从网络字节顺序转换为主机字节顺序

g_n O p e n P o r t s++;

}

//关闭监听套接字

c l o s e s o c k e t(p s S o c k);

r e t u r n0;

}

实验结果:

实验心得:

通过这次实验堆网络扫描有了基本的了解,尤其是c o n n e c t函数的运用,对s o c k e t 也有了一定的了解,本来之前只是课堂上的理论了解,通过这次实验对s o c k e t的运用和端口扫描都有了一定的了解。遇到的最大的问题是,如果端口的范围和i p地址的范围设置的过大,将会引起速度过慢的问题,所以可以运用多线程来处理,并设立一个

独立的线程进行调用,解决扫描速度的问题,运用之前学过的知识,设置互斥量解决了独立线程的问题。可以说通过这次实验学习了很多的东西,当然本来想要运用m f c 做界面但是是一个本来不太熟悉的部分,所以还是选择放弃了。

对于自己的专业方面,可以说更加认识到网络安全和信息安全的重要性,了解到自己专业的作用,平时的生活习惯也很重要,不用的应用和端口都要关闭,这样能减少风险。同时注意保护自己的信息和计算机中的信息。

粘结剂配煤炼焦研究进展(1)

2010年第3期 doi:10.3969/j.issn.1672-9943.2010.03.046 能源技术与管理 粘结剂配煤炼焦研究进展 郑志磊,吴国光,孟献梁,曹勇飞,季伟 (中国矿业大学化工学院煤炭加工与高效洁净利用教育部重点实验室,江苏徐州221008)[摘要]通过向煤中加入粘结性添加剂可以部分替代强粘结煤或增加炼焦煤中不粘结煤的用量,达到节约炼焦煤资源的目的。从所添加粘结剂性质以及粘结剂对煤炭的改质 效果和对焦炭质量的影响等几方面阐述了近年来在配煤炼焦中粘结性添加剂研究 方面所取得的进步,并指出今后应加强机理研究,以更好的指导炼焦生产。 [关键词]粘结剂;配煤炼焦;煤沥青 [中图分类号]TQ520.62[文献标识码]B[文章编号]1672-9943(2010)03-0111-03 0引言 焦炭是重要的工业原料,广泛应用于冶金、铸造、化工等行业。近年来,中国焦炭产量多年位居世界首位,但是由于优质炼焦煤的短缺,我国焦炭生产质量和成本已经受到严重制约,合理开发和利用炼焦煤资源是中国焦化工业持续、健康发展的重要基础[1]。提高焦炭质量和扩大炼焦煤源的新工艺有煤预热、捣固、型焦、配型煤和加入添加剂等。与其它工艺相比,加入添加剂的特点是工艺变动不大,操作简单灵活,成本低、焦炭质量提高且稳定。焦化用添加剂可分为两类,一类是粘结性添加剂,主要有煤沥青、煤焦油及石油残渣等;另一类是惰性添加剂,包括焦粉、无烟煤及无机惰性物质等。 日本新日铁和住友钢铁公司利用石油改质沥青与弱粘性煤进行配型煤炼焦实验收到了很好的效果,将煤料与焦油渣按9∶1的比例压型煤,然后配煤炼焦,使焦炭强度和反应性得到了改善[2-3]。 1焦化常用粘结剂 上世纪就有学者利用诸如重油之类的有机添加物将低粘结性煤料润湿得到较好质量焦炭的实例。现阶段利用添加物改善炼焦煤质的方法在共碳化及中间相理论的指导下,粘结剂研究使用的热点已经扩展到焦油沥青类粘结剂,主要包括煤焦油沥青、石油沥青、石油残渣、煤焦油、焦油渣等。此类粘结剂在型煤工艺中已经广泛使用,得到较好的发展。但是在顶装煤配煤中的研究方兴未艾[4]。煤沥青与焦油渣作为焦化工艺两种主要的副产物,和石油类添加剂相比与煤在结构、组成上有着更多的相似之处,因此,对炼焦煤改质效果也更好。 煤沥青是煤焦油加工的主要产品之一,是煤焦油蒸馏提取各种馏分后的残留物。在常温下密度为1.25~1.35g/cm3的黑色固体,加热可软化。加热温度不同,沥青既可以处于胶体状态或呈玻璃状态。通常认为其由高分子量的焦化馏分、低分子量的塑化剂以及不溶的固体物质三部分组成[5],而这些部分的组合控制着煤沥青的特能。高分子量的焦化馏分是煤沥青炭化时结焦成炭的关键组分,这部分组分在高温下的流动性虽不及塑化组分,但当温度升高到一定程度时,对煤沥青的粘度也不会产生有害的影响;低分子量的塑化组分炭化时,虽不会结焦成炭,但与焦化组分形成共溶体,在高温下赋予沥青良好的流动性,即控制着煤沥青的高温粘度;不溶的固体物质在炭化时基本不发生变化。沥青类粘结剂按软化点不同可分为软沥青(<70℃)、中温沥青(70℃~80℃)和硬沥青(>85℃),作为强粘结性煤代用品的改质粘结剂一般应采用软化点100℃以上的沥青,使得其既起到粘结剂的功效,又能在炭化时具有较高的残炭率,提高焦炭强度和改善焦炭反应性。准确评价煤沥青粘结剂的性能还需要全方面分析诸如QI、TI、β树脂含量、结焦值、C/H原子比等性能指标。 焦油渣为粘稠状废渣,主要由煤尘、焦粉、沥青粉、炭化室顶部热解产生的游离碳及清扫上升管和集气管时所带入的多孔物质、焦油和沥青的聚合物等含碳物质等组成。渣内固定碳含量约60%,挥发分产率约33%、灰分约4%、硫含量约1.6%。焦油渣是一种炼焦工业废渣,含有苯类等 111

数据挖掘实验报告

《数据挖掘》Weka实验报告 姓名_学号_ 指导教师 开课学期2015 至2016 学年 2 学期完成日期2015年6月12日

1.实验目的 基于https://www.doczj.com/doc/624073231.html,/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori- ginal%29的数据,使用数据挖掘中的分类算法,运用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采用Weka平台,数据使用来自https://www.doczj.com/doc/624073231.html,/ml/Datasets/Br- east+Cancer+WiscOnsin+%28Original%29,主要使用其中的Breast Cancer Wisc- onsin (Original) Data Set数据。Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤 3.1数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size (均匀的细胞大小),Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。通过实验,希望能找出患乳腺癌客户各指标的分布情况。 该数据的数据属性如下: 1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;

配煤炼焦

配煤炼焦

配煤炼焦基础知识 第一章煤的基础知识 一、煤的形成 大约三十多亿年以前,地球上就已经有单细胞低等植物存在了。在整个地质年代中的某些时期内,出于地球的气候温暖、潮湿,而且有丰富的矿物养料,因此植物生长得持别高大和繁茂。这些落群生长的陆生植物,构成了成煤的物质基础。在漫长的地质年代里,地球的造山运动和地壳不断的变动,使有些落群生长的植物随着地壳下沉,后来慢慢地被水淹没,或者被山石覆盖。在多水缺氧的情况下,堆积在水中的植物残骸受一种“厌氧细菌”(不靠空气而靠夺取植物遗体里的养份而生成的微生物)的作用,脱去不稳定的含氧物质(一般以二氧化碳和水的形式除去),使残留物的氧和氢的含量减少,碳含量相对增高。与此同时,植物残骸还受到其他生物化学作用,产生大量的腐植酸及沥青类物质。这种既合有植物残骸未被分解的族组成部份(如根、茎、叶、树皮

等),又含有腐植酸,而且碳含量比植物残骸高、水份比较大的物质称为泥炭。在泥炭形成的过程中,往往出现植物生此交替和地壳不断变动的情况。如果地壳垂直下沉的速度与泥炭堆积的速度差不多,泥炭层就会不断地变厚;如果地壳垂直下沉的速度比泥炭堆积的速度大,随着时间的推移。泥炭层的上面就会被沙土覆盖而形成顶板,顶板越厚,泥炭受压力和地热的作用就越大。由于地热和压力的作用,使得泥炭中大分子缩合和构化程度提高,C/H原子比增大氢和氧含量减少,泥炭就变成了褐煤。褐煤如果继续不断地受到增高的温度和压力的作用,就会引起内部分子结构、物理性质和化学性质的进一步变化,褐煤就逐渐变成了烟煤或无烟煤了。第一章煤的基础知识 二、煤的分类 ? 1、腐植煤 ? 根据成煤的原始物质条件不同,自然界的煤可分为三大类,即腐植煤、残植煤和腐泥煤。腐植煤是由高等植物形成的,在自然界中分布最广,蕴藏量最大,用途最广;残植煤是由高等植物中稳定组份(树皮、孢子、角质、树

数据分析实验报告

数据分析实验报告 文稿归稿存档编号:[KKUY-KKIO69-OTM243-OLUI129-G00I-FDQS58-

第一次试验报告 习题1.3 1建立数据集,定义变量并输入数据并保存。 2数据的描述,包括求均值、方差、中位数等统计量。 分析—描述统计—频率,选择如下: 输出: 统计量 全国居民 农村居民 城镇居民 N 有效 22 22 22 缺失 均值 1116.82 747.86 2336.41 中值 727.50 530.50 1499.50 方差 1031026.918 399673.838 4536136.444 百分位数 25 304.25 239.75 596.25 50 727.50 530.50 1499.50 75 1893.50 1197.00 4136.75 3画直方图,茎叶图,QQ 图。(全国居民) 分析—描述统计—探索,选择如下: 输出: 全国居民 Stem-and-Leaf Plot Frequency Stem & Leaf 5.00 0 . 56788 数据分析实验报告 【最新资料,WORD 文档,可编辑修改】

2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689 1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图,选择如下: 输出: 习题1.1 4数据正态性的检验:K—S检验,W检验数据: 取显着性水平为0.05 分析—描述统计—探索,选择如下:(1)K—S检验

结果:p=0.735 大于0.05 接受原假设,即数据来自正太总体。 (2 )W 检验 结果:在Shapiro-Wilk 检验结果972.00 w ,p=0.174大于0.05 接受原假设,即数据来自正太总体。 习题1.5 5 多维正态数据的统计量 数据:

数据挖掘实验报告(一)

数据挖掘实验报告(一) 数据预处理 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1.学习均值平滑,中值平滑,边界值平滑的基本原理 2.掌握链表的使用方法 3.掌握文件读取的方法 二、实验设备 PC一台,dev-c++5.11 三、实验内容 数据平滑 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70。使用你所熟悉的程序设计语言进行编程,实现如下功能(要求程序具有通用性): (a) 使用按箱平均值平滑法对以上数据进行平滑,箱的深度为3。 (b) 使用按箱中值平滑法对以上数据进行平滑,箱的深度为3。 (c) 使用按箱边界值平滑法对以上数据进行平滑,箱的深度为3。 四、实验原理 使用c语言,对数据文件进行读取,存入带头节点的指针链表中,同时计数,均值求三个数的平均值,中值求中间的一个数的值,边界值将中间的数转换为离边界较近的边界值 五、实验步骤 代码 #include #include #include #define DEEP 3 #define DATAFILE "data.txt" #define VPT 10 //定义结构体 typedef struct chain{ int num; struct chain *next; }* data; //定义全局变量 data head,p,q; FILE *fp; int num,sum,count=0; int i,j; int *box; void mean(); void medain(); void boundary(); int main () { //定义头指针 head=(data)malloc(sizeof(struc t chain)); head->next=NULL; /*打开文件*/ fp=fopen(DATAFILE,"r"); if(!fp) exit(0); p=head; while(!feof(fp)){

配煤炼焦基础知识

配煤炼焦基础知识 第一章煤的基础知识 一、煤的形成 大约三十多亿年以前,地球上就已经有单细胞低等植物存在了。在整个地质年代中的某些时期内,出于地球的气候温暖、潮湿,而且有丰富的矿物养料,因此植物生长得持别高大和繁茂。这些落群生长的陆生植物,构成了成煤的物质基础。在漫长的地质年代里,地球的造山运动和地壳不断的变动,使有些落群生长的植物随着地壳下沉,后来慢慢地被水淹没,或者被山石覆盖。在多水缺氧的情况下,堆积在水中的植物残骸受一种“厌氧细菌”(不靠空气而靠夺取植物遗 体里的养份而生成的微生物)的作用,脱去不稳定的含氧物质(一般以二氧化碳和水的形式除去),使残留物的氧和氢的含量减少,碳含量相对增高。与此同时,植物残骸还受到其他生物化学作用,产生大量的腐植酸及沥青类物质。这种既合有植物残骸未被分解的族组成部份(如根、茎、叶、树皮等),又含有腐植酸,而且碳含量比植物残骸高、水份比较大的物质称为泥炭。在泥炭形成的过程中,往往出现植物生此交替和地壳不断变动的情况。如果地壳垂直下沉的速度与泥炭堆积的速度差不多,泥炭层就会不断地变厚;如果地壳垂直下沉的速度比泥炭堆积的速度大,随着时间的推移。泥炭层的上面就会被沙土覆盖而形成顶板,顶板越厚,泥炭受压力和地热的作用就越大。由于地热和压力的作用,使得泥炭中大分子缩合和构化程度提高,C/H原子比增大氢和氧含量减少,泥炭就变成了褐煤。褐煤如果继续不断地受到增高的温度和压力的作用,就会引起内部分子结构、物理性质和化学性质的进一步变化,褐煤就逐渐变成了烟煤或无烟煤了。 第一章煤的基础知识 二、煤的分类 ? 1、腐植煤 ?根据成煤的原始物质条件不同,自然界的煤可分为三大类,即腐植煤、残植煤和腐泥煤。腐植煤是由高等植物形成的,在自然界中分布最广,蕴藏量最大,用途最广;残植煤是由高等植物中稳定组份(树皮、孢子、角质、树脂)富集而形成的;腐泥煤是由低等植物和少量浮游生物形成的(藻类、菌类、地衣等),分布范围小,煤层厚度不大。由于腐植煤分布范围广,且煤层厚度厚,是我国煤炭开采的主要对象,

基于weka的数据分类分析实验报告

基于weka的数据分类分析实验报告 1实验基本内容 本实验的基本内容是通过使用weka中的三种常见分类方法(朴素贝叶斯,KNN和决策树C4.5)分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 2数据的准备及预处理 2.1格式转换方法 原始数据是excel文件保存的xlsx格式数据,需要转换成Weka支持的arff文件格式或csv文件格式。由于Weka对arff格式的支持更好,这里我们选择arff格式作为分类器原始数据的保存格式。 转换方法:在excel中打开“movie_given.xlsx”,选择菜单文件->另存为,在弹出的对话框中,文件名输入“total_data”,保存类型选择“CSV(逗号分隔)”,保存,我们便可得到“total_data.csv”文件;然后,打开Weka的Exporler,点击Open file按钮,打开刚才得到的“total_data”文件,点击“save”按钮,在弹出的对话框中,文件名输入“total_data”,文件类型选择“Arff data files(*.arff)”,这样得到的数据文件为“total_data.arff”。 2.2如何建立数据训练集,校验集和测试集 数据的预处理过程中,为了在训练模型、评价模型和使用模型对数据进行预测能保证一致性和完整性,首先要把movie_given.xslx和test.xslx合并在一起,因为在生成arff文件的时候,可能会出现属性值不一样的情况,否则将为后来的测试过程带来麻烦。 通过统计数据信息,发现带有类标号的数据一共有100行,为了避免数据的过度拟合,必须把数据训练集和校验集分开,目前的拆分策略是各50行。类标号为‘female’的数据有21条,而类标号为‘male’的数据有79条,这样目前遇到的问题是,究竟如何处理仅有的21条female数据?为了能在训练分类模型时有更全面的信息,所以决定把包含21条female类标号数据和29条male类标号数据作为模型训练数据集,而剩下的另49条类标号类male的数据将全部用于校验数据集,这是因为在校验的时候,两种类标号的数据的作用区别不大,而在训练数据模型时,则更需要更全面的信息,特别是不同类标号的数据的合理比例对训练模型的质量有较大的影响。

数据挖掘实验报告资料

大数据理论与技术读书报告 -----K最近邻分类算法 指导老师: 陈莉 学生姓名: 李阳帆 学号: 201531467 专业: 计算机技术 日期 :2016年8月31日

摘要 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。K 近邻算法(KNN)是基于统计的分类方法,是大数据理论与分析的分类算法中比较常用的一种方法。该算法具有直观、无需先验统计知识、无师学习等特点,目前已经成为数据挖掘技术的理论和应用研究方法之一。本文主要研究了K 近邻分类算法,首先简要地介绍了数据挖掘中的各种分类算法,详细地阐述了K 近邻算法的基本原理和应用领域,最后在matlab环境里仿真实现,并对实验结果进行分析,提出了改进的方法。 关键词:K 近邻,聚类算法,权重,复杂度,准确度

1.引言 (1) 2.研究目的与意义 (1) 3.算法思想 (2) 4.算法实现 (2) 4.1 参数设置 (2) 4.2数据集 (2) 4.3实验步骤 (3) 4.4实验结果与分析 (3) 5.总结与反思 (4) 附件1 (6)

1.引言 随着数据库技术的飞速发展,人工智能领域的一个分支—— 机器学习的研究自 20 世纪 50 年代开始以来也取得了很大进展。用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了数据库中的知识发现(Knowledge Discovery in Databases,简记 KDD)的产生,也称作数据挖掘(Data Ming,简记 DM)。 数据挖掘是信息技术自然演化的结果。信息技术的发展大致可以描述为如下的过程:初期的是简单的数据收集和数据库的构造;后来发展到对数据的管理,包括:数据存储、检索以及数据库事务处理;再后来发展到对数据的分析和理解, 这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科的一门当前相当活跃的研究领域。 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能技术和数据库技术紧密结合,让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足人们不同应用的需要[1]。目前,数据挖掘已经成为一个具有迫切实现需要的很有前途的热点研究课题。 2.研究目的与意义 近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录的已知特征值来预测当前记录的未知或遗失特征值[14]。近邻方法是数据挖掘分类算法中比较常用的一种方法。K 近邻算法(简称 KNN)是基于统计的分类方法[15]。KNN 分类算法根据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类,因此具有直观、无需先验统计知识、无师学习等特点,从而成为非参数分类的一种重要方法。 大多数分类方法是基于向量空间模型的。当前在分类方法中,对任意两个向量: x= ) ,..., , ( 2 1x x x n和) ,..., , (' ' 2 ' 1 'x x x x n 存在 3 种最通用的距离度量:欧氏距离、余弦距 离[16]和内积[17]。有两种常用的分类策略:一种是计算待分类向量到所有训练集中的向量间的距离:如 K 近邻选择K个距离最小的向量然后进行综合,以决定其类别。另一种是用训练集中的向量构成类别向量,仅计算待分类向量到所有类别向量的距离,选择一个距离最小的类别向量决定类别的归属。很明显,距离计算在分类中起关键作用。由于以上 3 种距离度量不涉及向量的特征之间的关系,这使得距离的计算不精确,从而影响分类的效果。

数据分析实验报告

《数据分析》实验报告 班级:07信计0班学号:姓名:实验日期2010-3-11 实验地点:实验楼505 实验名称:样本数据的特征分析使用软件名称:MATLAB 实验目的1.熟练掌握利用Matlab软件计算均值、方差、协方差、相关系数、标准差与变异系数、偏度与峰度,中位数、分位数、三均值、四分位极差与极差; 2.熟练掌握jbtest与lillietest关于一元数据的正态性检验; 3.掌握统计作图方法; 4.掌握多元数据的数字特征与相关矩阵的处理方法; 实验内容安徽省1990-2004年万元工业GDP废气排放量、废水排放量、固体废物排放量以及用于污染治理的投入经费比重见表6.1.1,解决以下问题:表6.1.1废气、废水、固体废物排放量及污染治理的投入经费占GDP比重 年份 万元工业GDP 废气排放量 万元工业GDP 固体物排放量 万元工业GDP废 水排放量 环境污染治理投 资占GDP比重 (立方米)(千克)(吨)(%)1990 104254.40 519.48 441.65 0.18 1991 94415.00 476.97 398.19 0.26 1992 89317.41 119.45 332.14 0.23 1993 63012.42 67.93 203.91 0.20 1994 45435.04 7.86 128.20 0.17 1995 46383.42 12.45 113.39 0.22 1996 39874.19 13.24 87.12 0.15 1997 38412.85 37.97 76.98 0.21 1998 35270.79 45.36 59.68 0.11 1999 35200.76 34.93 60.82 0.15 2000 35848.97 1.82 57.35 0.19 2001 40348.43 1.17 53.06 0.11 2002 40392.96 0.16 50.96 0.12 2003 37237.13 0.05 43.94 0.15 2004 34176.27 0.06 36.90 0.13 1.计算各指标的均值、方差、标准差、变异系数以及相关系数矩阵; 2.计算各指标的偏度、峰度、三均值以及极差; 3.做出各指标数据直方图并检验该数据是否服从正态分布?若不服从正态分布,利用boxcox变换以后给出该数据的密度函数; 4.上网查找1990-2004江苏省万元工业GDP废气排放量,安徽省与江苏省是 否服从同样的分布?

大数据挖掘weka大数据分类实验报告材料

一、实验目的 使用数据挖掘中的分类算法,对数据集进行分类训练并测试。应用不同的分类算法,比较他们之间的不同。与此同时了解Weka平台的基本功能与使用方法。 二、实验环境 实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。 Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka使用Java 写成的,并且限制在GNU通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 三、数据预处理 Weka平台支持ARFF格式和CSV格式的数据。由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。实验所用的ARFF格式数据集如图1所示 图1 ARFF格式数据集(iris.arff)

对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。 实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。 实验所需的训练集和测试集均为iris.arff。 四、实验过程及结果 应用iris数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 1、LibSVM分类 Weka 平台内部没有集成libSVM分类器,要使用该分类器,需要下载libsvm.jar并导入到Weka中。 用“Explorer”打开数据集“iris.arff”,并在Explorer中将功能面板切换到“Classify”。点“Choose”按钮选择“functions(weka.classifiers.functions.LibSVM)”,选择LibSVM分类算法。 在Test Options 面板中选择Cross-Validatioin folds=10,即十折交叉验证。然后点击“start”按钮:

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告(二)关联规则挖掘 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法; 2.将Apriori算法用具体的编程语言实现。 二、实验设备 PC一台,dev-c++5.11 三、实验内容 根据下列的Apriori算法进行编程:

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序,得到的候选1项集、2项集、3项集分别为C1、C2、C3,得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

炼焦配煤

1配煤的必要 配煤作为炼焦煤准备的工序之一。炼焦或碳化前煤料的一个重要准备过程。即为了生产符合质量要求的焦炭,把不同煤牌号的炼焦用煤按适当的比例配合起来。炼焦用煤品种较多,应用配煤技术,不仅能保证焦炭质量,还能合理地利用煤炭资源,节约优质炼焦煤,扩大炼焦煤资源。配煤技术涉及煤的多项工艺性质、结焦特性和灰分、硫分、挥发分的配合性质和煤的成焦机理等。长期以来,配煤试验一直是选定配煤方案、验证焦炭质量的不可缺少的配煤技术程序 早期炼焦只用单种煤,随着焦化行业的发展,炼焦煤储量的明显不足,高炉用焦要求的提高,单种煤已不可能用来炼焦,走配煤之路已势在必行。如济源金马焦化配煤比:35%ZJM,35%JM,15%FM,15%SM,可练出供济钢用的一级冶金焦,同时加入了肥煤,增加了化产回收,成本在1000元/t,而只用主焦煤炼焦成本在1200元/t,同时降低了化产回收,配煤效益可见一斑。 2 配煤的选择及方法 各单种煤的结焦性 (1)褐煤 褐煤的变质程度高于泥煤而低于分类方案中的其它所有煤种。在分类方案中,它的可燃基挥发分大于40%,煤中含有多量水分,加热时它不能产生胶质体,因此没有粘结性,在现代炼焦炉中不结焦,我们不将它划分在炼焦煤范围内。在某些炼焦煤非常缺乏的国家,他们是通过复杂的工艺,利用褐煤制造型块炼成型焦,这已不属配煤炼焦的范畴,故不多述。 (2)长焰煤 长焰煤的变质程度比褐煤高,在分类中其可燃基挥发分大于37%,胶质层厚度小于5毫米,这种煤粘结性极弱,在现代炼焦炉中不能单独结成焦炭。在某些长焰煤多的地区,可以少量配用,但配入量稍多时,常会使焦炭强度和耐磨变坏,尤其是配煤中肥煤不够多时更为明显。所以长焰煤也不列入炼焦煤范围内。 (3) 气煤 气煤的变质程度较长焰煤高。在分类图中气煤是一大类,它包括可燃基挥发分在30%~37%、胶质层厚度大于9~25毫米以及可燃基挥发分大于37%、胶质层厚度大于5~25毫米两区域。前者属肥气煤,有一定的结焦性,其中二号肥气煤在现代焦炉中能单独炼焦,但质量较差,只能供中、小高

数据仓库与数据挖掘实验报告-焦永赞

《数据仓库与数据挖掘》 实验报告册 2013- 2014学年第一学期 班级: T1153-8 学号: 20110530816 姓名:焦永赞 授课教师:杨丽华实验教师:杨丽华 实验学时: 16 实验组号: 1 信息管理系

目录 实验一 Microsoft SQL Server Analysis Services的使用.. 3 实验二使用WEKA进行分类与预测 (114) 实验三使用WEKA进行关联规则与聚类分析 (22) 实验四数据挖掘算法的程序实现 (28)

实验一 Microsoft SQL Server Analysis Services的使用 实验类型:验证性实验学时:4 实验目的: 学习并掌握Analysis Services的操作,加深理解数据仓库中涉及的一些概念,如多维数据集,事实表,维表,星型模型,雪花模型,联机分析处理等。 实验内容: 在实验之前,先通读自学SQL SERVER自带的Analysis Manager概念与教程。按照自学教程的步骤,完成对FoodMart数据源的联机分析。建立、编辑多维数据集,进行OLAP操作,看懂OLAP的分析数据。 实验步骤(写主要步骤,可以打印): 1、启动联机分析管理器:开始->程序->Microsoft SQL Server->Analysis Manager。 2、按照Analysis Service的自学教程完成对FoodMart数据源的联机分析。 3、在开始-设置-控制面板-管理工具-数据源(ODBC),数据源管理器中设置和源数据的 连接,“数据源名”为你的班级+学号+姓名,如T3730101张雨。 (1)打开管理工具中的数据源: (2)选择系统DNS

40kg试验焦炉在配煤炼焦中的应用

40kg试验焦炉与工业焦炉对应关系研究 山西焦化配煤实验中心 二〇一四年十一月三日

40kg试验焦炉与工业大炉对应关系研究 1、选题背景及意义 由于煤的复杂性,煤与煤之间的性质千差万别,不同煤田的煤质差别较大,即使是同一煤田中不同煤层之间的煤质,其差异性也很大;成煤阶段的不同,成煤地质条件的不同,也造就了煤与煤之间性质的千差万别,到目前为止,还没有那个化验指标能准确反映煤的炼焦结果,有时还出现反常的现象:分类牌号为焦煤的煤,在配煤中却不能做为焦煤使用,煤的镜质组反射率相同的煤种,却炼出机械强度明显差异的焦炭,奥亚膨胀度差异明显的煤种,却又能得到焦炭强度相似的结果,如何合理利用各种炼焦煤特性,全面指导炼焦配煤,进行经济配煤,实现利润最大化,就是对各种煤通过实验焦炉进行炼焦试验,建立相关数据库模型,才能更好的指导生产。 试验焦炉最大限度模拟工业焦炉生产的工况条件,尽量贴近工业生产状态,使得试验结果能直接表示生产结果,或者使试验结果与生产结果建立良好的相关性。 实验焦炉类似缩小的工业焦炉,它的特点是与工业焦炉的模拟性好,结焦过程与工业焦炉相似。工艺参数检测较全面,焦炭机械强度测定设备与工业生产一样,试验结果直观,重现性好、区分性好,相关性好。 山焦焦化配煤实验中心自2013年11月23日成立以来,对中心40kg试验焦炉与工业焦炉之间的对应关系进行了重点研究,初

步找到了40kg试验焦炉与工业大炉之间焦炭机械强度、热性质的对应性,自2014年7月份以来应用该数学模型指导生产取得了较好的经济效益。 2、 40kg试验焦炉与工业焦炉焦炭质量的对应关系 配煤实验中心自2014年2月40KG试验焦炉正式投入运行以来,对三个系统装炉煤、凉焦台焦炭进行了质量跟踪、对比实验,并利用数学工具LINEST函数对40KG试验焦炉与工业焦炉实验数据进行了线性回归分析。 2.1 40kg试验焦炉、工业焦炉焦炭的M40、M10对应性实验 2.1.1实验数据 40KG小焦炉与凉焦台焦炭质量对比实验数据 序列系 统 40kg试验焦炉凉焦台M40 M10 ≥80 60~80 40~60 25~ 40 ≤25 M40 M10 1 一82.60 9.5 23.20 40.03 27.28 4.71 4.78 76.20 8.2 2 一82.90 9.9 39.0 3 36.67 17.12 2.95 4.23 76.00 10.7 3 二79.90 8.6 36.18 33.0 4 21.47 4.42 4.90 73.60 8.4 4 三83.10 9. 5 32.51 36.39 21.63 4.01 5.45 76.78 11 5 一81.20 9 32.51 36.39 21.63 4.01 5.45 74.20 9.2 6 三81.90 8.6 40.33 31.8 7 19.60 3.87 4.34 75.80 9.1 7 二79.60 9.6 35.28 36.98 20.31 1.98 5.45 73.60 9.8 8 一83.70 9 37.47 34.42 20.23 3.92 3.95 76.60 9.6 9 一80.60 9.6 27.09 41.93 24.50 2.48 3.97 74.80 9.8 10 二77.90 9 44.36 29.66 16.35 3.71 5.92 72.00 9.6 11 一81.40 9 32.51 36.39 21.63 4.01 5.45 75.00 9.4 12 三81.80 8.5 28.85 31.83 29.67 4.20 5.45 76.40 8.6 13 一81.40 8.9 38.76 32.54 18.53 4.54 5.64 75.40 9.6 14 二79.10 10.2 33.31 34.89 20.02 4.55 7.24 73.60 10.2 15 一80.60 9.4 23.14 32.13 31.63 7.21 5.89 74.80 10 16 二81.00 10 28.58 42.46 19.88 3.59 5.48 73.20 10 17 一81.90 10.3 26.93 42.56 19.87 3.74 6.90 76.00 9.8 18 二79.20 8.5 33.10 37.90 20.76 3.26 4.98 73.60 9.4 19 一81.90 9.4 24.61 43.40 18.93 5.01 8.05 75.40 9.2

数据分析实验报告

数据分析实验报告 【最新资料,WORD文档,可编辑修改】 第一次试验报告 习题1.3 1建立数据集,定义变量并输入数据并保存。 2数据的描述,包括求均值、方差、中位数等统计量。 分析—描述统计—频率,选择如下: 输出:

方差1031026.918399673.8384536136.444百分位数25304.25239.75596.25 50727.50530.501499.50 751893.501197.004136.75 3画直方图,茎叶图,QQ图。(全国居民) 分析—描述统计—探索,选择如下: 输出: 全国居民Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 0 . 122223344 5.00 0 . 56788 2.00 1 . 03 1.00 1 . 7 1.00 2 . 3 3.00 2 . 689

1.00 3 . 1 Stem width: 1000 Each leaf: 1 case(s) 分析—描述统计—QQ图,选择如下: 输出: 习题1.1 4数据正态性的检验:K—S检验,W检验数据: 取显着性水平为0.05 分析—描述统计—探索,选择如下:(1)K—S检验 单样本Kolmogorov-Smirnov 检验 身高N60正态参数a,,b均值139.00

标准差7.064 最极端差别绝对值.089 正.045 负-.089 Kolmogorov-Smirnov Z.686 渐近显着性(双侧).735 a. 检验分布为正态分布。 b. 根据数据计算得到。 结果:p=0.735 大于0.05 接受原假设,即数据来自正太总体。(2)W检验

weka实验报告

基于w e k a的数据分类分析实验报告1 实验目的 (1)了解决策树C4.5和朴素贝叶斯等算法的基本原理。 (2)熟练使用weka实现上述两种数据挖掘算法,并对训练出的模型进行测试和评价。 2 实验基本内容 本实验的基本内容是通过基于weka实现两种常见的数据挖掘算法(决策树C4.5和朴素贝叶斯),分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 3 算法基本原理 (1)决策树C4.5 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。C4.5由J.Ross Quinlan在ID3 的基础上提出的。ID3算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现。 从ID3算法中衍生出了C4.5和CART两种算法,这两种算法在数据挖掘中都非常重要。 属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属性选择度量提供了每个属性描述给定训练元组的秩评定,具有最好度量得分的属性被选作给定元组的分裂属性。目前比较流行的属性选择度量有--信息增益、增益率和Gini指标。

weka实验报告_

基于weka 的数据分类分析实验报告1实验目的 (1)了解决策树C4.5 和朴素贝叶斯等算法的基本原理。 (2)熟练使用weka 实现上述两种数据挖掘算法,并对训练出的模型进行测试和评价。 2实验基本内容 本实验的基本内容是通过基于weka 实现两种常见的数据挖掘算法(决策树C4.5 和朴素贝叶斯),分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一个最优分类器,并利用该分类器对测试数据进行预测。 3算法基本原理 (1)决策树C4.5 C4.5 是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5 的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。C4.5 由J.Ross Quinlan 在ID3 的基础上提出的。ID3 算法用来构造决策树。决策树是一种类似流程图的树结构,其中每个内部节点(非树叶节点)表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶节点存放一个类标号。一旦建立好了决策树,对于一个未给定类标号的元组,跟踪一条有根节点到叶节点的路径,该叶节点就存放着该元组的预测。决策树的优势在于不需要任何领域知识或参数设置,适合于探测性的知识发现。

从ID3 算法中衍生出了C4.5 和CART两种算法,这两种算法在数据挖掘中都非常重要。 属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属性选择度量提供了每个属性描述给定训练元组的秩评定,具有最好度量得分的属性被选作给定元组的分裂属性。目前比较流行的属性选择度量有-- 信息增益、增益率和Gini 指标。 (2)朴素贝叶斯 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。通俗来说,就好比这么个道理,你在街上看到一个黑人,我问你你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?因为黑人中非洲人的比率最高,当然人家也可能是美洲人或亚洲人,但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。 朴素贝叶斯分类的正式定义如下: 1)设x={a_1,a_2,...,a_m} 为一个待分类项,而每个a 为x 的一个特征属性。 2)有类别集合C={y_1,y_2,...,y_n} 。 3)计算 P(y_1|x),P(y_2|x),...,P(y_n|x) 。 4)如果 P(y_k|x)=max{P(y_1|x),P(y_2|x),...,P(y_n|x)} ,则x in y_k 。 那么现在的关键就是如何计算第3 步中的各个条件概率。我们可以这么做: 1)找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

文本预览