KDD-Cup(数据挖掘与知识发现竞赛) 介绍
- 格式:pdf
- 大小:2.52 MB
- 文档页数:34
ACM SIGKDD数据挖掘及知识发现会议1清华大学计算机系王建勇1、KDD概况ACM SIGKDD国际会议(简称KDD)是由ACM的数据挖掘及知识发现专委会[1]主办的数据挖掘研究领域的顶级年会。
它为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者进行学术交流和展示研究成果提供了一个理想场所,并涵盖了特邀主题演讲(keynote presentations)、论文口头报告(oral paper presentations)、论文展板展示(poster sessions)、研讨会(workshops)、短期课程(tutorials)、专题讨论会(panels)、展览(exhibits)、系统演示(demonstrations)、KDD CUP赛事以及多个奖项的颁发等众多内容。
由于KDD的交叉学科性和广泛应用性,其影响力越来越大,吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的专家、学者。
KDD可以追溯到从1989年开始组织的一系列关于知识发现及数据挖掘(KDD)的研讨会。
自1995年以来,KDD已经以大会的形式连续举办了17届,论文的投稿量和参会人数呈现出逐年增加的趋势。
2011年的KDD会议(即第17届KDD 年会)共收到提交的研究论文(Research paper)714篇和应用论文(Industrial and Government paper)73篇,参会人数也达到1070人。
下面我们将就会议的内容、历年论文投稿及接收情况以及设置的奖项情况进行综合介绍。
此外,由于第18届KDD年会将于2012年8月12日至16日在北京举办,我们还将简单介绍一下KDD’12[4]的有关情况。
2、会议内容自1995年召开第1届KDD年会以来,KDD的会议内容日趋丰富且变的相对稳定。
其核心内容是以论文报告和展版(poster)的形式进行数据挖掘同行之间的学术交流和成果展示。
KDDCup99⽹络⼊侵检测数据的分析该数据集是从⼀个模拟的美国空军局域⽹上采集来的 9 个星期的⽹络连接数据, 分成具有标识的训练数据和未加标识的测试数据。
测试数据和训练数据有着不同的概率分布, 测试数据包含了⼀些未出现在训练数据中的攻击类型, 这使得⼊侵检测更具有现实性。
在训练集中包含了1种正常的标识类型 normal 和 22种训练攻击类型。
1、KDDCup99⼊侵检测实验数据的标识类型标识类型含义具体分类标识Normal正常记录normalDOS拒绝服务攻击back, land, neptune, pod, smurf, teardropProbing监视和其他探测活动ipsweep, nmap, portsweep,satanR2L来⾃远程机器的⾮法访问ftp_write, guess_passwd, imap, multihop, phf, spy, warezclient, warezmasterU2R普通⽤户对本地超级⽤户特权的⾮法访问buffer_overflow, loadmodule, perl, rootkit标识位⽤来表⽰该条连接记录是正常的,或是某个具体的攻击类型;(正常标识有⼀种,攻击标识有22种)DOS:有6种,back,land,neptune,pod,smurf,teardroplProbing:有4种,ipsweep,nmap,portsweep,satan;R2L:有8种,ftp_wrute,guess_passwd,imap,multipod,phf,spy,warezclient,waremaster;U2R:有4种,buffer_overflow,loadmodule,perl,rootkit;2、特征属性在41个固定的特征属性中,9个特征属性为离散型,其他均为连续型;duration,protocol_type,service,flag,src_bytes,dst_bytes,land,wrong_fragment,urgent,ho,num_failed_logins,logged_in,num_compromised,root_shell,su_attempted,num_root,num_file_creations,num_shells,num_access_files,num_outbound_cmds,is_host_login,is_guest_login,count,srv_count,serror_rate,srv_serror_rate,rerror_rate,srv_rerror_rate,same_srv_rate,diff_srv_rate,srv_diff_host_rate,dst_host_count,dst_host_srv_count,dst_host_same_srv_rate,dst_host_diff_srv_rate,dst_host_same_src_port_rate,dst_host_srv_diff_host_rate,dst_host_serror_rate,dst_host_srv_serror_rate,dst_host_rerror_rate,dst_host_srv_rerror_rate,class通过对41个固定特征属性的分析,⽐较能体现出状态变化的是前31个特征属性,其中9个离散型,22个连续型。
计算机领域有哪些常见的比赛入了计算机这一行,写代码便是我们安身立命的本领,夜以继日勤学苦练,希望早日成为编程高手。
和其他行业相比,计算机领域的实验成本是比较低的,毕竟,我们程序员的练习,通常是在电脑上敲击下一行行代码,然后执行查看结果。
而很多行业,是需要真真切切地进入实际工作环境,加以学习实操。
例如,医学生想要积攒经验,需要和真正的病人打交道;土木建筑行业的同学,学校都会安排亲自去工地体验一番,感受一下面向黄土背朝天的辛劳。
相对低廉的实验成本,就促进了行业的快速发展,同时的,也为比赛的开展提供了很好的土壤。
每年,计算机领域的各类赛事层出不穷,年景好的时候,奖金数目也是让人瞠目咋舌。
这些比赛大多数是由企业和科研机构举办的,企业是想通过赛事,提高在学生群体中的知名度,希望能将优秀学生招揽进来。
科研机构举办比赛,多了一些公益的味道,会提供一些机构内部的数据集,让学生们能够有机会接触到前沿的科学研究,促进行业的发展。
虽然同属一个领域,细分一下的话,赛事还是有所区别的。
基本属于两大类:经典算法比赛,数据挖掘及AI 比赛。
经典算法比赛所谓经典算法,我们从事计算机领域的,基本都是从数据结构学起的,经典算法注重程序的执行效率、时间和空间复杂度。
这一类的比赛最为出名的是ACM-ICPC 竞赛。
由于我自己也参与其中一段时间,这里会着重介绍一下。
这是由国际计算机协会举办的国际大学生程序设计竞赛。
在求职的时候,我们可能会发现,有些面向学生的招聘需求上,可能会加上一条:有论文或ACM 比赛获奖经历者优先。
这不是个例,说明很多企业认同了ACM 选手的实力,从侧面表明了这个比赛的重要性。
简单科普一下,准备面试时我们或多或少会做一点Leetcode 上的题目,其中等级分为容易题、中等题和难题三种程度。
但通常来说,Leetcode 上的难题才是ACM 比赛的入门题。
该比赛的形式,是一支人数为3 人的队伍,在5 个小时的时间里,去解决若干道编程题目。
KDD Cup 1997 Datasets(1997年KDD杯数据集)数据摘要:This is the data set used for The First International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-97 The Third International Conference on Knowledge Discovery and Data Mining.中文关键词:KDD杯,知识发现,数据挖掘,数据集,英文关键词:KDD Cup,Knowledge Discovery,Data Mining,Datasets,数据格式:TEXT数据用途:Data Mining数据详细介绍:KDD Cup 1997 DatasetsAbstractThis is the data set used for The First International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-97 The Third International Conference on Knowledge Discovery and Data Mining.Usage NotesThe KDD-CUP-97 data set and the accompanying documentation are now available for general use with the following restrictions:1. The users of the data must notify Ismail Parsa (iparsa@) and KenHowes (khowes@) in the event they produce results, visuals or tables, etc. from the data and send a note that includes a summary of the final result.2. The authors of published and/or unpublished articles that use the KDD-Cup-97data set must also notify the individuals listed above and send a copy of their published and/or unpublished work.3. If you intend to use this data set for training or educational purposes, you must notreveal the name of the sponsor PVA (Paralyzed Veterans of America) to the trainees or students. You are allowed to say "a national veterans organization"...Information files∙readme. This list, listing the files in the FTP server and their contents.∙instruct.txt . General instructions for the competition.∙cup98doc.txt. This file, an overview and pointer to more detailed information about the competition.∙cup98dic.txt. Data dictionary to accompany the analysis data set.∙cup98que.txt. KDD-CUP questionnaire. PARTICIPANTS ARE REQUIRED TO FILL-OUT THE QUESTIONNAIRE and turn in with the results.∙valtargt.readme. Describes the valtargt.txt file.Data files∙cup98lrn.zip PKZIP compressed raw LEARNING data set. (36.5M; 117.2M uncompressed)∙cup98val.zip PKZIP compressed raw VALIDATION data set. (36.8M; 117.9M uncompressed)∙cup98lrn.txt.Z UNIX COMPRESSed raw LEARNING data set. (36.6M; 117.2M uncompressed)∙cup98val.txt.Z UNIX COMPRESSed raw VALIDATION data set. (36.9M; 117.9M uncompressed)∙valtargt.txt. This file contains the target fields that were left out of the validation data set that was sent to the KDD CUP 97 participants. (1.1M)数据预览:点此下载完整数据集。
第一章1.什么是KDD?()答案:数据挖掘与知识发现2.数据挖掘分析是指从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识。
()答案:对3.数据挖掘分析的步骤包括()答案:算法分析;数据预处理;模型评估;创建数据集4.当今社会,数据挖掘分析被广泛应用。
()答案:对5.()是未来大数据分析的发展趋势。
答案:实时性;非结构化数据;可视化第二章1.关于描述统计,包括()。
答案:集中趋势分析;离中趋势分析;相关分析2.以下属于推断统计的是()。
答案:离中趋势分析3.在数据特征的测度中,描述分布的形状的值为()答案:偏态;峰态4.测度集中趋势就是寻找数据水平的代表值或中心值()答案:对5.四分位数可以用于顺序数据、数值数据和分类数据()答案:错第三章1.下面哪个属于映射数据到新的空间的方法? ( )答案:傅立叶变换2.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()答案:数据预处理3.影响数据质量问题的因素有哪些()答案:其余选项都对4.数据预处理的常见方法有()答案:数据变换;数据清洗;数据集成5.数据预处理是指在对数据进行挖掘分析以前,需要对原始数据进行清理、集合和变换等一系列处理工作()答案:对第四章1.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()答案:1,2,4,52.频繁项集、频繁闭项集、最大频繁项集之间的关系是: ( )答案:频繁项集频繁闭项集最大频繁项集3.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?( )答案:关联规则发现4.下面购物篮能够提取的3-项集的最大数量是多少()ID 购买项1 牛奶,啤酒,尿布2 面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干答案:35.Apriori算法的计算复杂度受( )影响。
数据科学的常用数据集推荐_光环大数据培训数据科学的常用数据集推荐。
以下是光环大数据培训整理编译的17个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你。
菜鸟入门1.Iris数据集在模式识别文献中,Iris数据集恐怕是最通用也是最简单的数据集了。
要学习分类技术,Iris 数据集绝对是最方便的途径。
如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有4列150行。
典型问题:在可用属性基础上预测花的类型。
2.泰坦尼克数据集泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。
借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。
通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。
该数据集更重视分类问题,共有12列891行。
典型问题:预测泰坦尼克号上生还的幸存者人数。
3.贷款预测数据集在所有行业中,最为倚重数据分析技术的就是保险业。
贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。
与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有13列615行。
典型问题:预测贷款申请能否得到批准。
4.大市场销售数据集零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。
利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。
这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。
该数据集共有12列8523行。
典型问题:预测销售情况。
5.波士顿数据集该数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。
该数据集共有14列8506行。
因此,即使你手上的笔记本电脑性能较弱也能Hold住该数据集。
典型问题:预测房屋售价的中间值。
进阶级别1.人类活动识别该数据集是由30个受试人智能手机内置的传感器收集的。
数据库和数据挖掘技术论文中文文献知识发现与数据挖掘从数据库中发现知识(KDD )是20世纪80年代末开始的。
KDD 一词是在1989年8月与美国底特律市召开的第一届KDD 国际学术会议上正式形成的。
KDD 研究的问题有:定性知识和定量知识的发现;知识发现方法;知识发现的应用等。
数据挖掘是知识发现中的核心工作,主要研究发现知识的各种方法和技术。
知识发现(KDD )被认为是从数据中发现有知识的整个过程。
数据挖掘被认为是KDD 过程中的一个特定步骤,它用专门算法从数据中抽取模式。
KDD 是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。
其中“数据集”是事实F (数据库记录)的集合;“模式”是用语言L 表示的表达式E ,它所描述的数据是集合F 的一个子集E F ,它比枚举所有E F 中元素更简单,称E 为模式;“有效、新颖、潜在有用、可被理解”表示发现的模式有一定的可信度,应该是新的,将来有实用价值,能被用户理解。
KDD 过程下图所示。
KDD 过程图KDD 过程可以概括为三部分:数据准备、数据挖掘、及结果的解释和评估。
1.数据准备数据准备又可以分为3个子步骤:数据选取、数据预处理和数据变换。
数据选取的目的是确定发现任务的操作对象,即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。
数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续数值转换为离散型数据,以便于符号归纳,或是把离散型数据转换为连续型数据,以便于神经网络计算)等。
数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
2.数据挖掘数据挖掘阶段首先要确定挖掘的任务或目的,如数据分类、聚类、关联规则发现或序列模式发现等。
确定了挖掘任务后,就要决定使用什么样的挖掘算法。
选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识(采用规则表示的挖掘方法显然要好于神经网络之类的方法),而有的用户值是希望获取预测准确度尽可能高的预测型知识。
数据库与信息管理本栏目责任编辑:王力KDDcup2015数据集研究宋国琴,何春,章三妹(西华师范大学教育信息技术中心,四川南充637000)摘要:KDDcup2015数据集提供了学堂在线半年内39门课程的部分时段学习行为信息,主要用于学生翘课行为预测研究。
翘课行为反映了幕课的质量问题,也是在线教育的核心问题之一。
该文通过对数据集的详细分析,解读了KDD-cup2015数据集的格式和内容,介绍了数据分析的工具和平台,并通过实例展示如何将原始数据转化为有机的字典数据,以利于进一步的特征建立和机器学习。
总结了数据集的不足和可能的影响,为同类数据集的建立和应用提供了依据。
关键词:KDDcup2015;幕课;翘课;Python 中图分类号:TP181文献标识码:A文章编号:1009-3044(2016)35-0005-03KDD 是数据挖掘与知识发现(Data Mining and Knowledge Discovery )的简称,KDD CUP 是由ACM (Association for Comput⁃ing Machiner )的SIGKDD (Special Interest Group on Knowledge Discovery and Data Mining )组织的年度竞赛。
学生的高辍学率成为MOOC 平台最核心的问题,也是在线教育的核心问题之一[1-3]。
对辍学的了解和预测可以很好的维护和促进学生的学习活动。
因此,KDDCup2015的题目为:对中国最大的MOOC 平台之一学堂在线的辍学行为进行预测。
通过对数据集的解读,根据用户之前的行为,对他在接下来的10天内是否会翘课进行预判。
由于在线教育的盈利要求,目前极少有完整的系统的在线教育公开数据,在线教育公开数据极其稀缺,KDDcup2015[4]数据集有极高的研究和应用价值。
通过对KDDcup2015数据集的分析和研究,提出了数据的分析方法和手段,为进一步的数据挖掘[5]或机器学习[6]过程做铺垫。