数据挖掘顶级会议KDD简介

格式：pdf
大小：245.66 KB
文档页数：6

下载文档原格式

ACM SIGKDD数据挖掘及知识发现会议

ACM SIGKDD数据挖掘及知识发现会议1清华大学计算机系王建勇1、KDD概况ACM SIGKDD国际会议（简称KDD）是由ACM的数据挖掘及知识发现专委会[1]主办的数据挖掘研究领域的顶级年会。

它为来自学术界、企业界和政府部门的研究人员和数据挖掘从业者进行学术交流和展示研究成果提供了一个理想场所，并涵盖了特邀主题演讲（keynote presentations）、论文口头报告（oral paper presentations）、论文展板展示（poster sessions）、研讨会（workshops）、短期课程（tutorials）、专题讨论会（panels）、展览（exhibits）、系统演示（demonstrations）、KDD CUP赛事以及多个奖项的颁发等众多内容。

由于KDD的交叉学科性和广泛应用性，其影响力越来越大，吸引了来自统计、机器学习、数据库、万维网、生物信息学、多媒体、自然语言处理、人机交互、社会网络计算、高性能计算及大数据挖掘等众多领域的专家、学者。

KDD可以追溯到从1989年开始组织的一系列关于知识发现及数据挖掘(KDD)的研讨会。

自1995年以来，KDD已经以大会的形式连续举办了17届，论文的投稿量和参会人数呈现出逐年增加的趋势。

2011年的KDD会议（即第17届KDD 年会）共收到提交的研究论文（Research paper）714篇和应用论文（Industrial and Government paper）73篇，参会人数也达到1070人。

下面我们将就会议的内容、历年论文投稿及接收情况以及设置的奖项情况进行综合介绍。

此外，由于第18届KDD年会将于2012年8月12日至16日在北京举办，我们还将简单介绍一下KDD’12[4]的有关情况。

2、会议内容自1995年召开第1届KDD年会以来，KDD的会议内容日趋丰富且变的相对稳定。

其核心内容是以论文报告和展版（poster）的形式进行数据挖掘同行之间的学术交流和成果展示。

解读数据科学研究的重要学术期刊

解读数据科学研究的重要学术期刊数据科学作为一门新兴学科，与大数据技术的快速发展密切相关，日益受到学术界和产业界的重视。

为了更好地推动数据科学研究的发展，许多学术期刊涌现出来。

本文将重点介绍几个重要的数据科学学术期刊，并解读其在学术研究中的重要性。

一、《Journal of Data Science》《Journal of Data Science》（JDS）是数据科学领域的国际性综合性学术期刊。

该期刊自2003年创刊至今，一直致力于数据科学研究的发表与交流。

JDS的主要刊载内容包括数据挖掘、信息检索、机器学习、统计建模等各个方面的研究。

在学术研究中，JDS的重要性体现在以下几个方面：1. 发表高质量的研究成果：JDS对稿件的审查要求非常严格，仅接收具有创新性和重要性的研究成果。

2. 学术交流平台：JDS为广大科研人员提供了一个交流的平台，通过该期刊，研究者们可以分享自己的研究成果，借鉴他人的研究思路，从而促进整个数据科学领域的发展。

3. 学术评价指标：JDS是被国际知名数据库收录的期刊，发表在该期刊上的论文拥有较大的影响力和学术价值。

学术界通常会将JDS发表的论文作为衡量研究者学术水平和研究成果的重要指标。

二、《IEEE Transactions on Knowledge and Data Engineering》《IEEE Transactions on Knowledge and Data Engineering》（TKDE）是由IEEE Computer Society出版，并主要刊载与知识工程和数据工程相关的研究论文。

该期刊旨在推动知识与数据工程领域的研究与发展。

TKDE在数据科学研究中的重要性主要表现在以下几个方面：1. 丰富的研究内容：TKDE刊载的论文内容非常丰富，包括但不限于数据挖掘、数据管理、机器学习、人工智能等领域。

这使得TKDE成为了研究者们广泛关注的学术期刊之一。

2. 严格的审稿流程：TKDE对于稿件的审稿过程非常严谨，确保所发表的论文具有学术研究的可信度和可靠性。

从统计学习到社交网络--数据挖掘及知识发现国际会议KDD2013纪实

绍了微软新研发的大规模数据分析平台ＲＥＥＦ。如
今，传统的ＭａｐＲｅｄｕｃｅ不适合运行机器学习中的
互联网挖掘
推荐系统
３－２％
２．７％
ｌ７．１％
２５．７％
很多迭代算法已成为共识；ＡｐａｃｈｅＨａｄｏｏｐ项目
已变成了 “ 社交媒体、社区发现 ”。ＤＢＬＰ论文数据挖掘中几个重要的组成部分：大数据、产业统计分析。据库显示，２００５年的会议论文大多涉及分类、聚化、优化方法、
表１ＫＤＤ２Ｏ１３论文主题．提交比锄与接收率
之间插入了一个中间层ＹＡＲＮ，实现集群系统资源
的调度和管理。ＲＥＥＦ搭建在ＹＡＲＮ之上。用来提
２２
Ｎｅｗｓ资讯ＩＲｅｐｏｆ报道
供编写机器学习库所需要的更加抽象的语义。
第二个Ｋｅｙｎｏｔｅ是由大家热切期盼的斯坦福大学教授、Ｃｏｕ￣ｅｒａ网站联合创始人ＡｎｄｒｅｗＮｇ主讲。
提出的 “ 下一代Ｈａｄｏｏｐ ”在ＨＤＦＳ和ＭａｐＲｅｄｕｃｅ
概率方法
大数据
２．５％
２．４％
２４．５％
２９．４￣／ｏ
用户建模
总计
１．７％
１Ｏ０％

数据挖掘顶级期刊简介

顶级会议第一KDD 第二SIAM ICDM中国计算机学会推荐国际学术刊物(数据库、数据挖掘与内容检索)序号刊物简称刊物全称出版社网址1 TODS ACM Transactions on Database Systems ACM /tods/2 TOIS ACM Transactions on Information andSystems ACM /pubs/tois/3 TKDE IEEE Transactions on Knowledge and Data Engineering IEEE Computer Society /tkde/4 VLDBJ VLDB Journal S pringer-Verlag/dblp/db/journals/vldb/index.html二、B类序号刊物简称刊物全称出版社网址1 TKDD ACM Transactions on Knowledge Discovery from Data ACM/pubs/tkdd/2 AEI Advanced Engineering Informatics Elsevier/wps/find/journaldescription.cws_home/622240/3 DKE Data and Knowledge Engineering Elsevier/science/journal/0169023X4 DMKD Data Mining and Knowledge DiscoverySpringer/content/100254/5 EJIS European Journal of Information Systems The OR Society/ejis/6 GeoInformatica Springer /content/1573-7624/7 IPM Information Processing and Management Elsevier/locate/infoproman8 Information Sciences Elsevier /locate/issn/002002559 IS Information Systems Elsevier/information-systems/10 JASIST Journal of the American Society for Information Science and TechnologyAmerican Society for Information Science and Technology /Publications/JASIS/jasis.html11 JWS Journal of Web Semantics Elsevier /locate/inca/67132212 KIS Knowledge and Information Systems Springer /journal/1011513 TWEB ACM Transactions on the Web ACM /三、C类序号刊物简称刊物全称出版社网址1 DPD Distributed and Parallel Databases Springer/content/1573-7578/2 I&M Information and Management E lsevier /locate/im/3 IPL Information Processing Letters Elsevier /locate/ipl4 Information Retrieval Springer /issn/1386-45645 IJCIS International Journal of Cooperative Information Systems World Scientific/ijcis6 IJGIS International Journal of Geographical Information Science Taylor & Francis/journals/tf/13658816.html7 IJIS International Journal of Intelligent Systems Wiley/jpages/0884-8173/8 IJKM International Journal of Knowledge Management IGI/journals/details.asp?id=42889 IJSWIS International Journal on Semantic Web and Information Systems IGI/10 JCIS J ournal of Computer Information Systems IACIS/web/journal.htm11 JDM Journal of Database Management IGI-Global/journals/details.asp?id=19812 JGITM Journal of Global Information Technology Management Ivy League Publishing/bae/jgitm/13 JIIS Journal of Intelligent Information Systems Springer/content/1573-7675/14 JSIS Journal of Strategic Information Systems Elsevier/locate/jsis中国计算机学会推荐国际学术刊物(数据库、数据挖掘与内容检索)一、A类序号刊物简称刊物全称出版社网址1 TODS ACM Transactions on Database Systems ACM /tods/2 TOIS ACM Transactions on Information andSystems ACM /pubs/tois/3 TKDE IEEE Transactions on Knowledge and Data Engineering IEEE Computer Society /tkde/4 VLDBJ VLDB Journal S pringer-Verlag/dblp/db/journals/vldb/index.html二、B类序号刊物简称刊物全称出版社网址1 TKDD ACM Transactions on Knowledge Discovery from Data ACM/pubs/tkdd/2 AEI Advanced Engineering Informatics Elsevier/wps/find/journaldescription.cws_home/622240/3 DKE Data and Knowledge Engineering Elsevier/science/journal/0169023X4 DMKD Data Mining and Knowledge DiscoverySpringer/content/100254/5 EJIS European Journal of Information Systems The OR Society/ejis/6 GeoInformatica Springer /content/1573-7624/7 IPM Information Processing and Management Elsevier/locate/infoproman8 Information Sciences Elsevier /locate/issn/002002559 IS Information Systems Elsevier/information-systems/10 JASIST Journal of the American Society for Information Science and TechnologyAmerican Society for Information Science and Technology /Publications/JASIS/jasis.html11 JWS Journal of Web Semantics Elsevier /locate/inca/67132212 KIS Knowledge and Information Systems Springer /journal/1011513 TWEB ACM Transactions on the Web ACM /三、C类序号刊物简称刊物全称出版社网址1 DPD Distributed and Parallel Databases Springer/content/1573-7578/2 I&M Information and Management E lsevier /locate/im/3 IPL Information Processing Letters Elsevier /locate/ipl4 Information Retrieval Springer /issn/1386-45645 IJCIS International Journal of Cooperative Information Systems World Scientific/ijcis6 IJGIS International Journal of Geographical Information Science Taylor & Francis/journals/tf/13658816.html7 IJIS International Journal of Intelligent Systems Wiley/jpages/0884-8173/8 IJKM International Journal of Knowledge Management IGI/journals/details.asp?id=42889 IJSWIS International Journal on Semantic Web and Information Systems IGI/10 JCIS J ournal of Computer Information Systems IACIS/web/journal.htm11 JDM Journal of Database Management IGI-Global/journals/details.asp?id=19812 JGITM Journal of Global Information Technology Management Ivy League Publishing/bae/jgitm/13 JIIS Journal of Intelligent Information Systems Springer/content/1573-7675/14 JSIS Journal of Strategic Information Systems Elsevier/locate/jsis一、以下是一些数据挖掘领域专家牛人的网站，有很多精华，能开阔研究者的思路，在此共享：1.Rakesh Agrawal主页：/en-us/people/rakesha/ 数据挖掘领域唯一独有的关联规则研究的创始人，其主要的Apriori算法开启了这一伟大的领域。

论空间数据挖掘和知识发现_李德仁

论空间数据挖掘和知识发现李德仁1王树良1史文中2王新洲3(1武汉大学测绘遥感信息工程国家重点实验室,武汉市珞喻路129号,430079)(2香港理工大学土地测量与地理资讯学系,香港,九龙红石勘(3武汉大学科技部,武汉市珞珈山,430072)了将数据的最大价值挖掘出来,以取得最多的知识,1989年在美国底特律召开的第一届KDD(knowledge discovery from databases)国际学术会议上,又出现了一门称为从数据库中发现知识(即KDD)的新学科,从数据库中发现先前未知却有用的知识,为决策分析提供技术支持。

GPS、RS和GIS等技术的应用和发展,使空间数据的膨胀速度远远超出了常规的事务型数据,“数据爆炸但知识贫乏”的现象在空间数据中更为严重。

1994年在加拿大渥太华举行的GIS国际会议上,李德仁院士首次提出了从GIS数据库中发现知识———KDG(knowledge discovery from GIS)的概念。

他系统分析了空间知识发现的特点和方法,认为从GIS数据库中可以发现包括几何特征、空间关系和面向对象的多种知识,KDG能够把GIS有限的数据变成无限的知识,可以精练和更新GIS数据,使GIS成为智能化的信息系统,并第一次从GIS空间数据中发现了用于指导GIS空间分析的知识[1]。

1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据库中的数据被形象地喻为矿床,再次出现了崭新的数据挖掘(data mining,DM,又译为数据发掘、数据开采或数据采掘等)学科。

随着研究和应用的深入,人们对KDD和DM的理解越来越全面,相继又出现了知识提取(knowledge extraction)、信息发现(informationdiscovery)、信息收获(information harvesting)、数据考古(data archaeology)等含义相同或相似的名称。

具体名称虽然不同,但其本质是相同的,都是从数据库中提取事先未知却有用的知识。

机器学习_KDD Cup 1999 Data Data Set(知识发现和数据挖掘杯1999数据集)

Missing Values?
N/A
15346
Data Set Information: Please see task description. Relevant Papers: Salvatore J. Stolfo, Wei Fan, Wenke Lee, Andreas Prodromidis, and Philip K. Chan. Cost-based Modeling and Evaluation for Data Mining With Application to Fraud and Intrusion Detection: Results from the JAM Project. [Web Link]
中文关键词：
多变量,分类,知识发现和数据挖掘,UCI,
英文关键词：
Multivariate,Classification,KDD,UCI,
数据格式：
TEXT
数据用途：
This data set is used for classification.
数据详细介绍：
KDD Cup 1999 Data Data Set Abstract: This is the data set used for The Third International Knowledge Discovery and Data Mining Tools Competition, which was held in conjunction with KDD-99 Data Set Characteristics : Number of Instances : Number of Attribute s: 400000 0
数据预览：
点此下载完整数据集多变量Biblioteka 类知识发现和数据挖掘uci英文关键词

KDD-Cup(数据挖掘与知识发现竞赛) 介绍

n
n
The goal – to design models to support website personalization and to improve the profitability of the site by increasing customer response. Questions - When given a set of page views,
n
ROBOCUP
n
2
About ACM KDDCUP
n n
ACM KDD: Premiere Conference in knowledge discovery and data mining ACM KDDCUP:
n
Worldwide competition in conjunction with ACM KDD conferences. showcase the best methods for discovering higher-level knowledge from data. Helping to close the gap between research and industry Stimulating further KDD research and development
Year
97 98
99 24
2000 2005 2011 30 32 1000+
4
Submissions 16 21
Algorithms (up to 2000)
5
KDD Cup 97
8
KDDCUP 1998 Results
$70,000 $65,000 $60,000 $55,000 $50,000 $45,000 $40,000 $35,000 $30,000 $25,000 $20,000 $15,000 $10,000 $5,000 $100%

2014 sigkdd test of time award -回复

2014 sigkdd test of time award -回复什么是SIGKDD？SIGKDD 是国际数据挖掘和知识发现协会（The Association for Computing Machinery Special Interest Group on Knowledge Discovery and Data Mining）的缩写。

该协会成立于1995年，是一个致力于促进数据挖掘和知识发现相关研究和应用的学术组织。

SIGKDD 的标志性活动是每年举办的KDD（Knowledge Discovery and Data Mining）国际会议，会议上邀请行业的专家学者分享最新的科研成果和技术应用。

SIGKDD 还设立了“测试时间奖”（Test of Time Award），旨在回顾和表彰在数据挖掘和知识发现领域具有深远影响的经典研究成果。

该奖项由KDD 国际会议的组委会挑选，并在每年的会议上颁发。

2014年，SIGKDD的测试时间奖颁发给了一篇题为《乳腺癌语义分类的新方法》（A New Method for Breast Cancer Semantic Classification）的论文。

这篇论文由Marina Meilă和Jianbo Shi 于2000年发表在KDD 会议上。

本文提出了一种基于图论的方法，用于对乳腺癌病人的组织样本进行语义分类。

这项工作在当时引起了巨大轰动，并对乳腺癌研究和诊断领域产生了重要影响。

论文的作者Marina Meilă是一位来自华盛顿大学的教授，她在图论和机器学习方面有着丰富的研究经验。

与之合作的作者Jianbo Shi 则是康奈尔大学的计算机科学教授，他在计算机视觉和图像分析领域享有盛誉。

论文的核心创新在于将图论方法引入乳腺癌语义分类的任务中。

该方法首先将组织样本图像转换为图结构，其中图的节点表示样本的局部区域，边表示不同区域之间的关系。

然后，利用图的拓扑和边缘特征，通过图分割算法将图像分割为不同的区域。

国际数据挖掘与知识发现大会

由 ACM 数据挖掘及知识发现专委会负责协调筹评审。主会期间，除了学术研究论文，SIGKDD 还
办。会议内容涵盖数据挖掘的基础理论、算法和实设有面向工业和政府应用的专题研讨会以及工业应
际应用。SIGKDD 的发展历史可以追溯到 1989 年用博览的邀请报告会。此次大会的主题是“大数据
开始组织的一系列关于知识发现及数据挖掘的研讨挖掘”，邀请了相关领域的知名专家作大会主旨报
2013 年 8 月 11~14 日，第 19 届知识发现与数瑟鲁萨米 (Ramasamy Uthurusamy) 博士和芝加哥大
据挖掘大会 (ACM Conference on Knowledge Discov- 学的罗伯特·格洛斯曼 (Robert L. Grossman) 教授， ery and Data Mining, SIGKDD 2013 [1]) 在美国芝加哥程序委员会主席由来自德克萨斯奥斯丁大学的因德
论大数据，分别关注大数据分析框架和大数
据分析算法。
在大数据分析框架的研讨会中，来自
伯克利大学的论文提出结合中央处理器、图
形处理器以及全新的算法设计来提高大数
据挖掘能力。基于名为“BID”的大数据处
图2 SIGKDD 2013研究热点图
理引擎开发了用于矩阵计算的 BIDMat 工
社交网络分析依然是今年 SIGKDD 大会上最热生注册，他的愿望是给世界上的每个人提供高质量、
的话题，有 4 个直接相关的研讨会，15 篇口头报告免费的在线课程。在主题报告中，吴恩达介绍了
论文，20 多篇海报论文。总的来说，社交网络分析 Coursera 最新的在线授课平台，包括视频内容、互
的任务变得更加细化，其中 3 个最热的话题是：网动练习、实时反馈、自动改作业和小组改作业以及

AI会议的总结

AI会议的总结（by南大周志华）说明: 纯属个人看法, 仅供参考. tier-1的列得较全, tier-2的不太全, tier-3的很不全.同分的按字母序排列. 不很严谨地说, tier-1是可以令人羡慕的, tier-2是可以令人尊敬的,由于AI的相关会议非常多, 所以能列进tier-3的也是不错的tier-1:IJCAI (1+): International Joint Conference on Artificial Intelligence AAAI (1): National Conference on Artificial IntelligenceCOLT (1): Annual Conference on Computational Learning TheoryCVPR (1): IEEE International Conference on Computer Vision and Pattern RecognitionICCV (1): IEEE International Conference on Computer VisionICML (1): International Conference on Machine LearningNIPS (1): Annual Conference on Neural Information Processing SystemsACL (1-): Annual Meeting of the Association for Computational LinguisticsKR (1-): International Conference on Principles of Knowledge Representation and ReasoningSIGIR (1-): Annual International ACM SIGIR Conference on Research and Developm ent in Information RetrievalSIGKDD (1-): ACM SIGKDD International Conference on Knowledge Discovery and Data MiningUAI (1-): International Conference on Uncertainty in Artificial Intelligence*Impact factor (According to Citeseer 03):IJCAI ：1.82 (top 4.09 %)AAAI ：1.49 (top 9.17%)COLT：1.49 (top 9.25%)ICCV ：1.78 (top 4.75%)ICML ：2.12 (top 1.88%)NIPS ：1.06 (top 20.96%)ACL ：1.44 (top 10.07%)KR ：1.76 (top 4.99%)SIGIR ：1.10 (top 19.08%)Average：1.56 (top 8.02%)IJCAI (1+): AI最好的综合性会议, 1969年开始, 每两年开一次, 奇数年开. 因为AI 实在太大, 所以虽然每届基本上能录100多篇（现在已经到200多篇了），但分到每个领域就没几篇了，象achine learning、computer vision这么大的领域每次大概也就10篇左右, 所以难度很大. 不过从录用率上来看倒不太低,基本上20%左右, 因为内行人都会掂掂分量, 没希望的就别浪费reviewer的时间了. 最近中国大陆投往国际会议的文章象潮水一样, 而且因为国内很少有能自己把关的研究组, 所以很多会议都在complain说中国的低质量文章严重妨碍了PC的工作效率. 在这种情况下, 估计这几年国际会议的录用率都会降下去. 另外, 以前的IJCAI是没有poster的, 03年开始, 为了减少被误杀的好人, 增加了2页纸的poster.值得一提的是, IJCAI是由貌似一个公司的”IJCAI Inc.”主办的(当然实际上并不是公司, 实际上是个基金会), 每次会议上要发几个奖, 其中最重要的两个是IJCAI Research Excellence Award 和Computer & Thoughts Award, 前者是终身成就奖, 每次一个人, 基本上是AI的最高奖(有趣的是, 以AI为主业拿图灵奖的6位中, 有2位还没得到这个奖), 后者是奖给35岁以下的青年科学家, 每次一个人. 这两个奖的获奖演说是每次IJCAI的一个重头戏.另外, IJCAI 的PC member 相当于其他会议的area chair, 权力很大, 因为是由PC member 去找reviewer 来审, 而不象一般会议的PC member 其实就是reviewer. 为了制约这种权力, IJCAI的审稿程序是每篇文章分配2位PC member, primary PC member去找3位reviewer, second PC member 找一位.AAAI (1): 美国人工智能学会AAAI的年会. 是一个很好的会议, 但其档次不稳定, 可以给到1+, 也可以给到1-或者2+, 总的来说我给它”1″. 这是因为它的开法完全受IJCAI制约: 每年开, 但如果这一年的IJCAI在北美举行, 那么就停开. 所以, 偶数年里因为没有IJCAI, 它就是最好的AI综合性会议,但因为号召力毕竟比IJCAI要小一些, 特别是欧洲人捧AAAI场的比IJCAI少得多(其实亚洲人也是), 所以比IJCAI还是要稍弱一点, 基本上在1和1+之间; 在奇数年, 如果IJCAI不在北美, AAAI自然就变成了比IJCAI低一级的会议(1-或2+), 例如2005年既有IJCAI又有AAAI, 两个会议就进行了协调, 使得IJCAI的录用通知时间比AAAI的deadline早那么几天, 这样IJCAI落选的文章可以投往AAAI.在审稿时IJCAI 的PC chair也在一直催, 说大家一定要快, 因为AAAI 那边一直在担心IJCAI的录用通知出晚了AAAI就麻烦了.COLT (1): 这是计算学习理论最好的会议, ACM主办, 每年举行. 计算学习理论基本上可以看成理论计算机科学和机器学习的交叉, 所以这个会被一些人看成是理论计算机科学的会而不是AI的会. 我一个朋友用一句话对它进行了精彩的刻画: “一小群数学家在开会”. 因为COLT的领域比较小, 所以每年会议基本上都是那些人. 这里顺便提一件有趣的事, 因为最近国内搞的会议太多太滥, 而且很多会议都是LNCS/LNAI出论文集, LNCS/LNAI基本上已经被搞臭了, 但很不幸的是, LNCS/LNAI中有一些很好的会议, 例如COLT.CVPR (1): 计算机视觉和模式识别方面最好的会议之一, IEEE主办, 每年举行. 虽然题目上有计算机视觉, 但个人认为它的模式识别味道更重一些. 事实上它应该是模式识别最好的会议, 而在计算机视觉方面, 还有ICCV 与之相当. IEEE一直有个倾向, 要把会办成”盛会”, 历史上已经有些会被它从quality很好的会办成”盛会”了. CVPR搞不好也要走这条路. 这几年录的文章已经不少了. 最近负责CVPR会议的TC的chair发信说, 对这个community来说, 让好人被误杀比被坏人漏网更糟糕, 所以我们是不是要减少好人被误杀的机会啊? 所以我估计明年或者后年的CVPR就要扩招了.ICCV (1): 介绍CVPR的时候说过了, 计算机视觉方面最好的会之一. IEEE主办, 每年举行.ICML (1): 机器学习方面最好的会议之一. 现在是IMLS主办, 每年举行. 参见关于NIPS的介绍. NIPS (1): 神经计算方面最好的会议之一, NIPS主办, 每年举行. 值得注意的是, 这个会每年的举办地都是一样的, 以前是美国丹佛, 现在是加拿大温哥华; 而且它是年底开会, 会开完后第2年才出论文集,也就是说, NIPS’05的论文集是06年出. 会议的名字“Advances in Neural Information ProcessingSystems”, 所以, 与ICML\ECML这样的”标准的”机器学习会议不同, NIPS里有相当一部分神经科学的内容, 和机器学习有一定的距离. 但由于会议的主体内容是机器学习, 或者说与机器学习关系紧密, 所以不少人把NIPS看成是机器学习方面最好的会议之一. 这个会议基本上控制在Michael Jordan的徒子徒孙手中, 所以对Jordan系的人来说, 发NIPS并不是难事, 一些未必很强的工作也能发上去, 但对这个圈子之外的人来说, 想发一篇实在很难, 因为留给”外人”的口子很小. 所以对Jordan系以外的人来说, 发NIPS的难度比ICML更大. 换句话说, ICML比较开放, 小圈子的影响不象NIPS那么大, 所以北美和欧洲人都认, 而NIPS则有些人(特别是一些欧洲人, 包括一些大家)坚决不投稿. 这对会议本身当然并不是好事, 但因为Jordan系很强大, 所以它似乎也不太care. 最近IMLS(国际机器学习学会)改选理事, 有资格提名的人包括近三年在ICML\ECML\COLT发过文章的人, NIPS则被排除在外了. 无论如何, 这是一个非常好的会.ACL (1-): 计算语言学/自然语言处理方面最好的会议, ACL (Association of Computational Linguistics) 主办, 每年开.KR (1-): 知识表示和推理方面最好的会议之一, 实际上也是传统AI(即基于逻辑的AI) 最好的会议之一. KR Inc.主办, 现在是偶数年开.SIGIR (1-): 信息检索方面最好的会议, ACM主办, 每年开. 这个会现在小圈子气越来越重. 信息检索应该不算AI, 不过因为这里面用到机器学习越来越多, 最近几年甚至有点机器学习应用会议的味道了, 所以把它也列进来.SIGKDD (1-): 数据挖掘方面最好的会议, ACM主办, 每年开. 这个会议历史比较短, 毕竟, 与其他领域相比,数据挖掘还只是个小弟弟甚至小侄儿. 在几年前还很难把它列在tier-1里面, 一方面是名声远不及其他的top conference响亮, 另一方面是相对容易被录用. 但现在它被列在tier-1应该是毫无疑问的事情了.UAI (1-): 名字叫”人工智能中的不确定性”, 涉及表示\推理\学习等很多方面, AUAI (Association of UAI) 主办, 每年开.tier-2:AAMAS (2+): International Joint Conference on Autonomous Agents and Multiagent SystemsECCV (2+): European Conference on Computer VisionECML (2+): European Conference on Machine LearningICDM (2+): IEEE International Conference on Data MiningSDM (2+): SIAM International Conference on Data MiningICAPS (2): International Conference on Automated Planning and SchedulingICCBR (2): International Conference on Case-Based ReasoningCOLLING (2): International Conference on Computational LinguisticsECAI (2): European Conference on Artificial IntelligenceALT (2-): International Conference on Algorithmic Learning TheoryEMNLP (2-): Conference on Empirical Methods in Natural Language ProcessingILP (2-): International Conference on Inductive Logic ProgrammingPKDD (2-): European Conference on Principles and Practice of Knowledge Discovery in Databases*Impact factor (According to Citeseer 03):ECCV ：1.58 (top 7.20 %)ECML ：0.83 (top 30.63 %)ICDM ：0.35 (top 59.86 %)ICCBR ：0.72 (top 36.69 %)ECAI ：0.69 (top 38.49 %)ALT ：0.63 (top 42.91 %)ILP ：1.06 (top 20.80 %)PKDD ：0.50 (top 51.26 %)Average：0.80 (top 32.02%)AAMAS (2+): agent方面最好的会议. 但是现在agent已经是一个一般性的概念, 几乎所有AI有关的会议上都有这方面的内容, 所以AAMAS下降的趋势非常明显.ECCV (2+): 计算机视觉方面仅次于ICCV的会议, 因为这个领域发展很快, 有可能升级到1-去.ECML (2+): 机器学习方面仅次于ICML的会议, 欧洲人极力捧场, 一些人认为它已经是1-了. 我保守一点, 仍然把它放在2+. 因为机器学习发展很快, 这个会议的reputation上升非常明显.ICDM (2+): 数据挖掘方面仅次于SIGKDD的会议, 目前和SDM相当. 这个会只有5年历史, 上升速度之快非常惊人. 几年前ICDM还比不上PAKDD, 现在已经拉开很大距离了.SDM (2+): 数据挖掘方面仅次于SIGKDD的会议, 目前和ICDM相当. SIAM的底子很厚, 但在CS里面的影响比ACM和IEEE还是要小, SDM眼看着要被ICDM超过了, 但至少目前还是相当的.ICAPS (2): 人工智能规划方面最好的会议, 是由以前的国际和欧洲规划会议合并来的. 因为这个领域逐渐变冷清, 影响比以前已经小了.ICCBR (2): Case-Based Reasoning方面最好的会议. 因为领域不太大, 而且一直半冷不热, 所以总是停留在2上.COLLING (2): 计算语言学/自然语言处理方面仅次于ACL的会, 但与ACL的差距比ICCV-ECCV和ICML-ECML大得多.ECAI (2): 欧洲的人工智能综合型会议, 历史很久, 但因为有IJCAI/AAAI压着,很难往上升.ALT (2-): 有点象COLT的tier-2版, 但因为搞计算学习理论的人没多少, 做得好的数来数去就那么些group, 基本上到COLT去了, 所以ALT里面有不少并非计算学习理论的内容.EMNLP (2-): 计算语言学/自然语言处理方面一个不错的会. 有些人认为与COLLING相当, 但我觉得它还是要弱一点.ILP (2-): 归纳逻辑程序设计方面最好的会议. 但因为很多其他会议里都有ILP方面的内容, 所以它只能保住2-的位置了.PKDD (2-): 欧洲的数据挖掘会议, 目前在数据挖掘会议里面排第4. 欧洲人很想把它抬起来, 所以这些年一直和ECML一起捆绑着开, 希望能借ECML把它带起来.但因为ICDM和SDM, 这已经不太可能了. 所以今年的PKDD和ECML虽然还是一起开, 但已经独立审稿了(以前是可以同时投两个会, 作者可以声明优先被哪个会考虑, 如果ECML中不了还可以被 PKDD接受).tier-3:ACCV (3+): Asian Conference on Computer VisionDS (3+): International Conference on Discovery ScienceECIR (3+): European Conference on IR ResearchICTAI (3+): IEEE International Conference on Tools with Artificial IntelligencePAKDD (3+): Pacific-Asia Conference on Knowledge Discovery and Data MiningICANN (3+): International Conference on Artificial Neural NetworksAJCAI (3): Australian Joint Conference on Artificial IntelligenceCAI (3): Canadian Conference on Artificial IntelligenceCEC (3): IEEE Congress on Evolutionary ComputationFUZZ-IEEE (3): IEEE International Conference on Fuzzy SystemsGECCO (3): Genetic and Evolutionary Computation ConferenceICASSP (3): International Conference on Acoustics, Speech, and Signal ProcessingICIP (3): International Conference on Image ProcessingICPR (3): International Conference on Pattern RecognitionIEA/AIE (3): International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert SystemsIJCNN (3): International Joint Conference on Neural NetworksIJNLP (3): International Joint Conference on Natural Language ProcessingPRICAI (3): Pacific-Rim International Conference on Artificial Intelligence*Impact factor (According to Citeseer 03):ACCV ：0.42 (top 55.61%)ICTAI ：0.25 (top 69.86 %)PAKDD ：0.30(top 65.60 %)ICANN ：0.27 (top 67.73 %)AJCAI ：0.16 (top 79.44 %)CAI ：0.26 (top 68.87 %)ICIP ：0.50 (top 50.20 %)IEA/AIE ：0.09 (top 87.79 %)PRICAI ：0.19 (top 76.33 %)Average：0.27 (top 68.30%)ACCV (3+): 亚洲的计算机视觉会议, 在亚太级别的会议里算很好的了.DS (3+): 日本人发起的一个接近数据挖掘的会议.ECIR (3+): 欧洲的信息检索会议, 前几年还只是英国的信息检索会议.ICTAI (3+): IEEE最主要的人工智能会议, 偏应用, 是被IEEE办烂的一个典型. 以前的quality还是不错的, 但是办得越久声誉反倒越差了, 糟糕的是似乎还在继续下滑, 现在其实3+已经不太呆得住了.PAKDD (3+): 亚太数据挖掘会议, 目前在数据挖掘会议里排第5.ICANN (3+): 欧洲的神经网络会议, 从quality来说是神经网络会议中最好的, 但这个领域的人不重视会议,在该领域它的重要性不如IJCNN.AJCAI (3): 澳大利亚的综合型人工智能会议, 在国家/地区级AI会议中算不错的了.CAI (3): 加拿大的综合型人工智能会议, 在国家/地区级AI会议中算不错的了.CEC (3): 进化计算方面最重要的会议之一, 盛会型. IJCNN/CEC /FUZZ-IEEE这三个会议是计算智能或者说软计算方面最重要的会议, 它们经常一起开, 这时就叫WCCI (World Congress on Computational Intelligence). 但这个领域和CS其他分支不太一样, 倒是和其他学科相似, 只重视journal, 不重视会议, 所以录用率经常在85%左右, 所录文章既有quality非常高的论文, 也有入门新手的习作.FUZZ-IEEE (3): 模糊方面最重要的会议, 盛会型, 参见CEC的介绍.GECCO (3): 进化计算方面最重要的会议之一, 与CEC相当，盛会型.ICASSP (3): 语音方面最重要的会议之一, 这个领域的人也不很care会议.ICIP (3): 图像处理方面最著名的会议之一, 盛会型.ICPR (3): 模式识别方面最著名的会议之一, 盛会型.IEA/AIE (3): 人工智能应用会议. 一般的会议提名优秀论文的通常只有几篇文章, 被提名就已经是很高的荣誉了, 这个会很有趣, 每次都搞1、20篇的优秀论文提名, 专门搞几个session做被提名论文报告, 倒是很热闹.IJCNN (3): 神经网络方面最重要的会议, 盛会型, 参见CEC的介绍.IJNLP (3): 计算语言学/自然语言处理方面比较著名的一个会议.PRICAI (3): 亚太综合型人工智能会议, 虽然历史不算短了, 但因为比它好或者相当的综合型会议太多, 所以很难上升.列list只是为了帮助新人熟悉领域, 给出的评分或等级都是个人意见, 仅供参考. 特别要说明的是:1. tier-1 conference上的文章并不一定比tier-3的好, 只能说前者的平均水准更高.2. 研究工作的好坏不是以它发表在哪儿来决定的, 发表在高档次的地方只是为了让工作更容易被同行注意到. tier-3会议上发表1篇被引用10次的文章可能比在tier-1会议上发表10篇被引用0次的文章更有价值. 所以, 数top会议文章数并没有太大意义, 重要的是同行的评价和认可程度.3. 很多经典工作并不是发表在高档次的发表源上, 有不少经典工作甚至是发表在很低档的发表源上. 原因很多, 就不细说了.4. 会议毕竟是会议, 由于审稿时间紧, 错杀好人和漏过坏人的情况比比皆是, 更何况还要考虑到有不少刚开始做研究的学生在代老板审稿.5. 会议的reputation并不是一成不变的，新会议可能一开始没什么声誉，但过几年后就野鸡变凤凰，老会议可能原来声誉很好，但越来越往下滑.6. 只有计算机科学才重视会议论文, 其他学科并不把会议当回事. 但在计算机科学中也有不太重视会议的分支.7. Politics无所不在. 你老板是谁, 你在哪个研究组, 你在哪个单位, 这些简单的因素都可能造成决定性的影响. 换言之, 不同环境的人发表的难度是不一样的. 了解到这一点后, 你可能会对high-level发表源上来自low-level单位名不见经传作者的文章特别注意(例如如果<计算机学报>上发表了平顶山铁道电子信息科技学院的作者的文章,我一定会仔细读).8. 评价体系有巨大的影响. 不管是在哪儿谋生的学者, 都需要在一定程度上去迎合评价体系, 否则连生路都没有了, 还谈什么做研究. 以国内来说, 由于评价体系只重视journal, 有一些工作做得很出色的学者甚至从来不投会议. 另外, 经费也有巨大的制约作用. 国外很多好的研究组往往是重要会议都有文章. 但国内是不行的, 档次低一些的会议还可以投了只交注册费不开会, 档次高的会议不去做报告会有很大的负面影响, 所以只能投很少的会议. 这是在国内做CS研究最不利的地方. 我的一个猜想：人民币升值对国内CS研究会有不小的促进作用(当然, 人民币升值对整个中国来说利大于弊还是弊大于利很难说).。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

KDD可以追溯到从1989年开始组织的一系列关于知识发现及数据挖掘(KDD)的研讨会。

自1995年以来，KDD已经以大会的形式连续举办了17届，论文的投稿量和参会人数呈现出逐年增加的趋势。

2011年的KDD会议（即第17届KDD 年会）共收到提交的研究论文（Research paper）714篇和应用论文（Industrial and Government paper）73篇，参会人数也达到1070人。

下面我们将就会议的内容、历年论文投稿及接收情况以及设置的奖项情况进行综合介绍。

此外，由于第18届KDD年会将于2012年8月12日至16日在北京举办，我们还将简单介绍一下KDD’12[4]的有关情况。

2、会议内容自1995年召开第1届KDD年会以来，KDD的会议内容日趋丰富且变的相对稳定。

其核心内容是以论文报告和展版（poster）的形式进行数据挖掘同行之间的学术交流和成果展示。

KDD录用的论文以研究论文为主、辅以一定数量的应用论文，以及少量的系统演示论文。

依附于KDD年会的KDD CUP竞赛也是会议的一项重要内容。

此外，会议还包括特邀主旨报告（keynote presentations）、辅导报告（tutorials）、专题讨论（panels）、研讨会（workshops）以及工业实践及展览（Industrial practice expo track）等内容。

1.研究主题（Research Track）每年的KDD年会结束后不久，来年的会议组织者会发布论文征文通知。

征文通知中会列出论文的各种投稿要求，包括会议感兴趣的主题、评价标准以及格式等。

从KDD’12官方网站的征文通知[5]可以了解到，KDD’12感兴趣的研究类主题主要包括关联分析（association analysis）、分类与回归分析算法（classification and regression methods）、半监督式学习（semi-supervised learning）、聚类（clustering）、因式分解（factorization）、迁移学习和多任务学习（transfer and multi-task learning）、特征选择（feature selection）、社会网络（social networks）、图数据挖掘（mining of graph data）、时空数据分析（temporal and spatial data analysis）、可扩展性（scalability）、隐私保护（privacy）、安全性（security）、可视化（visualization）、文本分析（text analysis）、万维网挖掘（Web mining）、移动数据挖掘（mining mobile data）、推荐系统（recommender systems）、生物信息学（bioinformatics）、电子商务1注：本文的一个缩短版本（参见以下链接：/wangjy/CCCF_KDD.pdf）发表于《中国计算机学会通讯》2011年的第12期。

（e-commerce）、在线广告（online advertising）、异常检测（anomaly detection）、以及针对大数据的知识发现（knowledge discovery from big data）等。

论文的评价标准主要包括新颖性（novelty）、技术质量（technical quality）、影响力（potential impact）、论文表达的清晰度（clarity of writing）等指标。

会议期间，KDD研究论文报告按照主题会被分成了若干个分会（session），被录用论文的作者在相应的分会做报告。

以KDD 2011[6]为例，该年会的分会主题包括分类（Classification）、矩阵分解（Matrix factorization）、图分析（Graph analysis）、Web用户建模（Web user modeling）、用户建模（User modeling）、在线数据和数据流（Online data and streams）、文本挖掘（Text mining）、隐私保护（Privacy）、社会网络（Social networks）、理论（Theory）、频繁集（Frequent sets）、非监督式学习（Unsupervised learning）、图挖掘（Graph mining）、可扩展性（Scalability）和可预测建模（Predictive modeling）。

2.应用主题（Industrial and Government Track）应用主题类论文的发表和作者的与会报告是KDD年会的重要组成部分，也是KDD相对于很多其他会议的特色之一。

由于数据挖掘的广泛应用性，应用主题类论文受到数据挖掘研究人员和开发者的重视。

相对于很多其他会议，KDD应用主题类论文的征文启事和录取更为规范。

从KDD’12官方网站的征文通知[5]可以看出，该年会的企业及政府应用主题征求描述针对企业和政府部门数据挖掘解决方案的论文投稿，并特别欢迎某些在数据挖掘技术应用过程中能够促进某些实际问题的理解或提出新的挑战性研究问题的论文。

KDD应用主题类论文涉及的应用领域主要包括电子商务、医疗、国防、公共政策、财务、工程、环境、制造业、电信、政务等。

被KDD录用的应用主题类论文又被分为以下3大类：●对企业、政府或其他机构带来实际价值的数据挖掘系统●对企业、政府或其他用户（例如科学研究或医疗行业）带来显著价值的知识发现●有潜力带来价值的前沿应用和技术3.KDD CUP竞赛KDD CUP是ACM SIGKDD[1]组织的有关数据挖掘和知识发现领域的年度赛事。

作为KDD年会的重要组成部分，自1997年以来已经连续举办了15届，目前是数据挖掘领域最有影响力的赛事。

通常每年在KDD会议网站上会公布当年的KDD CUP主题及各个子任务、数据集、考核指标等。

全世界的数据挖掘参赛者在规定时间内提交解决方案和结果。

优胜者名单会在KDD CUP网站公布，并在会议期间颁奖。

纵观历年的KDD CUP赛事，我们不难发现其主题的多样性。

往届的KDD CUP任务涉及到面向利润（升力曲线）优化的直接营销、计算机网络入侵检测、在线零售网站点击流分析、分子生物活性和现场蛋白质预测、生物医学文档和基因角色分类、网络挖掘与用户日志分析、粒子物理学和同调蛋白质预测、互联网用户搜索查询分类、基于图像数据的肺栓塞检测、客户推荐、乳腺癌、客户关系预测、学生成绩评估、以及基于雅虎音乐数据集的音乐推荐等众多领域。

在往届的KDD CUP竞赛中，某些华人组成的参赛队伍也曾取得了不俗的成绩。

例如，KDDCUP 史上首次包揽了全部子项目冠军的团队就来自香港科大，其队员包括Dou Shen（沈抖）、Rong Pan、Jiantao Sun、Junfeng Pan、Kangheng Wu、Jie Yin、Qiang Yang（杨强）。

4.系统演示（Exhibit and Demo Track）KDD会议设有一个系统演示分会场，用于让数据挖掘研究人员或从业者以交互的方式向与会者展示他们所开发的数据挖掘软件系统（或组件）的设计理念、实现技巧以及功能等。

5.工业实践展（Industry Practice Expo Track）工业实践展是KDD从2011年开始新增加的一部分会议内容，主要由特邀报告和专题讨论组成。

其主要目的是召集一流的业界或政府部门的数据挖掘实践者和与会者共享他们的一些有关数据挖掘应用的体会和经验。

6.专题研讨会（Workshops）同其它会议类似，KDD也设有专题研讨会，其目的是就某些热门或前沿主题让数据挖掘研究人员有机会来交流新颖的研究想法。

KDD’11[6]共设了16个主题研讨会。

7.专题讨论会（panels）KDD专题讨论会是就数据挖掘领域的某个重要的话题邀请几个相关的知名专家阐述自己的观点，并通过与参会者的互动来对该话题开展深入的研讨。

KDD’11[6]的专题讨论主题为“来自数据挖掘竞赛的经验教训”（Lessons Learned from Contests in Data Mining）。

8.短期课程（tutorials）每年的KDD年会都会就几个数据挖掘主题邀请这些领域的知名专家细致地讲解与该主题相关的问题、研究背景、主要的解决方案等内容。

通常每个课程的时间是半天或一天。

9.特邀主题报告（keynote presentations）每年的KDD年会都会邀请在某些数据挖掘领域做出卓越成绩的专家学者做主题报告。

以KDD’11[6]为例，会议共邀请了4位特邀主题发言人，他们分别是：美国斯坦福大学电子工程系教授Stephen Boyd、Google公司研究主管Peter Norvig、美国加州大学圣克鲁兹分校分子生物工程系教授David Haussler以及加州大学洛杉矶分校计算机系教授Judea Pearl。

表1、2003-2011年期间KDD研究论文投稿及录取情况（注：自2007年以来论文不再区分长、短文，表中2007年以后的长、短文对应的分别是长报告和短报告）3、历年论文投稿及接收情况我们对2003年以来KDD 的研究类论文和应用类论文的投稿、录取率等进行了统计（注：数据来自历年KDD 会议的论文集）。

发现研究类论文的投稿量呈现逐年增加的趋势，而论文总的录取率（即包括长、短文所有被录取论文的录取率）相对稳定，基本在17%至19%左右徘徊。

具体的分析结果见表1。

相对于研究类论文，应用类论文的投稿量少且相对稳定，其录取率相对更高，基本在30%左右。