机器学习_Poker Hand Data Set(牌手数据集)

格式：pdf
大小：99.75 KB
文档页数：4

下载文档原格式

计算机视觉模型数据准备-常见计算机视觉数据集及格式

5 CIFAR-10、CIFAR-100数据集
cifar-100 数据集包含 100 小类，每小类包含600个图像，其中有500个训练图像和100个测试图像。与 c i f a r- 1 0 不同的是， 1 0 0 类被分组为20个大类，而每一个大类，又可以细分为子类，所以每个图像带有1个小类的“fine”标签和1个大类“coarse”标签。
最早的深度卷积网络LeNet便是针对MNIST 数据集的，而且当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程。
▲ MNIST数据集示例图片
常见计算机视觉数据集及格式
2 ImageNet数据集
ImageNet 数据集有1400多万幅图片，涵盖2万多个类别；其中有超过百万的图片有明确的类别标注和图像中物体位置的标注，具体信息及说明如下表：
4 PASCAL数据集
PA S C A L 是一个用于模式分析和统计建模的数据集，包括图像分类，目标检测，分割等任务，是由PASCAL VOC挑战赛衍生出来的数据集。PASCAL VOC2007之后的数据集包括以下20个类别。
1+X职业技能等级认证
1+X人工智能深度学习工程应用
计算机视觉模型应用
计算机视觉模型数据准备
常见计算机视觉数据集及格式
1 MNIST数据集
MNIST是机器学习入门的标准数据集，共10 个类别，由来自250 个不同人的0-9手写数字构成，测试集也是同样比例的手写数字数据。包含了60,000 张28x28的二值训练图像，10,000张 28x28的二值测试图像。

5.MNIST数据集简介

5.3：softmax回归模型简介
将等号右边的式子展开，可得到判定为第i类的概率：
因此，可以将输入值作为幂指数来进行求值运算，然后，再将这些结果值进行一定程度的正则化。
5.3：softmax回归模型简介
将softmax回归模型整个计算过程进行可视化，如图5-8所示。
5.3：softmax回归模型简介
对于输入的xs进行加权求和，再分别对其加上一个偏置项，最后再输入至softmax函数中，将上述内容的连线部分变为公式，可得出如图5-9所示的内容。
5.3：softmax回归模型简介
另外，还可将整个计算过程使用向量的方式来进行表示，即将元素相乘变为用矩阵乘法和向量相加。这样做既是一种有效的思考方式，也有助于提高计算效率，如图所示。
片。 t10k-labels-idx1-ubyte.gz: 测试集图片对应的数字标签。
1：数据的准备
➢ 通过Python源代码可以进行数据集的自动下载和安装，然后使用下列程序代码内容将之导入到项目里面，代码如下所示。
1：数据的准备
➢ 接下来继续通过代码的具体内容来分析MNIST内容，代码如下所示。
➢ MNIST数据集官方网站上下载以下四种数据文件作为训练集与测试集：
Train-images-idx3-ubyte.gz: 训练集图片 55000张训练图片和5000张验证图片。
Train-labels-idx1-ubyte.gz: 训练集图片对应的数字标签。 t10k-images-idx3-ubyte.gz: 测试集图片-10000张测试图
2：数据重构
数据集中的灰度图片是28*28像素图片，它们的尺寸是784，即训练数据集内的每张图片都是由一个784维度的向量来表示的，训练集输出的张量格式是[55000,784]。

机器学习_CardiotocographyDataSet（分娩心电图描记法数据集）

Cardiotocography Data Set(分娩心电图描记法数据集)

数据摘要： The dataset consists of measurements of fetal heart rate (FHR) and uterine contraction (UC) features on cardiotocograms classified by expert obstetricians.

中文关键词：分娩心电图描记法,多变量,分类,heart rate,

英文关键词： Cardiotocography,Multivariate,Classification,心率,

数据格式： TEXT

数据用途： This data is used for classification.

数据详细介绍： Cardiotocography Data Set Abstract: The dataset consists of measurements of fetal heart rate (FHR) and uterine contraction (UC) features on cardiotocograms classified by expert obstetricians.

Data Set Characteristics: Multivariate Number of Instances: 2126 Area: Life

Attribute Characteristics: Real Number of Attributes:

Date Donated

2010-09-0

Associated Tasks: Classification Missing Values? N/A Number of Web Hits: 5671

Source: Marques de Sá, J.P., jpmdesa '@' gmail.com, Biomedical Engineering Institute, Porto, Portugal. Bernardes, J., joaobern '@' med.up.pt, Faculty of Medicine, University of Porto, Portugal. Ayres de Campos, D., sisporto '@' med.up.pt, Faculty of Medicine, University of Porto, Portugal.

【机器学习实战】--Titanic数据集（2）--感知机

【机器学习实战】--Titanic数据集（2）--感知机1. 写在前⾯:本篇属于实战部分，更注重于算法在实际项⽬中的应⽤。

如需对感知机算法本⾝有进⼀步的了解，可参考以下链接，在本⼈学习的过程中，起到了很⼤的帮助：统计学习⽅法李航感知机原理⼩结 https:///pinard/p/6042320.html空间中任意⼀点到超平⾯距离的公式推导 https:///yanganling/p/8007050.html2. 数据集：数据集地址：https:///c/titanicTitanic数据集是Kaggle上参与⼈数最多的项⽬之⼀。

数据本⾝简单⼩巧，适合初学者上⼿，深⼊了解⽐较各个机器学习算法。

数据集包含11个变量：PassengerID、Pclass、Name、Sex、Age、SibSp、Parch、Ticket、Fare、Cabin、Embarked，通过这些数据来预测乘客在Titanic事故中是否幸存下来。

3. 算法简介：感知机属于分类模型，是⼀个古⽼⽽基础的模型，与⽀持向量机有⼀定程度的相似，同时也是神经⽹络的基础。

感知机属于线性模型，因此线性模型中常⽤的L1、L2正则化同样使⽤与感知机。

3.1 感知机模型：由于不同材料中对多个多维数据的表达不尽相同，这⾥参考《统计学习⽅法》中李航⽼师的写法：给定⼀个数据集：$T=\left \{ \left ( x_{1}, y_{1} \right ), \left ( x_{2}, y_{2} \right ), ..., \left ( x_{N}, y_{N} \right ) \right \}$，其中$x_{i}\in X\subseteq\bf{R^{n}}$，$y_{i} \in Y = \left \{+1, -1 \right \}$，$i = 1,2,...,N$。

这代表数据集共有 N 对实例，每个实例 $x_{i}$都是n维的。

从输⼊空间到输出空间的如下函数被称作感知机模型：$f(x) = \rm{sign} \left( w \cdot x + b \right) $，其中sign是符号函数：$sign(x)= \begin{cases} +1& {x\geq0}\\ -1& {x< 0} \end{cases}$3.2 感知机损失函数：⼀般情况下，损失函数的选取是所有实例的预测值$f(x_{i})$与实际值$y_{i}$的差。

机器学习_LungCancerDataSet（肺癌数据集）

机器学习_LungCancerDataSet（肺癌数据集）Lung Cancer Data Set(肺癌数据集)数据摘要：Lung cancer data; no attribute definitions中⽂关键词：机器学习,肺癌,分类,多变量,UCI,英⽂关键词：Machine Learning,Lung Cancer,Classification,MultiVarite,UCI,数据格式：TEXT数据⽤途：This data is used for classification.数据详细介绍：Lung Cancer Data SetAbstract: Lung cancer data; no attribute definitions.Source:Data was published in :Hong, Z.Q. and Yang, J.Y. "Optimal Discriminant Plane for a Small Number of Samples and Design Method of Classifier on the Plane",Pattern Recognition, Vol. 24, No. 4, pp. 317-324, 1991.Donor:Stefan Aeberhard, stefan '@' /doc/28ab437a1711cc7931b716c5.html .auData Set Information:This data was used by Hong and Young to illustrate the power of the optimal discriminant plane even in ill-posed settings. Applying the KNN method in the resulting plane gave 77% accuracy. However, these results are strongly biased (See Aeberhard's second ref. above, or email to stefan '@' /doc/28ab437a1711cc7931b716c5.html .au). Results obtained by Aeberhard et al. are :RDA : 62.5%, KNN 53.1%, Opt. Disc. Plane 59.4%The data described 3 types of pathological lung cancers. The Authors give no information on the individual variables nor on where the data was originally used.Notes:- In the original data 4 values for the fifth attribute were -1. These values have been changed to ? (unknown). (*)- In the original data 1 value for the 39 attribute was 4. This value has been changed to ? (unknown). (*)Attribute Information:Attribute 1 is the class label.All predictive attributes are nominal, taking on integer values 0-3Relevant Papers:Hong, Z.Q. and Yang, J.Y. "Optimal Discriminant Plane for a Small Number of Samples and Design Method of Classifier on the Plane", Pattern Recognition, Vol. 24, No. 4, pp. 317-324, 1991.[Web Link]Aeberhard, S., Coomans, D, De Vel, O. "Comparisons of Classification Methods in High Dimensional Settings", submitted to Technometrics.Aeberhard, S., Coomans, D, De Vel, O. "The Dangers of Bias in High Dimensional Settings", submitted to pattern Recognition.数据预览：点此下载完整数据集。

图像识别中的常用数据集介绍(二)

图像识别是计算机视觉领域中的一个重要研究方向，它旨在让计算机能够理解和识别图像中的物体、场景以及其他图像特征。

在图像识别的算法研究过程中，数据集的选择是至关重要的一步。

本文将介绍一些图像识别中常用的数据集，帮助读者理解和选择适合自己研究方向的数据。

一、CIFAR数据集CIFAR数据集是一个在机器学习领域广泛使用的图像数据集，包含了60,000张32×32大小的彩色图像，分为10个类别，每个类别有6,000张图片。

它是一个比较小但多样化的数据集，适合初学者进行图像分类任务的研究。

CIFAR数据集通常被用于测试卷积神经网络（CNN）的性能。

二、MNIST数据集MNIST数据集是一个经典的手写数字识别数据集，包含了60,000个训练样本和10,000个测试样本。

每个样本都是28×28大小的灰度图像，表示一个手写数字。

MNIST数据集是深度学习领域中最常用的数据集之一，被广泛应用于训练和评估卷积神经网络。

三、ImageNet数据集ImageNet数据集是一个庞大且复杂的图像数据集，拥有数百万张高分辨率图像，涵盖了超过10,000个类别。

ImageNet数据集的目标是让计算机能够在大规模图像数据上进行物体识别和分类。

因为其规模较大，ImageNet数据集通常被用来训练大型深度神经网络模型，如AlexNet、VGGNet和ResNet等。

四、PASCAL VOC数据集PASCAL VOC数据集是一个针对对象检测和图像分割任务的数据集，它包含了20个类别的物体和场景，在训练集、验证集和测试集上共有17,125张图像。

PASCAL VOC数据集被广泛应用于研究和评估目标检测和图像分割算法，在计算机视觉领域具有重要的影响力。

五、COCO数据集COCO数据集是一个非常大且复杂的图像数据集，用于对象检测、场景解析和图像分割等任务。

COCO数据集包含了超过200,000张图像，涵盖了80个类别的物体和场景。

17个机器学习的常用算法！

17个机器学习的常用算法！1. 监督式学习：在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。

在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。

监督式学习的常见应用场景如分类问题和回归问题。

常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back Propagation Neural Network）2. 非监督式学习：在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。

常见的应用场景包括关联规则的学习以及聚类等。

常见算法包括Apriori算法以及k-Means算法。

3. 半监督式学习：在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。

应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。

如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。

4. 强化学习：在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。

常见的应用场景包括动态系统以及机器人控制等。

常见算法包括Q-Learning以及时间差学习（Temporal difference learning）在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。

在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。

机器学习基石资源-215_handout

2 3 4
˜ N ·M ·d ˜ (N + M ) · d ˜ (N · M ) + d
Matrix Factorization
Linear Network Hypothesis
Fun Time
˜ ‘features’, how many variables need to For N users, M movies, and d be used to specify a linear network hypothesis h(x) = WT Vx? ˜ 1 N +M +d
‘Linear Network’ Hypothesis
x1 x2 ≈ y1
x=
x3 x4
VT : wni
(1)
W : wim
(2)
≈ y2 ≈ y3
=y
(xn = BinaryVectorEncoding(n), yn = [rn1 ? ? rn4 rn5 . . . rnM ]T )
• rename: VT for wni
—except for decision trees
• need: encoding (transform) from categorical to numerical
binary vector encoding: A = [1 0 0 0]T , B = [0 1 0 0]T , AB = [0 0 1 0]T , O = [0 0 0 1]T
• when wm ﬁxed, minimizing vn ?
Basic Matrix Factorization
Matrix Factorization
T T rnm ≈ wT m vn = vn wm ⇐⇒ R ≈ V W

聚类算法常用的数据集

聚类算法常用的数据集聚类算法常用的数据集一、前言聚类是一种无监督学习方法，它将数据集中的对象分成若干个组，使得每个组内的对象相似度较高而组间的相似度较低。

聚类算法常用于数据挖掘、图像处理、自然语言处理等领域。

在聚类算法中，数据集的选择对结果具有重要影响。

本文将介绍聚类算法常用的数据集，以供研究者和爱好者参考。

二、UCI机器学习库UCI机器学习库（University of California, Irvine Machine Learning Repository）是一个公开的机器学习数据集库，包含了各种各样的数据集，其中不乏适合于聚类算法研究使用的数据集。

1. Iris 数据集Iris 数据集是一个经典的三分类问题，由 Fisher 在 1936 年提出。

该数据集包含了 150 个样本，每个样本有四个特征：花萼长度、花萼宽度、花瓣长度和花瓣宽度。

这四个特征可以用来判断鸢尾花属于哪一种类型：山鸢尾（Iris setosa）、变色鸢尾（Iris versicolor）或维吉尼亚鸢尾（Iris virginica）。

2. Wine 数据集Wine 数据集包含了 178 个样本，每个样本有 13 个特征，其中包括了酒的化学成分。

该数据集是一个三分类问题，用于区分三种不同来源的意大利葡萄酒。

3. Breast Cancer Wisconsin 数据集Breast Cancer Wisconsin 数据集包含了 569 个样本，每个样本有 30 个特征，用于诊断乳腺癌。

该数据集是一个二分类问题，用于区分良性肿瘤和恶性肿瘤。

三、KDD CupKDD Cup 是一个数据挖掘竞赛活动，由 ACM SIGKDD（ACM Special Interest Group on Knowledge Discovery and Data Mining）主办。

自1997年开始举办以来已经举办了十多次。

在 KDD Cup 中，参赛者需要对给定的数据进行分析和挖掘，并提交结果进行评估。

奥运奖牌可以被预测吗？——基于可解释机器学习视角

专题探索奥运奖牌可以被预测吗？—基于可解释机器学习视角石慧敏，章东迎，章永辉（中国人民大学经济学院，北京 100872）摘　要: 基于1992—2021年夏季奥运会的分项目成绩大数据，使用随机森林模型评估不同项目金牌和奖牌的可预测性，发现各项目存在较大的差异：对奖牌而言，可预测性最强的是乒乓球、羽毛球和游泳，而最弱的是水球、现代五项和排球。

基于可解释机器学习方法挖掘社会经济因素对奥运奖牌的影响发现：①对同一个项目而言，女子项目的可预测准确性普遍高于男子项目；②代表队所在地区的人口规模、人均GDP、是否为主办国等因素对奖牌总数具有一定影响；③在特定项目上，代表队的传统优势（如中国的乒乓球、美国的田径等）对奖牌预测具有较大影响。

关键词: 奥运奖牌；机器学习；特征重要性；SHAP方法；Shapley值中图分类号: G80-05文献标志码：A文章编号：1000-5498（2024）04-0026-11DOI：10.16099/j.sus.2023.10.27.0002比赛结果的不确定性是竞技体育的魅力之一。

然而，一些代表队在某些特定项目上的强大实力保证了其较高的获胜概率，从而使这些项目的胜负具有较高的可预测性。

例如，在乒乓球男子团体项目上我国连续10次获得世界杯赛冠军，展现了我国在乒乓球项目上的强大实力。

不同体育竞赛项目的表现在多大程度上可以被预测？哪些社会经济因素会影响各代表队在奥运会各项目上的表现？对于不同代表队在奥运会上的表现，已有研究主要关注代表队整体层面的奖牌分布，而未讨论其在不同项目上的差异。

Bernard等[1]使用Logit模型分析奥运奖牌榜发现，一个奥运代表队所代表的国家或地区人口越多、人均国内生产总值越高、是该届奥运会的主办国，则该代表队获得的奥运奖牌数越多。

Schlembach等[2]利用随机森林模型预测了各代表队在奥运会上的表现，评估了不同特征变量对预测的贡献。

上述2篇文献关注的都是社会经济指标对一国或地区在奥运会上的总体表现，即金牌或奖牌总数，未探讨这些因素对不同项目影响的差异。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Poker Hand Data Set(牌手数据集)
数据摘要：
Purpose is to predict poker hands

中文关键词：
扑克手,游戏,多变量,分类,UCI,

英文关键词：
Poker Hand,Game,Multivariate,Classification,UCI,

数据格式：
TEXT

数据用途：
This data set is used for classification.

数据详细介绍：
Poker Hand Data Set

Abstract: Purpose is to predict poker hands
Data Set Characteristics: Multivariate Number of
Instances:
1025010 Area: Game
Attribute Characteristics: Categorical, Integer Number of Attributes: 11 Date
Donated
2007-01-01

Associated Tasks:
Classification Missing Values? No Number of Web Hits: 68966

Source:
Creators:
Robert Cattral (cattral '@' gmail.com)
Franz Oppacher (oppacher '@' scs.carleton.ca)
Carleton University, Department of Computer Science
Intelligent Systems Research Unit
1125 Colonel By Drive, Ottawa, Ontario, Canada, K1S5B6

Data Set Information:
Each record is an example of a hand consisting of five playing cards drawn from a standard
deck of 52. Each card is described using two attributes (suit and rank), for a total of 10
predictive attributes. There is one Class attribute that describes the "Poker Hand". The order of
cards is important, which is why there are 480 possible Royal Flush hands as compared to 4
(one for each suit - explained in [Web Link]).

Attribute Information:
1) S1 "Suit of card #1"
Ordinal (1-4) representing {Hearts, Spades, Diamonds, Clubs}

2) C1 "Rank of card #1"
Numerical (1-13) representing (Ace, 2, 3, ... , Queen, King)

3) S2 "Suit of card #2"
Ordinal (1-4) representing {Hearts, Spades, Diamonds, Clubs}

4) C2 "Rank of card #2"
Numerical (1-13) representing (Ace, 2, 3, ... , Queen, King)

5) S3 "Suit of card #3"
Ordinal (1-4) representing {Hearts, Spades, Diamonds, Clubs}
6) C3 "Rank of card #3"
Numerical (1-13) representing (Ace, 2, 3, ... , Queen, King)

7) S4 "Suit of card #4"
Ordinal (1-4) representing {Hearts, Spades, Diamonds, Clubs}

8) C4 "Rank of card #4"
Numerical (1-13) representing (Ace, 2, 3, ... , Queen, King)

9) S5 "Suit of card #5"
Ordinal (1-4) representing {Hearts, Spades, Diamonds, Clubs}

10) C5 "Rank of card 5"
Numerical (1-13) representing (Ace, 2, 3, ... , Queen, King)
11) CLASS "Poker Hand"
Ordinal (0-9)
0: Nothing in hand; not a recognized poker hand
1: One pair; one pair of equal ranks within five cards
2: Two pairs; two pairs of equal ranks within five cards
3: Three of a kind; three equal ranks within five cards
4: Straight; five cards, sequentially ranked with no gaps
5: Flush; five cards with the same suit
6: Full house; pair + different rank three of a kind
7: Four of a kind; four equal ranks within five cards
8: Straight flush; straight + flush
9: Royal flush; {Ace, King, Queen, Jack, Ten} + flush

Relevant Papers:
R. Cattral, F. Oppacher, D. Deugo. Evolutionary Data Mining with Automatic Rule
Generalization. Recent Advances in Computers, Computing and Communications, pp.296-300,
WSEAS Press, 2002.
Note: This was a slightly different dataset that had more classes, and was considerably more
difficult.

数据预览：
点此下载完整数据集

m u s h r o o m 数据集机器学习之逻辑回归

页数:6
机器学习_Wine Data Set(酒数据集)

页数:4
机器学习_boston dataset(波士顿数据集)

页数:5
乌云数据集(cloud dataset)_机器学习_科研数据集

页数:3
机器学习_Lung Cancer Data Set(肺癌数据集)

页数:4
机器学习_Trains Data Set(火车数据集)

页数:4
机器学习_Protein Data Data Set(蛋白质数据数据集)

页数:4
机器学习_Automobile Data Set(汽车数据集)

页数:9
机器学习_BCPreddataset(BCPred数据集).

页数:3
机器学习_Baseball Team Dataset(棒球队数据集)

页数:5