数据表里的机器学习
- 格式:doc
- 大小:1.33 MB
- 文档页数:5
Excel数据挖掘和机器学习实战第一章:Excel数据分析基础Excel是一款功能强大的电子表格软件,广泛应用于数据分析领域。
在进行数据挖掘和机器学习之前,我们首先需要了解Excel的基础知识和常用功能。
1. Excel基本操作:包括创建、保存和打开Excel文件,以及对单元格、行列进行操作等。
熟练掌握这些操作可以提高工作效率。
2. 数据导入和导出:Excel支持多种数据格式的导入和导出,如CSV、文本文件、数据库等。
对于数据分析任务,我们通常需要将数据从其他来源导入Excel进行处理。
3. 数据清洗和预处理:在进行数据挖掘和机器学习之前,我们需要对数据进行清洗和预处理,包括去除重复值、处理缺失值、处理异常值等。
Excel提供了丰富的函数和工具,可以帮助我们完成这些任务。
第二章:Excel数据挖掘技术数据挖掘是通过分析大量数据,从中提取有用的信息和模式的过程。
在Excel中,我们可以运用一些数据挖掘技术来探索数据背后隐藏的规律。
1. 数据透视表:数据透视表是Excel中常用的数据分析工具,它可以将大量数据快速、灵活地进行汇总和分析。
通过数据透视表,我们可以对数据进行多维度的分析,发现其中的规律和趋势。
2. 条件格式化:条件格式化是Excel中一个强大的功能,可以根据设定的条件对单元格进行自动的格式设置。
通过使用条件格式化,我们可以将数据中的异常值或者特定的模式标记出来,便于进一步分析和处理。
3. 排序和筛选:Excel提供了灵活的排序和筛选功能,可以帮助我们对数据进行快速排序和筛选。
通过排序和筛选,我们可以找到数据中的最大值、最小值、前N个值等,进一步了解数据的特征。
第三章:Excel机器学习应用实例机器学习是一种通过让机器从数据中学习和改进的方法,常用于预测、分类、聚类等任务。
在Excel中,我们可以应用一些简单的机器学习算法来解决实际问题。
1. 线性回归:线性回归是一种常用的机器学习算法,用于建立变量之间的关系模型。
金融数据分析中的机器学习模型训练方法随着金融行业的发展,大量的金融数据被生成和收集,这些数据蕴含着宝贵的信息和模式。
然而,由于金融数据的复杂性和海量性,传统的数据分析方法变得不再有效。
为了更准确地分析和预测金融市场的变化,金融业开始广泛采用机器学习模型。
本文将重点探讨金融数据分析中的机器学习模型训练方法。
一、数据预处理在进行机器学习模型的训练之前,数据预处理是一个必不可少的步骤。
金融数据通常存在着噪声、缺失值和异常值等问题,这些问题会影响模型的准确性和稳定性。
因此,数据预处理的主要目标是清洗数据、处理缺失值、去除异常值等。
在金融数据分析中,常用的数据预处理方法包括数据清洗、数据插补、数据平滑和离群值检测等。
二、特征选择特征选择是指从原始数据中选择最相关的特征,以提高机器学习模型的性能和效果。
在金融数据分析中,通常会遇到大量的特征,而其中许多特征可能是冗余的或无关的。
选择合适的特征可以降低模型的复杂度,提高模型的泛化能力。
常用的特征选择方法包括相关系数分析、信息熵、主成分分析等。
三、模型选择金融数据分析中常用的机器学习模型包括回归模型、分类模型和聚类模型等。
选择适合的机器学习模型是关键步骤之一,它可以根据具体的问题来确定。
例如,对于金融市场预测问题,可以选择支持向量机、随机森林或神经网络等模型。
不同的模型有着不同的特点和适用范围,需要根据实际情况进行选择。
四、模型训练和调优在确定了适合的机器学习模型之后,需要对模型进行训练和调优。
模型训练的目标是通过学习数据集,建立一个可以预测未知数据的模型。
为了提高模型的性能,可以采用交叉验证、调参和集成学习等技术。
交叉验证可以评估模型的泛化能力,避免过拟合或欠拟合的问题。
调参可以选择最优的参数组合,提高模型的准确性和稳定性。
集成学习可以通过结合多个模型的预测结果来提高整体的预测能力。
五、模型评估和应用在完成模型训练和调优之后,需要对模型进行评估和应用。
模型评估的目标是衡量模型的性能和准确性。
大数据分析中的机器学习方法详解在大数据时代,大数据分析作为一项重要的技术,已经成为许多企业和组织决策过程中的关键工具。
而机器学习作为大数据分析的重要组成部分,其在实际应用中经常被使用。
本文将详细介绍几种常见的机器学习方法,并探讨其在大数据分析中的应用。
1. 监督学习监督学习是机器学习中最常见的方法之一。
它的基本思想是通过训练集中的有标签样本来建立一个预测模型,然后利用该模型对未知样本进行预测。
在大数据分析中,监督学习常被用于分类和回归问题。
分类问题是将数据集中的样本分为不同的类别。
常见的监督学习分类算法有决策树、随机森林、支持向量机等。
决策树通过构建一个树状结构来进行分类,每个内部节点代表一个特征,每个叶节点代表一个类别。
随机森林是一种集成学习算法,它通过组合多个决策树来提高分类准确性。
而支持向量机则是一种通过在样本空间中找到最佳超平面来进行分类的算法。
回归问题是用于预测一个连续值。
例如,通过已知的特征预测未来的销售额。
常见的监督学习回归算法有线性回归、决策树回归、支持向量回归等。
线性回归通过拟合线性模型来进行预测,决策树回归则通过构建决策树来预测连续值。
支持向量回归与支持向量机类似,但用于回归问题。
2. 无监督学习与监督学习不同,无监督学习不需要有标签的训练集,它通过发现数据中的模式和结构来对数据进行分类和聚类。
在大数据分析中,无监督学习常常用于数据的探索性分析和降维。
聚类是无监督学习的重要应用之一,它将样本划分为多个类别,使得同一类别内的样本相似度较高,不同类别间的相似度较低。
常见的聚类算法有K-means、层次聚类、DBSCAN 等。
K-means是一种基于距离的聚类算法,通过迭代调整聚类中心来实现最优结果。
层次聚类将样本逐步合并或划分为类别,并形成树状结构。
DBSCAN则通过密度可达性来进行聚类。
降维是将高维数据映射到低维空间的过程。
在大数据分析中,降维可以帮助减小数据集的维度,提高算法性能和可解释性。
数据处理中的机器学习和深度学习方法介绍在当今信息爆炸的时代,我们面临着大量的数据。
如何从这些海量数据中提取有用的信息并做出有效的决策成为了一个亟待解决的问题。
在这个过程中,机器学习和深度学习方法应运而生,为数据处理和决策提供了强有力的工具和方法。
一、机器学习方法机器学习是一种通过计算机算法自动从数据中学习并做出预测或决策的方法。
它通过分析已有的数据,找出其中的规律和模式,并利用这些规律和模式来预测未知数据的结果。
在机器学习中,通常需要定义一个适当的模型来表示数据的关系,并通过训练来调整模型的参数。
常见的机器学习方法包括监督学习、无监督学习和强化学习。
1. 监督学习监督学习是一种通过已有数据的输入和输出来训练模型,并用于预测未知数据输出的方法。
在监督学习中,我们通常会将已有数据集分为训练集和测试集,通过训练集来训练模型,然后通过测试集来评估模型的性能。
常见的监督学习算法包括线性回归、逻辑回归、支持向量机等。
2. 无监督学习无监督学习是一种不利用已有数据的输出信息,而是通过分析数据的内部结构和模式来学习的方法。
在无监督学习中,我们通常会尝试找出数据中的聚类、关联规则或异常点等特征。
常见的无监督学习算法包括K-means聚类、主成分分析和关联规则挖掘等。
3. 强化学习强化学习是一种通过试错和反馈来学习和优化策略的方法。
在强化学习中,计算机通过与环境不断交互,尝试不同的动作,通过环境的奖励和惩罚来调整策略以取得最大的累积奖励。
强化学习应用广泛,包括在游戏、机器人控制和股票交易等领域。
二、深度学习方法深度学习是机器学习的一个分支,通过模拟人脑神经系统的结构和功能来进行学习和决策。
与传统的机器学习方法相比,深度学习方法具有更强大的表达能力和学习能力,可以处理更复杂的数据和问题。
深度学习的主要特点是通过多个隐藏层进行特征抽取和表示学习。
深度学习模型通常由输入层、隐藏层和输出层组成,每一层都包括多个神经元节点。
数据库管理中的机器学习应用有哪些在当今数字化时代,数据成为了企业和组织的重要资产,而数据库管理则是确保这些资产安全、高效和有价值的关键。
随着机器学习技术的迅速发展,其在数据库管理领域的应用也日益广泛,为数据库的优化、性能提升和智能化管理带来了新的机遇。
一、数据分类与聚类在数据库中,常常需要对大量的数据进行分类和聚类,以便更好地理解和管理数据。
机器学习算法可以自动地从数据中发现模式和规律,将相似的数据归为一类。
例如,KMeans 聚类算法可以将客户数据根据消费行为、偏好等特征分成不同的群组,从而帮助企业进行精准营销和个性化推荐。
决策树算法则可以用于构建分类模型,对数据进行准确的分类,如判断一个贷款申请是批准还是拒绝。
二、异常检测数据库中的异常数据可能意味着数据错误、欺诈行为或者系统故障等问题。
机器学习中的异常检测算法能够识别出与正常数据模式不一致的数据点。
例如,基于密度的局部异常因子(LOF)算法可以检测出数据库中那些在数据密度上明显不同于周围数据的异常值。
通过及时发现异常数据,数据库管理员可以采取措施进行纠正或进一步调查,从而保障数据的质量和安全性。
三、预测与趋势分析利用机器学习进行预测和趋势分析对于数据库管理至关重要。
例如,通过时间序列预测算法,如 ARIMA(自回归积分滑动平均模型),可以根据历史数据预测数据库的负载、存储空间需求等,帮助管理员提前做好资源规划和扩展准备。
回归分析算法则可以用于分析数据库性能指标与各种因素之间的关系,从而优化数据库的配置和参数设置。
四、数据压缩与降维随着数据量的不断增长,数据压缩和降维成为了提高数据库存储和处理效率的重要手段。
机器学习中的主成分分析(PCA)等降维算法可以将高维数据映射到低维空间,同时保留数据的主要特征。
这样不仅可以减少数据存储的空间,还能提高数据处理的速度,使得数据库的操作更加高效。
五、自动化索引优化索引是提高数据库查询性能的关键,但选择合适的索引并非易事。
使用MySQL进行数据分析与机器学习简介在当今大数据时代,数据分析和机器学习成为了许多企业和研究机构不可或缺的工具。
而MySQL作为一个广泛应用于企业和个人的关系型数据库管理系统,不仅可以存储和管理海量的数据,还可以用于数据分析和机器学习任务。
本文将介绍如何使用MySQL进行数据分析与机器学习,包括数据预处理、特征工程、模型训练和评估等方面的内容。
一、数据预处理在进行数据分析和机器学习之前,首先需要对原始数据进行预处理。
数据预处理主要包括数据清洗、数据集成、数据变换和数据规约等步骤。
1. 数据清洗数据清洗是指对原始数据进行去除重复值、处理缺失值、处理异常值等操作,以保证数据的准确性和完整性。
在MySQL中,可以使用SQL语句进行数据清洗。
例如,使用DELETE语句删除重复的数据行,使用UPDATE语句填充缺失值,使用SELECT语句过滤异常值等。
2. 数据集成数据集成是指将多个数据源中的数据进行整合,生成一个一致的数据集。
在MySQL中,可以使用JOIN操作将两个或多个数据表进行关联,生成一个新的表。
通过数据集成,可以更好地利用多个数据源中的信息,提高数据分析和机器学习的效果。
3. 数据变换数据变换是指将原始数据转换为适合数据分析和机器学习的形式。
在MySQL 中,可以使用SQL函数和表达式进行数据变换。
例如,使用CASE语句将离散型的数据转换为数值型的数据,使用GROUP BY语句将数据按照某个属性进行分组等。
4. 数据规约数据规约是指将数据压缩为更小的表示形式,以减少数据存储和计算的开销。
在MySQL中,可以使用聚合函数和统计函数进行数据规约。
例如,使用SUM函数计算某个属性的总和,使用COUNT函数计算某个属性的个数等。
二、特征工程特征工程是指从原始数据中提取有效的特征,以供机器学习模型使用。
良好的特征工程可以提高模型的精度和效果。
1. 特征选择特征选择是指从原始数据中选择对目标变量有重要影响的特征。
数据分析中的机器学习应用随着时代的不断进步和技术的不断发展,数据分析已成为当今社会最热门和最有前景的行业之一。
在此背景下,机器学习技术的应用也成为了数据分析领域中必不可少的一部分。
本文将详细介绍机器学习技术在数据分析中的应用。
一、机器学习技术的概念和特点机器学习是一种基于人工智能的技术,它通过对大量的数据进行分析和学习,使得计算机具备自我学习、自我优化和自我适应的能力。
相对于传统的数据分析方法,机器学习的特点在于其具有极高的准确性和高效性,同时也避免了大量的人工干预和误判的可能性。
机器学习的应用非常广泛,包括自然语言处理、图像识别、推荐系统等多个领域。
二、机器学习在数据分析中的应用1.数据预处理数据预处理是机器学习中极其重要的一环。
通过数据预处理,可以将原始数据中的噪声、错误等无用信息筛选掉,从而提升模型的精度和可靠性。
在数据预处理中,机器学习算法可以通过数据清洗、数据集成、数据转换、数据规约等方法来完成数据的预处理。
2.分类和回归问题分类和回归问题是机器学习中使用最为广泛的一类问题。
分类问题是指将数据集中的数据划分为不同的类别,如将图像识别出某物品或将客户分为不同级别的类别中。
回归问题则是指基于已有的数据进行预测,如房价预测、销售额预测等。
在分类和回归问题中,机器学习算法可以通过决策树、神经网络、支持向量机等方法进行分析和预测。
3.聚类问题聚类问题是指将数据集中的数据划分为多个不同的组群,从而使得同组内的数据更加相似而不同组的数据则非常不同。
在聚类问题中,机器学习算法可以通过K-Means、层次聚类等方法,将数据集按照不同的标准进行分组。
4.异常检测异常检测是机器学习应用中一个重要的领域。
它可以通过机器学习算法来找出异常的信息,以及异常数据,这种数据对于预测和过滤都非常关键。
在异常检测中,机器学习算法可以通过聚类、统计分析和规则挖掘等方法进行异常检测。
三、机器学习的优缺点尽管机器学习在数据分析领域中具有很多优点,比如高效、精确等,但同时也存在一些缺点。
大数据分析中的机器学习和深度学习一、导言随着互联网技术的发展,数据存储和处理技术越来越先进,数据分析已成为了一个热门领域。
而在数据分析中,机器学习和深度学习成为了数据分析的重要工具。
本文将介绍机器学习和深度学习在大数据分析中的应用。
二、机器学习机器学习是指通过计算机程序对一定类型的任务进行自动学习的一种方法。
机器学习可以分为监督学习、非监督学习和半监督学习。
在大数据分析中,机器学习的应用非常广泛,其中最典型的应用是数据分类和预测。
例如,在金融行业中,机器学习可以用来进行信用评估和欺诈检测等任务;在医疗行业中,机器学习可以用来预测疾病的发展趋势和治疗效果等。
另外,机器学习也常常用于图像识别和语音识别等领域。
三、深度学习深度学习是机器学习的一种进阶形式,是指使用多层神经网络对数据进行学习和处理。
深度学习可以解决传统机器学习中无法解决的复杂问题,如图像和语音识别等。
深度学习通过多层神经元的模型,将输入的数据逐层转化为更加高层次的特征表示,最终输出分类或者预测结果。
在大数据分析中,深度学习被广泛应用于自然语言处理、计算机视觉和语音识别等领域。
例如,在自然语言处理中,深度学习可以用于分析文本内容、提取关键词等任务,并且可以根据这些任务的结果进行一些衍生的分析。
在计算机视觉中,深度学习可以用于图像识别、目标检测等任务。
在语音识别中,深度学习可以用于分析声音特征,进行声音识别和语音合成等任务。
四、机器学习和深度学习的应用案例1. 金融风控在金融领域中,机器学习和深度学习具有广泛的应用。
Goldman Sachs使用机器学习技术进行了高频交易,使其能够在低成本和较少的人员投入的情况下高效完成交易。
此外,在信用评估和欺诈检测等任务中,机器学习和深度学习也获得了广泛的应用。
2. 医疗诊断机器学习和深度学习在医疗诊断中的应用也越来越广泛。
GoogleDeepMind通过使用深度学习算法开发了深度学习技术,可以用于癌症筛查和疾病预测等任务。
数据科学中的机器学习算法详解在数据科学领域中,机器学习算法是一种重要的工具,它们能够从数据中学习并自动改进,以便对未知数据进行准确的预测和决策。
本文将详细介绍几种在数据科学中常用的机器学习算法。
一、线性回归算法1. 原理简介线性回归是一种用于建立自变量和因变量之间线性关系的机器学习算法。
其原理基于最小二乘法,通过拟合一条直线来描述自变量和因变量之间的关系。
2. 算法流程(此处省略具体算法流程,以免增加字数)3. 应用场景线性回归广泛应用于数据科学领域,例如房价预测、销售量预测等。
二、决策树算法1. 原理简介决策树是一种用于分类和回归的机器学习算法。
它通过将数据集拆分成多个子集,以及使用特定的决策条件来构建一个树形模型。
2. 算法流程(此处省略具体算法流程,以免增加字数)决策树常用于数据分类和特征选择等问题。
例如,可以使用决策树算法来预测股票市场走势、电影类型等。
三、支持向量机算法1. 原理简介支持向量机是一种用于分类和回归的机器学习算法。
其原理基于在高维空间中找到一个最优的超平面,以最大化分类的边界。
2. 算法流程(此处省略具体算法流程,以免增加字数)3. 应用场景支持向量机广泛应用于文本分类、图像识别等领域。
例如,可以使用支持向量机算法来识别垃圾邮件、手写数字等。
四、朴素贝叶斯算法1. 原理简介朴素贝叶斯是一种基于概率的分类算法。
它假设输入变量之间相互独立,然后使用贝叶斯定理来计算每个分类的概率。
2. 算法流程(此处省略具体算法流程,以免增加字数)朴素贝叶斯算法常用于文本分类、垃圾邮件过滤等问题。
例如,可以使用朴素贝叶斯算法来判断一封邮件是否为垃圾邮件。
五、聚类算法1. 原理简介聚类是一种无监督学习算法,它通过将数据集中具有相似特征的数据分组到一起,来发现数据的内部结构。
2. 算法流程(此处省略具体算法流程,以免增加字数)3. 应用场景聚类算法常用于市场细分、社交网络分析等领域。
例如,可以使用聚类算法将用户分组到具有相似行为特征的群体中。
如何使用MySQL进行数据分析和机器学习概述数据分析和机器学习已经成为当今信息时代的热门话题。
MySQL作为一种广泛使用的关系型数据库管理系统,具有强大的数据存储和查询功能。
在本文中,将介绍如何使用MySQL进行数据分析和机器学习。
一、MySQL的基础知识在使用MySQL进行数据分析和机器学习之前,首先需要了解一些基本的MySQL知识。
MySQL使用SQL(结构化查询语言)作为其查询语言。
以下是一些常用的MySQL关键字和语法:1. SELECT:用于从数据库中查询数据。
2. FROM:用于指定数据库表的名称。
3. WHERE:用于指定查询的条件。
4. GROUP BY:用于将查询的结果按照指定的字段进行分组。
5. JOIN:用于将多个表进行连接。
6. ORDER BY:用于按照指定的字段对查询结果进行排序。
7. INSERT INTO:用于向数据库中插入数据。
8. UPDATE:用于更新数据库中的数据。
9. DELETE FROM:用于从数据库中删除数据。
二、数据分析MySQL提供了丰富的功能来支持数据分析。
下面介绍几种常见的数据分析技术:1. 数据聚合:使用GROUP BY语句可以将数据库中的数据按照指定的字段进行分组,并计算每个组的统计量。
例如,可以使用下面的SQL语句计算每个城市的销售总额:```SELECT city, SUM(sales) FROM sales_table GROUP BY city;```2. 数据透视表:使用GROUP BY与聚合函数的组合,可以生成数据透视表。
数据透视表提供了一种快速分析数据的方法,可以在表格中查看多个维度和度量的交叉汇总结果。
例如,可以使用下面的SQL语句生成一个按照城市和产品分类统计销售数量的数据透视表:```SELECT city, category, SUM(quantity) FROM sales_table GROUP BY city, category;```3. 数据窗口函数:MySQL还支持窗口函数,可以在查询中进行复杂的计算操作。
数据表里的机器学习
作者:陈凯
来源:《中国信息技术教育》2019年第16期
说起机器学习,不少人头脑中浮现出的画面,要么是繁杂的程序代码,要么是难懂的数学公式。
但有些机器学习算法核心原理并不复杂,用几个数据表就能解释清楚,本文利用K近邻算法的思路,在数据表中实现分类功能,涉及到的需求和解决方法比较简单,可以作为人工智能学习入门阶段的活动资料,也可以方便地加以拓展,用某一种程序语言代码来使得分类更自动化。
即便是高度人工化的城市环境中,也有不少野生鸟类栖息繁衍。
在城市校园中,可以观察到的野鸟种类远不只是麻雀一种,但往往叫不出它们的名字,假如學校的观鸟社团曾经对各种鸟的行为特征进行过记录,那么后来者就可以利用这些记录,和自己所观察到的鸟的行为特征进行对比,从而猜测出鸟的种类。
那么,机器(计算机)是如何模仿这种特征比对和猜测行为的呢?为简单起见,右表仅列举了野鸟的一种行为特征,即观察者所注意到的不同种类鸟出现在不同生境的概率,这里象征性地列举了四种野生鸟类与三种生境相对应的情况。
对于某一种鸟,三种不同生境的出现概率值加起来是1,这是为了使得不同种类鸟的数据之间具有可比性而做的归一化的处理。
如果将某种鸟出现在三种不同生境的概率画到坐标轴上,可以得到一幅三维的散点图(本文使用了hrrps:///eneral/3dgraph/提供的绘图工且),如图1所示。
其中1、2、3、4四个点分别代表了白鹊钨、棕背伯劳、八哥、棕头鸦雀四种不同的鸟的特征所在位置。
上面的例子中,每种鸟的行为特征都是固定的,比如说,棕头鸦雀喜欢密集的灌木丛而很少来到开阔的草地上,这个特征并不会轻易改变。
但有时情况就复杂很多了,比如数字4有不同的写法,可以是4这种样子,也可以是4这种样子,不同的人书写的“4”,模样都是不同的。
也就是说,如果将数字“4”的特征标注在坐标轴上,那可能会有好多个坐标点,把不同坐标点的值取平均数那可是没啥道理的。
这时候,如果有人写下某个需要识别的数字符号,计算机对这个数字符号的特征在坐标轴上的位置进行比对,就只好和很多个对象做比较。
比如,坐标轴上可能有三个不同的数字“4”的坐标点和三个不同的数字“7”的坐标点,对比下来发现,某个新写下的数字符号的坐标点位置和其中某三个数字符号的坐标点位置接近,这三个符号中,有两个符号曾经被标注为“4”,有一个曾经被标注为“7”,因为被标注为“4”的数量占优,所以就判定新写下的这个符号是“4”。
这个实验同样可以在电子表格中进行。
举例说,如图4所示,用12行9列的点阵描出数字符号,可以用“0”代表空白,用“1”代表有笔画,这里假设你自己并不知道这个符号到底代表的是什么。
接下来是提取这个未知数字符号的特征值,特征值的提取方式有很多种,最偷懒的办法就是划出几个区域,然后把每个区域里的数字加起来。
因为这个实验是手动进行的,所以区域没办法划得太多,比如说划出12个区域,每个区域中数字加起来后,就得到了一张四行三列的特征表,如图5所示。
怎么知道这个四行三列的特征表到底代表了什么数字符号呢?这就要去对比以往曾经标注过的数字符号的特征值了。
比如说,已经存在三个标注为“4”的特征表和三个标注为“7”的特征表可供对比。
这些符号的描绘和特征值的提取,不一定要由教师提供,也完全可以是由学习者自己描绘和计算获得,这样实验才更有说服力。
当然,描绘时需要给出一些限定条件,比如描绘的数字线条必须经过至少多少个特征区域,否则,可能会因为符号太小或者太偏而无法有效提取出特征值,为了处理这些太小或太偏的符号,还不得不做图像预处理的工作,这样就大大增加了实验难度。
图6中,左上角是用户描绘的等待判断的符号的图像点阵,左下角是对点阵中12个特征区域取值,右上角是将该特征值与曾经被标注过的数字符号的特征值进行比对,比对的方法仍然是求两点间直线距离。
不过因为特征表中总共有12个值,所以就要将特征所在的坐标看成一个12维空间的坐标,虽然在头脑中很难把12维空间想象出来,但两点间距离公式仍然可以直接套用(可用公式拖曳的方法计算各个特征差值的平方数)。
最右侧是比对后的结果,为观察清晰起见,结果没有开平方。
观察结果,可发现最近距离是5,所对应的标注是“4”,第二近的距离是12,所对应的标注也是“4”,第三近的距离是20,所对应的标注是“7”。
如果取三个最近点,也就是K近邻算法中K值为3,那么可以判定,用户新描绘的这个符号更可能是“4”。
当然,也可以将K值取为1,这样就直接找最近点,结果也认定该符号是“4”。
利用这个方法分辨“4”和“7”没啥问题,可要是分辨“8”和“6”就没那么有效了,究其原因,就是图像像素太少,特征区域的划分也不够细致。
要提高数字符号的能力,就需要利用计算机编程,将判断过程变得更自动化,这就为下一步的学习指明了方向。