第5章数据处理
- 格式:ppt
- 大小:813.00 KB
- 文档页数:69
第五章数据处理和可视化表达散点图。
知识点:函数描述Plt.title()设置图像的标题plt.xlable()设置x轴的名称Plt.ylable()设置y轴的名称plt.show()显示图像Plt.plot(x,y)绘制线性图Plt.scatter(x,y)绘制散点图Plt.pie(x,y)绘制饼图Plt.bar(x,y)绘制柱形图5.pandas库:Pandas库主要用于快速简单的数据操作,聚合和可视化呈现。
库中有两个主要的数据结构,一维数组(Series)和二维数组(DataFrame)结构。
(1)Series:一维数组(2)DataFrame:二维的表格型数据结构series求和sum(),求平均值mean() DataFrame的行列求和,求平均值知识点:Pandas.DataFrame.sum()返回所有列的和(axis=1)返回所有行的和扩展:Random生成随机数的函数库知识点:random.random()返回随机生成的一个实数Random.randint(a,b)生成一个[a,b]之间的整数Random.Shuffle()打乱排序任务五:观看视频了解数据的分析数据的分析一般包括特征探索,关联分析,聚类分类,建立模型和模型评价。
1、数据的特征探索:对数据进行预处理,发现和处理缺失值、异常数据、绘制直方图、求最大值、最小值、极差2、关联分析:发现大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
3、聚类分析:依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
任务六:阅读课本了解数据的可视化表达的方式,观看视频了解什么是词云图词云图是目前常用的关键词可视化数据的表达方式,词云图通常使用文字的大小和颜色来表示关键词出现的频次。
用python编程进行词云图的制作的顺序为:导入文本,分词,特征提取,数据分析,保存词云图3.我们在用python进行数据分析的时候,经常会用到pandas库中的DataFrame,这是类似于()的数据结构。