《Python爬虫大数据采集与挖掘》教学大纲
- 格式:doc
- 大小:42.00 KB
- 文档页数:1
《大数据分析与挖掘》课程教学大纲一、课程基本信息课程代码:16054103课程名称:大数据分析与挖掘英文名称:Big data analysis and mining课程类别:专业课学时:48学分:3适用对象: 软件工程,计算机科学与技术,大数据管理考核方式:考核先修课程:数理统计与概率论,算法设计,JA V A/Python程序设计二、课程简介大数据分析与挖掘是软件工程,计算机科学与技术,大数据管理专业必修课,它集理论,技术和应用性一身,不仅是当前计算机,软件工程领域最热门高级前沿应用技术,并且涉及跨学科领域知识和概率论,数学及算法理论知识,是计算机,软件工程的重要课程模块,同时是大数据管理专业的核心理论课程。
当前在新基建和数字化革命大潮下,各行各业都在应用大数据分析与挖掘技术,并紧密结合机器学习深度学习算法,可为行业带来巨大价值。
数据分析与挖掘是当前最热的技术与职业方向,在未来几年都将获得飞速发展,前景非常广阔,是学生未来进入社会成才求职的重要核心技能,可以说学好大数据分析与挖掘原理,概念与技术,必将使得学生未来计算机专业发展和职业生涯获得高起点和巨大发展潜力与竞争力。
本课程从实战出发,学习大数据分析与挖掘理论算法与编程工具,围绕真实案例学习并掌握数据分析与挖掘的关键任务和方法。
包括主要的数据分析全流程任务:数据探索,数据预处理,数据可视化展示,数据建模,模型验证与评估,分析结果展示与应用;同时针对不同的数据分析阶段任务在讲解原理同时,介绍大量当前最新的学术界,业界研究方法,技术与模型。
课程在讲解数据分类,数据预测模型,及复杂数据分析场景时,引入了华为网络产品线产品数据部多个经典数据分析与挖掘案例,并且引入阿里数据中台架构,天池AI实训平台,及应用典型案例。
让学生学以致用,紧跟行业最领先技术水平,同时,面对我国民族企业,头部公司在大数据分析与挖掘领域取得的巨大商业成功与前沿技术成果应用产生强烈民族自豪感,为国家数字化经济与技术发展努力奋斗,勇攀知识高峰立下志向。
Python网络爬虫课程教学大纲课程代码:课程名称:Python网络爬虫/Web Crawler Programming with Python开课学期:学分/学时:3/32+16课程类型:必修/选修适用专业/开课对象:先修课程:开课单位:团队负责人:责任教授:执笔人:核准院长:一、课程的性质、目的与任务《Python网络爬虫》是计算机科学、软件工程等专业中的一项面向实践的课程,与高级程序设计语言、计算机网络等课程相关。
本课程的目标在于使学生循序渐进地了解并掌握网络爬虫编写,在学习Python编程的基本方法与常见技巧的同时,对网络与Web相关知识也取得较好的理解。
本课程的安排为:介绍Python编程基础知识,之后引入Web与HTML等网络抓取基本概念,然后详细介绍使用Python处理各类问题的方法,包括网页解析、文件存储、数据库存储、文本分析等方面。
之后进入主体部分即各类爬虫程序的编写,包括静态网页抓取、动态网页抓取、处理AJAX页面等。
最后以几个较为综合的实践课题来让学生应用所学内容,完成如电商评论分析这样的有一定应用价值的爬虫程序。
本课程不仅要求学生掌握知识与理论,还要求学生动手实践,鼓励学生自主探索,培养对于技术以及应用场景的理解。
二、教学内容及教学基本要求1. Python语言及编程基础(4学时)了解Python语言的基本知识,学会Python的安装与开发环境配置,包括Windows与Ubuntu 等不同系统平台上的安装与配置;了解PyCharm与Jupyter Notebook等重要开发工具的使用;掌握Python的基本语法,理解Python中的数据类型、逻辑语句、函数与类(面向对象编程);学会进阶学习Python的方法;2. HTTP与Web(4学时)了解互联网与HTTP协议;掌握HTML语言的基本知识;了解网络访问过程中的信息处理过程;掌握分析网站的基本方法;学会使用浏览器的开发者工具来分析网站;3. 爬虫程序入门(2学时)了解爬虫程序的基本概念;掌握爬虫程序的基本方法;4. 数据采集方法(4学时)了解包括正则表达式、BeautifulSoup、XPath等在内的网页解析工具;掌握遍历网站页面与使用网站所提供的API来获取数据的方法;5. 文件与数据存储(4学时)掌握使用Python进行文件读写的方法;掌握Python中字符串的处理;了解Python中对图片的各类操作;掌握CSV文件的读写;掌握MySQL、SQLite3等不同数据库的使用。
爬虫技术教学大纲一、前言1.1 引言1.2 目的和意义1.3 教学目标二、基础知识2.1 什么是爬虫技术2.2 爬虫技术的发展历史2.3 爬虫技术的作用和应用领域2.4 爬虫技术的原理和基本流程2.5 爬虫技术的技术架构和工作原理三、爬虫技术的基本原理3.1 HTTP协议基础知识3.2 HTML基础知识3.3 数据抓取和解析3.4 数据存储和管理四、爬虫技术的应用实践4.1 网页抓取技术4.2 数据解析技术4.3 数据存储和管理4.4 反爬虫技术五、爬虫技术的进阶应用5.1 动态网页爬取技术5.2 验证码识别技术5.3 分布式爬虫技术5.4 高效爬取策略和优化5.5 数据分析和挖掘六、爬虫技术与法律道德6.1 爬虫技术的合法性6.2 爬虫技术的道德约束6.3 数据采集的合规性和隐私保护七、爬虫技术的未来发展7.1 智能爬虫技术7.2 人工智能与爬虫技术的结合7.3 爬虫技术在大数据和人工智能时代的发展趋势八、教学方法和手段8.1 理论教学8.2 实验技能培训8.3 项目实战演练8.4 知识检测与评估九、教学内容的设计与编排9.1 网络爬虫技术基础知识讲解9.2 爬虫技术的实际应用案例分享9.3 爬虫技术的操作训练与实践指导9.4 项目设计与实践十、教学资源与参考书目10.1 爬虫技术的教学资源介绍10.2 爬虫技术相关的参考书目推荐10.3 在线学习资源推荐十一、教学评价和效果11.1 教学评价指标11.2 教学效果的评估方法11.3 教学改进与提升结语:爬虫技术的教学大纲是由基础知识、技术原理、应用实践和未来发展等模块组成,旨在帮助学员全面了解爬虫技术的基本概念、操作技巧和应用前景,进而将所学知识应用于实际项目中,提升学习者的技能和能力。
《python大数据分析与挖掘基础》课程教学大纲课程代码:学分:4学时:64(其中:讲课学时:42 实践或实验学时:22)先修课程:数学分析、高等代数、概率统计、Python程序设计基础适用专业:信息与计算科学建议教材:黄恒秋主编.Python大数据分析与挖掘实战(微课版)[M]. 北京:人民邮电出版社.2020.开课系部:数学与计算机科学学院一、课程的性质与任务课程性质:专业方向选修课。
课程任务:大数据时代,数据成为决策最为重要的参考之一,数据分析行业迈入了一个全新的阶段。
通过学习本课程,使得学生能够掌握Python科学计算、数据处理、数据可视化、挖掘建模等基本技能,能够针对基本的数据挖掘问题与样例数据,调用Python中的第三方扩展包Numpy、Pandas、Matplotlib、Scikit-learn及关联规则算法代码,进行处理、计算与分析,初步掌握深度学习框架TensorFlow2.0安装及多层神经网络、卷积神经网络、循环神经网络基本原理及应用举例程序实现,从而为其他的专业领域课程或者复杂应用问题提供基础支撑。
二、课程的基本内容及要求本课程教学时数为64学时,4学分;实验22学时,1.375学分。
第一章Python基础1.课程教学内容:(1)Python及其发行版Anaconda的安装与启动、Spyder开发工具的使用和Python 新库的安装方法;(2)Python基本语法和数据结构。
2.课程的重点、难点:(1)重点:Python基本语法和数据结构的灵活运用;(2)难点:Python数据结构的灵活运用。
3.课程教学要求:(1)了解Python的安装及界面基本使用技能;(2)理解Python基本数据结构及方法的使用;(3)掌握Python基本数据结构的使用技能及循环、条件语句的应用。
第二章科学计算包Numpy1.课程教学内容:(1)导入并使用Numpy创建数组;(2)数组的运算、切片、连接及存取、排序与搜索;数组相关属性与方法;(3)矩阵及线性代数运算。
《数据分析与挖掘》课程名称:数据分析与挖掘建议课时数: 80(其中实践课时数:40 )适用专业:大数据技术与应用一、前言(一)课程的定位1.课程性质:本课程是大数据技术与应用的一门专业核心课程,属于专业必修课程。
2.课程功能:本课程通过对数据中所蕴含的价值进行挖掘,保证生产正常运行,提升经营水平和生产运作效率,具体来说,培养学生数据导入、数据清洗、数据整理、数据分析和数据可视化等方面的能力。
3.相关课程: 本课程是《数据采集和存储》课程的为后置课程,同时也是大数据实训课程的前置课程。
(二)设计思路该课程是依据“大数据技术与应用专业工作任务与职业能力分析表”中数据的过程控制与工作项目设置的。
其总体设计思路是,打破以知识传授为主要特征的传统学科课程模式,转变为以工作任务为中心组织课程内容,并让学生在完成具体项目的过程中学会完成相应工作任务,并构建相关理论知识,发展职业能力。
以就业为导向以能力为本位,对数据导入、数据处理、数据分析、数据可视化等方面进行任务与职业能力分析,通过案例教学、讨论教学、模拟仿真等多种教学方法和手段,培养学生具备基本的职业能力。
项目设计以餐饮数据项目的数据为线索,以数据流的运行为主线,设计数据导入、数据去空去重、数据合并、时间序列处理、常用指标分析、交叉表分析、相关分析项目案例,通过项目分解和任内练习,学生能理解数据分析中各类数据格式的作用,理解数据清洗的含义,理解适用于数据分析各种图形的画法。
该门课程的总学时为80课时,5个学分。
二、课程目标(一)知识目标●掌握各类数据文件的格式特点;●掌握各类数据格式的意义和特点;●理解数据去空去重的含义及处理方法;●理解时间序列处理方法;●理解数据的各种统计指标的作用;●理解适用于数据的相关性及其使用方法。
●理解各种图形的画法。
(二)技能目标●能够利用pandas导入数据、筛选数据;●能够利用pandas对数据进行预处理,比如去除空值和重复值、时间序列处理;●能够利用统计指标对预处理后的数据进行简单分析;●能够运用一些合适的图形挖掘出数据的规律。
《大数据分析与挖掘》课程教学大纲一、课程基本信息课程编号:课程名称:大数据分析与挖掘英文名称:课程学时: 48课程学分:3开课单位:计算机科学与技术学院授课对象:计算机科学与技术专业,计算机大类专业开课学期:先修课程:二、课程目标数据挖掘是一门新兴的交叉性学科,涵盖了数据库、机器学习、统计学、模式识别、人工智能以及高性能计算等技术。
开设本课程的目的,是使学生全面而深入地掌握数据挖掘的基本概念和原理,掌握常用的数据挖掘算法,了解数据挖掘的最新发展、前沿的数据挖掘研究领域、以及数据挖掘技术在不同学科中的应用。
课程具体目标如下:课程目标1:能够设计并实现大数据平台下的数据挖掘系统。
了解由工程问题,到建模、再到数据挖掘算法设计的问题求解思维模式。
具有将数据挖掘算法应用于具体工程的能力;课程目标2:掌握大数据预处理、关联规则、分类以及聚类技术,并能够在主流大数据平台上实现;课程目标3:具备较强的学习最新数据挖掘领域研究成果的能力;能够分析和评价现有研究成果的问题与不足,并能够提出自己独立见解的能力;课程目标4:能够撰写系统设计方案和阶段性技术报告,能够组织和协调项目组的工作,与成员进行交流与沟通。
三、课程目标与毕业要求对应关系四、课程目标与课程内容对应关系实验大纲:五、课程教学方法本课程教学将结合大班讲授、小班项目研讨、项目开发以及交流与答辩的形式。
大班讲授主要培养学生对各种核心技术的掌握。
小班项目研讨用来训练学生们沟通与交流的能力,同时提高对系统进行评价的能力。
通过指导学生实现课堂上讲授的算法,学会比较各个算法的性能差异,激发学生的研究和创新兴趣。
六、课程考核方法七、主要教材与参考书(黑体、小四、加粗、行距20磅)1.《大数据分析与挖掘》纲撰写人:石胜飞。
《Python网络爬虫技术》教学大纲课程名称:Python网络爬虫技术课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论24学时,实验40学时)总学分:4.0学分一、课程的性质数字经济时代,数字资源已经成为互联网竞争和经营的生产要素和核心竞争力,而如何获取数据资源并基于此产出有价值的数据,已成为重要的资源配置。
数据企业能够收集、获取的数据越多,越可能在行业竞争中具有优势地位。
行业的发展带动岗位的需求,越来越多的爬虫工程师岗位涌现,工作中对爬虫技术的需求也越来越多。
网络爬虫技术是数据分析、数据挖掘、人工智能等技术的数据基础,是从互联网上批量获取数据的重要技术之一,特开设Python网络爬虫技术课程。
二、课程的任务通过本课程的学习,掌握使用Python基本语法完成爬虫任务编写,使用ReqUeStS库向指定网址发送请求,XPath或BeaUtifU1SoUP库对静态网页进行解析,Se1eniUm库爬取动态页面;使用JSON文件、MySQ1数据库、MOngODB数据库对爬取下来的数据进行存储;使用表单登录方法、COOkie登录方法实现模拟登录;使用HTTPAnaIyZer和Fidd1er工具抓包,并分析终端协议;使用SCraPy框架进行网页内容爬取,理论结合实践,每个章节中都配有多个案例,为学生将来从事数据采集、数据爬取的工作、研究奠定基础。
三、课程学时分配四、教学内容及学时安排1.理论教学2.实验教学五、考核方式突出学生解决实际问题的能力,加强过程性考核。
课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括发送HrrP请求、解析静态网页内容、解析动态网页内容、数据存储为JSoN文件、数据存储到MySQ1数据库、数据存储到MongoDB 数据库、使用表单和Cookie模拟登录、使用HTTPAna1yzer获取PC端数据、使用Fidd1er获取APP端数据、Scrapy框架使用等部分,题型可采用判断题、选择、简答、编程题等方式。
《python数据分析与挖掘基础》课程教学大纲课程代码:学分:4学时:64(其中:讲课学时:42 实践或实验学时:22)先修课程:数学分析、高等代数、概率统计、Python程序设计基础适用专业:信息与计算科学建议教材:黄恒秋主编.Python金融数据分析与挖掘实战[M]. 北京:人民邮电出版社.2019. 开课系部:数学与计算机科学学院一、课程的性质与任务课程性质:专业方向选修课。
课程任务:大数据时代,数据成为决策最为重要的参考之一,数据分析行业迈入了一个全新的阶段。
通过学习本课程,使得学生能够掌握Python科学计算、数据处理、数据可视化、挖掘建模等基本技能,能够针对基本的数据挖掘问题与样例数据,调用Python中的第三方扩展包Numpy、Pandas、Matplotlib、Scikit-learn及关联规则算法代码,进行处理、计算与分析,从而为其他的专业领域课程或者复杂应用问题提供基础支撑。
二、课程的基本内容及要求本课程教学时数为64学时,4学分;实验22学时,1.375学分。
第一章Python基础1.课程教学内容:(1)Python及其发行版Anaconda的安装与启动、Spyder开发工具的使用和Python 新库的安装方法;(2)Python基本语法和数据结构。
2.课程的重点、难点:(1)重点:Python基本语法和数据结构的灵活运用;(2)难点:Python数据结构的灵活运用。
3.课程教学要求:(1)了解Python的安装及界面基本使用技能;(2)理解Python基本数据结构及方法的使用;(3)掌握Python基本数据结构的使用技能及循环、条件语句的应用。
第二章科学计算包Numpy1.课程教学内容:(1)导入并使用Numpy创建数组;(2)数组的运算、切片、连接及存取、排序与搜索;数组相关属性与方法;(3)矩阵及线性代数运算。
2.课程的重点、难点:(1)重点:数组的切片、连接、改变形态。
《大数据分析与挖掘》课程实验教学大纲一、课程基本信息课程代码:16054103课程名称:大数据分析与挖掘英文名称: Big data analysis and mining实验总学时:16适用专业:软件工程、计算机科学与技术课程类别:专业选修课先修课程:数理统计与概率论,算法设计,JAVA/Python程序设计二、实验教学的总体目的和要求实验教学目的:向学生教授经过实践检验的真理才是正确的,所有理论知识都应该经过实践检验,计算机科学这样,大数据分析与挖掘这门前沿信息技术尤其如此。
本课程实验是为了使学生在课程学习的同时,通过实验教学验证课堂教学的理论,理解和掌握大数据分析与挖掘中最基本、最广泛应用的概念、原理、理论和算法以及基本技术和方法,更好地掌握《大数据分析与挖掘》课程教学大纲要求的内容。
实验要求:1.对学生的要求:实验前要充分做好准备工作:•复习和掌握与本实验有关的知识内容;•预习、思考实验内容;•对实验内容进行分析和设计。
实验过程中,实验者必须服从指导教师和实验室工作人员的安排,遵守纪律与实验制度,爱护设备及卫生。
在指定的实验时间内,必须到实验室内做实验。
对于上机过程中出现的问题,尽量先独立思考和解决;对于难以解决的问题可以和同学交流或询问老师;对于同一个实验题目,可以考虑多种方法来实现,然后比较并选择出一种较为有效的方法来实现。
对于设计型和验证型实验,实验时一人一组,独立上机。
2、对实验条件的要求:普通 PC 机房。
三、实验教学内容实验项目一实验名称:数据分析与挖掘平台的搭建实验内容:在 Windows(Linux,Mac)操作系统中安装 Python。
可以使用官方下载 Python 的安装包安装,也可以使用 Anaconda 安装,还可以安装 Pycharm。
安装完之后,进行入门操作,熟悉 Python 的使用。
实验性质:设计型实验学时:2实验目的与要求:必修实验条件:实验机房,阿里天池AI实训平台,数据分析平台。
《数据采集与网络爬虫课程设计》课程教学大纲一、课程基本信息
二、课程目标及对毕业要求指标点的支撑
三、教学内容及进度安排
四、课程考核
该课程采用案例设计的形式考核,具体要求如下:(1)最多5人组成一队。
(2)最终以研究报告的形式提交,一般应包含程序页、数据页、数据分析处理和附录等内容。
注:各类考核评价的具体评分标准见《附录:各类考核评分标准表》
(说明:1.评价依据主要有:平时表现、作业、案例分析、实验/实习/调研报告、上机、考试等,应根据该课程实际设置的考核方式填写,不够可以加列;2.各考核方式逐一填写评分标准表)
五、教材及参考资料
[1]江吉彬,张良均等.Python网络爬虫技术[M],北京:人民邮电出版社,2019,
9787111505064.
[2]范传辉.Python爬虫开发与项目实战[M],北京:机械工业出版社,2017,978发11563877.
[3]胡松涛.Python网络爬虫实战[M],北京:清华大学出版社,2016,9787302457879.
⑷韦玮.精通Python网络爬虫:核心技术、框架与项目实战[M],北京:机械工业出版
社,2017,9787111562085.
六、教学条件
需要使用学生大数据实验室,电脑安装了Windows7>Office2010>Anoconda3/Python3.6、Pycharm 等正版软件进行实战训练。
附录:各类考核评分标准表。