互联网数据形式的不断丰富 和网络技术的不断发展,图 像、数据库、音频、视频、 多媒体等不同类型数据大量 出现,通用搜索引擎往往对 这些信息含量密集且具有一 定结构的数据无能为力,不 能很好地发现和获取它们。
01 03
02
通用搜索引擎的目标是实现 尽可能大的网络覆盖率,有 限的搜索引擎服务器资源与 无限的网络数据资源之间的 矛盾将进一步加深。
第二章
数据采集和大数据
新工科建设之路·数据科学与大数据系列 大数据平台技术实刚教程
01 数 据 采 集 和 E T L
在数据库建设过程中有ETL的操作。ETL即在数据抽取过程中进行数据的加 工转换,然后加载到存储器中,常用工具有Kafka、Flume、Kettle等。 研究大数据、分析大数据的首要前提是拥有大数据。而拥有大数据的方式, 要么是自己采集和汇聚数据,要么是获取别人采集、汇聚、整理之后的数据。 银行、电商、搜索引擎等公司具备从事大数据分析的资源和条件,因为它们 通过业务系统积累了大量的业务数据和用户行为数据,而普通的IT公司并不 具备这样的天然条件。
05 07
06 08
NumPy
使用Python进行科学计算 所需的基础包。它提供了强 大的连维数组对象,集成 C/C++和FORTRAN代码 的工具及有用的线性代数、 傅里叶变换和随机数功能。
Scrapy
快速的高级Web爬行和Web 抓取框架,用于抓取网站并 从其页面中提取结构化数据, 还可用于从数据挖掘到监控 和自动化测试的各种用途。
开发工具JupyterNotebook
JupyterNotebook是一种Web应用,能让用户将说明文本、数学方程、代码 和可视化内容全部组合到一个易于共享的文档中,方便研究和教学。在原始的 PythonShell与IPython中,可视化在单独的窗口中进行,而文字资料及各种 函数和类脚本包含在独立的文档中。JupyterNotebook能将这一切集中到一 处,方便用户使用。