企业大数据管理与数据基础知识点汇总
- 格式:docx
- 大小:10.38 KB
- 文档页数:5
我国航运大数据知识点总结航运行业是一个信息密集型、数据驱动型的行业。
随着信息技术的发展和数据采集、处理、分析能力的提升,航运行业也开始逐渐向数据驱动发展。
航运大数据作为航运行业信息化建设的重要组成部分,已经成为航运行业中关键的资源和基础设施之一。
一、航运大数据的定义1.1 航运大数据的概念航运大数据是指在航运行业中产生的各类数据资产,包括船舶的位置信息、航行数据、货物信息、港口作业信息、船舶和货物的运输历史等各类信息数据。
这些数据集中包含了海事、港口、船舶、货运等多个层面的数据,对于航运行业的决策分析和业务管理具有重要的价值。
1.2 航运大数据的特点航运大数据具有以下特点:(1)多样性:航运大数据来源广泛,包括海事监管、船舶自动识别系统、港口装卸作业系统、货物跟踪系统等多种数据源。
(2)实时性:航运大数据具有较高的实时性,能够反映船舶和货物运输过程中的实时状态和变化。
(3)复杂性:航运大数据量大、结构复杂,需要进行大规模的数据采集、处理和分析。
(4)价值性:航运大数据蕴含着丰富的信息,对于航运企业的业务决策和风险管理具有重要意义。
二、航运大数据的应用2.1 航行路径规划利用航运大数据对船舶历史航行数据、海事气象数据等进行分析,可以实现更加科学和合理的航行路径规划,提高船舶航行效率,降低航行风险。
2.2 港口作业优化通过对船舶在港口装卸作业的数据进行分析,可以优化港口装卸流程,提高港口作业效率,减少货物停留时间,降低港口物流成本。
2.3 货物跟踪管理利用航运大数据可以对货物进行全程跟踪管理,实时监控货物的位置和状态,提高货物运输的安全性和可靠性。
2.4 船舶维护管理通过对船舶运行数据进行实时监测和分析,可以实现船舶设备的智能化运维管理,提高船舶运行的安全性和可靠性。
2.5 航运企业管理决策利用航运大数据进行航运企业的经营管理和决策分析,可以实现货物运输资源的合理配置、航线策略的优化,提高航运企业的运营效率和盈利能力。
数据仓库知识点总结一、数据仓库概念数据仓库是一个用来集成、清洗、存储和管理企业数据的系统,以支持企业决策制定、分析和商业智能服务。
它是一个面向主题的、集成的、时间性的、非易失的数据集合,用于支持企业决策。
数据仓库是企业数据管理的重要组成部分,它与操作型数据处理系统相辅相成。
数据仓库以不同的视角和角度组织数据,帮助企业管理者对企业整体情况进行全面分析和评估。
二、数据仓库的特点1. 面向主题:数据仓库与传统数据库相比,更加侧重对业务应用的支持,主要面向业务应用的主题而不是基本事务数据,以方便企业管理者进行更好的分析和决策。
2. 集成性:数据仓库集成了来自不同数据源的数据,将数据统一管理,并且进行了数据清洗和转换,确保数据的一致性和准确性。
3. 时态性:数据仓库中的数据具有时间性,可以保存历史数据,能够支持分析历史数据的趋势和变化。
4. 非易失性:数据仓库中的数据不会丢失,可以持久保存,并且根据需要定期备份,确保数据的安全和可靠。
5. 大数据量和复杂性:数据仓库通常包含大量的数据,并且数据之间的关系复杂,需要采用专门的数据模型和处理方法来管理和分析。
6. 以支持决策为目标:数据仓库的目标是为企业管理者提供数据支持,帮助他们更好地了解企业的经营状况和趋势,以支持企业决策。
三、数据仓库架构数据仓库架构包括了多个重要组成部分,主要包括数据提取、数据清洗、数据转换、数据加载、元数据管理和数据查询分析等。
1. 数据提取:数据提取是指从各个数据源中将需要的数据提取出来,数据源可以包括企业内部的数据库、文件系统、应用系统等,也可以包括外部数据源,如公共数据等。
2. 数据清洗:数据清洗是指对提取的数据进行清洗和规范,包括去重、校验、纠错、转换等处理,以确保数据的准确性和一致性。
3. 数据转换:数据转换是指对清洗后的数据进行格式转换、相关联和整合,以便于数据仓库的统一管理和分析。
4. 数据加载:数据加载是将转换后的数据载入数据仓库中,通常包括全量加载和增量加载两种方式,以确保数据的及时性和准确性。
大数据与财务管理专业知识技能一、概述随着科技的不断发展,大数据已经成为当今社会的热门话题之一。
在众多行业中,财务管理领域也开始逐渐重视大数据技术的应用。
大数据与财务管理专业知识技能的结合,不仅可以为企业提供更准确、高效的财务分析,还能够助力企业制定更科学的财务决策。
本文将从多个方面探讨大数据与财务管理专业知识技能的重要性和应用价值。
二、大数据在财务管理中的应用1. 数据挖掘与分析在财务管理领域,大数据技术可以帮助企业进行财务数据挖掘和分析。
通过对海量的财务数据进行挖掘,企业可以更好地了解企业的财务状况和经营情况,为企业提供准确的财务数据支持。
2. 风险管理大数据技术可以为企业提供更加精准的风险管理工具。
通过对大数据的分析和挖掘,企业可以更好地识别和预测财务风险,及时采取相应措施,降低企业的风险程度。
3. 成本管理大数据技术可以帮助企业实现更加科学的成本管理。
通过对大数据的分析,企业可以找出成本管理中存在的问题,并针对性地制定成本控制策略,提高企业的盈利能力。
4. 资产管理大数据技术可以帮助企业实现更加精细化的资产管理。
通过对大数据的分析,企业可以更好地了解资产的使用状态和价值变化,从而更加科学地进行资产配置和管理,提高资产的利用效率。
三、大数据与财务管理专业知识技能的培养1. 数据分析能力在大数据与财务管理领域,数据分析能力是非常重要的。
财务管理专业的学生需要通过学习相关课程和实践,培养自己的数据分析能力,掌握数据挖掘和分析的方法和技巧。
2. 技术应用能力除了数据分析能力,财务管理专业的学生还需要具备一定的技术应用能力。
他们需要掌握大数据技术的基本知识和操作技能,能够熟练使用相关的大数据分析工具和软件。
3. 金融专业知识大数据与财务管理领域的结合,还需要财务管理专业的学生具备扎实的金融专业知识。
他们需要了解金融市场的运行规律和财务管理的基本原理,才能更好地应用大数据技术进行财务管理。
4. 实践能力在大数据与财务管理领域,实践能力同样非常重要。
大数据与财务管理的专业知识技能一、概述随着信息技术的快速发展和普及,大数据已经成为当今社会不可忽视的重要资源之一。
大数据的应用覆盖了各个行业领域,其中财务管理领域尤为重要。
通过大数据技术,财务管理人员可以更加准确、快速地进行数据分析和决策,从而提高企业的运营效率和财务绩效。
本文将就大数据与财务管理的专业知识技能展开论述,探讨大数据对财务管理的影响和挑战,以及财务管理人员需要掌握的具体技能和知识。
二、大数据对财务管理的影响和挑战1. 数据量庞大:大数据的特点之一就是数据量庞大。
在财务管理领域,企业每天都会产生大量的财务数据,包括销售额、成本、利润等。
如何有效地处理和分析这些海量数据,成为了财务管理人员面临的挑战之一。
2. 数据多样性:除了数据量庞大外,大数据的数据多样性也给财务管理带来了挑战。
财务数据来源多样,包括内部的财务报表和外部的市场数据等。
如何对这些多样的数据进行统一的分析和处理,需要财务管理人员具备相应的技能和专业知识。
3. 数据真实性和准确性:大数据的数据真实性和准确性对于财务管理来说至关重要。
财务管理人员需要保证所分析和使用的数据是真实可靠的,否则会给企业的财务决策带来严重后果。
三、财务管理人员需要掌握的专业知识技能1. 数据分析能力:财务管理人员需要掌握数据分析的基本理论和方法,能够对大量的财务数据进行有效的分析和挖掘,为企业的财务决策提供支持。
2. 数据挖掘技术:数据挖掘是大数据技术的重要组成部分,也是财务管理人员需要掌握的专业技能之一。
通过数据挖掘技术,财务管理人员可以发掘隐藏在大数据中的规律和价值信息,为企业的财务管理提供重要参考。
3. 信息系统应用能力:随着大数据技术的发展,各类信息系统已经成为财务管理的工具之一。
财务管理人员需要具备信息系统的应用能力,能够熟练操作各类财务管理软件和大数据分析工具,从而更加高效地进行财务管理工作。
4. 统计学知识:统计学知识是财务管理人员必备的基础知识之一。
宁德时代企业数据分析题库及答案1、当前大数据技术的基础是由( C)首先提出的。
(单选题,本题2分)A:微软 B:百度 C:谷歌 D:阿里巴巴2、大数据的起源就是(C )。
(单选题,本题2分后)A:金融 B:电信 C:互联网 D:公共管理3、根据相同的业务市场需求去创建数据模型,提取最存有意义的向量,同意挑选出哪种方法的数据分析角色人员就是( C)。
(单选题,本题2分后)A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师4、(D )充分反映数据的精细化程度,越细化的数据,价值越高。
(单选题,本题2分后)A:规模 B:活性 C:关联度 D:颗粒度5、数据冲洗的方法不包含( D)。
(单选题,本题2分后)A:缺失值处理 B:噪声数据清除 C:一致性检查 D:重复数据记录处理6、智能身心健康手环的应用领域研发,彰显了( D)的数据采集技术的应用领域。
(单选题,本题2分后) A:统计数据报表 B:网络爬虫 C:APIUSB D:传感器7、下列关于数据重组的说法中,错误的是( A)。
(单选题,本题2分)A:数据重组就是数据的再次生产和再次收集 B:数据重组能并使数据绽放代莱光芒C:数据重组实现的关键在于多源数据融合和数据集成 D:数据重组有利于实现新颖的数据模式创新8、智慧城市的构筑,不涵盖( C)。
(单选题,本题2分后)A:数字城市 B:物联网 C:联网监控 D:云计算9、大数据的最为明显特征就是( A)。
(单选题,本题2分后)A:数据规模大 B:数据类型多样 C:数据处理速度快 D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了代莱航海路线图,标明了大风与洋流可能将出现的地点。
这彰显了大数据分析理念中的(B )。
(单选题,本题2分后)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更著重有关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上特别强调相对数据而不是绝对数据11、下列关于舍恩伯格对大数据特点的说法中,错误的是(D )。
大数据会计知识点总结随着信息技术的不断发展,大数据已经成为了会计行业的新趋势。
大数据会计是利用大数据技术与会计知识结合,通过分析大量的数据来提供财务决策支持和管理信息,以帮助企业更好地理解和利用财务信息。
本文将从大数据概念、大数据在会计中的应用、大数据技术的发展趋势三个方面对大数据会计知识点进行总结。
一、大数据概念大数据是指规模巨大(Volume)、种类繁多(Variety)、处理速度快(Velocity)的数据集合,通常包括结构化数据和非结构化数据。
结构化数据是指可以在数据库中进行存储和处理的数据,比如企业的财务报表数据、交易记录等;非结构化数据则是指无法轻易用传统数据库存储和处理的数据,如文档、音频、视频等。
大数据的概念主要包括5V:Volume(数据量大)、Velocity(处理速度快)、Variety(数据种类多)、Veracity(数据的准确性)、Value(数据价值)。
二、大数据在会计中的应用1. 财务报表分析大数据技术可用于财务报表的分析以及对企业财务状况和经营绩效的评价。
通过大数据技术分析财务报表,可以更准确地发现企业的财务风险和经营状况,为投资者、管理者等提供更全面的决策信息。
2. 预测性会计大数据技术可以帮助企业进行预测性会计分析,通过挖掘企业的大量历史数据和外部环境数据,利用数据挖掘、模型分析等方法,对企业未来的财务和经营状况进行预测,为企业决策提供科学依据。
3. 风险管理大数据技术可以帮助企业更好地进行风险管理。
通过大数据分析,可以更准确地识别企业内部和外部的风险,为企业提供更有效的风险预警和管理决策支持。
4. 成本管理大数据技术可以帮助企业更好地进行成本管理。
通过大数据分析,企业可以更准确地掌握成本的构成和分布,为企业提供更有效的成本控制和管理方案。
5. 决策支持大数据技术可以为企业的决策提供更全面的支持。
通过大数据分析,可以更深入地了解市场、竞争、客户等因素,为企业决策提供更科学的依据。
大数据管理与应用专业基础课大数据管理与应用,听起来就很高大上,对吧?其实它就是在说,怎么把那些海量的数据弄得听话,发挥作用。
你想啊,咱们每天在网上点点滴滴,浏览网页、发发朋友圈,什么信息都在不断地生成。
像是流水账似的,这些数据一天天地积累,像大山一样越来越高。
有人说,数据就是新的石油,真是说得没错。
可是,油再好,也得有个炼油厂,才能变成能用的燃料。
数据也是如此,得有个管理和应用的好办法,才能让它发挥价值。
你肯定好奇,怎么才能管理这些数据呢?得学会分类。
就像咱们平时收拾屋子,东西多了,得分门别类,不然到时候想找个东西,翻个天也找不着。
数据也是,得按类型整理,才能让后续的分析变得顺畅。
比如,顾客的购买记录、网站的访问数据,这些都要分开,才能在需要的时候快速找到。
现在不少企业用数据分析来做决策,能帮助他们抓住市场动向,简直就是如虎添翼。
说到应用,数据的用法可多着呢。
你知道,现在很多公司都在用数据来预测趋势,比如天气预报、股市行情,甚至足球比赛的胜负,这些都是用数据说话的好例子。
想象一下,如果你的一个小店能准确预测到顾客的需求,那就太牛了,生意一定蒸蒸日上。
再加上现在的人工智能技术,数据分析更是如虎添翼,真的是一飞冲天。
要是能把这些都学会,想想未来,简直就是开了挂。
数据管理也不是没有挑战。
最让人头疼的,恐怕就是数据隐私问题。
你说,咱们在网上随便一点,个人信息、消费习惯全都被记录。
隐私就像是自家的小秘密,谁都不想随便外泄。
企业要在保证用户隐私的同时,利用数据做出决策,真是个难题。
不过,现在不少法律法规也开始关注这方面,保护消费者的隐私权,这总算是给了我们一丝安慰。
再说,数据分析的工具可多了,各种软件层出不穷。
你就像挑选菜市场的蔬菜,品种多了,眼花缭乱。
市面上有各种大数据平台,像Hadoop、Spark,听起来就像是科幻片里的名字。
使用这些工具,能够帮助企业更好地处理数据,进行深度分析。
就像一把锋利的刀,切菜的时候能让你事半功倍。
大数据与会计必考知识点近年来,随着信息技术的飞速发展,大数据已经渗透到各行各业中,无论是商业领域还是科技领域,都对大数据技术有着迫切的需求。
而会计作为一门重要的管理学科,也不可避免地受到了大数据的影响。
本文将探讨大数据在会计领域的应用,并给出几个与大数据密切相关且是会计必考的知识点。
一、大数据在会计领域的应用在会计领域,大数据的应用主要体现在三个方面:数据采集、数据分析和风险管理。
首先,大数据技术为会计提供了更多的数据来源和数据采集手段。
传统的会计工作主要是依赖人工手动输入数据,耗时且容易出错。
而有了大数据技术的支持,可以通过各种传感器、仪器设备等自动化工具来采集海量的数据,从而实现对企业内部和外部各种经济行为的全面监控和记录。
其次,大数据技术能够有效地对大量的会计数据进行分析。
会计数据往往包含了众多的指标和变量,传统的分析方法往往无法胜任。
而大数据技术能够迅速处理大规模的数据,并通过数据挖掘和机器学习等算法,找出其中的规律和趋势,为会计人员提供更准确的决策依据。
最后,大数据技术在风险管理方面发挥着重要作用。
随着企业的规模不断扩大,信息量也日渐庞大,企业所面临的风险也越来越多。
而大数据技术可以通过对大量数据的分析,及时预警和发现潜在的风险,从而帮助企业采取相应的风险管理措施,并有效降低经营风险。
二、与大数据密切相关的会计必考知识点1. 数据管理与数据隐私保护在大数据时代,会计人员需要具备良好的数据管理能力和数据隐私保护意识。
他们需要掌握数据存储、传输和处理的技术和方法,以确保数据的完整性、可靠性和安全性。
同时,他们还需要严格遵守相关的法律法规,保护企业和个人的数据隐私。
2. 数据分析与决策支持会计人员需要具备基本的数据分析能力,能够利用大数据技术对企业的财务数据进行分析和解读。
他们需要掌握数据挖掘、统计分析和机器学习等方法,能够从大量的数据中提取有价值的信息,并为企业决策提供支持。
3. 内部控制与风险管理在大数据时代,企业面临着更加复杂和多样化的风险。
《商务数据分析》笔记第一章:商务数据分析概述1.1商务数据分析的定义1.2商务数据分析的重要性1.3商务数据分析的应用领域1.4商务数据分析的主要方法第二章:数据收集与管理2.1数据收集的方法与工具2.2数据质量与数据清洗2.3数据存储与管理系统2.4数据隐私与安全问题第三章:数据分析技术3.1描述性分析与探索性分析3.2预测性分析技术3.3规范性分析与优化模型3.4数据可视化技术第四章:商务决策支持4.1数据驱动的决策过程4.2数据分析在市场营销中的应用4.3数据分析在财务管理中的应用4.4数据分析在运营管理中的应用第五章:案例研究5.1成功的商务数据分析案例5.2行业特定数据分析案例5.3数据分析失败的教训5.4案例分析总结与启示第六章:未来趋势与挑战6.1人工智能与机器学习在数据分析中的应用6.2大数据技术的发展趋势6.3数据分析的伦理与法律挑战6.4商务数据分析的未来展望第1章:商务数据分析概述商务数据分析的定义商务数据分析是利用数据分析技术和工具对商业数据进行系统性分析的过程。
其目的在于发现数据中的模式、趋势和关系,以支持决策制定和战略规划。
商务数据分析通常涉及数据收集、数据清理、数据分析和数据可视化等步骤。
关键概念数据收集:获取相关的业务数据,包括销售数据、市场调研数据、客户反馈等。
数据清理:处理缺失值、异常值和重复数据,以确保数据的质量和准确性。
数据分析:应用统计方法和算法分析数据,识别趋势和模式。
数据可视化:将分析结果以图表或图形的形式展示,便于理解和传播。
重要定义描述性分析:对历史数据进行总结和描述。
诊断性分析:分析数据以找出原因和影响。
预测性分析:使用历史数据预测未来趋势。
规范性分析:给出最佳行动方案的建议。
例子使用统计分析工具如Excel或SPSS进行销售数据的描述性分析,识别最佳销售产品。
利用机器学习算法进行客户流失预测,帮助制定客户保留策略。
商务数据分析的重要性商务数据分析在现代商业环境中扮演着至关重要的角色。
企业大数据管理与数据基础
●大数据基础
●第一章大数据概述
●大数据计算模式
●批处理计算:针对大规模数据的批量处理
●MapReduce
●从数据源产生的数据开始经过处理最终流出到稳定的文件系统中如hdfs
●spark
●采用内存代替hdfs或者本地磁盘来存储中间数据
●流计算
●流数据:在时间和数量分布上无限的数据的集合,数据的价值随着时间的流逝而减低。
因此计算必须给出实时响应。
●图计算
●查询分析计算
●大规模数据进行实时或准实时查询的能力。
●内存计算
●迭代计算
●大数据关键技术
●数据采集
●数据存储与管理
●数据处理与分析
●数据隐私与安全
●大数据与云计算、物联网的关系
●云计算的概念与关键技术
●性质:分布式计算
●关键技术
●虚拟化:基础,将一台计算机虚拟为多台逻辑上的计算机。
每台互不影响,从而提
高计算机的工作效率
●分布式计算:并行编程模型MapReduce
●分布式存储:hbase分布式数据管理系统
●多租户:使大量用户共享同一堆栈的软硬件资源
●物联网的概念与关键技术
●概念:通过局部网和互联网,将c、p、c、c、连接起来从而实现信息化、远程控制
●关键技术
●识别和感知
●网络和通信
●数据挖掘与融合
●大数据、物联网、云计算相辅相成。
●密不可分、千差万别
●区别:侧重点不同
●物联网:目标实现物物相连
●云计算:整合优化各种IT资源,通过网络以服务的方式廉价的提供给用户
●大数据:侧重对海量数据的存储、分析、处理,从海量数据中发现价值、服务与生
产和生活。
●联系
●整体上相辅相成
●物联网的传感器源源不断的产生提供数据,借助云计算、大数据实现分析存储
●大数据根植于云计算,云计算提供的对大数据的存储管理,大数据的分析才得以进
行
●第三章大数据处理架构hadoop
●hadoop生态圈
●hdfs:分布式文件系统
●MapReduce:分布式编程框架
●hive:基于hadoop的数据仓库。
●pig:数据流语言和运行环境
●大数据存储与管理
●第四章分布式文件系统hdfs(数据块、文件块、存储位置、映射关系、)
●体系结构
●数据结点
●数据结点:存储读取数据
●数据结点要根据名称结点的指令删除、创建、复制、数据块。
●名称结点(文件树、文件夹、文件、元数据、)
●保存了两个数据结构(fsimage、editlog),fsimage保存文件树中所有的文件、和
文件夹的元数据、用于维护文件树系统。
(文件树、元数据、所有文件)editlog保存
针对文件的所有删除修改重命名操作。
●分配存储位置,管理数据结点与文件块的映射关系。
●负责文件和目录的创建、删除、重命名。
●记录数据结点的位置信息,但是不是持久化,而是,重新扫描数据结点,重构得到信息。
(非持久化,数据结点、位置、信息、重构、重新扫描)
●第二名称结点
●针对问题:安全模式、时间长、重启
●解决办法
●editlog和fsimage的合并操作:
●每隔一段时间,请求让namenode停止editlog,新操作写入新的editlog.new
中,然后,将fsimage与editlog合并操作更新,①,然后返回文件给name
结点,然后name结点,替换原来的文件2个
●作为名称结点的检查结点:
●只能备份t1之前的信息,如果发生故障那么对于t1-t2时间内的问题不能恢复。
●存储原理
●冗余存储
●当多用户读取时速度更快
●容易检查数据错误
●保证数据可靠性
●数据的读取策略。
●读取请求->从名称结点获取数据块信息->读取数据结点的数据
●数据错误与恢复
●第五章分布式数据库hbase(region)
●一个hbase表被分为很多个region(区)
●hbase数据模型
●高可靠、高性能、面向列、可拓展的分布式数据库。
主要用来存储:非、半结构化数据。
●索引为(行键、列族、列限定符、时间戳)
●面向列存储。
●hbase实现原理
●hbase功能组件:region服务器、master服务器
●region的定位三层结构
●zookeeper记录-root- 表的位置信息。
,一个-root-表只能有一个region
●-root-用来记录。
●.meta.表记录用户数据表的region位置信息。
●第六章nosql数据库(一致性)
●nosql数据库4大类型
●键值、列式、图、文档。
●3大基石
●CAP
●一致性
●可用性
●分区容忍性
●BASE
●基本可用性:系统部分不可用,其他正常则可正常使用
●软状态:滞后,状态可以有一段时间不一致。
●最终一致性:高并发能否获取一致的数据。
●最终一致性
●从客户端服务端考虑
●根据访问时间、方式不同
●因果一致性()
●读己之所写()
●会话一致性(时间)
●单调读、写一致性(方式)
●大数据处理与分析
●实际中大数据的应用
●基于批量处理,时间跨度:数10minute-数个小时
●基于历史数据的查询:数10秒-数分钟
●基于实时数据流的处理:数百毫秒-数秒
●第七章分布式计算框架MapReduce
●第八章基于hadoop的数据仓库hive(操作)
●合并:select name,ordered from A a join B b on a.c=b.c;
●分组:select rank,level,count(*)as value from A group by rank,level.
●第九章基于内存的分布式计算框架spark(RDD)
●MapReduce与spark
●mapreduce的缺点
●io开销大:每次中间结果,读取数据都从磁盘进行。
●延迟:io开销大,任务衔接设计io延迟大
●表达能力有限:任务编程为连个函数:map、reduce、但是复杂的情况下难以描述
●spark的解决:
●基于内存的计算,将中间结果放入内存中
●计算模式也属于MapReduce但是提供更多的数据集操作类型。
●RDD:分布式对象集合
●操作分为
●转换:transformmation,转换为新的RDD对象
●行为:action,产生结果供输出
●对于RDD:分布式对象集合,对于对象通过函数进行操作
●spark基于内存的分布式计算框架:shuffle过程依然将结果写入磁盘
●RDD中的关系依赖按有无shuffle操作分为(RDD,分区,对应)
●宽依赖:一个父RDD的一个分区被一个子RDD的多个分区对应
●窄依赖:一个父RDD的一个分区只被一个子RDD的一个分区对应。