某台能链接 spark 服务器的电脑,提交 spark 程序
多节点,
从 Hadoop /HDFS/Hise读取数据,读取数据分别存到节点,主要存储到节点的内存中.
在节点中对数据进行处理,处理后的数据可能存储到别的节点的内存上.
所有计算操作都是多个节点并行计算
处理后的数据可能会回到 Hadoop,HDFS,Hive 等,或者 MySQL 这种DB 里.或者直接把结果返回客户端
spark 提供的核心抽象
弹性分布式数据集
一个 RDD 在逻辑上抽象的代表了一个 HDFS 文件,但是实际上是被分区的,多个分区散落在多个节点上
让 RDD 中的数据可以并行操作
通常通过 Hadoop 上的文件 ,即 HDFS 文件或者 Hive 表来进行创建,有时也可以通过应用程序中的集合来创建.
RDD 提供了容错性,可以自动从节点失败中恢复过来,假如某一个节点上的数据出错,RDD 可以通过自己的数据来源重新计算该 partition.
RDD 数据默认放在 内存中,但内存不足时,会自动将 RDD 存入磁盘
定义初始的 RDD 从哪里读取数据,
定义 RDD 的计算操作,这个在 spark 称之为 算子,map reduce ,等等
循环往复的过程
获得最终的数据,将数据保存起来
底层都是 RDD 和计算操作
原文链接:https://blog.csdn.net/xm961217/article/details/106558204
原创文章,作者:优速盾-小U,如若转载,请注明出处:https://www.cdnb.net/bbs/archives/6428