Data Element

我干了什么 究竟拿了时间换了什么

Spark Memory

Memory Story

Reference https://stackoverflow.com/questions/43330902/spark-off-heap-memory-config-and-tungsten https://www.tutorialdocs.com/article/spark-memory-management.html https://medium.com/walmartglobalte...

AWS EMR 在搭建大数据平台 ETL 中的应用实践

最佳实践

AWS Elastic MapReduce(EMR)是Amazon提供的托管集群平台,用户可以非常方便的使用EMR搭建起一套集群,用来支撑大数据框架的应用,如Apache Spark, Hive, Flink, Presto等等。因为EMR具有很好的可配置性和伸缩性,使用者可以灵活的根据自己的需求进行定制,在满足生产需求的同时,减低对基础设施的运维成本。 FreeWheel大数据团队在搭建数...

Spark Shuffle 内部机制(三)

Spark Shuflle的前世今生

在上两篇文章Spark Shuffle 内部机制(一)和Spark Shuffle 内部机制(二)中我们分别介绍了Spark Shuffle Write和Read的框架设计,在本篇中我们继续总结一下Spark Shuffle整个的发展历史。 Spark Shuffle的前世今生 Spark的Shuffle在Write和Read两阶段有今天灵活的框架设计也是经过一步步不断完善和努力的...

Spark Shuffle 内部机制(二)

Spark Shuffle Read Framework Design

在上一篇文章里的Spark Shuffle 内部机制(一)中我们介绍了Spark Shuffle Write的框架设计,在本篇中我们继续总结一下Spark Shuffle Read的框架设计。 Spark Shuffle Read框架 Spark Shuffle Read阶段主要解决的是从上游Map产生的数据里拉取对应分区的数据,然后进行重新组织和计算,为后续的操作transfor...

Spark Shuffle 内部机制(一)

Spark Shuffle Write Framework and Design

Spark Shuffle 是什么 Spark Shuffle是根据数据处理需求将数据按着某种方式重新混洗,以便于后面的数据处理。比如reduceByKey()的操作,通过先将数据按照key进行重新分区以后,然后对每个key的数据进行reduce操作。 Spark Shuffle共包括两部分: Spark Shuffle Write 解决上游输出数据的分区问题 ...

Spark Shuffle Internal

Internal Shuffle Framework and Design

Spark Shuffle 是什么 Spark Shuffle是根据数据处理需求将数据按着某种方式重新混洗,以便于后面的数据处理。比如reduceByKey()的操作,通过先将数据按照key进行重新分区以后,然后对每个key的数据进行reduce操作。 Spark Shuffle共包括两部分: Spark Shuffle Write 解决上游输出数据的分区问题 ...

Orderby vs. Sort in Spark

用Orderby 还是 Sort?

本网站的文章除非特别声明,全部都是原创。 原创文章版权归数据元素(DataElement)所有,未经许可不得转载! 了解更多大数据相关分享,可关注微信公众号”数据元素“

Hadoop之YARN的内部机制

YARN内部机制和HA

前面两篇文章,我们介绍了Hadoop里两个重要的组件MapReduce和HDFS。本文我们一起看一下,作为大数据业内用的比较普遍的YARN的内部机制。 Hadoop 1.x 和 2.x的设计对比 首先让我们从总体上看一下Hadoop 1.x和2.x设计的不同之处。 从Hadoop V1和V2的总体设计对比上,可以明显看到几个变化: 增加了YARN组件。 1.x的Map...

Hadoop之HDFS内部机制

HDFS内部机制和HA方案

在前一篇”Hadoop的MapReduce到底有什么问题”里,我们一起回顾了MapReduce内部机制和存在的问题。在本文中,主要讨论Hadoop里另外一个重要组件HDFS的架构和高可用相关机制。感兴趣的同学也可进一步阅读官方HDFS设计文档。 HDFS设计的目的就是分布式环境下海量数据的存储。其中最重要的目标就是: 系统的高可用 数据一致性 高并发 HDFS的架构与工作...

Perf Test Tools -- Gatling

Test Tools

今天做作业的时候需要做一个网站的压测,搜到了这个好用工具,Track一下,后续找时间仔细研究一下。 Gatling Gating IDEA IDEA安装Scala插件 File -> Settings -> Plugins, 搜索Scala,点击install Create New Project Select Maven ...