雀恰营销
专注中国网络营销推广

工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?

工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?

总的来说,Spark采用了更先进的架构,这使得它在灵活性、易用性、性能等方面都比Hadoop更有优势,并且有取代Hadoop的趋势,但稳定性有待进一步提升。我的结论是体现在以下几个方面。

1

问:为什么选择 Kafka 来扮演类似数据总线的角色?

A:大部分是因为它的架构简单,吞吐量出色工作流引擎,而且它还有一个与 Spark 的专用集成模块。 Kafka出色的吞吐量主要来自于最大限度地利用系统缓存和顺序读取写入的优势,而偏移量和分区的参与也提供了更好的容灾能力。

Spark精华问答 | 为什么选择Spark作为流计算引擎?

工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?

2

问:为什么选择 Spark 作为流计算引擎?

A:主要是因为Spark优雅的RDD设计让分布式编程更容易,Spark的内存缓存层也让计算更快,而Spark对各种技术的集成和支持可以让技术栈更简单、更通用也是选择的重要原因它。 Spark 的 DirectKafkaInputDStream 还提供了简单有效的 HA。

Spark精华问答 | 为什么选择Spark作为流计算引擎?

3

p>

问:Spark 和 Hadoop 操作模型的区别

A:Hadoop:仅提供 Map 和 Reduce 操作。所有作业都必须转换为 Map 和 Reduce 操作。

Spark:提供Transformations等多种数据集操作类型包括map、filter、flatMap、sample、groupByKey、reduceByKey、union、join、cogroup、mapValues、sort、partionBy等操作类型工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?,还提供actions操作包括Count、collect、reduce、lookup、save等。这些各类数据集操作为开发上层应用的用户提供了便利。

4

工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?

问:什么是 Spark Streaming?

答:Spark Streaming 是基于 Spark 构建的实时计算框架,扩展了 Spark 处理大规模流数据的能力。

首先,Spark Streaming 将实时输入的数据流以时间片 Δt(如 1 秒)为单位划分成块。 Spark Streaming 将每一个数据块视为一个 RDD,并使用 RDD 操作来处理每个小块数据,每个块会生成一个 Spark Job 进行处理,最终结果也会返回多个块。在 Spark Streaming 中,操作 DStream 提供的接口(表示数据流的 RDD 序列)工作流引擎,类似于 RDD 提供的接口。

作为 Spark Streaming 的最初目标,它允许用户通过丰富的 API 和基于内存的高速计算引擎将流式处理、批处理和交互式查询应用程序结合起来。因此,Spark Streaming 适用于一些需要对历史数据和实时数据进行结合分析的应用。当然,它也可以完全胜任对实时性能要求不高的应用。另外,通过RDD的数据复用机制,可以得到更高效的容错处理。

5

问:Spark Streaming+Kafka 应用

A:WeTest舆情监测需要每天抓取数千万游戏玩家的实时评论信息用于词频统计,我们会将抓取到的玩家评论数据生成到Kafka中,另一端的消费者使用Spark Streaming 用于流式处理。首先,我们使用上面介绍的 Direct 方法从 Kafka 中拉取。取batch,然后经过分词、统计等相关处理,回写到DB(对于Spark来说,每天大量数据的词频统计任务可以高效、实时的完成。

p>

小伙伴们,后台留言区等你哦!

关于 Spark,您今天学到了什么?你还明白什么?您还对哪些其他话题感兴趣?快来留言区打卡吧!留言方式:开启XX日,回复:…

同时工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?,欢迎您收集更多问题并提交给我们!我们在风雨中的留言区等你~

p>

福利

1、扫描加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,与志同道合的朋友一起打卡学习!

赞(0) 打赏
未经允许不得转载:雀恰营销 » 工作流引擎,Spark精华问答 | 为什么选择Spark作为流计算引擎?
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

文章对你有帮助就赞助我一下吧

支付宝扫一扫打赏

微信扫一扫打赏