Spark-Streaming使用记录

2018年7月4日17:28:08 发表评论 1,122 views

1、通过高效的利用集群资源减少每个数据批次处理所用的时间。

2、为了让数据处理和数据接收一样快,需要设置正确的批次大小。

环境说明(版本号:2.1.0):

代码解析

总结:

1、使用redis存储每次消费的offset,保证消费的至少一次。

2、在Streaming任务中,tasks的数量最终由batch/block所决定。通过调节这两个参数来使处理速度跟上记录产生速度。

3、此处的redis,我使用的枚举来做连接的单例模式。

4、创建JavaInputDStream的具体参数含义请参考spark官网

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: