spark streaming中使用kafka记录

2018年10月17日11:10:12 发表评论 1,283 views

1、spark读取kafka中的数据时,spark读写topic的offset问题。

spark在启动后,只会向kafka请求一次给定topic的给定patition的offset,直到streaming退出都不会再次向kafka请求相应的offset;但是在每次batch的过程的都不会重复取上一次请求过的数据,说明在streaming内部会自动记录上次消费的offset;但是kafka中offset并没有改变,这就需要你手动提交改动了。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: