博主是一个不是很聪明的码农。完美主义者,强迫症中期。这里会记录一些回忆和点滴,以博为镜。
武器库:
本文仅供博主备忘。
我目前负责我司的分布式消息队列产品,某日,有业务方上报可能发生少量数据丢失,事态紧急,赶紧排查!
观察监控曲线,发现15分钟动态监控报表的生产和消费确实有数量上的差异,丢失的不算少。这里要说明一下,一般来说如果生产消费是持续不断的,是很难通过此类报表判断出数据丢失,因为消费是有延迟的,统计会在时间维度上产生错位,幸运的是此业务方的消息是定时发送的,大概是一两分钟一批,消费速度也很快,所以统计曲线看起来就像是一条条抛物线,丢不丢一算便知。
相关计数器正常,log也未发现任何疑点。
服务正常,但消息确实有少量丢失,而且受影响的topic似乎也极少,这个仅从表面看想必是很难看出原因了。考虑到消息的消费先是由LeaderServer
分配ID段的,所以我决定祭上神器Btrace
,线上抓取分配的ID和ACK表对比,力求找出蛛丝马迹。
脚本如下。
|
|
其中,messageId
是已经分配的最大ID,返回值ret
是此次分配的最大ID。理论上,一系列输出应该是连续的。也即上一行的ret
和此行的messageId
是一致的。事实确实如此。
继续比对ACK表。解析一系列输出,写了个脚本输出了一堆mongo的查询语句,目的是查出哪些段的ID丢失了ack。经对比,一个奇怪的现象出现了,所有长度为264的ID段都丢失了。经检查,此数值乃JVM启动参数之一,即-Dglobal.block.queue.fetchsize
,用来配置ConsumerServer批量获取消息的大小。为何这么巧合,丢失的都是长度为264的ID段呢?
表面淡定内心纠结地查了一通,发现了疑点,不是每台机器的-Dglobal.block.queue.fetchsize
都一致,但最大的是就是264。这个比较意外,但想了想应该也不会出啥大问题啊。
更加糊涂了。
翻查代码,终于查找到元凶。如下,
|
|
其中,
|
|
问题找出来了,LeaderServer
的配置是264,所以ConsumerServer
拿到的ID段长度也是264,但本机的fetchSize比264要小,所以被直接忽略了。
那么问题是怎么产生的呢?导致问题的代码看似多余,其实也是一种自我保护。所以问题还是要归咎于配置不一致,引起逻辑上的混乱。那么为什么配置会不一致呢,原来前阵子SA为了方便使用puppet
部署,将各种配置都参数化了,效果就是代码部署时,通过对硬件的计算,修改各种参数取值,这样就降低了运维的复杂度。虽然申请了一批硬件配置相同的机器,但是其“软配置”却各不相同,导致有些关键参数未能完全一致,而我又未能察觉隐患,故导致此问题。马上修改配置,重启,解决。
吃一堑长一智,这件事情的教训就是,类似问题很难保证完全避免,但在研发阶段就要多思考会导致问题的场景,及时写注释或记录到文档里。毕竟代码逻辑久了谁都会忘,但注释放那就会时刻提醒你不要犯错。当初如果在脚本的相关参数上备注:必须保证每台机器的此配置取值一致,问题也就不会发生了。
另外一点就是Btrace确实是排查问题之神器,让人无路之时转而柳暗花明。
过而改之,善莫大焉。
不过,这一年多也不是懒,家事、公事事事操心。如今这博客重新装修下继续营业。后面我会逐渐把这遗失的一段时光写出来,谁让我记性太差。
为了此次重新开张,我换了工具和主题,放弃了jekyll转而启用hexo,主要是因为这个主题我比较喜欢。不过hexo自定义起来绝不轻松,折腾了好久。
还有一个不是理由的理由,之前被美帝子民抢注的jingege.me
,终于又回到了我手里!
无论如何,欢迎回来。
本篇不是oozie的教程,官网的文档虽然比较粗糙,但已经非常全面,可直接参考,下文总结下oozie使用中遇到的一些问题(持续更新中)。
oozie版本:3.3.2
###时区问题
oozie默认使用UTC时区,而服务器上可能是CST,建议统一使用GMT+0800。
|
|
oozie info --timezones
来查看支持的时区2014-01-24T13:40Z
的格式,要使用对应的形如2014-01-24T13:40+0800
的格式###Hive相关
oozie会启动一个MR job来启动hive client,需要在你的oozie app里自行指定hive的配置,以及提供相关lib,因为不确定是哪一台节点,所以需要给每一台计算节点都分配hive metastore的权限。
使用
|
|
####hive的lib
oozie.use.system.libpath=true
oozie.libpath=/path/to/lib
指定lib路径####metastore
####hive action的错误如何分析?
hive action执行失败,怎么分析原因呢?在oozie的web console中,打开因出错被KILL的action节点,打开Console URL
即可以看到对应的MR jobdetails页面,一般错误信息在Map的日志里,打开你就会发现,日志的内容涵盖了hive job的定义、hql以及控制台输出,足够分析错误原因了。
###前一天
由于我司大多数job是计算前一天的数据,故需在调度时动态计算前一天的日期字符串,使用shell action结合 A=B
,这样就可以使用${wf:actionData('A')['B']}
提取所需的字符串了。
|
|
其中cmd=/bin/date
###权限
遇到HDFS相关的权限问题,请通过修改oozie app提交用户或修改HDFS文件权限的方式自行解决。