码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 【yarn】任务日志丢失问题分析


    【yarn】任务日志丢失问题分析

    故事背景

    今天中午收到了一个报警邮件通知。内容大致为:有一个正在 yarn上运行的flink的实时任务挂掉了。
    针对上述的现象,我们的开发工程师先打开yarn的web ui找到对应的job的任务页面。查询任务日志。
    在这里插入图片描述
    点击这个log,找不到任何日志。那么很显然,这个任务的container已经没了,日志已经找不到了。
    引出问题:日志怎么会消失?

    探究过程

    1. 通过上图的Finished这一栏可以看到,这个任务在什么时候结束运行的,从上图得知,这个任务是在Wed Nov 16 12:58:09 +0800 2022挂掉的。
    2. 记录最下面Node栏对应的机器ip(在上面的图片中我打码了,这个机器是yarn的一个node节点,请根据自己的环境来分析)
    3. 在做好上述两点的基础上,先找到这台Node节点,然后检查该节点的NodeManager的日志,目前我用的环境是cdh,所以我可以在cloudera manager管理界面上查看到对应的NodeManager的角色日志,找到Finshed时间对应的日志,日志如下:在这里插入图片描述
      如上所示:
      在这里插入图片描述
      针对标号1的这块儿内容,进入cdh的给出来的官方文档检查了一下:
      在这里插入图片描述
      这个exitCode=255 似乎看不出来什么原因。
      但是通过标志2的那段内容可以看到这个container找不到用户scb。带着这段信息去搜索了一下,得到如下链接:https://community.cloudera.com/t5/Support-Questions/Getting-user-not-found-issue-when-starting-spark-job/td-p/278090
      在这个链接中:
      明确的提到了同类的问题,并且给出了问题发生的可能性。
      针对找不到用户的问题的校验方法,验证该用户是否有效:
      1. 登录对应的机器上
      2. 使用命令id 用户名来查询用户名是否ok
        针对问题的可能发生的原因:可能是有运维人员操作了sssd工具,导致当时运行程序的container容器的那台机器的用户名受到了影响。导致程序运行失败,container容器启动失败被清理掉了。
        后续我们问了一下相关的负责人,得到的反馈是在那个时间点操作了一下sssd导致了container找不到用户名

    总结

    其实诊断信息就写在这里
    在这里插入图片描述
    最后,通过该问题的探究经历,经验+1。如果各位大佬有什么更好的建议,请在评论区里留言。谢谢~

  • 相关阅读:
    【spring cloud】(七)消息驱动——springcloud Stream
    Java中的String类
    实力认证|云畅科技入选长沙软件和信息技术服务业全景图
    ChatGPT的前世今生:从概念到现实的AI之旅
    【前段基础入门之】=>CSS 的常用属性
    计算机视觉——飞桨深度学习实战-起始篇
    牛客在线编程101-91 反转字符串
    Redis核心数据结构【set】【从入门到入坟】
    Golang并发-Go优雅的退出程序(同步等待组 sync.WaitGroup)
    【随机过程】马克可夫链-关于简单随机游走的状态判定
  • 原文地址:https://blog.csdn.net/OldDirverHelpMe/article/details/127895387
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号