MySQL 通过 systemd 启动时 hang 住了……

mysqld:哥,我起不来了……

作者:贲绍华,爱可生研发中心工程师,负责项目的需求与维护工作。其他身份:柯基铲屎官。

爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。

本文约 2100 字,预计阅读需要 7 分钟。

引言

正如题目所述,在自动化测试场景下,通过 systemd 无法启动 MySQL。

连续 kill -9 结束实例进程,检测 mysqld 在退出后是否会被正确拉起。

具体信息如下:

  1. 主机信息:CentOS 8(Docker 容器)
  2. 使用 systemd 的方式管理 mysqld 进程
  3. systemd service 的运行模式为:forking
  4. 启动命令如下:
# systemd 启动命令
sudo -S systemctl start mysqld_11690.service

# systemd service 内的 ExecStart 启动命令
/opt/mysql/base/8.0.34/bin/mysqld --defaults-file=/opt/mysql/etc/11690/my.cnf --daemonize --pid-file=/opt/mysql/data/11690/mysqld.pid --user=actiontech-mysql --socket=/opt/mysql/data/11690/mysqld.sock --port=11690

现象描述

启动命令持续 hang 住,既不成功,也无任何返回,尝试几次后均无法手动复现该场景。

下图为复现场景,service 端口号不一致请忽略。

MySQL 错误日志无任何信息。查看 systemd service 状态,发现启动脚本中由于缺少参数 MAIN PID,执行失败。

systemd 最后输出的信息为:New main PID 31036 does not exist or is a zombie

原因总结

systemd 启动 mysqld 的过程中,会先根据 service 模板中的配置,执行:

  1. ExecStart(启动 mysqld
  2. mysqld 启动创建 pid 文件
  3. ExecStartPost(自定义的一些后置脚本:调整权限、将 pid 写入 cgroup 等)

步骤 2-3 的中间态,也就是 pid 文件刚创建出来时,主机上接收到了自动化测试下发的命令:sudo -S kill -9 $(cat /opt/mysql/data/11690/mysqld.pid)

由于这个 pid 文件和 pid 进程确实存在(如果不存在 kill 命令或 cat 会报错),自动化的 CASE 认为 kill 操作已成功结束。但由于 mysqld.pid 这个文件是由 MySQL 自身维护的,在 systemd 的视角中,还需要继续等待 步骤 3 完成,才认为启动成功。

systemd 使用 forking 模式时,会根据子进程的 PID 值判断服务是否成功启动。

如果子进程成功启动,并且没有发生意外退出,则 systemd 会认为服务已启动,并将子进程的 PID 作为 MAIN PID

而如果子进程启动失败或意外退出,则 systemd 会认为服务未能成功启动。

结论

在执行 ExecStartPost 时,由于子进程 ID 31036 已经被 kill 掉,后置 shell 缺少了启动参数,但 ExecStart 步骤已完成,导致 MAIN PID 31036 成为了只存在于 systemd 里的 僵尸进程

排查过程

当遇到这个问题时是有点懵的,简单检查了一下内存、磁盘基本信息。符合预期并没有出现资源不足的情况。

先从 MySQL 的 Error Log 看看有什么发现。查看结果如下:

...无关内容省略...
2024-02-05T05:08:42.538326+08:00 0 [Warning] [MY-010539] [Repl] Recovery from source pos 3943309 and file mysql-bin.000001 for channel ''. Previous relay log pos and relay log file had been set to 4, /opt/mysql/log/relaylog/11690/mysql-relay.000004 respectively.
2024-02-05T05:08:42.548513+08:00 0 [System] [MY-010931] [Server] /opt/mysql/base/8.0.34/bin/mysqld: ready for connections. Version: '8.0.34'  socket: '/opt/mysql/data/11690/mysqld.sock'  port: 11690  MySQL Community Server - GPL.
2024-02-05T05:08:42.548633+08:00 0 [System] [MY-013292] [Server] Admin interface ready for connections, address: '127.0.0.1'  port: 6114
2024-02-05T05:08:42.548620+08:00 5 [Note] [MY-010051] [Server] Event Scheduler: scheduler thread started with id 5

通过观察 Error Log 发现并无任何有用信息,因为启动的时间点之后无任何日志信息输出。

查看 systemctl status 确认服务当前状态:

下图为正常情况下的 status 信息:

通过对比后,整理两条有用信息:

  1. 后置 shell 由于缺少 -p 参数导致执行失败(-p 参数为 MAIN PID,也就是 fork 子进程启动后的 PID)。
  2. systemd 无法获取 PID 31036,不存在或者为僵尸进程。

先来检查进程 IDmysqld.pid 看看:

确认线索:

  1. PID 31036 不存在
  2. mysqld.pid 文件存在,且文件内容为 31036
  3. top 命令查看不存在僵尸进程

还需要获取更多的线索来确认原因,检查 journalctl -u 内容,看看是否有帮助:

sh-4.4# journalctl -u mysqld_11690.service
-- Logs begin at Mon 2024-02-05 04:00:35 CST, end at Mon 2024-02-05 17:08:01 CST. --
Feb 05 05:07:54 udp-11 systemd[1]: Starting MySQL Server...
Feb 05 05:07:56 udp-11 systemd[1]: Started MySQL Server.
Feb 05 05:08:31 udp-11 systemd[1]: mysqld_11690.service: Main process exited, code=killed, status=9/KILL
Feb 05 05:08:31 udp-11 systemd[1]: mysqld_11690.service: Failed with result 'signal'.
Feb 05 05:08:32 udp-11 systemd[1]: Starting MySQL Server...
Feb 05 05:08:36 udp-11 systemd[1]: Started MySQL Server.
Feb 05 05:08:37 udp-11 systemd[1]: mysqld_11690.service: Main process exited, code=killed, status=9/KILL
Feb 05 05:08:37 udp-11 systemd[1]: mysqld_11690.service: Failed with result 'signal'.
Feb 05 05:08:39 udp-11 systemd[1]: Starting MySQL Server...
Feb 05 05:08:42 udp-11 u_set_iops.sh[31507]: /etc/systemd/system/mysqld_11690.service.d/u_set_iops.sh: option requires an argument -- p
Feb 05 05:08:42 udp-11 systemd[1]: mysqld_11690.service: New main PID 31036 does not exist or is a zombie.

这里的 journalctl -u 内容也只描述了现象,无法分析具体原因,与 systemctl status 的内容相差不多,帮助不大。

查看 /var/log/messages 系统日志内容:

发现循环报出了一些内存方面的错误信息,通过搜索后发现该错误可能为硬件问题。询问了自动化测试的同事后,得到结论:

  1. 场景为偶发问题,执行 4 次用例,2 次成功,2 次失败
  2. 每次执行均为同一台宿主机,同一份容器镜像
  3. 失败时 hang 住的容器为同一个

既然有成功执行的结果,这里就先忽略硬件问题导致的。

既然提到了容器,此时想到了 cgroup 会不会映射宿主机的时候出现了问题?在上边排查的 systemctl status 中,观察可知 cgroup 映射的宿主机目录为:CGroup: /docker/3a72b2cdc7bd9beb1c7b2abec24763046604602a38f0fcb7406d17f5d33353d2/system.slice/mysqld_11690.service

检查父级文件夹 system.slice 的读写权限并无异常。先暂时排除 cgroup 的映射问题(因为主机上还有其他 systemd 接管的 service 也在使用同一份 cgroup)。

打算试试 pstack 能不能看到 systemd 具体 hang 在了哪个地方,3048143systemctl startpid

sh-4.4# pstack 3048143
#0  0x00007fdfaef33ade in ppoll () from /lib64/libc.so.6
#1  0x00007fdfaf7768ee in bus_poll () from /usr/lib/systemd/libsystemd-shared-239.so
#2  0x00007fdfaf6a8f3d in bus_wait_for_jobs () from /usr/lib/systemd/libsystemd-shared-239.so
#3  0x000055b4c2d59b2e in start_unit ()
#4  0x00007fdfaf7457e3 in dispatch_verb () from /usr/lib/systemd/libsystemd-shared-239.so
#5  0x000055b4c2d4c2b4 in main ()

观察发现 start_unit 比较可疑,start_unit() 函数位于可执行文件中,它用于启动 systemd units,并没有什么帮助。

根据已有线索,推测后可知:

  1. mysqld.pid 文件存在,则表示之前确实有一个 mysqld 且进程号为 31036 的进程被启动了
  2. 进程启动后被自动化用例 kill -9 结束掉
  3. systemd 获取到了一个已经被结束的 MAIN PID,后置 shell 执行失败,fork 流程失败

通过梳理 systemd 启动流程的步骤,推测可能性。MySQL 实例只有在 mysqld 成功启动后才会生成 mysqld.pid 文件,所以可能是在后续步骤里被意外 kill -9 结束掉导致的。

复现方式

既然没什么其他头绪和线索了,打算根据推测结论尝试复现一下试试。

4.1 调整 systemd mysql serivce 模板

编辑模板文件 /etc/systemd/system/mysqld_11690.service,在 mysqld 启动后,sleep10 秒,方便在这时间窗口内模拟kill掉实例进程的场景。

4.2 配置重载

执行 systemctl daemon-reload 令变更生效。

4.3 场景重现

  1. [ssh seesion A] 首先准备一个新的容器,做好相关配置后执行 sudo -S systemctl start mysqld_11690.service 启动一个 mysqld 进程,此时会因为 sleep 的原因 hang 住会话。
  2. [ssh seesion B] 在另一个会话窗口,start 命令 hang 住时,检查 mysqld.pid 文件,一旦文件被创建后,立刻执行 sudo -S kill -9 $(cat /opt/mysql/data/11690/mysqld.pid)
  3. 此时观察 systemctl status,表现与预期一致

解决方式

kill 掉 hang 住的 systemctl start 命令,执行 systemctl stop mysqld_11690.service,这可以让 systemd 主动结束僵尸进程,虽然 stop 命令可能会报错但这并不影响。

等待 stop 执行完成后再次使用 start 命令启动,恢复正常。

更多技术文章,请访问:https://opensource.actionsky.com/

关于 SQLE

SQLE 是一款全方位的 SQL 质量管理平台,覆盖开发至生产环境的 SQL 审核和管理。支持主流的开源、商业、国产数据库,为开发和运维提供流程自动化能力,提升上线效率,提高数据质量。

SQLE 获取

类型地址
版本库https://github.com/actiontech/sqle
文档https://actiontech.github.io/sqle-docs/
发布信息https://github.com/actiontech/sqle/releases
数据审核插件开发文档https://actiontech.github.io/sqle-docs/docs/dev-manual/plugins/howtouse

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/610942.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何查看页面对应的Selenium定位参数

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。…

谷歌外链怎么发?

既要数量也要质量,要保证你的链接广泛分布,在数量上,确实需要你的链接在各种平台上有所展现,这样能提升你网站的知名度和曝光率,但是,光有数量是不够的,如果这些链接的内容不行,那对…

泰迪智能科技企业数据挖掘流程分析及特色服务优势

企业发展会沉淀大量的数据,数据中囊括了企业业务各种维度指标,通过数据挖掘和数据分析 ,让企业业务了解过去、现在和未来将要发生什么,从而更好的调整企业发展方向。泰迪智能科技企业数据挖掘平台是面向企业级用户快速处理数据构建…

2024年湖北省专升本C语言程序设计大题真题解析

2024年湖北省的专升本考试已于4月30日举行,考试中,出现了许多不同的考试题目,我在网上找到一所高校专升本的大题(好像是湖北师范的,后续会有湖北理工的大题真题解析,敬请期待),那么我…

在新页面中跳转到指定 div容器位置

要在打开新的页面时跳转到指定 div,我们需要结合 HTML、JavaScript 和后端技术来实现。以下是两种常见的方法: 使用 URL 参数传递目标 div 信息 HTML (新页面): 在新页面的链接中,添加参数来指示目标 div 的 id,例如:…

致远M3 Session 敏感信息泄露漏洞复现

0x01 产品简介 M3移动办公是致远互联打造的一站式智能工作平台,提供全方位的企业移动业务管理,致力于构建以人为中心的智能化移动应用场景,促进人员工作积极性和创造力,提升企业效率和效能,是为企业量身定制的移动智慧协同平台。 0x02 漏洞概述 致远M3 server多个日志文…

Vue3自定义指令封装-按钮权限控制v-permission、hasPermissions

背景:平常所接触到的系统权限控制,大部分都是菜单、路由级别的控制,但后台管理系统中,很多操作都是与职责和角色挂钩的,同样一个列表,不同人的操作列并不都一样,有些页面存在一些含有重要数据的…

万物生长大会 | 创邻科技再登杭州准独角兽榜单

近日,由民建中央、中国科协指导,民建浙江省委会、中国投资发展促进会联合办的第八届万物生长大会在杭州举办。 在这场创新创业领域一年一度的盛会上,杭州市创业投资协会联合微链共同发布《2024杭州独角兽&准独角兽企业榜单》。榜单显示&…

MathType2024官方版数学公式编辑器功能全面介绍

在数字化学习和科研的浪潮中,数学公式的编辑与展示成为了不可或缺的一部分。MathType,作为一款专业的数学公式编辑器,凭借其强大的功能和便捷的操作,为科研人员、教师、学生等广大用户提供了极大的便利。下面,我们将对…

基于.NET WinForms 数据CURD功能的实现

使用开发工具 VS 2022 C#,数据库MS SQL SERVER 2019 ,基于NET WinForms,实现数据记录的创建(Create)、更新(Update)、读取(Read)和删除(Delete)等功能。主要控件包括:DataGridView,SqlDataApater , DataTab…

字符以及字符串函数

字符以及字符串函数 求字符串长度strlen 长度不受限制的字符串函数strcpystrcatstrcmp 长度受限制的字符串函数strncpystrncatstrncmp 字符串查找strstrstrtok 错误信息报告strerror 字符分类函数字符转换函数tolowertoupper 内存操作函数memcpymemmovememcmpmemset 这篇文章注…

软件开发故事 - 我对 CTO 撒谎并挽救了项目

原文:GrumpyOldDev - 2024.04.18 这是几年前的事情了。还记得在我职业生涯的初期,父亲曾告诉我,做好工作往往意味着要在上司的阻碍下做好需要做的事情。他的意思是,你可以让上司成功并感到快乐;也可以让上司做每一个决…

Linux的编译器

程序编译的过程 程序的编译过程是将源代码转换为可执行文件的一系列步骤。这个过程涉及多个阶段,主要包括预处理、编译、汇编和链接。下面详细介绍每个阶段: 1. 预处理(Preprocessing) 在实际编译之前,源代码文件首…

让云上用户拥有安全感 可信或成云服务器标配安全能力之一!

什么是虚拟主机 虚拟主机就是利用网络空间技术,把一台服务器分成许多的“虚拟”的主机,每一台网络空间都具有独立的域名和IP地址,具有完整的Internet服务器功能。网络空间之间完全独立,在外界看来,每一台网络空间和一台…

gpustat 不能使用问题

突然间就不能用了,可能是环境出了问题,如果GPU没问题的话,那么换个环境重新安装试一下(pip install gpustat),目前是换个环境就可以了(做个笔记)

【神器来袭】快速解放双手,朋友圈自动转发工具,告别繁琐操作!

朋友圈作为一个重要的营销推广渠道,如果能实现自动转发,那对于很多企业或个人来说,是极好的。下面,就给大家分享一个实用且便捷的朋友圈运营工具——个微管理系统,让大家都能快速推广。 1、多账号登录,定时…

企业如何有效做好源代码防泄密工作之九种干货分享

企业为解决源码泄密风险问题,许多单位采取拆除光驱软驱、封掉USB接口、限制上网等方法来进行限制;或者安装一些监控软件,监控员工的日常工作,使其不敢轻举妄动;或者安装各种网络信息安全防护产品,如防火墙&…

“幽灵“再临!新型攻击瞄准英特尔CPU;微软Outlook漏洞被俄利用,网络间谍攻击捷克德国实体 | 安全周报0510

1. 微软Outlook漏洞被俄罗斯APT28利用,捷克德国实体遭网络间谍攻击! 捷克和德国于周五透露,他们成为与俄罗斯有关的APT28组织进行的长期网络间谍活动的目标,此举遭到欧洲联盟(E.U.)、北大西洋公约组织&…

深度技术解读AlphaFold3: 谷歌第三代AI工具精准预测生物大分子四级结构

自然界每一种植物、动物和人类细胞内部,都包含有数以亿计的分子机器。这些分子机器由蛋白质、DNA、RNA及其他配体分子组成。正是这些由生物大分子组成的小型机器,维持着生命的运转和延续。从本质上来讲,生命就是建立在分子层面的结构支撑&…

Qt——信号 和 槽

目录 概述 信号和槽的使用 自定义信号和槽 带参数的信号和槽 概述 在Linux系统中,我们也介绍了信号的产生、信号的检测以及信号的处理机制,它就是系统内部的通知机制,也可以是一种进程间通信的方式。在系统中有很多信号,我们可…
最新文章