深夜救急!运维人必存的20条高效"保命指令",5分钟定位90%线上故障!

2025-04-02 08:53:27 RAIZ

IT网络运维必备的20个“救命”命令:90%的故障都能靠它们解决!

服务器宕机、服务异常、网络不通...每个运维人都经历过这样的深夜惊魂时刻。本文整理了20个必学命令,覆盖网络诊断、服务排查、性能监控三大核心场景,帮你5分钟内精准定位问题,建议收藏备用!


一、网络连通性排查(基础生存技能)

  1. 1. ping
    作用:检测主机可达性
    实战场景
    ping -c 4 www.baidu.com  # 发送4个探测包
    • • 观察丢包率(>5%需警惕)
    • • 分析延迟波动(突然激增可能链路拥塞)
  2. 2. traceroute/mtr
    作用:可视化路由路径
    进阶用法
    mtr --report www.aliyun.com  # 持续监测路由质量
    • • 定位中间节点故障(显示*号或超时)
    • • 发现路由绕行(异常跳转路径)
  3. 3. telnet/nc
    作用:人工模拟TCP连接
    关键操作
    nc -zv 192.168.1.100 8080  # 快速扫描端口开放状态
    • • 验证防火墙策略是否放行
    • • 检测服务监听状态(避免被安全组拦截)

二、网络服务深度检测(进阶排查手段)

  1. 4. netstat/ss
    作用:实时网络连接分析
    推荐命令
    ss -antp | grep ESTAB  # 查看所有TCP连接状态
    • • 发现异常连接(大量TIME_WAIT需优化)
    • • 定位占用端口的进程(配合-p参数)
  2. 5. curl
    作用:HTTP协议级诊断
    高阶技巧
    curl -I -X GET http://api.example.com  # 仅显示响应头
    • • 检查HTTPS证书有效期-v参数)
    • • 模拟API请求(JSON数据提交)
  3. 6. tcpdump
    作用:网络抓包分析
    经典用法
    tcpdump -i eth0 port 80 -w traffic.pcap  # 抓取80端口流量
    • • 解密加密前的HTTPS握手(ClientHello包)
    • • 分析TCP重传(retransmission标记)

三、系统性能瓶颈定位(快速揪出元凶)

  1. 7. top/htop
    作用:实时进程监控
    关键指标
    • • %wa(I/O等待时间 >30%预警)
    • • RES(进程实际内存占用)
  2. 8. vmstat
    作用:全面系统健康检查
    诊断命令
    vmstat 1 5  # 每秒采样,连续5次
    • • si/so(交换内存使用)
    • • us/sy(用户/内核CPU占比)
  3. 9. iostat
    作用:磁盘I/O性能分析
    必看参数
    iostat -x 1  # 显示详细磁盘统计
    • • %util(设备使用率 >80%告警)
    • • await(I/O平均等待时间)

四、DNS与路由疑难杂症(专治各种域名问题)

  1. 10. dig
    作用:专业DNS解析诊断
    深度用法
    dig +trace www.weixin.com  # 跟踪完整解析过程
    • • 检查DNS劫持(对比权威服务器结果)
    • • 验证TTL配置(缓存时间是否合理)
  2. 11. nslookup
    作用:快速域名解析验证
    典型场景
    nslookup -type=MX qq.com  # 查询邮件服务器记录
  3. 12. route
    作用:路由表管理
    紧急操作
    route add default gw 192.168.1.1  # 临时添加默认网关

五、防火墙与安全组(运维人的护城河)

  1. 13. iptables
    作用:传统防火墙规则管理
    经典操作
    iptables -L -n -v  # 查看详细规则计数器
  2. 14. firewalld
    作用:新一代动态防火墙
    实用命令
    firewall-cmd --list-all  # 显示全部区域配置
  3. 15. ufw
    作用:Ubuntu简易防火墙
    快速配置
    ufw allow 22/tcp  # 开放SSH端口

六、高级网络分析(高手必备技能)

  1. 16. nmap
    作用:网络探测神器
    扫描技巧
    nmap -sS -T4 192.168.1.0/24  # 快速扫描局域网
  2. 17. lsof
    作用:查看进程打开文件
    杀手锏命令
    lsof -i :3306  # 查找使用MySQL端口的进程
  3. 18. strace
    作用:系统调用跟踪
    调试示例
    strace -ff -o debug.log /path/to/program

七、时间同步与日志分析(隐形的杀手)

  1. 19. ntpdate/chronyc
    作用:时间同步校准
    关键操作
    chronyc sources -v  # 查看NTP源状态
  2. 20. journalctl
    作用:系统日志分析
    高效用法
    journalctl -u nginx --since "10 minutes ago"

终极组合技:典型故障排查流程

  1. 1. 网站访问失败
    curl -I → telnet 80 → tcpdump → netstat -antp
  2. 2. 数据库连接超时
    nc -zv → iptables -L → ss -s → vmstat 1
  3. 3. 服务器卡顿
    top → iostat -x → lsof → strace -p PID

这20个命令如同运维人员的"瑞士军刀",建议制作成速查手册保存。实际工作中,灵活组合使用+理解输出原理才是关键。遇到复杂问题时,记住:三分靠工具,七分靠思维


我要咨询