步骤:1) 收集受影响的IP段、受影响时间窗口和客户端地理位置;2) 在服务器端运行连续ping(例如:ping -c 200 -i 0.2 <目标IP>)记录丢包、延迟峰值;3) 用mtr或traceroute(mtr -rwzbc 100 <目标IP>)定位丢包/抖动出现在哪一跳;4) 收集ifconfig/ip addr与ethtool输出(ip link show; ethtool eth0),确认链路速率和错误计数。
步骤:1) 检查交换机/路由器端口是否存在CRC、frame errors(show interface counters);2) 替换Cat5/6网线并更换SFP模块排除光口问题;3) 固件/驱动:更新交换机和网卡驱动到厂商建议版本;4) 禁用端口协商问题(强制设置speed/duplex在对端一致)。
步骤:1) 测试PMTU:ping -M do -s
步骤:1) 临时修改内核参数测试(sysctl -w net.ipv4.tcp_mtu_probing=1; sysctl -w net.ipv4.tcp_congestion_control=bbr 或 cubic 视情况);2) 优化重传/超时(net.ipv4.tcp_retries2、tcp_syn_retries);3) 调整窗口(net.core.rmem_max, net.core.wmem_max, net.ipv4.tcp_rmem, tcp_wmem),并观察流量峰值下丢包和吞吐;4) 对高并发连接调节文件描述符与TIME_WAIT回收(ulimit和sysctl net.ipv4.tcp_tw_recycle/timeout,注意兼容性)。
步骤:1) 检查NAT设备会话表是否溢出(查看连接数、超时);2) 负载均衡器是否做了不必要的会话重写或健康检查导致切换;3) 若使用CDN/加速,确认其回源节点与台湾线路质量,必要时设置回源直连或调整POP策略;4) 在LB后端做单节点直连测试,排除LB本身问题。
步骤:1) 使用traceroute、mtr定位到哪一自治系统(AS)出现问题;2) 到BGP Looking Glass查询路由是否存在不合理的AS路径或黑洞(例如:请使用bgp.he.net或对端ISP的LG);3) 若是BGP路由震荡或子优先级错误,与台湾出口ISP或Peer联系提供具体traceroute/mtr和时间戳,要求对端检查其转发/peer链路;4) 考虑在本端优化路由策略(调整local-pref、MED或社区标签)以避开不稳定路径。
步骤:1) 部署主动监控:多点Ping/MTR(例如使用Prometheus+blackbox_exporter或PingPlotter)对台湾关键节点做分钟级监测并保留历史;2) 被动监控:收集netstat、ifconfig、网卡错误计数并接入ELK/Prometheus;3) 设置阈值告警(丢包>2%持续10分钟、RTT突增>50ms),并在告警中自动附带mtr/traceroute输出以便快速定位。
步骤:1) 提供证据包:时间戳、mtr/traceroute输出、tcpdump抓包(tcpdump -s 0 -w capture.pcap host <目标IP>)并上传给对端;2) 指定测试窗口并双方同时运行双向mtr与抓包,便于对端比对;3) 若怀疑是路由问题,要求对端提供其上游的路由快照与接口错误计数;4) 在必要时申请临时绕路或更换peering口进行A/B对比。
步骤:1) 在生产改动前做回滚计划并在低峰窗口操作;2) 对配置改动(例如MTU、sysctl、路由)先在单节点或灰度环境验证24小时;3) 如出现严重恶化,立即回退最近改动并保留前后配置与日志供事后分析;4) 建立变更记录与沟通模板,以减少误操作与信息丢失。
答:最常见的是物理链路问题(光纤/SFP/端口错误)、路径MTU不一致导致分片、对端ISP或上游路由器拥塞/丢包、以及BGP路由不稳定或劣路由;通常通过mtr+抓包以及链路错误计数可以快速锁定。
答:先用traceroute/mtr确定出现问题的AS和跳数,记录发生时间点并抓取tcpdump以证明丢包或重传,再到BGP Looking Glass检查路由走向,将这些证据(mtr/traceroute、pcap、接口错误)打包发给对端工程师请求其上游排查,并建议做临时绕路测试。
答:长期建议包括:建立多出口冗余与智能路由(BGP多线+健康检测)、与多个台湾CDN/ISP建立直连或优选Peer、持续化监控与容量规划、定期校验MTU与硬件健康、并制定跨域联调SOP与日志保存策略,综合这些可以显著降低突发不稳定的影响。