コンテンツにスキップ

Runbooks (症状逆引き)

このセクションは「現場で観測される症状から逆引きで切り分け手順に辿り着く」ことを目的とした実務向けハンドブック集。各 runbook は次の構造に従う:

  • 症状: 何が起きているか(ユーザ視点)
  • 想定原因: 優先度順に 3〜5 件
  • 切り分け手順: 実行コマンドと期待 / 異常出力
  • 対処方法: 復旧手段
  • 関連ページ: 該当 topic / reference / discrepancy へのリンク

掲載コマンドおよび DB スキーマは .cache/sonic-sources/ 内の master 実装を根拠としている。HLD 由来の推測は本文中に明示する。

一覧

# 症状 Runbook
01 BGP セッションが UP しない bgp-session-down.md
02 VLAN メンバー追加してもタグが付かない vlan-tagging.md
03 FEC エラーが多発する fec-errors.md
04 Warm Reboot が失敗する / 通信断が長引く warm-reboot-failure.md
05 PFC で帯域が出ない / Buffer overflow pfc-bandwidth.md
06 DHCP Relay で IP が払い出されない dhcp-relay.md
07 Multi-ASIC で namespace 間通信できない multi-asic-namespace.md
08 Dual-ToR mux が切り替わらない dualtor-mux.md
09 SAI failure / syncd リスタート多発 sai-failure.md
10 コンテナが起動しない (FEATURE) container-not-starting.md
11 show techsupport が timeout する techsupport-timeout.md
12 counter が更新されない (FLEX_COUNTER) flex-counter-stuck.md
13 RIF / ACL counter が 0 のまま rif-acl-counter-zero.md
14 CONFIG_DB save / load が反映されない config-save-load.md
15 SmartSwitch DPU が応答しない smartswitch-dpu-unresponsive.md
16 Telemetry が送信されない (gNMI dial-out) telemetry-dialout-not-sending.md
17 gNMI Subscribe が頻繁に切れる gnmi-subscribe-disconnect.md
18 Y-cable firmware 更新が失敗する ycable-firmware-update-failure.md
19 PINS gRPC (P4Runtime) が応答しない pins-grpc-unresponsive.md
20 CRM threshold 越え (route / nexthop / FDB / ACL) crm-threshold-exceeded.md
21 ASIC link が UP しない (autoneg / FEC / speed) asic-link-autoneg-mismatch.md
22 MACsec MKA セッションが確立しない macsec-mka-not-established.md
23 DASH ENI が落ちる dash-eni-down.md
24 SmartSwitch DPU graceful shutdown 失敗 smartswitch-dpu-graceful-shutdown-failure.md
25 APP_DB → ASIC_DB の反映遅延 appdb-asicdb-sync-lag.md
26 SNMPv3 user 認証失敗 snmpv3-auth-failure.md
27 NAT translation が漏れる nat-translation-miss.md
28 EVPN Type-2 route が広告されない evpn-type2-not-advertised.md
29 MCLAG sync 不能 mclag-sync-failure.md
30 show techsupport の size 肥大化対策 techsupport-size-bloat.md
31 PortChannel メンバーで LACP が確立しない portchannel-lacp-not-established.md
32 SNMP polling が timeout する snmp-polling-timeout.md
33 BGP route が広告されない bgp-route-not-advertised.md
34 ACL ルールが効かない / counter が増えない acl-rule-no-hit.md
35 Interface MTU mismatch によるドロップ interface-mtu-mismatch.md
36 Routing loop が発生している routing-loop-detected.md
37 minigraph 適用後に reload が固まる minigraph-reload-stuck.md
38 T0/T1 リンクが flap し続ける link-flapping.md
39 CONFIG_DB の永続化が失敗する config-db-persistence-failure.md
40 コンテナ memory limit 超過 / OOM kill container-memory-limit-exceeded.md
41 config save 後に予期しない diff が出る config-save-diff-unexpected.md
42 SAI table full (route / nexthop / FDB) sai-table-full.md
43 SmartSwitch DPU image install 失敗 smartswitch-dpu-image-install-failure.md
44 show platform fan / psu 異常値 platform-fan-psu-anomaly.md
45 show interfaces counters が突然リセット interface-counters-reset.md

使い方の前提

  • すべてのコマンドは admin ユーザ(sudo 可)で host 側 shell から実行することを想定する
  • container 内コマンドの場合は明示的に docker exec -it <container> bash 経由で示す
  • Redis key の確認は redis-cli ではなく sonic-db-cli <DB-NAME> を推奨(multi-ASIC 環境で namespace を意識せずに済むため)
  • 出力例の数値・MAC・IP はマスクされたサンプル

引用元

本ページの根拠は引用元 12 を参照。


  1. sonic-net/sonic-utilities @ 39732bceb(show/, scripts/ 配下の各種ツール) 

  2. sonic-net/sonic-swss @ 4305596(orchagent, syncd 連携)