Telemetry / SNMP / Observability¶
この章は、SONiC で「いまスイッチが何をしているか」「壊れたとき何が起きたか」を読むための機能群をまとめます。counters、CRM、SNMP、gNMI telemetry、sFlow、DTel、syslog、techsupport、kdump など複数の経路があり、HLD は別ページに散らばっています。ここでは運用者と設計者の質問順に並べ直し、既存ページへの入口にします。
観測手段は「現在値を polling で読む」「変化点を push で受ける」「障害時に dump を取る」の 3 系統に整理できます。SNMP は古典的な polling、gNMI telemetry は push 型 streaming、syslog / event / techsupport は障害発生時の証跡です。この区分けが分かると、どこを設定し、どこを見れば良いかが定まります。
この章で答える質問¶
- 状態を見るとき、counter、telemetry、SNMP、techsupport のどれを使い分けるか。
- FlexCounter、CRM、DTel、sFlow、watermark は何が違い、どの粒度で出るか。
- system health、logging、kdump、dump utility は障害調査でどう連携するか。
- SNMP MIB と gNMI telemetry は同じ情報を別経路で出しているのか。
- auto-techsupport と event-driven techsupport は何が変わったのか。
読み進め方¶
- 概念: 観測経路の分類と、各手段が答える質問の違い。
- アーキテクチャ: FlexCounter / CRM / telemetry / SNMP のデータ収集経路。
- 設定: SNMP、sFlow、syslog、telemetry、auto-techsupport の最小設定。
- 運用:
show techsupport、show system-health、counter、kdump の調査順。 - 内部実装: syncd / flex counter group、telemetry agent、SNMP subagent。
- 発展トピック: DTel、sFlow、Entity MIB、process / memory stats、reboot cause。
関連ページ¶
章構成と進捗¶
| ページ | 状態 | verification |
|---|---|---|
| concept | ✅ 完成 (140 行) | meta |
| setup | ✅ 完成 (248 行) | meta |
| operations | ✅ 完成 (187 行) | meta |
| internals | ✅ 完成 (129 行) | meta |
| advanced | ✅ 完成 (118 行) | meta |
次に読むべき記事¶
この章を読み進める順
関連する HLD 7 件
- SNMP 設定の snmp.yml → CONFIG_DB 移行
- libsairedis API idempotence(warm restart 用 OID キャッシュと duplicate 抑止)
- SNMP TABLE スキーマ提案(SNMP / SNMP_COMMUNITY / SNMP_USER)
- telemetry dial-out モード(gNMIDialOut.Publish / TELEMETRY_CLIENT)
- ASIC 内部温度センサのポーリング(ASIC_SENSORS / ASIC_TEMPERATURE_INFO)
- gNMI Master Arbitration(election ID と SetRequest 拡張)
- gNSI 設定と運用(gNMI フラグ / YANG / 運用イメージ)
関連トラブルシュート 5 件
- APP_DB → ASIC_DB の反映が遅延・停止する
- orchagent が CPU 100% で詰まる
- show interfaces counters が突然リセットされる
- 経路は RIB にあるが FIB / ASIC に降りない
- SNMP polling が timeout する
関連する章¶
前提として読むべき章
派生で読むべき章
補完的に読む章