コンテンツにスキップ

Telemetry / SNMP / Observability

この章は、SONiC で「いまスイッチが何をしているか」「壊れたとき何が起きたか」を読むための機能群をまとめます。counters、CRMSNMPgNMI telemetry、sFlow、DTel、syslog、techsupport、kdump など複数の経路があり、HLD は別ページに散らばっています。ここでは運用者と設計者の質問順に並べ直し、既存ページへの入口にします。

観測手段は「現在値を polling で読む」「変化点を push で受ける」「障害時に dump を取る」の 3 系統に整理できます。SNMP は古典的な polling、gNMI telemetry は push 型 streaming、syslog / event / techsupport は障害発生時の証跡です。この区分けが分かると、どこを設定し、どこを見れば良いかが定まります。

この章で答える質問

  • 状態を見るとき、counter、telemetry、SNMP、techsupport のどれを使い分けるか。
  • FlexCounter、CRM、DTel、sFlow、watermark は何が違い、どの粒度で出るか。
  • system health、logging、kdump、dump utility は障害調査でどう連携するか。
  • SNMP MIB と gNMI telemetry は同じ情報を別経路で出しているのか。
  • auto-techsupport と event-driven techsupport は何が変わったのか。

読み進め方

  1. 概念: 観測経路の分類と、各手段が答える質問の違い。
  2. アーキテクチャ: FlexCounter / CRM / telemetry / SNMP のデータ収集経路。
  3. 設定: SNMP、sFlow、syslog、telemetry、auto-techsupport の最小設定。
  4. 運用: show techsupportshow system-health、counter、kdump の調査順。
  5. 内部実装: syncd / flex counter group、telemetry agent、SNMP subagent。
  6. 発展トピック: DTel、sFlow、Entity MIB、process / memory stats、reboot cause。

関連ページ

章構成と進捗

ページ 状態 verification
concept ✅ 完成 (140 行) meta
setup ✅ 完成 (248 行) meta
operations ✅ 完成 (187 行) meta
internals ✅ 完成 (129 行) meta
advanced ✅ 完成 (118 行) meta

次に読むべき記事

この章を読み進める順

関連する HLD 7 件

関連トラブルシュート 5 件

関連する章

前提として読むべき章

派生で読むべき章

補完的に読む章