İçeriğe Atla
Mustafa Erbay
Teknoloji · 10 dk okuma · görüntülenme Read in English
100%

MLAG Failover Sırasında Sessiz Paket Kaybı Avcılığı

MLAG ve LACP topolojilerinde sessiz paket kaybını bulmak için sinyal seti, failover testi ve operasyonel karar ağacı yaklaşımı.

MLAG Failover Sırasında Sessiz Paket Kaybı Avcılığı — kapak görseli

MLAG tasarımları çoğu zaman “yüksek erişilebilirlik tamam” rahatlığı üretir. Fakat sahada en yorucu vakalardan biri, link down olmadan yaşanan sessiz paket kaybıdır. Port’lar up görünür, LACP normaldir, CPU sakindir; buna rağmen uygulama gecikmesi artar ve bazı akışlar bozulur.

Bu sınıf problemi çözmek için konfigürasyon okumak yetmez. Failover sırasında hangi sinyal neyi anlatıyor, hangi noktada veri kaybı oluşuyor, hangi aksiyon gerçekten güvenli sorularını birlikte cevaplamak gerekir.

1) Sessiz paket kaybı neden tehlikeli?

Çünkü klasik alarm seti çoğu zaman çalmaz:

  • Interface up
  • BGP/OSPF komşulukları ayakta
  • LACP bundle halen formed

Ama gerçek kullanıcı etkisi oluşur:

  • Uzun yaşayan TCP oturumları reset yer
  • Retransmit artar
  • Sadece belirli rack veya node grupları etkilenir

Bu yüzden MLAG sorunlarında “down değilse ağ değildir” yaklaşımı çok pahalıdır.

2) Nerede kırılır?

En sık gördüğüm nedenler:

  • Peer-link üzerinde asimetrik yük veya buffer baskısı
  • Hash davranışı nedeniyle belirli flow’ların aynı problemli üyeye düşmesi
  • STP/ARP/MAC state senkronizasyonunda gecikme
  • Yazılım güncellemesi sonrası vendor bug veya half-state

Failover anında bu problemler birkaç saniye sürse bile, üst katmanda kuyruklama ve retry fırtınası yaratabilir.

3) İzleme: hangi sinyaller gerçekten işe yarar?

Ben şu beşliyi birlikte izlemeyi tercih ediyorum:

  • Peer-link throughput ve drop sayısı
  • Member port başına queue/drop istatistikleri
  • ARP/MAC move olayları
  • Uygulama tarafında TCP retransmit ve connection reset oranı
  • Failover anında sentetik probe kaybı

Bu sinyaller, “kablo koptu mu?” sorusundan çok daha değerlidir. Çünkü sessiz kayıp çoğu zaman tek bir sayaçta patlamaz; birkaç küçük sinyal bir araya geldiğinde görünür olur.

4) Test: failover’u gerçekten prova ediyor musunuz?

MLAG tasarımında güven ancak kontrollü testle oluşur. Önerdiğim tatbikat:

  1. Sentetik north-south ve east-west akış başlat
  2. Bir uplink’i kontrollü kes
  3. Peer-switch rol geçişini tetikle
  4. Ölçüm: kayıp, jitter, yeniden yakınsama süresi

Burada başarı ölçütü “trafik sonunda geri geldi” değildir. Asıl ölçüt:

  • Kaç paket kayboldu?
  • Hangi flow etkilendi?
  • Üst katmanda retry dalgası oldu mu?

5) Runbook: incident anında nasıl ilerlerim?

  1. Kapsamı belirle
    • Tüm servis mi etkilendi, belirli node/rack mi?
  2. Sinyali ayır
    • Interface down yoksa queue/drop ve retransmit tarafına git
  3. Yol doğrulama
    • Hangi flow hangi member üzerinden gidiyor?
  4. Geçici mitigasyon
    • Problemli member’ı bundle dışına al
    • Gerekirse belirli uplink’i drain et
  5. Kalıcı aksiyon
    • Hash/policy revizyonu
    • Yazılım sürümü/vendor advisory kontrolü

Bu sırayı bozup “önce reboot atalım” dediğiniz anda en değerli kanıtı yok edersiniz.

6) Tasarım kararları: blast radius nasıl küçülür?

  • Her bundle için üyeleri gerçekten farklı failure domain’lere dağıt
  • Peer-link kapasitesini yalnızca steady-state ile boyutlama
  • Top-of-rack tatbikatını değişiklik sürecine bağla
  • Uygulama ekipleriyle timeout ve retry bütçesini hizala

MLAG kararı tek başına ağ kararı değildir. Eğer üst katman istemcileri çok agresif retry yapıyorsa, birkaç saniyelik kayıp bile servis çapında büyür.

Sonuç

MLAG failover sorunlarında asıl maliyet, sinyalin zayıf olmasıdır. “Her şey up ama kullanıcı şikâyet ediyor” tipi olaylarda doğrulama katmanını genişletir, sentetik testleri düzenli yapar ve peer-link davranışını gerçek yük altında ölçerseniz sessiz paket kaybını görünür hale getirirsiniz. Ağ güvenilirliği, sadece redundant link sayısıyla değil; arıza anındaki gözlemlenebilirlikle ölçülür.

Paylaş:

Bu yazı faydalı oldu mu?

Yükleniyor...

Bu yazı nasıldı?

ME

Mustafa Erbay

Sistem Mimarisi · Network Uzmanı · Altyapı, Güvenlik ve Yazılım

2006'dan bu yana sistem mimarisi, network, sunucu altyapıları, büyük yapıların kurulumu, yazılım ve sistem güvenliği ekseninde çalışıyorum. Bu blogda sahada karşılığı olan teknik deneyimlerimi paylaşıyorum.

Kişisel Notlar

Bu notlar sadece sizde saklanır. Tarayıcınızda yerel olarak tutulur.

Hazır 0 karakter

Yorumlar

Sunucu Taraflı AI Moderasyon

Yorumlar sunucuda yapay zeka ile denetlenir ve kalıcı olarak saklanır.

?
0/2000

Sunucu taraflı AI denetim

✉️ Ücretsiz · Spam yok · İstediğin an çık

Haftalık özet — AI değil, bizzat ben seçiyorum

Haftada bir mail: o haftanın en önemli yazısı, perde arkası notları, ve "bu hafta gerçekten kullandığım araç" bölümü. Az gürültü, çok sinyal.

  • 📌
    Haftanın en iyisi Sadece okumaya değer tek yazı
  • 🔧
    Alet çantası Bu hafta kullandığım araçlar
  • 🧠
    Perde arkası Blog'a girmeyen notlar

Spam yapmıyoruz. İstediğiniz zaman ayrılabilirsiniz. · Sadece Umami (self-hosted, Google yok) ile takip.

Okuma İstatistikleriniz

0

Yazı Okundu

0dk

Okuma Süresi

0

Gün Serisi

-

Favori Kategori

İlgili Yazılar