İçeriğe Atla
Mustafa Erbay
Teknoloji · 10 dk okuma · görüntülenme Read in English
100%

Envoy Outlier Detection ile Kötü Node İzolasyonu

Dağıtık sistemlerde bozuk node etkisini küçültmek için Envoy outlier detection eşiği, sinyali ve rollback disiplini.

Envoy Outlier Detection ile Kötü Node İzolasyonu — kapak görseli

Dağıtık sistemlerde en pahalı arızalardan biri “tam bozuk olmayan node” problemidir. Node ayaktadır, health check geçer, CPU normaldir; ama gecikme üretir, bazı istekleri 500 döndürür ya da TLS handshake’lerinde sürtünme yaşatır. Yük dengeleyici bunu normal üye gibi görür ve kötü davranışı tüm trafiğe yayar.

Bu noktada Envoy outlier detection, arızalı örnekleri geçici olarak havuz dışına alarak blast radius’i küçültür. Ama yanlış eşiğe ayarlanırsa, bu kez sağlıklı node’ları da haksız yere cezalandırabilir.

1) Hangi problem sınıfını çözer?

Outlier detection özellikle şu durumlarda değerlidir:

  • Bir veya birkaç pod aniden yüksek hata oranı üretir
  • Bağlantı kuruluyor ama tail latency patlıyor
  • Üye health check geçiyor, fakat uygulama işlevsel olarak bozuk

Bu mekanizma, root cause yerine geçmez. Yani bug’ı çözmez; sadece sistemin tamamını etkileyen yayılımı azaltır.

2) Sinyal: neye göre dışlayacağım?

Envoy tarafında tipik seçenekler:

  • consecutive 5xx
  • gateway failure
  • success rate düşüşü
  • local origin failure

Buradaki tuzak, tek sinyalle her problemi çözmeye çalışmaktır. Örneğin yalnızca consecutive_5xx kullanırsanız yüksek latency ama düşük hata üreten node gözden kaçabilir. Yalnızca success rate kullanırsanız düşük hacimli servislerde yanlış pozitif üretirsiniz.

3) Tasarım: agresif değil, kontrollü izolasyon

Benim tercih ettiğim yaklaşım:

  • Önce dar kapsamlı servislerde başla
  • Dışlama süresini kısa tut
  • Maksimum ejection yüzdesini sınırlı tut
  • Alarm ve dashboard olmadan açma

Örnek ilke:

  • Üç kez ardışık 5xx → geçici dışla
  • Dışlama 30–60 saniye
  • Aynı anda havuzun en fazla %20–30’u dışlanabilir

Böylece tek node problemi yayılmaz; ama sistem kendi kendini tamamen boşaltmaz.

4) Operasyon: hangi dashboard işe yarar?

Asgari görünürlük seti:

  • Ejected host sayısı
  • Ejection nedeni
  • Servis başarı oranı
  • P95/P99 latency
  • Retry hacmi

Retry metriği özellikle önemlidir. Çünkü outlier detection ile birlikte retry patlarsa, sağlıklı üyeler üzerine yeni baskı kurarsınız.

5) Runbook: dışlama artıyorsa neye bakarım?

  1. Tek node mu, genel bozulma mı?
    • Eğer çok sayıda üye dışlanıyorsa eşik veya upstream genel bozuk olabilir.
  2. Common dependency var mı?
    • Aynı cache, DB veya auth bağımlılığı tüm üyeleri etkiliyor olabilir.
  3. Retry zinciri ne durumda?
    • İstemci, gateway ve sidecar aynı anda retry yapıyorsa problem büyür.
  4. Rollback gerekir mi?
    • Yanlış tuning, gerçek arızadan daha büyük kesinti üretebilir.

6) Ne zaman kapatırım, ne zaman genişletirim?

Şu durumlarda kapsamı daraltırım:

  • Düşük trafikli servislerde yanlış pozitif yüksekse
  • Ortak bağımlılık hatasında tüm havuz dışlanmaya yaklaşıyorsa
  • Uygulama hatası yerine ağ veya DNS sorunu varsa

Şu durumlarda genişletirim:

  • Uzun süredir aynı sınıf node kusurları yaşanıyorsa
  • Hata oranı düşük ama tail latency kaynaklı kullanıcı etkisi netse
  • Sağlam dashboard ve rollback yolu hazırsa

Sonuç

Envoy outlier detection, dağıtık sistemlerde “bozuk ama ölmemiş node” problemini izole etmek için çok güçlüdür. Ancak etkisi, tuning disiplini ve görünürlükle doğru orantılıdır. Başarılı uygulama; ejection eşiği, retry bütçesi ve rollback planını birlikte tasarlamaktır. Amaç akıllı görünmek değil, arızalı üyeyi hızlı ayırıp kalan sistemi sakin tutmaktır.

Paylaş:

Bu yazı faydalı oldu mu?

Yükleniyor...

Bu yazı nasıldı?

ME

Mustafa Erbay

Sistem Mimarisi · Network Uzmanı · Altyapı, Güvenlik ve Yazılım

2006'dan bu yana sistem mimarisi, network, sunucu altyapıları, büyük yapıların kurulumu, yazılım ve sistem güvenliği ekseninde çalışıyorum. Bu blogda sahada karşılığı olan teknik deneyimlerimi paylaşıyorum.

Kişisel Notlar

Bu notlar sadece sizde saklanır. Tarayıcınızda yerel olarak tutulur.

Hazır 0 karakter

Yorumlar

Sunucu Taraflı AI Moderasyon

Yorumlar sunucuda yapay zeka ile denetlenir ve kalıcı olarak saklanır.

?
0/2000

Sunucu taraflı AI denetim

✉️ Ücretsiz · Spam yok · İstediğin an çık

Haftalık özet — AI değil, bizzat ben seçiyorum

Haftada bir mail: o haftanın en önemli yazısı, perde arkası notları, ve "bu hafta gerçekten kullandığım araç" bölümü. Az gürültü, çok sinyal.

  • 📌
    Haftanın en iyisi Sadece okumaya değer tek yazı
  • 🔧
    Alet çantası Bu hafta kullandığım araçlar
  • 🧠
    Perde arkası Blog'a girmeyen notlar

Spam yapmıyoruz. İstediğiniz zaman ayrılabilirsiniz. · Sadece Umami (self-hosted, Google yok) ile takip.

Okuma İstatistikleriniz

0

Yazı Okundu

0dk

Okuma Süresi

0

Gün Serisi

-

Favori Kategori

İlgili Yazılar