Anomali Tespiti 1.Bölüm (Tekli Anomali Tespiti)

Halil İbrahim Hatun
4 min readAug 2, 2022

--

İlk başta anomalinin tanımını yaparak başlayalım. Anomali, TDK’ye göre norm dışı, alışılmadık, beklenmedik anlamlarına gelmektedir.

Anomaly Detection (Anomali Tespiti) ise basit anlamıyla bir veride beklenmedik durumların veya kalıpların bulunmasını sağlayan bir tekniktir. Bu beklenmedik durumlar veya kalıplar aslında bir verinin beklenen davranışlarına uymayan durumlar veya kalıplardır. Bu beklenmedik durumlara literatürde outliers (aykırı değerler), exceptions (istisnai durumlar) veya anomaliler denilmektedir.

Örnek vermek gerekirse 10 yaşındaki bir çocuğun sigara içmesi bir anomali durumudur.

Anomali tespitini nasıl gerçekleştirebiliriz? Tabi ki bunun için bir çok yöntem var ben başlıca yöntemleri ele alacağım.

Anomali tespiti tekli ve çoklu olmak üzere iki grupta inceleyeceğiz.

1. Tekli Anomali Tespiti:
Değişkenleri teker teker inceleyerek her birindeki anomali durumlarına bakar. Başlıca kullanılan yöntemlerin ikisine bakacak olursak:

a) IQR İle Anomali Tespiti
b) 3 Sigma Kurali İle Anomali Tespiti

2. Çoklu Anomali Tespiti
Değişkenleri bir arada değerlendirerek aralarındaki ilşkiye göre anomali durumlarına bakar. Başlıca kullanılan yöntemlerin ikisine bakacak olursak:

a) Local Outlier Factor (LOF)
b) Isolation Forest

Bu yazımda Tekli Anomali Tespitini ele alacağım.

Tekli Anomali Tespiti

Tekli Anomali Tespiti, bir veri seti üzerinden anlatacak olursak. Veri setindeki herhangi bir nümerik değişkendeki değerlerin dağılımsal olarak belli yöntemler dahilinde anomali verileri tespit etmemizi sağlar.

a) IQR İle Anomali Tespiti

Aykırı bulma işleminde yapılan işlemin aynısı gerçekleştirilir. Temel formüllerden bahsetmek gerekirse:

IQR = Q3 — Q1

Alt sınır = Q1–1.5 * IQR

Üst sınır = Q3 + 1.5 * IQR

Üst sınırın üstünde ve alt sınırın altında olan değerler aykırı veya anomali değer olarak kabul edilmektedir. Peki bu formülleri neye göre yazdık biraz bunun üstüne düşelim.

Biliyoruz ki Gaussian dağılımı şu şekildedir:

IQR yöntemini kendimizin ürettiği ve dışardan alınan bir veri setinin bir değişkeninde deneyerek neler değiştirdiğini inceleyelim.

Bu durumları bir veri seti üzerinden gösterelim.

Kütüphanelerimizi tanımlayarak başlayalım.

`WineQT` adında bir veri seti kullanacağız. Bu veri seti şarapların kalite kontrülü test etmek amacıyla yapılmış bir veri setidir. Tekli anomali analizinde bu veri setinin `chlorides` değişkenini kullanacağız.

Anomali değerleri görselleştirerek görelim. Dağılımı gözlemleyelim.

Verinin istatistiksel bilgilerini gösterelim.

Standard Sapma Değerlerini Gösterelim.

Şimdi ise verimize IQR ile anomali tespiti işlemini uygulayalım ve alt ve üst sınırlarını belirleyelim.

IQR yöntemi ile kaç verimizin anomali olarak nitelendirildiğine bakalım.

Alt ve üst sınırlarımızı aldığımıza göre bir de dağılım üzerinde görelim.

b) 3 Sigma Kuralı İle Anomali Tespiti

Adından da anlaşılacağı üzere 3 sigma kuralı 3 standart sapma aralığı dışındaki verileri anomali değer olarak kabul eder.

Bu grafiği standart sapma (𝜎) değerleri üzerinden inceleyecek olursak:

Görüldüğü üzere 68–95–99.7 kuralı mevcuttur. Bu kural ilk standart sapma(𝜎) aralığı toplam dağılımın %68'ini, iki standard sapma (2𝜎) aralığı toplam dağılım %95'ini ve üç standart sapma aralığı ise toplam dağılımın %99.7'sini oluşturmaktadır. Dağılımda genellikle üç standard sapma aralığı (%97) dışındaki veriler anomali değer varsayılmaktadır.

3 Sigma Kuralını IQR tarafında kullandığımız veride uygulayalım ve sonuçları gözlemleyelim.,

IQR ile 3 Sigma Karşılaştırma

Görselleştirerek gösterelim.

Tekli anomali tespiti yazım bu kadardı. Çoklu anomali analizinde görüşmek üzere :). Okuduğunuz için teşekkür eder, iyi günler dilerim.

Referanslar

--

--

Halil İbrahim Hatun
Halil İbrahim Hatun

No responses yet