Yapay Zeka Öğrenme Modelleri: Hangisi Ne Zaman Kullanılır?

Abone Ol

Yapay zeka, bugün artık sadece teknoloji şirketlerinin değil; hukuk, sağlık, finans, eğitim ve pazarlama gibi hemen her sektörün gündeminde. Ancak çoğu zaman hangi öğrenme yönteminin kullanıldığını ve bunun günlük iş süreçlerine nasıl yansıdığını fark etmek kolay olmuyor. Bu yazıda dört temel öğrenme yaklaşımını; gözetimli, gözetimsiz, yarı gözetimli ve pekiştirmeli öğrenmeyi, örneklerle ve veri koruma bakışıyla ele aldım. Yazının sonunda, bu yöntemlerin farklarını görebilir, hangi durumda hangisinin tercih edilmesi gerektiğini anlayabilir ve özellikle kişisel verilerle çalışan alanlarda nelere dikkat edilmesi gerektiği konusunda içgörü kazanabilirsiniz. Bu içerik, gizlilik avukatları, teknoloji profesyonelleri ve yapay zekanın pratik uygulamalarını daha iyi kavramak isteyen herkes için faydalı olacaktır.

Önce veri. EY Americas generative AI lideri David Guarrera’nın dediği gibi, “veriyi derinlemesine anlamak, projenin mimari planıdır.” Yöntem seçmeden önce amacı netleştir, veri kaynaklarını haritala ve veri kalitesini doğrula.

Algoritma, eğitimin nasıl yapılacağını tarif eden prosedürler bütünüdür; model ise bu prosedürlerle veri üzerinde eğitilmiş, gerçek problemin matematiksel temsilidir (Anantha Sekar, TCS). Algoritma kek tarifi ise, model o tarifle senin malzemelerinle (veri) yapılmış spesifik kektir. Lezzet; tarife (algoritma), malzemeye (veri kalitesi) ve pişirmeye (eğitim) bağlıdır.

Gözetimli öğrenme, modelin giriş verileri ile bu verilere karşılık gelen etiketli çıktılar arasındaki ilişkiyi öğrenmesini amaçlar. Her örneğin doğru yanıtının bilindiği bu düzende model, sınıflandırma ve regresyon görevleri üzerinden eğitilir; böylece bilinmeyen veriler için isabetli tahminlerde bulunabilir. Örneğin, bir bankada geçmiş müşteri verilerine bakarak kredi başvurusu yapacak kişinin borcunu ödeyip ödeyemeyeceğini tahmin eden sistemler veya tıbbi alanda doktorların işaretlediği verilerden kanserli hücreyi tanıyabilen yapay zeka çözümleri bu yönteme dayanır. Gözetimli öğrenmede bazı durumlarda etiketleme yalnızca insan tarafından değil, sensörler veya otomatik sistemler aracılığıyla da yapılabilir. Etiketli veri kullanımı, özellikle sağlık, finans ve görüntü tanıma alanlarında yüksek doğruluk ve açıklanabilir sonuçlar sunar. Bununla birlikte, büyük miktarda kaliteli ve doğru etiketlenmiş veriye duyulan ihtiyaç, veri toplama ve etiketleme sürecinin maliyeti ve aşırı öğrenme riski bu yaklaşımın zorluklarıdır.

Yaygın gözetimli algoritmalar (özet): karar ağaçları, doğrusal & lojistik regresyon, Naive Bayes, en yakın komşular (k-NN), rassal ormanlar ve destek vektör makineleri.

Gözetimsiz öğrenme ise etiketsiz verilerle çalışır ve verideki gizli yapıları, benzerlikleri ya da farklılıkları keşfetmeye odaklanır. Kümeler oluşturmak veya boyut indirgeme yaparak veriyi daha sade bir temsil haline getirmek bu yöntemin önemli noktasıdır. Burada boyut indirgeme yöntemlerinin de iki ana yaklaşımı vardır: özellik seçimi (önemli değişkenleri belirlemek) ve özellik projeksiyonu (verileri yeni bir boyutta yeniden ifade etmek). Örneğin, bir e-ticaret sitesinde alışveriş yapan kullanıcıların davranışları analiz edilerek “fiyat odaklı alışveriş yapanlar”, “sadık müşteri grupları” veya “indirimleri bekleyenler” gibi segmentlerin ortaya çıkarılması gözetimsiz öğrenmenin tipik bir uygulamasıdır. Benzer şekilde, bankacılıkta olağandışı para transferlerini tespit eden anomali analizi veya görüntü sıkıştırma teknolojileri de bu alana girer. Etiket gerektirmemesi önemli bir avantajdır; ancak çıktıları yorumlamak zordur ve sonuçlar seçilen algoritmaya bağlıdır.

Yaygın gözetimsiz algoritmalar: k-means kümeleme (müşteri segmentasyonunda çok popüler), hiyerarşik kümeleme ve özellik seçimi/özellik projeksiyonu ile boyut indirgeme.

Yarı gözetimli öğrenme ise bu iki yaklaşımı birleştirir: verinin küçük bir bölümü etiketli, büyük kısmı etiketsizdir. Bu yöntem özellikle etiketlemenin zor ve maliyetli olduğu durumlarda öne çıkar. Örneğin, binlerce tıbbi görüntü arasında yalnızca küçük bir bölümünün uzmanlarca etiketlendiği bir durumda model, bu sınırlı bilgiden hareketle etiketsiz verilerden de öğrenerek çok daha doğru sonuçlar üretebilir. Benzer şekilde, e-posta güvenliği alanında birkaç yüz spam e-posta örneği ile binlerce etiketsiz mesaj birlikte kullanıldığında sahte e-postaların tespiti kolaylaşır. Bu yöntemin de farklı alt yaklaşımları vardır: kümeleme ile otomatik etiket üretmek, self-supervised yöntemlerle veriden “ön görevler” aracılığıyla kendi etiketini çıkarmak veya multi-instance teknikleriyle gruplar için toplu etiket üretmek gibi. Yarı gözetimli öğrenme, etiketleme yükünü azaltır ve doğruluğu artırır; ancak algoritmalar daha karmaşıktır ve etiketsiz verinin kalitesiz olması hatalı etiketleme yapmasına neden olabilir.

Pekiştirmeli öğrenme, bir ajanın içinde bulunduğu ortamda deneme-yanılma yoluyla en iyi stratejiyi öğrenmesini hedefler. Model, yaptığı her hareket için ödül veya ceza alır ve zaman içinde hangi davranışların daha faydalı olduğunu keşfeder. Satranç ya da Go gibi strateji oyunlarını oynayan yapay zeka sistemleri (örneğin AlphaGo), otonom araçların trafikte doğru kararlar almayı öğrenmesi, endüstriyel robotların hareketlerini optimize etmesi veya kişiselleştirilmiş öneri sistemlerinin kullanıcı geri bildirimlerini “ödül” gibi kullanarak daha doğru öneriler geliştirmesi bu yöntemin tipik örnekleridir. Ayrıca, pekiştirmeli öğrenme yalnızca sıfırdan öğrenme değil, bir sistemin dağıtıma alındıktan sonra sürekli ince ayarlarla performansını geliştirmesi için de kullanılabilir. Bu yaklaşımın en büyük gücü, insanın tek tek tanımlayamayacağı kadar çok ihtimali kendi kendine deneyimleyip öğrenmesidir; ancak öğrenme süreci çok uzun ve maliyetli olabilir, yanlış ödül/ceza tasarımı modelin istenmeyen davranışlar öğrenmesine yol açabilir.

Dört yöntemin tercihinde asıl belirleyici olan, problemin tanımı ve eldeki verinin niteliğidir. Hedef açıkça tanımlanmış ve yeterli etiketli veri mevcutsa, gözetimli yöntemler en güçlü sonuçları sunar. Keşif, segmentasyon veya boyut indirgeme gibi hedeflerde gözetimsiz yöntemler daha uygundur; etiket maliyetinin yüksek olduğu ama veri bolluğunun bulunduğu alanlarda yarı gözetimli çözümler dengeli bir yol sunar; çevreyle etkileşime girerek adım adım strateji geliştirilmesi gereken durumlarda ise pekiştirmeli öğrenme öne çıkar. Uygulamada çoğu modern yapay zeka sistemi bu yöntemleri bir arada veya ardışık kullanır: örneğin gözetimsiz boyut indirgeme ile veriyi sadeleştirip ardından gözetimli bir sınıflandırıcıyı eğitmek ya da sınırlı etiketle yarı gözetimli bir model kurarak performansı artırmak oldukça yaygın pratiklerdir.

Veri koruma açısından bakıldığında, dört öğrenme yaklaşımının da ortak paydası aynı ilkelere dayanır: amaçla sınırlılık (veri yalnızca belirli, açık ve meşru amaçlar için kullanılmalı) ve veri minimizasyonu (gerektiğinden fazla veri işlenmemeli). Ancak her yöntemin kendi içinde öne çıkan risk alanları vardır.

Gözetimli öğrenmede, kullanılan etiketli verinin kalitesi, doğruluğu ve gerçekten gerekli olup olmadığı kritik önem taşır. Yanlış etiketlenmiş veya fazla veri kullanımı, modelin önyargılı ya da hatalı kararlar üretmesine yol açabilir.

- Etiketleme sürecinde kalite kontrol mekanizmaları oluşturulmasını ve yalnızca işin amacına uygun verilerin kullanılması tavsiye edilmeli ve Etiketli veriler hangi kaynaktan geldi? Etiketleme süreci kimler tarafından, hangi standartlara göre yapıldı? Fazladan veri toplandı mı? Bu sorulara cevap aranmalıdır.

Gözetimsiz öğrenmede, modelin veriler arasındaki ilişkileri kendiliğinden keşfetmesi nedeniyle, daha önce görünmeyen örüntüler üzerinden bireylerin yeniden tanımlanması (re-identification) riski ortaya çıkar. Bu durum, özellikle anonimleştirildiği düşünülen verilerde kişisel bilgilerin tekrar açığa çıkmasına neden olabilir.

- Yalnızca anonimleştirme değil, ek gizlilik artırıcı teknikler (Privacy-Enhancing Technologies – PETs) kullanılmasını ve düzenli yeniden tanımlama testlerinin yapılması önerilmeli ve Gizlilik avukatları şu soruları sormalı: “Anonimleştirme gerçekten geri döndürülemez mi? Kümeleme sonucunda bireyler tekrar tanımlanabilir mi? Kullanılan veri kümeleri hangi ek koruma tedbirleriyle işleniyor? Bu sorulara cevap aranmalıdır.

Yarı gözetimli öğrenmede, kullanılan etiketsiz verilerin kaynağı, güvenilirliği ve güncelliği çok önemlidir. Düşük kaliteli veya uygunsuz veriler, az sayıdaki etiketli veriyi de yanlış yönlendirebilir.

- Verilerin kaynağının titizlikle doğrulanmasını, gereksiz veya alakasız verilerin ayıklanması ve mümkünse veri işleme faaliyetinin başında bir Veri Koruma Etki Değerlendirmesi (DPIA) yapılmalı ve Etiketsiz veriler hangi yasal dayanakla toplandı? Bu veriler işleme amacına uygun mu? Verilerin güncelliği nasıl sağlanıyor? Bu sorulara cevap aranmalıdır.

Pekiştirmeli öğrenmede ise sistemin sürekli davranış gözlemlemesi ve kullanıcı etkileşimlerini kaydetmesi söz konusudur. Bu da uzun vadeli davranış profilleri çıkarma riskini beraberinde getirir.

- Veri saklama sürelerinin sınırlandırılması, aydınlatma metinleriyle kullanıcıya şeffaf olunmalı ve profil çıkarma faaliyetlerinin açık rıza veya güçlü bir meşru menfaat analizine dayanmalıdır. Davranış verileri ne kadar süreyle saklanıyor? Kullanıcılara bu izleme şeffaf bir şekilde bildiriliyor mu? Profil çıkarma faaliyetleri GDPR/KVKK çerçevesinde meşru mu? Bu sorulara cevap aranmalıdır.

Bu nedenle yalnızca modelin teknik başarısı değil, aynı zamanda veri işleme sürecinin şeffaflığı ve uyumu da ön planda olmalıdır. Eğitim aşamasında güçlü anonimleştirme veya en azından etkili pseudonimleştirme yapılmalı, hassas veriler mümkünse kullanılmamalıdır. Gizlilik artırıcı teknikler (örneğin diferansiyel gizlilik) özellikle büyük veri setleri üzerinde hem anonimlik seviyesini korumak hem de analiz kabiliyetini sürdürmek açısından önemlidir. Ayrıca, modelin nasıl çalıştığını ve hangi verilere dayandığını ortaya koyan model doğrulama ve dokümantasyon süreçleri zorunlu hale getirilmelidir.

“Tek ve her zaman en iyi bir algoritma yoktur,” diyor Michael Shehab (PwC). Doğru seçim, probleme ait ölçütlere karşı titiz deney ve değerlendirmeyle ortaya çıkar.

Bununla birlikte, dağıtım sonrasında da denetim devam etmelidir. Düzenli aralıklarla yapılacak bağımsız denetimler, algoritmanın önyargı üretip üretmediğini, gizlilik risklerini artırıp artırmadığını ve hukuki çerçeveye (GDPR, KVKK, AI Act gibi) uyumunu değerlendirmelidir. Ayrıca, veri işleme faaliyetlerinin başında bir Veri Koruma Etki Değerlendirmesi (DPIA) yapılması, ilerleyen aşamalarda doğabilecek riskleri öngörmek ve önleyici tedbir almak açısından oldukça faydalıdır.

Sonuç olarak, hangi öğrenme yaklaşımı kullanılırsa kullanılsın, işin merkezinde teknik başarı kadar etik, hukuki ve şeffaf bir veri yönetimi anlayışının bulunması gerekir. Bu yaklaşım yalnızca düzenleyici kurumların beklentilerini karşılamaz, aynı zamanda kullanıcı güvenini pekiştirir ve yapay zekâ projelerinin sürdürülebilirliğini sağlar.

Hangi modelin seçileceği eldeki veri ve probleme göre belirlenmelidir. En popüler algoritmalar ve bunların çalıştığı modeller arasında şunlar yer almaktadır:

- Yapay sinir ağları, birbirine bağlı nöronlardan oluşan bir ağı eğitir. Her bir nöron, girdileri ağın sonraki katmanlarındaki düğümlere beslenen çıktılara çeviren belirli bir çıkarım algoritması çalıştırır. Modeller: denetimsiz, yarı denetimli ve pekiştirme. Görüntü tanıma, doğal dil işleme gibi karmaşık işlerde başarılıdır, ancak nasıl karar verdiğini anlamak zordur. Kara kutu problemi gibi.

- Karar ağaçları, bir değişken üzerinde bir dizi test yaparak bir veri noktasını değerlendirir ve bir sonuca ulaşır. Genellikle sınıflandırma ve regresyon için kullanılırlar. Model: denetimli.

- K-means kümeleme, grup sayısının K değişkeni ile temsil edildiği bir veri kümesinde grupları bulma sürecini otomatikleştirir. Bu gruplar belirlendikten sonra, her veri noktasını bu gruplardan birine atar. Model: denetimsiz. Müşteri segmentasyonu gibi süreçlerde çok popülerdir.

- Doğrusal regresyon, sürekli değişkenler arasındaki ilişkiyi bulur. Model: denetimli. Örneğin, ev satış fiyatını belirlemek. Evet hayır soruları ile akış şeması yaratıyor.

- Lojistik regresyon, olayları iki kategoriye ayırmak için en iyi formülü belirleyerek bir veri noktasının bir kategoride olma olasılığını tahmin eder. Genellikle sınıflandırma için kullanılır. Model: denetimli.

- Naive Bayes, veri kümesindeki değişkenler arasındaki kalıpların ilişkisini gösteren istatistiksel olasılıklara dayalı olarak kategorileri sınıflandırmak için Bayes teoremini kullanır. Model: denetimli.

- En yakın komşu algoritmaları, belirli bir veri noktasının kategorisini belirlemek için bu veri noktasının çevresindeki birden fazla veri noktasını inceler. Model: denetimli.

- Rastgele ormanlar, sınıflandırma problemlerine uygulanabilecek bir karar ağacı oluşturmak için ayrı algoritmalardan oluşan bir küme düzenler. Model: denetimli.

- Destek vektör makinesi, etiketli verileri kullanarak yeni veri noktalarını çeşitli kategorilere atayan bir model eğitir. Model: denetimli.

“Her duruma uyan sihirli bir model yok. Bir projede hız öne çıkarken, başka bir projede hassas karar verme ya da modelin kararlarını açıklayabilme becerisi kritik olabilir. Donanım ve bakım maliyetleri de bu seçimde belirleyici faktörler arasında yer alır. Bu nedenle ‘en iyi model’, her zaman ihtiyaç ve koşullara en uygun olandır.”

Makine Öğrenimi Modeli Eğitimi: En İyi Uygulamalar

Makine öğrenimi modellerinin başarısı yalnızca algoritma seçiminde değil, eğitim sürecinin nasıl yönetildiğinde de gizlidir. Aşağıda, Shehab tarafından PwC için geliştirilen, eğitim sürecine başlarken ve modelin kalitesini artırırken izlenebilecek en iyi uygulamaları bulabilirsiniz.

1. Eğitim Sürecine Başlangıç

Basit Başla

- En basit yaklaşımla başlamak en verimli stratejidir.

- Karmaşıklığı kademeli olarak eklemek gerekir.

- Basit model, temel başarıyı ortaya koyar.

- Karmaşıklık adımları maliyet/fayda dengesine göre değerlendirilmelidir.

Tutarlı Model Geliştirme Süreci Oluştur

- Tekrarlanabilir ve şeffaf süreçler belirlenmelidir.

- Deney takibi sağlayan araçlar kullanılmalı, deneyler belgelendirilmelidir.

- Geliştirilebilirlik için ölçülebilir noktalar tanımlanmalıdır.

Doğru Problemi Tanımla

- Yanlış tanımlanan amaçlardan kaçınılmalıdır.

- Yanlış odak alanları belirlenmemelidir.

- Gerçekçi olmayan beklentiler engellenmelidir.

- Gelişimi değerlendirmek için açık ve ölçülebilir bir çerçeve oluşturulmalıdır.

Tanıdık Veriyi Anla

- Verinin davranışını anlamak kritik önemdedir.

- Verinin kalitesi ve bütünlüğü düzenli olarak ölçülmelidir.

- Görevle ilgili önemli öznitelikler net olarak tanımlanmalıdır.

- Mevcut “baz” dosyaları tespit edilmeli ve referans noktaları oluşturulmalıdır.

2. Model Kalitesini ve Güvenini Artırma

Doğruluğu Sağla (Hatasız Ölç)

- Ölçülebilir performans kriterleri belirlenmelidir.

- Algoritma eğitiminin verimliliği geri bildirimle ölçülmelidir.

- Geri bildirim süreçleri dikkatle tanımlanmalı ve izlenmelidir.

- Tamamlanmamış veya yanlış geri bildirimler modelin yolunu saptırabilir.

Açıklanabilirliğe Odaklan (Explainability)

- Modelin neden ve nasıl davrandığı anlaşılmalıdır.

- Daha kapsayıcı değerlendirme yöntemleri kullanılmalıdır.

- Detaylı performans analizleri, içgörü sağlamak için kritik rol oynar.

- Performansı artırma hipotezleri açıkça test edilmeli ve belgelenmelidir.

- Kullanıcılar için anlaşılır güven açıklamaları oluşturulmalıdır.

Eğitime Devam Et

- Modelin ömrü boyunca sürekli eğitim süreci tasarlanmalıdır.

- Üretim aşamasında dahi model gözlemlenmeye devam etmelidir.

- Sürekli iyileştirmeler ile model güncel tutulmalıdır.

Bu en iyi uygulamalar, yalnızca teknik performansı artırmaya değil, aynı zamanda şeffaflık ve güven ilkelerini güçlendirmeye hizmet eder. Modelleri daha iyi anlamak, önyargı risklerini azaltır ve veri koruma hukukunun öngördüğü hesap verebilirlik ilkesine doğrudan katkı sağlar. Özellikle gizlilik avukatları için, bu adımların her biri bir kontrol listesi gibi kullanılabilir: problem tanımı, veri kalitesi, şeffaflık, açıklanabilirlik ve sürekli denetim.

Kaynak:

https://www.techtarget.com/searchenterpriseai/tip/Types-of-learning-in-machine-learning-explained

https://www.superannotate.com/blog/supervised-learning-and-other-machine-learning-tasks