User:Burakkonurr/Çok katmanlı algılayıcı

 Çok katmanlı algılayıcı (Çok Katmanlı Algılayıcı), modern ileri beslemeli yapay sinir ağları için yanıltıcı bir isimdir. Tamamen bağlı nöronlardan oluşur ve en az üç katmandan meydana gelir. Bu nöronlar, doğrusal olarak ayrılabilir olmayan verileri ayırt edebilen doğrusal olmayan bir aktivasyon fonksiyonu türüne sahiptir. "Yanıltıcı" tabiri kullanılmasının nedeni, orijinal algılayıcının (Algılayıcı) doğrusal olmayan bir aktivasyon fonksiyonu yerine Ağır adım fonksiyonu kullanıyor olmasıdır (modern ağlarda kullanılan ile karşılaştırıldığında). Bu terim, ağın yapısı ve işlevselliği hakkında daha doğru bir anlayış sağlamak için genellikle modern yapay sinir ağlarından bahsederken kullanılır.

Modern ileri beslemeli ağlar, geri yayılım yöntemi    kullanılarak eğitilir ve halk arasında "vanilya" sinir ağları olarak anılır.

Zaman çizelgesi

 * 1958'de, bir giriş katmanı, öğrenmeyen rastgele ağırlıklara sahip bir gizli katman ve öğrenme bağlantılarına sahip bir çıkış katmanından oluşan katmanlı bir algılayıcı ağı, Frank Rosenblatt tarafından Perceptron adlı kitabında tanıtılmıştı. Bu aşırı öğrenme makinesi henüz derin bir öğrenme ağı değildi.


 * 1965 yılında, henüz stokastik gradyan inişini kullanmayan ilk derin öğrenme ileri beslemeli ağı, o zamanlar Grup Veri İşleme Yöntemi olarak adlandırılan Alexey Grigorevich Ivakhnenko ve Valentin Lapa tarafından yayınlandı.


 * 1967'de Shun'ichi Amari tarafından ilk kez stokastik gradyan inişini kullanan ve doğrusal olmayan şekilde ayrılamayan model sınıflarını sınıflandırabilen bir derin öğrenme ağı yayınlandı. Amari'nin öğrencisi Saito, iki öğrenme katmanına sahip beş katmanlı ileri beslemeli bir ağ kullanarak bilgisayar deneylerini gerçekleştirdi.


 * 1970 yılında, zincir kuralına dayalı denetimli öğrenmenin etkili bir uygulaması olan modern geri yayılım yöntemi, ilk kez Finli araştırmacı Seppo Linnainmaa tarafından yayınlandı.  Terimin kendisi (yani "geriye yayılma hataları") Rosenblatt'ın kendisi tarafından kullanılmıştı, ancak bunun nasıl uygulanacağını bilmiyordu, her ne kadar kontrol teorisi bağlamında sürekli bir geri yayılma öncüsü kullanılmış olsa da 1960 yılında Henry J. Kelley tarafından. Aynı zamanda otomatik farklılaşmanın ters modu olarak da bilinir.


 * Geri yayılım standart hale gelen şekilde ilk kez 1982 yılında Paul Werbos tarafından uygulanmıştır.


 * 1985 yılında tekniğin deneysel bir analizi David E. Rumelhart ve arkadaşları tarafından yapılmıştır. Sonraki yıllarda bu yaklaşımda birçok iyileştirme yapıldı,.


 * 1990'larda, sinir ağlarını kullanmaya (çok daha basit) bir alternatif, yine de ilgili olmasına rağmen destek vektör makinesi yaklaşımı Vladimir Vapnik ve meslektaşları tarafından geliştirildi. Doğrusal sınıflandırma gerçekleştirmenin yanı sıra, yüksek boyutlu özellik uzaylarını kullanarak, çekirdek numarası adı verilen şeyi kullanarak doğrusal olmayan bir sınıflandırmayı da verimli bir şekilde gerçekleştirebildiler.


 * 2003 yılında Yoshua Bengio'nun ortak yazarlarla birlikte dil modellemesine uyguladığı derin öğrenmenin başarıları nedeniyle geri yayılım ağlarına olan ilgi geri döndü.


 * 2017 yılında modern trafo mimarileri devreye alınmıştır.


 * 2021 yılında, iki derin Çok Katmanlı Algılayıcı' yi atlama bağlantıları ve katman normalleştirmeleriyle birleştiren çok basit bir NN mimarisi tasarlandı ve Çok Katmanlı Algılayıcı-Karıştırıcı olarak adlandırıldı; 19 ila 431 milyon parametre içeren gerçekleşmelerinin, ImageNet'teki benzer boyuttaki görüntü transformatörleri ve benzer görüntü sınıflandırma görevleriyle karşılaştırılabilir olduğu gösterilmiştir.

Etkinleştirme işlevi
Eğer bir çok katmanlı algılayıcı (MLP) tüm nöronlarında doğrusal bir aktivasyon fonksiyonuna sahipse, yani her nöronun ağırlıklı girdilerini çıktısına eşleyen bir doğrusal fonksiyon kullanıyorsa, o zaman doğrusal cebir gösterir ki herhangi bir sayıdaki katman iki katmanlı bir giriş-çıkış modeline indirgenebilir. Bu, doğrusal aktivasyon fonksiyonlarının katmanlar arasındaki etkileşimi basitleştirdiği ve esasen tüm ağın tek bir doğrusal dönüşüme indirgenebileceği anlamına gelir.

Ancak, MLP'lerde bazı nöronlar biyolojik nöronların aksiyon potansiyellerinin sıklığını veya ateşlenmesini modellemek için geliştirilmiş doğrusal olmayan bir aktivasyon fonksiyonu kullanır. Bu doğrusal olmayan aktivasyon fonksiyonları, ağın karmaşık ve doğrusal olmayan ilişkileri öğrenmesini sağlar ve böylece ağ, daha basit doğrusal modellerin aksine, doğrusal olarak ayrılabilir olmayan verileri başarıyla işleyebilir. Bu, MLP'nin esnekliğini ve geniş uygulama alanlarını açıklar. Doğrusal olmayan aktivasyonlar, ağın çok katmanlı yapısını etkili bir şekilde kullanmasını sağlar ve karmaşık veri yapılarını modelleme yeteneğini artırır.

İki tarihsel olarak yaygın aktivasyon fonksiyonu, her ikisi de sigmoiddir ve şu şekilde tanımlanır.


 * $$y(v_i) = \tanh(v_i) \textrm{and}  y(v_i) = (1+e^{-v_i})^{-1}$$.

Hiperbolik Tanjant Fonksiyonu: Bu fonksiyon −1 ile 1 arasında değerler alır. Hiperbolik tanjant, çıktıyı bu aralıkta sıkıştırarak, ağın hem pozitif hem de negatif girdileri işlemesini sağlar.

Daha özelleşmiş aktivasyon fonksiyonları arasında radial basis fonksiyonlar (RBF) bulunur. Bu fonksiyonlar, radial basis ağlarında (başka bir tür gözetimli sinir ağ modeli) kullanılır ve genellikle uzamsal verilerin işlenmesinde etkilidirler. Her bir aktivasyon fonksiyonunun seçimi, öğrenme görevinin gereksinimlerine ve ağın yapısına bağlı olarak değişebilir.

derin öğrenmedeki son gelişmelerde, düzeltilmiş doğrusal birimler (Rectified Linear Units - ReLU) sigmoid fonksiyonları ile ilişkili sayısal sorunların üstesinden gelmenin mümkün yollarından biri olarak daha sık kullanılmaktadır. Sigmoid fonksiyonları, özellikle vanishing gradient (kaybolan gradyan) sorunu nedeniyle derin öğrenme modellerinde bazı zorluklara yol açabilir. Bu sorun, ağın derin katmanlarında gradyanların çok küçük hale gelerek etkisizleşmesi durumudur ve bu da öğrenme sürecini yavaşlatır veya durdurur.

Katmanlar
Çok katmanlı algılayıcı (MLP), üç veya daha fazla katmandan (bir giriş ve bir çıkış katmanı ile bir veya daha fazla gizli katman) oluşur ve bu katmanlardaki düğümler (nöronlar) doğrusal olmayan bir şekilde aktive olur.

Öğrenme
Algılayıcıda (perceptron) öğrenme, her veri parçası işlendikten sonra, çıktıdaki hata miktarına göre bağlantı ağırlıklarını değiştirerek gerçekleşir. Bu, beklenen sonuçla karşılaştırıldığında çıktıdaki hata miktarına dayanır. Bu süreç, gözetimli öğrenmenin bir örneğidir ve geri yayılım (backpropagation) yoluyla gerçekleştirilir. Geri yayılım, doğrusal algılayıcıdaki en küçük kareler algoritmasının genelleştirilmesidir. Bu yöntem, ağın hata oranını azaltmak için her katmandaki ağırlıkları sistemli bir şekilde ayarlar, böylece ağın performansı zamanla iyileşir ve beklenen sonuçlara daha yakın hale gelir.

Bir çıkış düğümündeki hatanın derecesi, belirli bir eğitim örneğinde şu şekilde temsil edilebilir: ej​(n)=dj​(n)−yj​(n). Burada, dj​(n) j numaralı düğüm için n numaralı veri noktasında istenen hedef değeri temsil eder, ve yj​(n) ise aynı düğümde, n numaralı veri noktası girdi olarak verildiğinde algılayıcı tarafından üretilen değeri temsil eder.

düğüm ağırlıkları, verilen bir veri noktası n tarafından oluşturulan çıktıdaki hatayı en aza indirecek şekilde düzeltmelere dayalı olarak ayarlanabilir. Bu süreç genellikle geri yayılım (backpropagation) algoritması kullanılarak yapılır.


 * $$\mathcal{E}(n)=\frac{1}{2}\sum_{\text{output node }j} e_j^2(n)$$.

Gradyan inişini kullanarak her ağırlıktaki değişiklik $$w_{ij}$$ dır-dir


 * $$\Delta w_{ji} (n) = -\eta\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} y_i(n)$$

y_i(n) önceki nöronun çıktısıdır i, ve \eta ağırlıkların salınım olmadan hızlı bir şekilde bir cevaba yakınsamasını sağlamak için seçilen öğrenme oranıdır. Önceki ifadede, \frac{\partial E(n)}{\partial v_j(n)} hatanın kısmi türevini belirtir E(n) ağırlıklı toplama göre v_j(n) nöronun giriş bağlantılarının i.

hesaplanacak türev, indüklenen yerel alana, yani vj​'ye bağlıdır ve bu değişkenlik gösterir. Bir çıkış düğümü için, bu türevin basitleştirilmesi genellikle doğrusal olmayan bir aktivasyon fonksiyonunun türevi üzerinden yapılır.


 * $$-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = e_j(n)\phi^\prime (v_j(n))$$

ağırlıkların değişimi, çıkış katmanını temsil eden k düğümlerine bağlıdır. Gizli katman ağırlıklarını değiştirmek için yapılan işlem, çıktı katmanı ağırlıklarının ve aktivasyon fonksiyonunun türevine göre değişir. Bu, aktivasyon fonksiyonunun geri yayılımını (backpropagation) temsil eder.


 * $$-\frac{\partial\mathcal{E}(n)}{\partial v_j(n)} = \phi^\prime (v_j(n))\sum_k -\frac{\partial\mathcal{E}(n)}{\partial v_k(n)} w_{kj}(n)$$.

bir sinir ağında ağırlıkların değişimi, çıktı katmanını temsil eden düğümler olan k ve bu düğümlerin aktivasyon fonksiyonlarının türevleri ile doğrudan ilişkilidir. Ağırlıkların güncellenmesi, geri yayılım algoritması kullanılarak yapılır.

Dış bağlantılar

 * Weka: Çok katmanlı algılayıcı uygulamasına sahip açık kaynaklı veri madenciliği yazılımı.
 * Neuroph Studio belgeleri, bu algoritmayı ve diğer birkaç algoritmayı uygular.