Tezin Türü: Yüksek Lisans
Tezin Yürütüldüğü Kurum: Orta Doğu Teknik Üniversitesi, Fen Bilimleri Enstitüsü, Türkiye
Tezin Onay Tarihi: 2020
Tezin Dili: İngilizce
Öğrenci: MUHAMMET ESAT KALFAOĞLU
Asıl Danışman (Eş Danışmanlı Tezler İçin): Abdullah Aydın Alatan
Eş Danışman: Sinan Kalkan
Özet:Görsel eylem tanıma (ET), bir videoda meydana gelen eylemlerin ne oldugunu tanımlama problemidir. Bu tezde, farklı uzam-zamansal yapılar analiz edilmiş ve bu gösterimleri ET için daha uygun hale getiren faktörler belirlenmiştir. Spesifik olmak gerekirse, bu tez çalışmasında farklı mimari seçimlerin, girdi modalitelerinin (RGB, optik akış, insan pozu) ve zamansal modelleme kavramlarının etkileri üç ana kavram olarak ele alınmıştır. Ek olarak, BERT tabanlı geç zamansal modellemenin 3D CNN mimarileri ile ortak kullanımı önerilmiş ve bu yaklaşım içinde yeni bilgi damıtma kavramı önerilmiştir.Mimari analiz için hem 2D hem de 3D Evrişimsel Sinir Agları (CNN) dikkate alınır. 3D CNN mimarileri için girdi klip uzunlugu, girdi uzamsal çözünürlü gü, grup evri şimi ve ayrılabilir 3D evrişim mimarilerinin etkileri analiz edilir. Bu analiz sırasında, MFNET, SlowFast Networks, R(2 + 1)D agları, I3D, MARS a gları (bilgi damıtma) ve çeşitli ResNet mimarileri gibi AR için popüler 3D CNN mimarilerinin tümü dikkate alınır. Zamansal kayma modülleri ayrıca 2D CNN mimarilerinin bir uzantısı olarak incelenir. Girdi modalite analizi için, popüler iki kanallı mimariler (RGB + optik akış) hem 2D hem de 3D CNN mimarileri içinde analiz edilir. Ayrıca, RGB ve optik akış modavii litelerinin bir uzantısı olarak, poz girdi modalitesi literatürden farklı bir yaklaşımla kullanılmıştır ve bu tezde 2D CNN mimarileri dahilinde incelenmiştir. Zamansal modelleme analizi için, 2D CNN mimarileri içinde ortalama havuzlama, LSTM, evrişimli GRU, BERT ve Yerel Olmayan blok yapıları gibi çeşitli teknikler analiz edilir. Yeni bir öneri olarak, bu çalışmada, ET problemi için 3D evrişim mimarilerinin geç zamansal modelleme ile birleştirilmesi sunulmuştur. Bu amaçla 3D evrişimsel mimarilerinin sonundaki geleneksel zamansal ortalama havuz katmanı (TGAP) Transformatörlerden Çift Yönlü Enkoder Temsilleri (BERT) katmanıyla degiştirilmiş ve BERT’nin ilgi mekanizmasıyla daha iyi bir geç zamansal modelleme amaçlanmıştır. Bu degiştirmenin, ResNeXt, I3D, SlowFast ve R(2 + 1)D gibi eylem tanıma için bir çok popüler 3D evrişim mimarisinin performansını geliştirdigi gösterilmiştir. Ayrıca, HMDB51 ve UCF101 veri kümelerinde sırasıyla 85.10% ve 98.69% top-1 dogruluğu ile literatürdeki en gelişmiş sonuçlar sunulmuştur. Ayrıca, 3D-BERT mimarisi üzerinden bir bilgi damıtma yapısı önerilmiş ve analiz edilmiştir.