Derin Sinir Ağları Ile Videolarda Nesne Algılama


AKBAŞ E. (Executive)

TUBITAK Project, 2018 - 2021

  • Project Type: TUBITAK Project
  • Begin Date: April 2018
  • End Date: April 2021

Project Abstract

AMAÇ ve KISA TANIM:  

Nesne algılama (İng. object detection) problemini kısaca, verilen bir görüntüde verilen bir nesne sınıfına ait örnekler var ise bunların her birinin bir sınırlayıcı kutu (İng. bounding box) aracılığıyla işaretlenmesi olarak tanımlayabiliriz. Modern nesne algılama yöntemleri (örneğin, Girshick2015; Ren vd., 2015), problemi, “arama” ve “tanıma” olarak adlandırabileceğimiz iki aşamada çözerler. Arama aşamasında sınıftan bağımsız olarak nesne adayları belirlenir, tanıma aşamasında ise bu adayların sınıfları kestirilir. Bu projede, sözü edilen her iki aşama için de yeni yöntemler öneriyoruz ve hem görüntülerde hem de videolarda nesne algılama başarımını arttırmayı hedefliyoruz. Bu doğrultuda proje önerimizin üç temel amacı vardır: 

  1. Görüntülerde ve videolarda nesne algılama başarımını arttırmak için: 

  1. Tanıma aşamasının başarımını arttırmak için global ve yerel bağlam (İng. context) bilgisinin uçtan-uca (İng. end-to-end) bir derin öğrenme (İng. deep learning) sistemi içinde kullanmak, 

  1. Arama aşamasına tekabül eden “nesne önerileri (veya adayları)” (İng. object proposals) yöntemlerine alternatif olarak derin sinir ağı (İng. deep neural network) tabanlı bir “genelleştirilmiş Hough dönüşümü” (İng. generalized Hough transform) yöntemi geliştirmek,  

  1. Videolarda nesne algılama (İng. video object detection) problemine yönelikçok kipli (İng. multi-modal) ve varolan veri kümelerinden daha gerçekçiyeni bir veri kümesi oluşturmak,  

  1. Videolarda atıfsal tümleçlerle (örn. sağdaki mavi arabanesne algılama ve arama için yeni yöntemler geliştirmek 

NEDEN BU KONU ve ÖZGÜN DEĞER 

Nesne algılama, en temel bilgisayar görüsü (İng. computer vision) problemlerinden biridir ve birçok uygulama alanı vardır. Bu problem için geliştirilen yeni yöntemlerin ve veri kümelerinin hem yaygın etkisi hem de en saygın dergi ve konferanslardaki yayın potansiyeli oldukça yüksektirGeliştireceğimiz yeni yöntemlerin nesne algılama başarımını anlamlı bir miktarda arttıracağını ve yaratacağımız yeni veri kümesinin atıf alma potansiyelinin çok yüksek olacağını öngörmekteyiz 

   Proje kapsamında yapmayı planladığımız üç ana  de (bağlam bilgisinin önerdiğimiz şekilde kullanımıgenelleştirilmiş Hough dönüşümünün derin sinir ağlarıyla öğrenilmesi ve çok-kipligerçekci bir yeni video nesne algılama veri kümesi yaratılmasışimdiye kadar başkaları tarafından gerçekleştirilmemiş özgün fikirlerdir ve ilgili literatüre özgün katkı yapacaklardır 

KULLANILACAK YÖNTEMİN ANA HATLARI 

Bağlam modelinin ve genelleştirilmiş Hough dönüşümü modelinin geliştirilmesinde, son yıllarda birçok problemde ciddi başarım artışları sağlamış derin sinir ağı modelleri kullanılacaktır. Her iki  için de özgün “evrişimsel sinir ağları” (İng. convolutional neural networks) modelleri geliştireceğiz. Bu yeni modelleri görüntü ve video olmak üzere iki aşamadavarolan denektaşı (İng. benchmark) veri kümeleri üzerinde çalıştırıp varolan nesne algılama yöntemlerinin başarımlarıyla karşılaştıracağız 

   Bağlam modeliverilen görüntüdeki nesne adaylarının kendi öznitelikleri ve bu adayların arasındaki bağıl ilişkileri (örneğinbağıl ölçekbağıl konum ve birlikte bulunma (İng. co-occurence)) bir derin öğrenme sistemi içinde uçtan-uca (İng. end-to-end) bir biçimde (yani bağlam modelini nesne algılamadan bağımsız bir art-işleme şeklinde değil de, iki aşamayı birlikte ve bir bütün olarakkullanarak eğitilecektir 

   Genelleştirilmiş Hough dönüşümü modelinesne önerilerini (İng. object proposals) değişik konum hipotezlerine oy veren evrişimsel katmanlar (İng. convolutional layer) olarak bir derin sinir ağı modeli içinde gerçeklenecektirBöylecenesne önerilerini bulma ve bu önerileri tanıma işlemlerini tek bir ortak ağda gerçekleştirebileceğiz 

   Videoda nesne algılama, son iki yılda üzerinde çalışılmaya başlanmış yeni bir konudur. Bu problem için 2015 yılında yeni bir denektaşı veri kümesi önerilmiştir (ImageNet Video Object Detection Challenge). Bu veri kümesindeki videolarda önemli eksiklikler olduğunu değerlendirmekteyiz. Bunlar, videoların çok az nesne örneği içermesi, karmaşık olmayan arkaplanlar, ses girdisinin olmaması şeklinde özetlenebilir. Bu eksiklikleri giderecek ve dolayısıyla daha gerçekci olacak yeni bir veri kümesi hazırlayacağız. Bu kümeyi hazırlarken varolan nesne algılayıcıların çıktılarından ve internetteki insan kaynağını etkili biçimde kullanmamızı sağlayan Amazon Mechanical Turk’ten yararlanacağız.  

HEDEFLER, BEKLENEN ÇIKTILAR  

Temel hedefimiz, yukarıda kısaca anlatıldığı gibi nesne algılama problemi için bağlam bilgisini kullanan, nesnelerin konumlarını genelleştirilmiş Hough dönüşümü ile bulan yeni bir derin sinir ağı (İng. deep neural network) modeli geliştirmektir. Buna ek olarak, video nesne algılama problemi için yeni bir veri kümesi oluşturmaktır. Modelimizin kaynak kodunu ve oluşturacağımız yeni veri kümesini, projenin önemli çıktıları olarak İnternet'te yayınlayacağız. Beklenen çıktı olarak, bu projenin saygın uluslararası ve ulusal konferans ve dergilerde yayın potansiyelinin yüksek olduğunu değerlendirmekteyiz. Projede bursiyer olarak görev yapacak yüksek lisans veya doktora öğrencilerinin tezleri de önemli bir çıktı olacaktır. Çalışmalarımızı ve alacağımız sonuçları yaymak amacıyla seminerler ve saygın konferanslarda çalıştaylar düzenlemeyi hedefliyoruz.  

BİLİMSEL, TEKNOLOJİK ve SOSYO-EKONOMİK KATKILAR  

Geliştirmeyi hedeflediğimiz yeni modeller (ve bununla ilintili olarak yapacağımız yayınlar), kendi başına bilimsel-teknolojik literatüre bir katkı olacaktır. Derin yapay sinir ağları ve derin öğrenme konuları son yıllarda dünyadaki en saygın araştırma üniversiteleri ve merkezlerinde en sıcak konulardan biridir. Bilgisayar görüsü camiasının en prestijli ve kabul alması en zor konferans ve dergilerinde derin öğrenme konulu makaleler ivmeli bir şekilde artmaktadır. Son yıllarda büyük ilerlemeler kaydedilen kendi-kendini-süren araçlar, derin öğrenme konusundaki gelişmeler sayesinde olmuştur. Bu bakımdan, önerdiğimiz projenin sosyo-ekonomik açıdan potansiyel katkıları şu şekilde özetlenebilir: (1) proje ekibinin (ve dolayısıyla Türkiye'nin) derin öğrenme konusunda bilgi ve tecrübe birikimini arttırmak, (2) yapılacak yayın ve yayınlanacak kaynak kodlarla genel olarak Türkiye’nin özel olarak da araştırmacıların uluslararası platformlarda görünürlüğünün arttırılması.