Derin Sinir Ağları Ile Videolarda Nesne Algılama

AKBAŞ E. (Yürütücü)

TÜBİTAK Projesi, 2018 - 2021

Proje Türü: TÜBİTAK Projesi
Başlama Tarihi: Nisan 2018
Bitiş Tarihi: Nisan 2021

Proje Özeti

AMAÇ ve KISA TANIM:

Nesne algılama (İng. object detection) problemini kısaca, verilen bir görüntüde verilen bir nesne sınıfına ait örnekler var ise bunların her birinin bir sınırlayıcı kutu (İng. bounding box) aracılığıyla işaretlenmesi olarak tanımlayabiliriz. Modern nesne algılama yöntemleri (örneğin, Girshick, 2015; Ren vd., 2015), problemi, “arama” ve “tanıma” olarak adlandırabileceğimiz iki aşamada çözerler. Arama aşamasında sınıftan bağımsız olarak nesne adayları belirlenir, tanıma aşamasında ise bu adayların sınıfları kestirilir. Bu projede, sözü edilen her iki aşama için de yeni yöntemler öneriyoruz ve hem görüntülerde hem de videolarda nesne algılama başarımını arttırmayı hedefliyoruz. Bu doğrultuda proje önerimizin üç temel amacı vardır:

Görüntülerde ve videolarda nesne algılama başarımını arttırmak için:

Tanıma aşamasının başarımını arttırmak için global ve yerel bağlam (İng. context) bilgisinin uçtan-uca (İng. end-to-end) bir derin öğrenme (İng. deep learning) sistemi içinde kullanmak,

Arama aşamasına tekabül eden “nesne önerileri (veya adayları)” (İng. object proposals) yöntemlerine alternatif olarak derin sinir ağı (İng. deep neural network) tabanlı bir “genelleştirilmiş Hough dönüşümü” (İng. generalized Hough transform) yöntemi geliştirmek,

Videolarda nesne algılama (İng. video object detection) problemine yönelik; çok kipli (İng. multi-modal) ve varolan veri kümelerinden daha gerçekçi, yeni bir veri kümesi oluşturmak,

Videolarda atıfsal tümleçlerle (örn. sağdaki mavi araba) nesne algılama ve arama için yeni yöntemler geliştirmek.

NEDEN BU KONU ve ÖZGÜN DEĞER

Nesne algılama, en temel bilgisayar görüsü (İng. computer vision) problemlerinden biridir ve birçok uygulama alanı vardır. Bu problem için geliştirilen yeni yöntemlerin ve veri kümelerinin hem yaygın etkisi hem de en saygın dergi ve konferanslardaki yayın potansiyeli oldukça yüksektir. Geliştireceğimiz yeni yöntemlerin nesne algılama başarımını anlamlı bir miktarda arttıracağını ve yaratacağımız yeni veri kümesinin atıf alma potansiyelinin çok yüksek olacağını öngörmekteyiz.

   Proje kapsamında yapmayı planladığımız üç ana iş de (bağlam bilgisinin önerdiğimiz şekilde kullanımı, genelleştirilmiş Hough dönüşümünün derin sinir ağlarıyla öğrenilmesi ve çok-kipli, gerçekci bir yeni video nesne algılama veri kümesi yaratılması) şimdiye kadar başkaları tarafından gerçekleştirilmemiş özgün fikirlerdir ve ilgili literatüre özgün katkı yapacaklardır.

KULLANILACAK YÖNTEMİN ANA HATLARI

Bağlam modelinin ve genelleştirilmiş Hough dönüşümü modelinin geliştirilmesinde, son yıllarda birçok problemde ciddi başarım artışları sağlamış derin sinir ağı modelleri kullanılacaktır. Her iki iş için de özgün “evrişimsel sinir ağları” (İng. convolutional neural networks) modelleri geliştireceğiz. Bu yeni modelleri görüntü ve video olmak üzere iki aşamada, varolan denektaşı (İng. benchmark) veri kümeleri üzerinde çalıştırıp varolan nesne algılama yöntemlerinin başarımlarıyla karşılaştıracağız.

   Bağlam modeli, verilen görüntüdeki nesne adaylarının kendi öznitelikleri ve bu adayların arasındaki bağıl ilişkileri (örneğin, bağıl ölçek, bağıl konum ve birlikte bulunma (İng. co-occurence)) bir derin öğrenme sistemi içinde uçtan-uca (İng. end-to-end) bir biçimde (yani bağlam modelini nesne algılamadan bağımsız bir art-işleme şeklinde değil de, iki aşamayı birlikte ve bir bütün olarak) kullanarak eğitilecektir.

   Genelleştirilmiş Hough dönüşümü modeli, nesne önerilerini (İng. object proposals) değişik konum hipotezlerine oy veren evrişimsel katmanlar (İng. convolutional layer) olarak bir derin sinir ağı modeli içinde gerçeklenecektir. Böylece, nesne önerilerini bulma ve bu önerileri tanıma işlemlerini tek bir ortak ağda gerçekleştirebileceğiz.

   Videoda nesne algılama, son iki yılda üzerinde çalışılmaya başlanmış yeni bir konudur. Bu problem için 2015 yılında yeni bir denektaşı veri kümesi önerilmiştir (ImageNet Video Object Detection Challenge). Bu veri kümesindeki videolarda önemli eksiklikler olduğunu değerlendirmekteyiz. Bunlar, videoların çok az nesne örneği içermesi, karmaşık olmayan arkaplanlar, ses girdisinin olmaması şeklinde özetlenebilir. Bu eksiklikleri giderecek ve dolayısıyla daha gerçekci olacak yeni bir veri kümesi hazırlayacağız. Bu kümeyi hazırlarken varolan nesne algılayıcıların çıktılarından ve internetteki insan kaynağını etkili biçimde kullanmamızı sağlayan Amazon Mechanical Turk’ten yararlanacağız.

HEDEFLER, BEKLENEN ÇIKTILAR

Temel hedefimiz, yukarıda kısaca anlatıldığı gibi nesne algılama problemi için bağlam bilgisini kullanan, nesnelerin konumlarını genelleştirilmiş Hough dönüşümü ile bulan yeni bir derin sinir ağı (İng. deep neural network) modeli geliştirmektir. Buna ek olarak, video nesne algılama problemi için yeni bir veri kümesi oluşturmaktır. Modelimizin kaynak kodunu ve oluşturacağımız yeni veri kümesini, projenin önemli çıktıları olarak İnternet'te yayınlayacağız. Beklenen çıktı olarak, bu projenin saygın uluslararası ve ulusal konferans ve dergilerde yayın potansiyelinin yüksek olduğunu değerlendirmekteyiz. Projede bursiyer olarak görev yapacak yüksek lisans veya doktora öğrencilerinin tezleri de önemli bir çıktı olacaktır. Çalışmalarımızı ve alacağımız sonuçları yaymak amacıyla seminerler ve saygın konferanslarda çalıştaylar düzenlemeyi hedefliyoruz.

BİLİMSEL, TEKNOLOJİK ve SOSYO-EKONOMİK KATKILAR

Geliştirmeyi hedeflediğimiz yeni modeller (ve bununla ilintili olarak yapacağımız yayınlar), kendi başına bilimsel-teknolojik literatüre bir katkı olacaktır. Derin yapay sinir ağları ve derin öğrenme konuları son yıllarda dünyadaki en saygın araştırma üniversiteleri ve merkezlerinde en sıcak konulardan biridir. Bilgisayar görüsü camiasının en prestijli ve kabul alması en zor konferans ve dergilerinde derin öğrenme konulu makaleler ivmeli bir şekilde artmaktadır. Son yıllarda büyük ilerlemeler kaydedilen kendi-kendini-süren araçlar, derin öğrenme konusundaki gelişmeler sayesinde olmuştur. Bu bakımdan, önerdiğimiz projenin sosyo-ekonomik açıdan potansiyel katkıları şu şekilde özetlenebilir: (1) proje ekibinin (ve dolayısıyla Türkiye'nin) derin öğrenme konusunda bilgi ve tecrübe birikimini arttırmak, (2) yapılacak yayın ve yayınlanacak kaynak kodlarla genel olarak Türkiye’nin özel olarak da araştırmacıların uluslararası platformlarda görünürlüğünün arttırılması.