Cross-modal Representation Learning with Nonlinear Dimensionality Reduction


Creative Commons License

Kaya S., Vural E.

2019 27th Signal Processing and Communications Applications Conference (SIU), Sivas, Türkiye, 24 - 26 Nisan 2019, ss.1-4 identifier

  • Yayın Türü: Bildiri / Tam Metin Bildiri
  • Doi Numarası: 10.1109/siu.2019.8806489
  • Basıldığı Şehir: Sivas
  • Basıldığı Ülke: Türkiye
  • Sayfa Sayıları: ss.1-4
  • Orta Doğu Teknik Üniversitesi Adresli: Evet

Özet

Yapay öğrenme uygulamalarında birçok problemde farklı modalitelerdeki veri kümeleri arasında ilişkiler mevcuttur. Çoklu modalitede öğrenme algoritmalarının amacı, farklı modalitelerde var olan bilgileri etikili bir biçimde kullanarak çoklu modalite erişim problemlerini çözmektir. Bu çalışmada, çoklu modalitedeki veriler için doğrusal olmayan boyut düşürmeye dayalı gösterimler öğrenen bir yöntem önerilmiştir. Doğrusal olmayan boyut düşürme yöntemleri, özellikle farklı modalitelerdeki veri yapıları arasında önemli farklılıklar olduğu durumlarda doğrusal yöntemlere kıyasla daha esnek gösterimler sağlamaktadır. Bu çalışmada, eğitme verileri düşük boyuta taşınırken aynı sınıftan olan veriler yakın koordinatlara gönderilerek farklı modaliteler hizalanmış, ayrıca öğrenilen gösterimi bütün uzaya genelleyen Lipschitz sürekli bir interpolasyon fonksiyonu hesaplanmıştır. Görüntü-metin erişim uygulamalarındaki deneyler önerilen yöntemin literatürdeki çoklu modalitede öğrenme yöntemleriyle karşılaştırıldığında oldukça yüksek bir performans ortaya koyduğunu göstermektedir.

In many problems in machine learning there exist relations between data collections from different modalities. The purpose of multi-modal learning algorithms is to efficiently use the information present in different modalities when solving multi-modal retrieval problems. In this work, a multi-modal representation learning algorithm is proposed, which is based on nonlinear dimensionality reduction. Compared to linear dimensionality reduction methods, nonlinear methods  provide more flexible representations especially when there is high discrepancy between the structures of different modalities. In this work, we propose to align different modalities by mapping same-class training data from different modalities to nearby coordinates, while we also learn a Lipschitz-continuous interpolation function that generalizes the learnt representation to the whole data space. Experiments in image-text retrieval applications show that the proposed method yields high performance when compared to multi-modal learning methods in the literature.