Cross-modal Representation Learning with Nonlinear Dimensionality Reduction


Creative Commons License

Kaya S., Vural E.

2019 27th Signal Processing and Communications Applications Conference (SIU), Sivas, Turkey, 24 - 26 April 2019, pp.1-4 identifier

  • Publication Type: Conference Paper / Full Text
  • Doi Number: 10.1109/siu.2019.8806489
  • City: Sivas
  • Country: Turkey
  • Page Numbers: pp.1-4

Abstract

In many problems in machine learning there exist relations between data collections from different modalities. The purpose of multi-modal learning algorithms is to efficiently use the information present in different modalities when solving multi-modal retrieval problems. In this work, a multi-modal representation learning algorithm is proposed, which is based on nonlinear dimensionality reduction. Compared to linear dimensionality reduction methods, nonlinear methods  provide more flexible representations especially when there is high discrepancy between the structures of different modalities. In this work, we propose to align different modalities by mapping same-class training data from different modalities to nearby coordinates, while we also learn a Lipschitz-continuous interpolation function that generalizes the learnt representation to the whole data space. Experiments in image-text retrieval applications show that the proposed method yields high performance when compared to multi-modal learning methods in the literature.

Yapay öğrenme uygulamalarında birçok problemde farklı modalitelerdeki veri kümeleri arasında ilişkiler mevcuttur. Çoklu modalitede öğrenme algoritmalarının amacı, farklı modalitelerde var olan bilgileri etikili bir biçimde kullanarak çoklu modalite erişim problemlerini çözmektir. Bu çalışmada, çoklu modalitedeki veriler için doğrusal olmayan boyut düşürmeye dayalı gösterimler öğrenen bir yöntem önerilmiştir. Doğrusal olmayan boyut düşürme yöntemleri, özellikle farklı modalitelerdeki veri yapıları arasında önemli farklılıklar olduğu durumlarda doğrusal yöntemlere kıyasla daha esnek gösterimler sağlamaktadır. Bu çalışmada, eğitme verileri düşük boyuta taşınırken aynı sınıftan olan veriler yakın koordinatlara gönderilerek farklı modaliteler hizalanmış, ayrıca öğrenilen gösterimi bütün uzaya genelleyen Lipschitz sürekli bir interpolasyon fonksiyonu hesaplanmıştır. Görüntü-metin erişim uygulamalarındaki deneyler önerilen yöntemin literatürdeki çoklu modalitede öğrenme yöntemleriyle karşılaştırıldığında oldukça yüksek bir performans ortaya koyduğunu göstermektedir.