Kısmi Gözlemlenebilir Ardışık Karar Vermede Alt Hedef Tespiti


Creative Commons License

POLAT F. (Yürütücü)

TÜBİTAK Projesi, 2016 - 2018

  • Proje Türü: TÜBİTAK Projesi
  • Başlama Tarihi: Mayıs 2016
  • Bitiş Tarihi: Mayıs 2018

Proje Özeti

Kısmi gözlemlenebilirlik durumunda ardışık karar verme, algısal aynılığın ve büyük boyutluluğun getirdiği sorunlar nedeniyle zor bir problem olarak bilinmektedir. Öğrenme algoritmaları, ardışık karar verme problemine adaptif etmen bakış açısıyla yaklaşmaya çalışır, ve bazı yaklaşıklaştırma yöntemleri kullanarak söz konusu problemle başa çıkmayı dener.

Takviye öğrenme (RL), özerk etmen modeline uyumluluğu, gerçekleştiriminin göreceli olarak kolay olması ve gerçek dünyadaki durumlara adaptasyonunun rahatlığı gibi bilinen bazı özellikleri nedeniyle, güçlü bir çevrim-içi öğrenme yöntemi olarak kabul görür. Teorik olarak Markov karar süreci (MDP) modelini temel alan RL yöntemlerinin, bazı varsayım ve kısıtlamalar çerçevesinde kısmi gözlemlenebilir MDP (POMDP) versiyonları mevcuttur.

Literatürde, MDP problemlerinin küçük alt problemlere bölünerek her bir problemin daha az eforla çözüldüğü ve bu çözümlerin sonradan birleştirilip problemin bütünü için büyük çözümün üretildiği yöntemler vardır. Bu yöntemler arasında popüler olan bir yaklaşım, problemi doğal olarak parçalara ayıran alt-hedeflerin tespitidir. Bu kapsamda MDP-RL yöntemleri için yöntemler önerilmişse de kısmi gözlemlenebilir problemler için alt-hedef tespiti konusu halen olgunluğa ulaşmamıştır.

Bu projede, POMDP-RL için alt-hedef tespiti alanında henüz hiçbir çalışma yapılmamış olan, “gizli durumlar içeren problemler için bellek tabanlı RL algoritmaları” konusunda yeni yöntemler üzerinde araştırmalar gerçekleştirilmiştir. Bu çalışma, hal-i hazırda MDP-RL için mevcut olan çevrim-içi alt-hedef tespit yöntemlerinin POMDP-RL modeline adaptasyonuna veya yeniden tasarlanmasına odaklanmakta, böylece öğrenme performansının herhangi bir çevrim-dışı müdahaleye gerek kalmaksızın artırılmasını amaçlamaktadır. Bu amaca ulaşmak için, bellek tabanlı POMDP-RL algoritması tarafından üretilen durum tahmin (veya ayrım) şeması, faydalı yaklaşık alt-hedefler üretmek için kullanılmıştır.


Öncelikle, gerek MDP-RL, gerekse POMDP-RL yöntemleri için mevcut alt-hedef tespit yaklaşımları -öğrenme çıktılarını kullanan yöntemlere ağırlık verilerek- analiz edilmiş ve çalışılmıştır. Ardından, olgun bir POMDP-RL yöntem ailesi olan bellek tabanlı algoritmalar analiz edilmiştirAraştırmaların sonucunda, bellek yapısını temel alan bir alt-hedef tespit yöntemi geliştirilmiştir. Son olarak, literatürde yaygın kabul gören farklı problemler üzerinde karşılaştırmalı koşumlarla, önerilen yöntemlerin etkinliği doğrulanmıştır.