Large vocabulary continuous speech recognition for Turkish using HTK


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Orta Doğu Teknik Üniversitesi, Mühendislik Fakültesi, Elektrik ve Elektronik Mühendisliği Bölümü, Türkiye

Tezin Onay Tarihi: 2003

Öğrenci: MURAT ALİ ÇÖMEZ

Danışman: TOLGA ÇİLOĞLU

Özet:

Bu çalışmada, Türkçe için geniş dağarcıklı bir akan konuşma tanıma sisteminde kullanılacak bir dil modeli geliştirilmesi amaçlanmıştır. Türkçe, eklemeli bir dil olarak, sözcük biçimleri açısından çok üretken bir dildir. Bu tür diller için, dağarcık boyutu kabul edilebilir olmaktan bir hayli uzaktır. Yalnızca basit bir kökten, yapım ve çekim eklerini kullanarak binlerce yeni biçimli sözcük türetilebilir. Bu tezde, sözcükler kök ve eklerine ayrılmışlardır. Daha sonra sözcük ikililerine dayalı ağ yapısı oluşturulmuştur. Sözcük ikililerine ait olasılıklar ya kök ve ekler üzerinden, ya da yalnızca kökler üzerinden elde edilmişlerdir. Önerilen dil modeli ise yalnızca kökler kullanılarak elde edilen sözcük ikililerine ait olasılıklara dayanmaktadır. Ekkök ayrıştırma ve ağ dönüştürme işlemleri dışında tüm çalışma HTK (Hidden Markov Model Toolkit) ile gerçekleştirilmiştir. Türkçe için yeni bir dil modeli geliştirilmesinin yanısıra bu tezde, günümüz konuşma tanıma sistemlerine özgü kavramlara değinen kapsamlı bir çalışma v yapılmıştır. Bu kavramlara ve konuşma tanıma tekniği içerisindeki süreçlere hakimiyetin sağlanması amacıyla ayrık kelime tanıma, ardışık kelime tanıma ve akan konuşma tanıma deneyleri gerçekleştirilmiştir. Bu deneylere ait sonuçlar ise ayrıca verilmiştir.