Türkçe AMR & Soru Cevaplama Sistemi
Özyeğin Üniversitesi · TÜBİTAK 1001 (Proje No. 123E027)
2023 – 2025 · 36 ay
Türkçe için Soyut Anlam Gösterimi Öğrenme ve Soru Cevaplama Sistemi Geliştirme
Özet
Kapsamlı bir Türkçe FrameNet oluşturup mevcut Türkçe PropBank (TRopBank) ve bağlılık ağaç bankalarıyla entegre ederek Türkçe için yarı-otomatik Soyut Anlam Gösterimleri (AMR) üreten, çıktı olarak çizge sinir ağı tabanlı bir soru cevaplama sistemi geliştiren çok katmanlı bir NLP projesi.
Özgün Yönler
- Türkçe FrameNet'in kapsamını 2.561 synsetten Türkçe'nin tüm fiillerini kapsayacak şekilde 20.000 synsete çıkarmak
- PropBank ve FrameNet çerçevelerine dayanan, Türkçe için ilk Soyut Anlam Gösterimini üretmek
- 5 bağlılık ağaç bankasındaki (KeNet, Penn, Tourism, Atis, FrameNet) ~70.000 cümlenin yarı-otomatik AMR ile işaretlenmesi
- Türkçe için çizge sinir ağı tabanlı ilk AMR çözümleyicisi
- SQuAD'in Türkçe çevirisi üzerine kurulan bir Türkçe soru cevaplama sistemi
İş Paketleri
Türkçe FrameNet çerçevelerinin oluşturulması
5 ayTürkçe WordNet KeNet'teki tüm fiiller gözden geçirilerek İngilizce FrameNet ile uyumlu ~20.000 fiil synseti için çerçeveler oluşturulması.
5 cümle bankasının işaretlenmesi (~70.000 cümle)
11 ay5 cümle bankasında yüklemlerin, FrameNet çerçeve elemanlarının ve PropBank argümanlarının (ARG0–ARG3) işaretlenmesi.
AMR üretimi ve derlemin işaretlenmesi
8 ayTürkçe'nin sondan eklemeli yapısına uygun kural tabanlı bir AMR çözümleyicisi tasarlanması ve derlemin yarı-otomatik işaretlenmesi.
Çizge sinir ağı çözümleyicisi
8 ayfastText kelime gösterimleri ve çizge otomatik kodlayıcı eğitilip, kelime ikilileri arasındaki AMR ilişkilerini tahmin eden gözetimli bir GNN modeli geliştirilmesi.
Soru cevaplama sistemi
8 ayTürkçe'ye çevrilmiş SQuAD veri seti üzerinde, cevabı bulmak için AMR ve bağlılık benzerliğini birleştiren bir okuduğunu anlama sistemi geliştirilmesi.
Ekip
Proje yürütücüsü koordinasyonunda, işaretleme aşamalarında 4 lisans ve 3 yüksek lisans dilbilim öğrencisi, çizge sinir ağı ve soru cevaplama bileşenlerinde 1 bilgisayar mühendisliği doktora öğrencisi çalışmaktadır.
Kullanılan Kaynaklar
- Türkçe WordNet (KeNet) — ~80.000 kelime grubu
- TRopBank v2.0 — Türkçe PropBank, 17.691 fiil çerçeve dosyası
- Türkçe FrameNet (ilk aşama: 139 çerçeve, 2.561 synset)
- 5 Universal Dependencies cümle bankası: Penn, KeNet, Tourism, Atis, FrameNet (~70.000 cümle)
- SQuAD'in Türkçe çevirisi