AHA
Araştırmaya dön

Türkçe AMR & Soru Cevaplama Sistemi

Özyeğin Üniversitesi · TÜBİTAK 1001 (Proje No. 123E027)

2023 – 2025 · 36 ay

TÜBİTAK ProjesiTamamlandı

Türkçe için Soyut Anlam Gösterimi Öğrenme ve Soru Cevaplama Sistemi Geliştirme

Özet

Kapsamlı bir Türkçe FrameNet oluşturup mevcut Türkçe PropBank (TRopBank) ve bağlılık ağaç bankalarıyla entegre ederek Türkçe için yarı-otomatik Soyut Anlam Gösterimleri (AMR) üreten, çıktı olarak çizge sinir ağı tabanlı bir soru cevaplama sistemi geliştiren çok katmanlı bir NLP projesi.

Özgün Yönler

  • Türkçe FrameNet'in kapsamını 2.561 synsetten Türkçe'nin tüm fiillerini kapsayacak şekilde 20.000 synsete çıkarmak
  • PropBank ve FrameNet çerçevelerine dayanan, Türkçe için ilk Soyut Anlam Gösterimini üretmek
  • 5 bağlılık ağaç bankasındaki (KeNet, Penn, Tourism, Atis, FrameNet) ~70.000 cümlenin yarı-otomatik AMR ile işaretlenmesi
  • Türkçe için çizge sinir ağı tabanlı ilk AMR çözümleyicisi
  • SQuAD'in Türkçe çevirisi üzerine kurulan bir Türkçe soru cevaplama sistemi

İş Paketleri

Türkçe FrameNet çerçevelerinin oluşturulması

5 ay

Türkçe WordNet KeNet'teki tüm fiiller gözden geçirilerek İngilizce FrameNet ile uyumlu ~20.000 fiil synseti için çerçeveler oluşturulması.

5 cümle bankasının işaretlenmesi (~70.000 cümle)

11 ay

5 cümle bankasında yüklemlerin, FrameNet çerçeve elemanlarının ve PropBank argümanlarının (ARG0–ARG3) işaretlenmesi.

AMR üretimi ve derlemin işaretlenmesi

8 ay

Türkçe'nin sondan eklemeli yapısına uygun kural tabanlı bir AMR çözümleyicisi tasarlanması ve derlemin yarı-otomatik işaretlenmesi.

Çizge sinir ağı çözümleyicisi

8 ay

fastText kelime gösterimleri ve çizge otomatik kodlayıcı eğitilip, kelime ikilileri arasındaki AMR ilişkilerini tahmin eden gözetimli bir GNN modeli geliştirilmesi.

Soru cevaplama sistemi

8 ay

Türkçe'ye çevrilmiş SQuAD veri seti üzerinde, cevabı bulmak için AMR ve bağlılık benzerliğini birleştiren bir okuduğunu anlama sistemi geliştirilmesi.

Ekip

Proje yürütücüsü koordinasyonunda, işaretleme aşamalarında 4 lisans ve 3 yüksek lisans dilbilim öğrencisi, çizge sinir ağı ve soru cevaplama bileşenlerinde 1 bilgisayar mühendisliği doktora öğrencisi çalışmaktadır.

Kullanılan Kaynaklar

  • Türkçe WordNet (KeNet) — ~80.000 kelime grubu
  • TRopBank v2.0 — Türkçe PropBank, 17.691 fiil çerçeve dosyası
  • Türkçe FrameNet (ilk aşama: 139 çerçeve, 2.561 synset)
  • 5 Universal Dependencies cümle bankası: Penn, KeNet, Tourism, Atis, FrameNet (~70.000 cümle)
  • SQuAD'in Türkçe çevirisi