Text Segmentasyonu. SVM, BERT ve Attention-based Bi-LSTM implementasyonlari

Reading Time: 3 minutes

Bu yazimda doktora arastirmamda kullandigim bir implementasyondan ornek paylasacagim. Italya’daki bir vergi sirketine yaptimiz bir projede text segmentasyonu tarafindan ben sorumluydum ve toplamda 3 farkli algoritma kullandim. Text segmentasyonu icin ozellesmis algoritmalar olmakla birlikte, bu problemi eger iki verilen ardisik cumlenin ayni konuda olup olmadiginin siniflandirmasi olarak tanimlarsak da, her ardisik cumlenin benzerligine bakarak pek tabi bir segmentasyon yapmis sayilabiliriz.

Bir siniflandirma algoritmasini text segmentasyonu problemi cozmesi icin kullanmak

1nci cumlenin IDsi2nci cumlenin IDsiAyni segmentte mi?
12Evet
23Hayir
34Hayir

Belirtmek isterim ki BERT, Google’in gelistirdigi ve Dogal Dil Isleme alaninda soru cevaplama, siniflandirma ve daha bircok alanda en basarili sonuclarin alinabildigi bir dil modelidir. Bu model zaten train edilmis halde bulunmaktadir ve kendi projeniz icin dogrudan train edilmis bu modeli kullanabilirsiniz, ya da benim yaptigim gibi train edilmis BERT modeline son 1 layer ekleyerek cumle karsilastirmasi siniflandirma problemi icin de parameterleri tune ederek kullanabilirsiniz

BERT mimarisi

Birinci algoritma olarak TfIdf feature’lari ile egitilen Support Vector Machines tabanli bir model, ikinci algoritma temelinde Attention mekanizmasi yatan Transformator’lari iceren olarak BERT mimarisi, ve son olarak da text segmentasyonuna ozgu gelistirilmis bir Attention-based Bi-LSTM neural network kullandim.

Veri kaynagim Italyanca PDF’lerden OCR ile islenebilir text’e donusturulmus dokumanlar, ve BERT’in Italyanca dahil 151 dili destekledigini biliyorum, dolayisiyla BERT ile iyi bir performans elde etmeyi bekliyordum ancak bu son derece gelismis BERT mimarisi, benim veri setim uzerinde yillarin eskitemedigi SVM ile ayni segmentasyon performansini elde etti. Unutmadan belirteyim, text segmentasyonunda dikkate almaniz gereken metrik Precision ya da Recall’dan ziyade WinDiff’tir, nitekim bir cumle once ya da sonra dogru tahminlemeniz nispeten kabul edilebilir bir durumdur. Sonuc olarak Attention tabanli Neural segmentasyon modeli cok daha basarili bir performans ortaya koydu ve bu modeli canliya aldik.

WinDiff skoru

Burada: 

  • b(i, j) fonksiyonu, metin icerisindeki i ve j pozisyonlari arasindaki segment baslangic cumle sayisini gosterir; 
  • N metin icerisindeki cumle sayisini gosterir;
  • k pencere buyuklugunu;
  • ref bilinen dogru segmentasyonu;
  • hyp tahmini yapilan segmentasyonu gosterir.

Attention-tabanli Neural Text Segmentation modeli

*Badjatiya,P.;Kurisinkel,L.J.;Gupta, M.; and Varma, V. 2018. Attention-based neural text segmentation. In ECIR’18. 

Sorulariniz icin iletisime gecebilirsiniz.

Leave a comment

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.