24 Temmuz 2009 Cuma

Otomatik Metin İşleme

1990'lı yılların başından itibaren derlem dilbilim (corpus linguistics) konusu üzerindeki yayın -özellikle kitap- sayısı çeşitlenirken, 2000-2005 yılları arasında da veri madenciliği (data mining) alanının metin madenciliği (text mining) ve web madenciliği alt alanlarına yönelik yayınların da arttığını görüyoruz.

Bilgisayarlı metin işleme ve metin madenciliği konuları iç içe girmiş gibi görünüyor. Metin işlemeyle ilgili iyi sitelerden birisinin bağlantısını aşağıda veriyorum. İnanılmaz gelişmeler yaşanıyor...Metin, şu anda internetin temel birimi durumunda sanırım. Her şey metinden yola çıkılarak otomatik yapılma yolunda ilerliyor..Google bunun en güzel örneği, sanırım dil mühendisi olarak doğal dil işleme uygulamaları geliştiren mühendis sayısı epeyce vardır Google'da....

Kanımca, ayrıntılı dilbilgisi|dil bilgisi bu elektronik metin çağında en çok makinelere yarayacak...

Dilbilimcilerin en azından işine yarayacak düzeyde metin işlemeye yönelik yazılım geliştirme işlerine yönlendirilmesi, temel programlama becerilerini kazanmaları gerekiyor. Derlem dilbilim kitapları yazan birçok dilbilimcinin aynı zamanda iyi birer programcı olduğu da görülüyor. Dilbilim bölümlerinin acilen bilgisayar destekli işlere, konulara yönelik programlar açmaları gerekiyor. Bu durum Türk dili ve edebiyatı bölümleri için de elzem gibi duruyor. Makinelere yani bilgisayarlara dilbilgisi yazmak eğlenceli bir o kadar da motivasyonu yüksek bir iş...dönütünü saniyeler içinde alıyorsunuz :) Dil laboratuarlarında dilbilgisi yazan, kuralları çok ayrıntılı algoritmalara döken, olasılık ve istatistiği de kullanarak dilbilgisel modüller geliştiren dilbilimciler ve Türk dili ve edebiyatı öğrencilerini görmek güzel olacak. Gidiş bu yönde olacak çünkü....

textanalysis.info (birçok link barındırıyor).

http://www.textanalysis.info/