24 Temmuz 2009 Cuma

Otomatik Metin İşleme

1990'lı yılların başından itibaren derlem dilbilim (corpus linguistics) konusu üzerindeki yayın -özellikle kitap- sayısı çeşitlenirken, 2000-2005 yılları arasında da veri madenciliği (data mining) alanının metin madenciliği (text mining) ve web madenciliği alt alanlarına yönelik yayınların da arttığını görüyoruz.

Bilgisayarlı metin işleme ve metin madenciliği konuları iç içe girmiş gibi görünüyor. Metin işlemeyle ilgili iyi sitelerden birisinin bağlantısını aşağıda veriyorum. İnanılmaz gelişmeler yaşanıyor...Metin, şu anda internetin temel birimi durumunda sanırım. Her şey metinden yola çıkılarak otomatik yapılma yolunda ilerliyor..Google bunun en güzel örneği, sanırım dil mühendisi olarak doğal dil işleme uygulamaları geliştiren mühendis sayısı epeyce vardır Google'da....

Kanımca, ayrıntılı dilbilgisi|dil bilgisi bu elektronik metin çağında en çok makinelere yarayacak...

Dilbilimcilerin en azından işine yarayacak düzeyde metin işlemeye yönelik yazılım geliştirme işlerine yönlendirilmesi, temel programlama becerilerini kazanmaları gerekiyor. Derlem dilbilim kitapları yazan birçok dilbilimcinin aynı zamanda iyi birer programcı olduğu da görülüyor. Dilbilim bölümlerinin acilen bilgisayar destekli işlere, konulara yönelik programlar açmaları gerekiyor. Bu durum Türk dili ve edebiyatı bölümleri için de elzem gibi duruyor. Makinelere yani bilgisayarlara dilbilgisi yazmak eğlenceli bir o kadar da motivasyonu yüksek bir iş...dönütünü saniyeler içinde alıyorsunuz :) Dil laboratuarlarında dilbilgisi yazan, kuralları çok ayrıntılı algoritmalara döken, olasılık ve istatistiği de kullanarak dilbilgisel modüller geliştiren dilbilimciler ve Türk dili ve edebiyatı öğrencilerini görmek güzel olacak. Gidiş bu yönde olacak çünkü....

textanalysis.info (birçok link barındırıyor).

http://www.textanalysis.info/

12 Temmuz 2009 Pazar

Derlem

Derlem (corpus) kullanıldığı yere göre değişen bir kavramın adı değildir aslında. Çeviri kavramlardan olan derlem'in özgün literatüründe gelişigüzel toplanmış metinler (sözlü dil trasnkripsiyonları da dahil) bütünü olarak tanımlanmadığı görülür. Bir adın kullanıldığı yere göre çağrışımlarının çokça değişmesi aslında özellikle terim nitelikli olanlarının konu-duyarlı yapısının es geçildiğini ya da büyük olasılıkla konunun bilinmediğini gösterir. Derlem de öyle bir terim. Havuz da deniyor külliyat da...ama derlem bunların hiçbiri...

Derlem dilbilim (corpus linguistics) bugün bir uzmanlık alanı durumuna gelirken, sadece bu konuyla ilgili kitap sayısı sanırım 50'den fazla... Böyle bir durumda, internete bir "corpus+corpus linguistics" sorgusuyla göz atarak sözcüğün konuya uygun çağrışımından hareket etmek daha doğru olsa gerek.

Derlem bir elektronik sözcüktür. Farklı yapıda bir veritabanıdır. Klasik ilişkisel veritabanı yapısında değil de daha çok XML formatında işaretlenip etiketlenen bir yapıdır. Bilgi-işlem yönü ağır basan bir terimdir, çünkü derlem DDİ (doğal dil işleme) uygulamalarına bugün her zamankinden çok kaynak sağlayan (özellikle istatistiksel ya da olasılıksal tabanlı uygulamalar için) bir elektronik ortamdır. Daha çok yazılı dilin olmak üzere, dilin eşzamanlı bir kesitinin (artzamanlı yani tarihsel bir kesit de hedeflenebilir) dilbilgisinin çeşitli bölümleri bakımından modellenmesi süreci derlem dilbiliminin konusudur. Bu yönüyle derlem, klasik anlamda bir dilbilim araştırmasının tabanı olmayı her zamankinden çok haketmekle birlikte, klasik dilbilgisi araştırmasının tanınmayan veya tanınıp da adının bilinemediği (bizde) bir ortamdır da...