12 Temmuz 2009 Pazar

Derlem

Derlem (corpus) kullanıldığı yere göre değişen bir kavramın adı değildir aslında. Çeviri kavramlardan olan derlem'in özgün literatüründe gelişigüzel toplanmış metinler (sözlü dil trasnkripsiyonları da dahil) bütünü olarak tanımlanmadığı görülür. Bir adın kullanıldığı yere göre çağrışımlarının çokça değişmesi aslında özellikle terim nitelikli olanlarının konu-duyarlı yapısının es geçildiğini ya da büyük olasılıkla konunun bilinmediğini gösterir. Derlem de öyle bir terim. Havuz da deniyor külliyat da...ama derlem bunların hiçbiri...

Derlem dilbilim (corpus linguistics) bugün bir uzmanlık alanı durumuna gelirken, sadece bu konuyla ilgili kitap sayısı sanırım 50'den fazla... Böyle bir durumda, internete bir "corpus+corpus linguistics" sorgusuyla göz atarak sözcüğün konuya uygun çağrışımından hareket etmek daha doğru olsa gerek.

Derlem bir elektronik sözcüktür. Farklı yapıda bir veritabanıdır. Klasik ilişkisel veritabanı yapısında değil de daha çok XML formatında işaretlenip etiketlenen bir yapıdır. Bilgi-işlem yönü ağır basan bir terimdir, çünkü derlem DDİ (doğal dil işleme) uygulamalarına bugün her zamankinden çok kaynak sağlayan (özellikle istatistiksel ya da olasılıksal tabanlı uygulamalar için) bir elektronik ortamdır. Daha çok yazılı dilin olmak üzere, dilin eşzamanlı bir kesitinin (artzamanlı yani tarihsel bir kesit de hedeflenebilir) dilbilgisinin çeşitli bölümleri bakımından modellenmesi süreci derlem dilbiliminin konusudur. Bu yönüyle derlem, klasik anlamda bir dilbilim araştırmasının tabanı olmayı her zamankinden çok haketmekle birlikte, klasik dilbilgisi araştırmasının tanınmayan veya tanınıp da adının bilinemediği (bizde) bir ortamdır da...