21 Ocak 2012 Cumartesi

Çevrim İçi Haber Metinlerinde Yeni Sözlerin (Neolojizm) Otomatik Çıkarımı

01.11.2011 tarihinde başladığımız 111K223 numaralı TÜBİTAK projesi:

Dilbilimde yeni sözcükler (neologism), kısaca, yeni bir kavram için dilin türetme olanakları kullanılarak oluşturulmuş ‘yeni sözlükbirimler’ olarak tanımlanabilir. Yeni sözlerin, yeni oluşan kavramların adı olma nitelikleri bulunduğu gibi var olan bir sözcük anlamına yeni bir anlam eklenmesi nitelikleri de bulunabilir. Bu yönüyle yeni sözlerin hem genel sözlüğe madde başı olarak girme durumları hem de var olan bir madde başında çok anlamlılık üretme potansiyelleri bulunmaktadır.

Yeni sözlerin ortaya çıkmasında en çok dil dışı koşullar etkili olmaktadır. Özellikle teknolojik yenilenmenin ve değişimin beraberinde getirdiği yeni nesneler yeni ad gereksinimi doğururlar. Bunun dışında toplumsal ve siyasi gelişmeler, kimi ekonomik olaylar, dilsel topluluğun başka bir dilsel toplulukla kurduğu etkileşimin boyutu, dil planlaması gibi etkenler de yeni sözlerin ortaya çıkmasını güçlü bir şekilde belirlemektedir. Yeni sözlerin ortaya çıkışında kişisel gereksinimlerin, özellikle sanatsal yaratılarda yazar ya da şair gibi sözünü günlük dilden ayrı bir yön ve nitelikte kullanmaya yatkın kişilerin var olana yeni bir boyut kazandırma eğilimleri de etkilidir. Burada şairin ya da yazarın yeni bir anlam iletme isteğinden söz edebiliriz. Bu kişisel gereksinimin ortaya çıkardığı yeni söz ya da yeni bir anlamın toplumca benimsenmesi için de çeşitli faktörler rol oynamaktadır. Toplumun aydın kesiminin özellikle bilim çevresince yapılmış bir buluşun var olmayan bir kavramı önce doğurması ve buna bir ad bulunması dilin işlerliğine ve terim kapasitesine olan katkıyı ortaya çıkarmaktadır. Böylelikle dilin terim sözlüklerinin kapsamı genişlemekte ve bazen de terim nitelikli sözlük genel sözlüklere de girebilmektedir. “taksidolmuş”, “çekyat”, “seryat”, “kazıkazan”, “değnekçi” sözlerinde görüldüğü gibi sadece bilim çevreleri değil halkın kendi yarattığı ve gereksinimlerinden ortaya çıkardığı birimler de son yıllarda genel sözlüklere girmişlerdir. Kısaca yeni sözlerin ortaya çıkışı, bir kavram gereksinimiyle başlayıp, kavramı aktarabilecek bir adın bulunması sürecini kapsamaktadır (Emecan, 1998: 23, 24, 25).

Bu projenin amacı, yeni sözlerin Türkiye Türkçesi çevrim içi haber metinleri taranarak otomatik bir biçimde çıkarımının yapılmasıdır. Bu bağlamda proje başlangıcından projenin sonlanması aşamasına kadar olan süreçte, belirlenen çevrimiçi haber kaynaklarının söz listeleri çeşitli web tarama (crawlers, spiders) yazılımları tarafından günlük olarak taranıp, bir dur listesi (stop list) yardımıyla elde edilen sözler ve sıklıkları karşılaştırılarak Türk Dil Kurumu Güncel Türkçe Sözlük (GTS) madde başlarında bulunmayan sözler belirlenmeye çalışılacaktır. Proje kapsamında, sözlerin yazımsal özellikleri göz önüne alınıp, madde başı olabilecek aday yeni sözler bir veri tabanında tutulup, sözlük bilimcilerce değerlendirilmek üzere bu veri tabanına bağlı sistemle tarihsel bir sıradüzenle günlük olarak bir web arayüzüyle yayımlanacaktır. Böylelikle, hangi haber kaynağının günlük olarak ne kadar söz içerdiği, var olan sözler yanında olası aday sözlerin ayrı bir arayüzde gösterildiği birimler, kolayca erişilebilir bir duruma getirilmiş olacaktır. Proje süresi boyunca Türk Dil Kurumu’yla veri tabanlarının kullanımı, projenin söz varlığı listelerinin ve çevrim içi sistemin değerlendirilmesi konularında işbirliğine gidilecektir.

Projeden elde edilecek sonuçlar, Türkiye Türkçesi haber metinlerinin çevrim içi söz varlığının bütün olarak bir veri tabanına kaydedilmesiyle gerek doğal dil işleme (DDİ) gerekse derlem dilbilim çalışmalarına da katkı sağlamış olacaktır.

18 Ocak 2012 Çarşamba

Dilbilim Laboratuvara girer mi?

Başlıktaki sorunun yanıtını vermeden önce, şuradan laboratuvar sözcüğünün anlamına bakmakla, sözcüğün fen bilimlerinde araştırma, ayrıştırma işleri için kullanılan fiziksel ortam olduğunu anlıyoruz. Evet, laboratuvar gerçek-dünya bilgimizdeki ortamın adı.

Peki, dilbilimle ilişkisi ne olabilir? Ses laboratuvarları, akustik laboratuvarlar dışında bir de "yazılımsal" olanlarından söz etmek gerekir. 1990'lardan önce de derlem dilbilim (corpus linguistics) özellikle derlem (corpus) Batı literatüründe bilinen, yerleşen bir terimdir, bununla birlikte gerçek değerini ve yaygınlığını 90'lardan sonra kişisel bilgisayarlar ve sonrasında yazılım teknolojisinde yaşanan üstel gelişimle almıştır. Derlem'i dilbilim yöntembilgisi açısından çok önemli bir noktaya taşıyan da yazılımdır diyebiliriz.

Sezgisel yöntemin, temelde araştırmacının gerçek-dünya bilgisine dayalı sezgisel çıkarımlarıyla dilbilimsel ögeler üzerindeki kararları, bugün için pek de geçerli görünmemektedir. Özellikle sözlükbilim açısından durum yazılımlar lehine oldukça değişmiştir. Hangi sözcüğün kullanımda olduğu, hangisinin yayılım gösterdiği, ne kadarının kullanımdan düştüğü ya da düşmek üzere olduğunun kararını yazılımla verebilmekteyiz.

Şöyle bir somutlayış durumu açıklamak adına yararlı olabilir: Kafa travması geçiren bir olguda acil ünitesinde yapılan rutin göz bebeği muayenesi, kusma olup olmaması gibi iki kritik tanı kriteri dışında kesin tanı, BT (bilgisayarlı tomografi), MR gibi cihazlar ve bunlardaki görüntü işleme yazılımları yardımıyla konulmaktadır. Bu cihazlar bugün tanı ve tedavinin vazgeçilmezleri arasındadır. Sezgisel olarak karar vermek bir yana, tanı koymak artık kanıta dayalı yapılmaktadır.

Yukarıdaki örnek, özellikle sözlükbilim için, sözvarlığı çalışmaları için gittikçe akıllanan yazılımlar düşünüldüğünde, bu yazılımlar incelendiğinde yöntembilgisi açısından dilbilimin öngörülenin çok öncesinde değişeceği anlamına gelmektedir.

Başlıktaki sorunun yanıtı kısaca, evettir.

2 Ocak 2012 Pazartesi

Çukurova Üniversitesi Türkoloji Araştırmaları

Merkezimiz kurucusu Prof. Dr. Şükrü Haluk Akalın'ın ülkemizdeki ilk Türkoloji web alanını (turkoloji.cu.edu.tr) 1999'da yayımlamaya başlamasından bugüne, Çukurova Üniversitesi Türkoloji Araştırmaları Merkezi web sitesinin alanında akademik makale platformu olma özelliğini kazandığını düşünüyorum. Kaliteli içeriği aranılır-bulunur duruma getirmek ve herkesin rahatlıkla ulaşacağı büyük bir veritabanı oluşturmak en büyük amaçlarımız arasındadır.

Başta dilbilim olmak üzere Türk dili, halkbilim, yeni Türk edebiyatı, tarih ve diğer sosyal bilimlerden 10000'den fazla makaleyi barındıran bir ortam "Çukurova Türkoloji".

Çukurova Türkolojinin, bundan sonra da okuyucuya/araştırmacıya kaliteli akademik sitelerden içerik sağlamaya, okuyucuların gönderdikleri akademik makaleleri yayınlamaya devam edeceğini belirtmek isterim.