derlem etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
derlem etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

2 Haziran 2012 Cumartesi

Derlem Dilbilim Terimleri

Derlem dilbilimle ilgili bazı önemli terimlerin çevirilerini  http://dilbilim.cu.edu.tr/node/6  adresinden yayımlamaya başladık. İngilizce terimlere kimi karşılıklar öneri olarak yer almaktadır.

Türkçe derlem dilbilim alanyazınının gelişmesi ve yeni terimlere karşılıkların bulunması doğal olarak zaman alacaktır. İngilizce alanyazının bu anlamda öne çıkan birçok eserinin Türkçe çevirilerinin yapılması önemli olmakla birlikte, bu alanın disiplinlerarası doğası (dilbilim, veri madenciliği, metin madenciliği, doğal dil işleme, yapay zeka, makine öğrenmesi vb. bilim dallarının bilgisi) terimlere hakimiyeti zorlaştırmaktadır. Geleneksel dilbilgisindeki birçok terim derlem dilbilimle yeniden tanımlanabilir. Bu noktada her bilim alanında olduğu gibi konunun çerçevesini ve içeriğini iyi takip etmek (teknolojiye-bağımlı bir alan olduğundan), yazın içeriklerine tanıdık olmak, terimlerin ilgili araştırmacılarca ölçünleştirilmesi bakımından önemli görünmektedir.

Yeni Sözler Projesi

Türkiye Türkçesi çevrimiçi haber metinlerindeki yeni sözlerin otomatik çıkarımıyla ilgili TÜBİTAK destekli projemizin web sayfası yayına girdi.

https://sites.google.com/site/yenisoezlerprojesi/ adresinden ulaşılan sayfamızda şu ana kadar indirilen / indirilmekte olan haber kaynaklarının bilgileri yer alıyor.

21 Ocak 2012 Cumartesi

Çevrim İçi Haber Metinlerinde Yeni Sözlerin (Neolojizm) Otomatik Çıkarımı

01.11.2011 tarihinde başladığımız 111K223 numaralı TÜBİTAK projesi:

Dilbilimde yeni sözcükler (neologism), kısaca, yeni bir kavram için dilin türetme olanakları kullanılarak oluşturulmuş ‘yeni sözlükbirimler’ olarak tanımlanabilir. Yeni sözlerin, yeni oluşan kavramların adı olma nitelikleri bulunduğu gibi var olan bir sözcük anlamına yeni bir anlam eklenmesi nitelikleri de bulunabilir. Bu yönüyle yeni sözlerin hem genel sözlüğe madde başı olarak girme durumları hem de var olan bir madde başında çok anlamlılık üretme potansiyelleri bulunmaktadır.

Yeni sözlerin ortaya çıkmasında en çok dil dışı koşullar etkili olmaktadır. Özellikle teknolojik yenilenmenin ve değişimin beraberinde getirdiği yeni nesneler yeni ad gereksinimi doğururlar. Bunun dışında toplumsal ve siyasi gelişmeler, kimi ekonomik olaylar, dilsel topluluğun başka bir dilsel toplulukla kurduğu etkileşimin boyutu, dil planlaması gibi etkenler de yeni sözlerin ortaya çıkmasını güçlü bir şekilde belirlemektedir. Yeni sözlerin ortaya çıkışında kişisel gereksinimlerin, özellikle sanatsal yaratılarda yazar ya da şair gibi sözünü günlük dilden ayrı bir yön ve nitelikte kullanmaya yatkın kişilerin var olana yeni bir boyut kazandırma eğilimleri de etkilidir. Burada şairin ya da yazarın yeni bir anlam iletme isteğinden söz edebiliriz. Bu kişisel gereksinimin ortaya çıkardığı yeni söz ya da yeni bir anlamın toplumca benimsenmesi için de çeşitli faktörler rol oynamaktadır. Toplumun aydın kesiminin özellikle bilim çevresince yapılmış bir buluşun var olmayan bir kavramı önce doğurması ve buna bir ad bulunması dilin işlerliğine ve terim kapasitesine olan katkıyı ortaya çıkarmaktadır. Böylelikle dilin terim sözlüklerinin kapsamı genişlemekte ve bazen de terim nitelikli sözlük genel sözlüklere de girebilmektedir. “taksidolmuş”, “çekyat”, “seryat”, “kazıkazan”, “değnekçi” sözlerinde görüldüğü gibi sadece bilim çevreleri değil halkın kendi yarattığı ve gereksinimlerinden ortaya çıkardığı birimler de son yıllarda genel sözlüklere girmişlerdir. Kısaca yeni sözlerin ortaya çıkışı, bir kavram gereksinimiyle başlayıp, kavramı aktarabilecek bir adın bulunması sürecini kapsamaktadır (Emecan, 1998: 23, 24, 25).

Bu projenin amacı, yeni sözlerin Türkiye Türkçesi çevrim içi haber metinleri taranarak otomatik bir biçimde çıkarımının yapılmasıdır. Bu bağlamda proje başlangıcından projenin sonlanması aşamasına kadar olan süreçte, belirlenen çevrimiçi haber kaynaklarının söz listeleri çeşitli web tarama (crawlers, spiders) yazılımları tarafından günlük olarak taranıp, bir dur listesi (stop list) yardımıyla elde edilen sözler ve sıklıkları karşılaştırılarak Türk Dil Kurumu Güncel Türkçe Sözlük (GTS) madde başlarında bulunmayan sözler belirlenmeye çalışılacaktır. Proje kapsamında, sözlerin yazımsal özellikleri göz önüne alınıp, madde başı olabilecek aday yeni sözler bir veri tabanında tutulup, sözlük bilimcilerce değerlendirilmek üzere bu veri tabanına bağlı sistemle tarihsel bir sıradüzenle günlük olarak bir web arayüzüyle yayımlanacaktır. Böylelikle, hangi haber kaynağının günlük olarak ne kadar söz içerdiği, var olan sözler yanında olası aday sözlerin ayrı bir arayüzde gösterildiği birimler, kolayca erişilebilir bir duruma getirilmiş olacaktır. Proje süresi boyunca Türk Dil Kurumu’yla veri tabanlarının kullanımı, projenin söz varlığı listelerinin ve çevrim içi sistemin değerlendirilmesi konularında işbirliğine gidilecektir.

Projeden elde edilecek sonuçlar, Türkiye Türkçesi haber metinlerinin çevrim içi söz varlığının bütün olarak bir veri tabanına kaydedilmesiyle gerek doğal dil işleme (DDİ) gerekse derlem dilbilim çalışmalarına da katkı sağlamış olacaktır.

18 Ocak 2012 Çarşamba

Dilbilim Laboratuvara girer mi?

Başlıktaki sorunun yanıtını vermeden önce, şuradan laboratuvar sözcüğünün anlamına bakmakla, sözcüğün fen bilimlerinde araştırma, ayrıştırma işleri için kullanılan fiziksel ortam olduğunu anlıyoruz. Evet, laboratuvar gerçek-dünya bilgimizdeki ortamın adı.

Peki, dilbilimle ilişkisi ne olabilir? Ses laboratuvarları, akustik laboratuvarlar dışında bir de "yazılımsal" olanlarından söz etmek gerekir. 1990'lardan önce de derlem dilbilim (corpus linguistics) özellikle derlem (corpus) Batı literatüründe bilinen, yerleşen bir terimdir, bununla birlikte gerçek değerini ve yaygınlığını 90'lardan sonra kişisel bilgisayarlar ve sonrasında yazılım teknolojisinde yaşanan üstel gelişimle almıştır. Derlem'i dilbilim yöntembilgisi açısından çok önemli bir noktaya taşıyan da yazılımdır diyebiliriz.

Sezgisel yöntemin, temelde araştırmacının gerçek-dünya bilgisine dayalı sezgisel çıkarımlarıyla dilbilimsel ögeler üzerindeki kararları, bugün için pek de geçerli görünmemektedir. Özellikle sözlükbilim açısından durum yazılımlar lehine oldukça değişmiştir. Hangi sözcüğün kullanımda olduğu, hangisinin yayılım gösterdiği, ne kadarının kullanımdan düştüğü ya da düşmek üzere olduğunun kararını yazılımla verebilmekteyiz.

Şöyle bir somutlayış durumu açıklamak adına yararlı olabilir: Kafa travması geçiren bir olguda acil ünitesinde yapılan rutin göz bebeği muayenesi, kusma olup olmaması gibi iki kritik tanı kriteri dışında kesin tanı, BT (bilgisayarlı tomografi), MR gibi cihazlar ve bunlardaki görüntü işleme yazılımları yardımıyla konulmaktadır. Bu cihazlar bugün tanı ve tedavinin vazgeçilmezleri arasındadır. Sezgisel olarak karar vermek bir yana, tanı koymak artık kanıta dayalı yapılmaktadır.

Yukarıdaki örnek, özellikle sözlükbilim için, sözvarlığı çalışmaları için gittikçe akıllanan yazılımlar düşünüldüğünde, bu yazılımlar incelendiğinde yöntembilgisi açısından dilbilimin öngörülenin çok öncesinde değişeceği anlamına gelmektedir.

Başlıktaki sorunun yanıtı kısaca, evettir.

12 Temmuz 2009 Pazar

Derlem

Derlem (corpus) kullanıldığı yere göre değişen bir kavramın adı değildir aslında. Çeviri kavramlardan olan derlem'in özgün literatüründe gelişigüzel toplanmış metinler (sözlü dil trasnkripsiyonları da dahil) bütünü olarak tanımlanmadığı görülür. Bir adın kullanıldığı yere göre çağrışımlarının çokça değişmesi aslında özellikle terim nitelikli olanlarının konu-duyarlı yapısının es geçildiğini ya da büyük olasılıkla konunun bilinmediğini gösterir. Derlem de öyle bir terim. Havuz da deniyor külliyat da...ama derlem bunların hiçbiri...

Derlem dilbilim (corpus linguistics) bugün bir uzmanlık alanı durumuna gelirken, sadece bu konuyla ilgili kitap sayısı sanırım 50'den fazla... Böyle bir durumda, internete bir "corpus+corpus linguistics" sorgusuyla göz atarak sözcüğün konuya uygun çağrışımından hareket etmek daha doğru olsa gerek.

Derlem bir elektronik sözcüktür. Farklı yapıda bir veritabanıdır. Klasik ilişkisel veritabanı yapısında değil de daha çok XML formatında işaretlenip etiketlenen bir yapıdır. Bilgi-işlem yönü ağır basan bir terimdir, çünkü derlem DDİ (doğal dil işleme) uygulamalarına bugün her zamankinden çok kaynak sağlayan (özellikle istatistiksel ya da olasılıksal tabanlı uygulamalar için) bir elektronik ortamdır. Daha çok yazılı dilin olmak üzere, dilin eşzamanlı bir kesitinin (artzamanlı yani tarihsel bir kesit de hedeflenebilir) dilbilgisinin çeşitli bölümleri bakımından modellenmesi süreci derlem dilbiliminin konusudur. Bu yönüyle derlem, klasik anlamda bir dilbilim araştırmasının tabanı olmayı her zamankinden çok haketmekle birlikte, klasik dilbilgisi araştırmasının tanınmayan veya tanınıp da adının bilinemediği (bizde) bir ortamdır da...