dilbilim etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster
dilbilim etiketine sahip kayıtlar gösteriliyor. Tüm kayıtları göster

9 Ağustos 2012 Perşembe

Doğal Dil İşleme ve Dilbilim

İnternetin yararlarına büyük paragraflar ayırarak giriş yapmak yerine, kısasa şunu şöyleyebiliriz: HTML'nin geliştirilmesi (donanımsal altyapıyı da düşünmek ve ona ayrıca kitap ayırmak gerekir) insanoğlunun iletişimi ve yazılı kültürü anlamında çok büyük adımdır. Yazının, üretildiği noktadan tüketildiği uzak noktalara aktarılması, hiç olmadığı kadar bilişsel değişikliklere, yeni iletişimsel davranış örüntülerinin oluşmasına olanak sağlamaya devam etmektedir. Yazılım teknolojisinin bir şeyleri olanaklı kılmaları yeteneklerinin artması ölçüsünde önümüzdeki yıllar neler getirecek, bunu şimdiden öngörmek zor olasa da, "yazı"nın internet tabanlı gelişimi, dilin internetteki ortamlara duyarlı çerçevelerinin genişleyeceğini söylemek olasıdır.

Biz, bir teknoloji kültürünün gelişimindeyiz. Dille uğraşan araştırmacıların var olandan öte, yeni gelişen dilbilimsel araçları tanıması, dilbilimin kuramsal yönünün bu araçlarda nasıl ele alındığını görmesi her zamankinden çok önem kazanmaktadır.

Bu noktada yukarıda araç olarak sözünü ettiğim şey, aslında amaç olarak ele alınmaması durumunda gelişimin anlaşılamamasıyla sonuçlanabilir. Dilbilimcinin kullanacağı yazılım üretilirken dilbilimin "amaç"ları doğrultusunda bir çok yordam izlenmiştir aslında. Morfolojik çözümleme yapan bir paket ya da çevrimiçi uygulama, dilbilimcinin işini kolaylaştırması amacıyla da yapılsa (bu amaç pek gözetilmez) hangi dil çerçevesinin özellikleri ele alınmışsa, o çerçeveye uygun bir değil birden çok "yöntembilgisel" sorun çözümü düşünülmüştür. Burada dilbilimci, yazılımsal sürecin dışında kaldığı süre boyunca, aynı zamanda yazılımın geliştirilme aşamasında uygulanan algoritmik fırtınanın da dışında kalmaktadır. Bu bağlamda dilbilimcinin beyninin zaten algıladığı-çözümlediği dilbilgisel bütün düzeylerin; makine diliyle makineye nasıl gösterildiğini, hangi üst modellerin ilgilenilen dilbilgisi konusunu en iyi şekilde temsil edebileceğini ve sonuçta ortaya çıkacak "ürünün" başarımının nasıl ölçüleceğini önümüzdeki dönemde bir şekilde görmesi gerekecek diye düşünmek yine olası.

Doğal dil işleme (DDİ) (Natural language processing-NLP) lisansüstü konuları içeren bir mühendislik alanı olması yaında dilbilimin çeşitli alt alanlarını (sesbilim, biçimbilim, sözdizimi, anlambilim gibi çekirdek alanların yanında kullanımbilim, psikodilbilim, sosyodilbilim, söylem çözümlemesi gibi diğer bilim alanlarıyla yakın ilişkideki konuları) kendisine çalışma alanı olarak seçmektedir. DDİ yazınına göz atıldığında (başta textbook ve handbook türü yayınlar) dil'in en küçük birimlerinden iletişimde rol oynayan büyük birimlerine varıncaya kadar sırayla birçok konunun "teknik" açıdan ele alındığı görülür.

Önümüzdeki dönemde dilbilim ve DDİ arasında nasıl bir ilişki gelişebilir ya da dilbilim DDİ'leşebilir mi?
Yine, teknik açı, dilbilimciyi ne kadar ilgilendirmez?

Bu sorular şunun için soruldu: Bilimde kuramsal olana giden yol bir yerde sınıflandırmadan geçmekte. Örneğin sözcük türlerini sınıflandıracağız hem de binlerce metinlik bir derlemden...Bunu elle yapmak ne kadar mümkün olacaktır? Bu sayı internetteki metin yoğunluğunu da göz önüne alırsak milyonları, milyarları bulacaktır. Manuel yapamayacağımızı anladığımızda iş makineye düşecektir doğal olarak. Makine insan olmadığına göre sezgisel olarak kategorileri "anlaması" mümkün olmayacağından çalışma, sözcük nedirden, sözcük sayılarına, sözcüklerin olasılıksal birlikteliklerine kadar uzayan teknik bir bölgeye kaymak zorundadır. İşte asıl önemli nokta burda karşımıza çıkmakta: Gramatikal ya da istatistiksel model oluşturma...İşin bu noktasında DDİ'nin, dilbilimden çok ileride olduğunu görürüz.

21 Ocak 2012 Cumartesi

Çevrim İçi Haber Metinlerinde Yeni Sözlerin (Neolojizm) Otomatik Çıkarımı

01.11.2011 tarihinde başladığımız 111K223 numaralı TÜBİTAK projesi:

Dilbilimde yeni sözcükler (neologism), kısaca, yeni bir kavram için dilin türetme olanakları kullanılarak oluşturulmuş ‘yeni sözlükbirimler’ olarak tanımlanabilir. Yeni sözlerin, yeni oluşan kavramların adı olma nitelikleri bulunduğu gibi var olan bir sözcük anlamına yeni bir anlam eklenmesi nitelikleri de bulunabilir. Bu yönüyle yeni sözlerin hem genel sözlüğe madde başı olarak girme durumları hem de var olan bir madde başında çok anlamlılık üretme potansiyelleri bulunmaktadır.

Yeni sözlerin ortaya çıkmasında en çok dil dışı koşullar etkili olmaktadır. Özellikle teknolojik yenilenmenin ve değişimin beraberinde getirdiği yeni nesneler yeni ad gereksinimi doğururlar. Bunun dışında toplumsal ve siyasi gelişmeler, kimi ekonomik olaylar, dilsel topluluğun başka bir dilsel toplulukla kurduğu etkileşimin boyutu, dil planlaması gibi etkenler de yeni sözlerin ortaya çıkmasını güçlü bir şekilde belirlemektedir. Yeni sözlerin ortaya çıkışında kişisel gereksinimlerin, özellikle sanatsal yaratılarda yazar ya da şair gibi sözünü günlük dilden ayrı bir yön ve nitelikte kullanmaya yatkın kişilerin var olana yeni bir boyut kazandırma eğilimleri de etkilidir. Burada şairin ya da yazarın yeni bir anlam iletme isteğinden söz edebiliriz. Bu kişisel gereksinimin ortaya çıkardığı yeni söz ya da yeni bir anlamın toplumca benimsenmesi için de çeşitli faktörler rol oynamaktadır. Toplumun aydın kesiminin özellikle bilim çevresince yapılmış bir buluşun var olmayan bir kavramı önce doğurması ve buna bir ad bulunması dilin işlerliğine ve terim kapasitesine olan katkıyı ortaya çıkarmaktadır. Böylelikle dilin terim sözlüklerinin kapsamı genişlemekte ve bazen de terim nitelikli sözlük genel sözlüklere de girebilmektedir. “taksidolmuş”, “çekyat”, “seryat”, “kazıkazan”, “değnekçi” sözlerinde görüldüğü gibi sadece bilim çevreleri değil halkın kendi yarattığı ve gereksinimlerinden ortaya çıkardığı birimler de son yıllarda genel sözlüklere girmişlerdir. Kısaca yeni sözlerin ortaya çıkışı, bir kavram gereksinimiyle başlayıp, kavramı aktarabilecek bir adın bulunması sürecini kapsamaktadır (Emecan, 1998: 23, 24, 25).

Bu projenin amacı, yeni sözlerin Türkiye Türkçesi çevrim içi haber metinleri taranarak otomatik bir biçimde çıkarımının yapılmasıdır. Bu bağlamda proje başlangıcından projenin sonlanması aşamasına kadar olan süreçte, belirlenen çevrimiçi haber kaynaklarının söz listeleri çeşitli web tarama (crawlers, spiders) yazılımları tarafından günlük olarak taranıp, bir dur listesi (stop list) yardımıyla elde edilen sözler ve sıklıkları karşılaştırılarak Türk Dil Kurumu Güncel Türkçe Sözlük (GTS) madde başlarında bulunmayan sözler belirlenmeye çalışılacaktır. Proje kapsamında, sözlerin yazımsal özellikleri göz önüne alınıp, madde başı olabilecek aday yeni sözler bir veri tabanında tutulup, sözlük bilimcilerce değerlendirilmek üzere bu veri tabanına bağlı sistemle tarihsel bir sıradüzenle günlük olarak bir web arayüzüyle yayımlanacaktır. Böylelikle, hangi haber kaynağının günlük olarak ne kadar söz içerdiği, var olan sözler yanında olası aday sözlerin ayrı bir arayüzde gösterildiği birimler, kolayca erişilebilir bir duruma getirilmiş olacaktır. Proje süresi boyunca Türk Dil Kurumu’yla veri tabanlarının kullanımı, projenin söz varlığı listelerinin ve çevrim içi sistemin değerlendirilmesi konularında işbirliğine gidilecektir.

Projeden elde edilecek sonuçlar, Türkiye Türkçesi haber metinlerinin çevrim içi söz varlığının bütün olarak bir veri tabanına kaydedilmesiyle gerek doğal dil işleme (DDİ) gerekse derlem dilbilim çalışmalarına da katkı sağlamış olacaktır.

18 Ocak 2012 Çarşamba

Dilbilim Laboratuvara girer mi?

Başlıktaki sorunun yanıtını vermeden önce, şuradan laboratuvar sözcüğünün anlamına bakmakla, sözcüğün fen bilimlerinde araştırma, ayrıştırma işleri için kullanılan fiziksel ortam olduğunu anlıyoruz. Evet, laboratuvar gerçek-dünya bilgimizdeki ortamın adı.

Peki, dilbilimle ilişkisi ne olabilir? Ses laboratuvarları, akustik laboratuvarlar dışında bir de "yazılımsal" olanlarından söz etmek gerekir. 1990'lardan önce de derlem dilbilim (corpus linguistics) özellikle derlem (corpus) Batı literatüründe bilinen, yerleşen bir terimdir, bununla birlikte gerçek değerini ve yaygınlığını 90'lardan sonra kişisel bilgisayarlar ve sonrasında yazılım teknolojisinde yaşanan üstel gelişimle almıştır. Derlem'i dilbilim yöntembilgisi açısından çok önemli bir noktaya taşıyan da yazılımdır diyebiliriz.

Sezgisel yöntemin, temelde araştırmacının gerçek-dünya bilgisine dayalı sezgisel çıkarımlarıyla dilbilimsel ögeler üzerindeki kararları, bugün için pek de geçerli görünmemektedir. Özellikle sözlükbilim açısından durum yazılımlar lehine oldukça değişmiştir. Hangi sözcüğün kullanımda olduğu, hangisinin yayılım gösterdiği, ne kadarının kullanımdan düştüğü ya da düşmek üzere olduğunun kararını yazılımla verebilmekteyiz.

Şöyle bir somutlayış durumu açıklamak adına yararlı olabilir: Kafa travması geçiren bir olguda acil ünitesinde yapılan rutin göz bebeği muayenesi, kusma olup olmaması gibi iki kritik tanı kriteri dışında kesin tanı, BT (bilgisayarlı tomografi), MR gibi cihazlar ve bunlardaki görüntü işleme yazılımları yardımıyla konulmaktadır. Bu cihazlar bugün tanı ve tedavinin vazgeçilmezleri arasındadır. Sezgisel olarak karar vermek bir yana, tanı koymak artık kanıta dayalı yapılmaktadır.

Yukarıdaki örnek, özellikle sözlükbilim için, sözvarlığı çalışmaları için gittikçe akıllanan yazılımlar düşünüldüğünde, bu yazılımlar incelendiğinde yöntembilgisi açısından dilbilimin öngörülenin çok öncesinde değişeceği anlamına gelmektedir.

Başlıktaki sorunun yanıtı kısaca, evettir.

24 Temmuz 2009 Cuma

Otomatik Metin İşleme

1990'lı yılların başından itibaren derlem dilbilim (corpus linguistics) konusu üzerindeki yayın -özellikle kitap- sayısı çeşitlenirken, 2000-2005 yılları arasında da veri madenciliği (data mining) alanının metin madenciliği (text mining) ve web madenciliği alt alanlarına yönelik yayınların da arttığını görüyoruz.

Bilgisayarlı metin işleme ve metin madenciliği konuları iç içe girmiş gibi görünüyor. Metin işlemeyle ilgili iyi sitelerden birisinin bağlantısını aşağıda veriyorum. İnanılmaz gelişmeler yaşanıyor...Metin, şu anda internetin temel birimi durumunda sanırım. Her şey metinden yola çıkılarak otomatik yapılma yolunda ilerliyor..Google bunun en güzel örneği, sanırım dil mühendisi olarak doğal dil işleme uygulamaları geliştiren mühendis sayısı epeyce vardır Google'da....

Kanımca, ayrıntılı dilbilgisi|dil bilgisi bu elektronik metin çağında en çok makinelere yarayacak...

Dilbilimcilerin en azından işine yarayacak düzeyde metin işlemeye yönelik yazılım geliştirme işlerine yönlendirilmesi, temel programlama becerilerini kazanmaları gerekiyor. Derlem dilbilim kitapları yazan birçok dilbilimcinin aynı zamanda iyi birer programcı olduğu da görülüyor. Dilbilim bölümlerinin acilen bilgisayar destekli işlere, konulara yönelik programlar açmaları gerekiyor. Bu durum Türk dili ve edebiyatı bölümleri için de elzem gibi duruyor. Makinelere yani bilgisayarlara dilbilgisi yazmak eğlenceli bir o kadar da motivasyonu yüksek bir iş...dönütünü saniyeler içinde alıyorsunuz :) Dil laboratuarlarında dilbilgisi yazan, kuralları çok ayrıntılı algoritmalara döken, olasılık ve istatistiği de kullanarak dilbilgisel modüller geliştiren dilbilimciler ve Türk dili ve edebiyatı öğrencilerini görmek güzel olacak. Gidiş bu yönde olacak çünkü....

textanalysis.info (birçok link barındırıyor).

http://www.textanalysis.info/

12 Temmuz 2009 Pazar

Derlem

Derlem (corpus) kullanıldığı yere göre değişen bir kavramın adı değildir aslında. Çeviri kavramlardan olan derlem'in özgün literatüründe gelişigüzel toplanmış metinler (sözlü dil trasnkripsiyonları da dahil) bütünü olarak tanımlanmadığı görülür. Bir adın kullanıldığı yere göre çağrışımlarının çokça değişmesi aslında özellikle terim nitelikli olanlarının konu-duyarlı yapısının es geçildiğini ya da büyük olasılıkla konunun bilinmediğini gösterir. Derlem de öyle bir terim. Havuz da deniyor külliyat da...ama derlem bunların hiçbiri...

Derlem dilbilim (corpus linguistics) bugün bir uzmanlık alanı durumuna gelirken, sadece bu konuyla ilgili kitap sayısı sanırım 50'den fazla... Böyle bir durumda, internete bir "corpus+corpus linguistics" sorgusuyla göz atarak sözcüğün konuya uygun çağrışımından hareket etmek daha doğru olsa gerek.

Derlem bir elektronik sözcüktür. Farklı yapıda bir veritabanıdır. Klasik ilişkisel veritabanı yapısında değil de daha çok XML formatında işaretlenip etiketlenen bir yapıdır. Bilgi-işlem yönü ağır basan bir terimdir, çünkü derlem DDİ (doğal dil işleme) uygulamalarına bugün her zamankinden çok kaynak sağlayan (özellikle istatistiksel ya da olasılıksal tabanlı uygulamalar için) bir elektronik ortamdır. Daha çok yazılı dilin olmak üzere, dilin eşzamanlı bir kesitinin (artzamanlı yani tarihsel bir kesit de hedeflenebilir) dilbilgisinin çeşitli bölümleri bakımından modellenmesi süreci derlem dilbiliminin konusudur. Bu yönüyle derlem, klasik anlamda bir dilbilim araştırmasının tabanı olmayı her zamankinden çok haketmekle birlikte, klasik dilbilgisi araştırmasının tanınmayan veya tanınıp da adının bilinemediği (bizde) bir ortamdır da...