6 Şubat 2014 Perşembe

Büyük Veri

  • Son yıllarda artan oranda "büyük veri" kavramını duymaya başladık.
  • Verinin felsefesini ve uygulama alanlarını özetlemek bile epeyce bir çabayı gerektiriyor.
  • Hemen her şey veriye dönüşüyor.
  • Veriye dönüştürmek ayrı, verinin anlattığı dili çözümlemek ayrı.
  • Bu kadar fazla ve gerçek-zamanlı (akan) verinin tutulması, değerli bilginin çıkarılması ve sonunda da sonuç-yorum kısmının oluşturulup görselleştirilmesi...Bu bir cümle ama ayrı ayrı kitap konusu.
  • Türkçede konuyla ilgili teknolojilerin (Hadoop, Cassandra, Solr vb.) ele alındığı kitap sayısının artması gerekiyor.
  • NoSQL çılgınlığına ve yayın sayısı (yabancı dilde) artışına bağlı olarak, klasik veritabanı yönetim sistemlerinin geleceği nasıl olacağı merak konusu.

Aşağıda bağlantıları verilen kitaplar konuyla ilgili ilk Türkçe kaynaklar olması bakımından önemli.

Özellikle akademik alanda araştırma yöntemlerinin nasıl dönüşeceğini, bilgiyi elde etme ve yorumlama şeklimizi nelerin beklediğini görmek açısından mutlaka okunması gereken kitaplar.



Necmi Gürsakal 
Dora Yayınları-2013
 

(Yaşama, Çalışma ve Düşünme Şeklimizi Dönüştürecek Bir Devrim)
Viktor Mayer Schönberger/ Kenneth Cukier 
Paloma Yayınevi-2013


9 Ağustos 2012 Perşembe

Doğal Dil İşleme ve Dilbilim

İnternetin yararlarına büyük paragraflar ayırarak giriş yapmak yerine, kısasa şunu şöyleyebiliriz: HTML'nin geliştirilmesi (donanımsal altyapıyı da düşünmek ve ona ayrıca kitap ayırmak gerekir) insanoğlunun iletişimi ve yazılı kültürü anlamında çok büyük adımdır. Yazının, üretildiği noktadan tüketildiği uzak noktalara aktarılması, hiç olmadığı kadar bilişsel değişikliklere, yeni iletişimsel davranış örüntülerinin oluşmasına olanak sağlamaya devam etmektedir. Yazılım teknolojisinin bir şeyleri olanaklı kılmaları yeteneklerinin artması ölçüsünde önümüzdeki yıllar neler getirecek, bunu şimdiden öngörmek zor olasa da, "yazı"nın internet tabanlı gelişimi, dilin internetteki ortamlara duyarlı çerçevelerinin genişleyeceğini söylemek olasıdır.

Biz, bir teknoloji kültürünün gelişimindeyiz. Dille uğraşan araştırmacıların var olandan öte, yeni gelişen dilbilimsel araçları tanıması, dilbilimin kuramsal yönünün bu araçlarda nasıl ele alındığını görmesi her zamankinden çok önem kazanmaktadır.

Bu noktada yukarıda araç olarak sözünü ettiğim şey, aslında amaç olarak ele alınmaması durumunda gelişimin anlaşılamamasıyla sonuçlanabilir. Dilbilimcinin kullanacağı yazılım üretilirken dilbilimin "amaç"ları doğrultusunda bir çok yordam izlenmiştir aslında. Morfolojik çözümleme yapan bir paket ya da çevrimiçi uygulama, dilbilimcinin işini kolaylaştırması amacıyla da yapılsa (bu amaç pek gözetilmez) hangi dil çerçevesinin özellikleri ele alınmışsa, o çerçeveye uygun bir değil birden çok "yöntembilgisel" sorun çözümü düşünülmüştür. Burada dilbilimci, yazılımsal sürecin dışında kaldığı süre boyunca, aynı zamanda yazılımın geliştirilme aşamasında uygulanan algoritmik fırtınanın da dışında kalmaktadır. Bu bağlamda dilbilimcinin beyninin zaten algıladığı-çözümlediği dilbilgisel bütün düzeylerin; makine diliyle makineye nasıl gösterildiğini, hangi üst modellerin ilgilenilen dilbilgisi konusunu en iyi şekilde temsil edebileceğini ve sonuçta ortaya çıkacak "ürünün" başarımının nasıl ölçüleceğini önümüzdeki dönemde bir şekilde görmesi gerekecek diye düşünmek yine olası.

Doğal dil işleme (DDİ) (Natural language processing-NLP) lisansüstü konuları içeren bir mühendislik alanı olması yaında dilbilimin çeşitli alt alanlarını (sesbilim, biçimbilim, sözdizimi, anlambilim gibi çekirdek alanların yanında kullanımbilim, psikodilbilim, sosyodilbilim, söylem çözümlemesi gibi diğer bilim alanlarıyla yakın ilişkideki konuları) kendisine çalışma alanı olarak seçmektedir. DDİ yazınına göz atıldığında (başta textbook ve handbook türü yayınlar) dil'in en küçük birimlerinden iletişimde rol oynayan büyük birimlerine varıncaya kadar sırayla birçok konunun "teknik" açıdan ele alındığı görülür.

Önümüzdeki dönemde dilbilim ve DDİ arasında nasıl bir ilişki gelişebilir ya da dilbilim DDİ'leşebilir mi?
Yine, teknik açı, dilbilimciyi ne kadar ilgilendirmez?

Bu sorular şunun için soruldu: Bilimde kuramsal olana giden yol bir yerde sınıflandırmadan geçmekte. Örneğin sözcük türlerini sınıflandıracağız hem de binlerce metinlik bir derlemden...Bunu elle yapmak ne kadar mümkün olacaktır? Bu sayı internetteki metin yoğunluğunu da göz önüne alırsak milyonları, milyarları bulacaktır. Manuel yapamayacağımızı anladığımızda iş makineye düşecektir doğal olarak. Makine insan olmadığına göre sezgisel olarak kategorileri "anlaması" mümkün olmayacağından çalışma, sözcük nedirden, sözcük sayılarına, sözcüklerin olasılıksal birlikteliklerine kadar uzayan teknik bir bölgeye kaymak zorundadır. İşte asıl önemli nokta burda karşımıza çıkmakta: Gramatikal ya da istatistiksel model oluşturma...İşin bu noktasında DDİ'nin, dilbilimden çok ileride olduğunu görürüz.

2 Haziran 2012 Cumartesi

Derlem Dilbilim Terimleri

Derlem dilbilimle ilgili bazı önemli terimlerin çevirilerini  http://dilbilim.cu.edu.tr/node/6  adresinden yayımlamaya başladık. İngilizce terimlere kimi karşılıklar öneri olarak yer almaktadır.

Türkçe derlem dilbilim alanyazınının gelişmesi ve yeni terimlere karşılıkların bulunması doğal olarak zaman alacaktır. İngilizce alanyazının bu anlamda öne çıkan birçok eserinin Türkçe çevirilerinin yapılması önemli olmakla birlikte, bu alanın disiplinlerarası doğası (dilbilim, veri madenciliği, metin madenciliği, doğal dil işleme, yapay zeka, makine öğrenmesi vb. bilim dallarının bilgisi) terimlere hakimiyeti zorlaştırmaktadır. Geleneksel dilbilgisindeki birçok terim derlem dilbilimle yeniden tanımlanabilir. Bu noktada her bilim alanında olduğu gibi konunun çerçevesini ve içeriğini iyi takip etmek (teknolojiye-bağımlı bir alan olduğundan), yazın içeriklerine tanıdık olmak, terimlerin ilgili araştırmacılarca ölçünleştirilmesi bakımından önemli görünmektedir.

Yeni Sözler Projesi

Türkiye Türkçesi çevrimiçi haber metinlerindeki yeni sözlerin otomatik çıkarımıyla ilgili TÜBİTAK destekli projemizin web sayfası yayına girdi.

https://sites.google.com/site/yenisoezlerprojesi/ adresinden ulaşılan sayfamızda şu ana kadar indirilen / indirilmekte olan haber kaynaklarının bilgileri yer alıyor.

21 Ocak 2012 Cumartesi

Çevrim İçi Haber Metinlerinde Yeni Sözlerin (Neolojizm) Otomatik Çıkarımı

01.11.2011 tarihinde başladığımız 111K223 numaralı TÜBİTAK projesi:

Dilbilimde yeni sözcükler (neologism), kısaca, yeni bir kavram için dilin türetme olanakları kullanılarak oluşturulmuş ‘yeni sözlükbirimler’ olarak tanımlanabilir. Yeni sözlerin, yeni oluşan kavramların adı olma nitelikleri bulunduğu gibi var olan bir sözcük anlamına yeni bir anlam eklenmesi nitelikleri de bulunabilir. Bu yönüyle yeni sözlerin hem genel sözlüğe madde başı olarak girme durumları hem de var olan bir madde başında çok anlamlılık üretme potansiyelleri bulunmaktadır.

Yeni sözlerin ortaya çıkmasında en çok dil dışı koşullar etkili olmaktadır. Özellikle teknolojik yenilenmenin ve değişimin beraberinde getirdiği yeni nesneler yeni ad gereksinimi doğururlar. Bunun dışında toplumsal ve siyasi gelişmeler, kimi ekonomik olaylar, dilsel topluluğun başka bir dilsel toplulukla kurduğu etkileşimin boyutu, dil planlaması gibi etkenler de yeni sözlerin ortaya çıkmasını güçlü bir şekilde belirlemektedir. Yeni sözlerin ortaya çıkışında kişisel gereksinimlerin, özellikle sanatsal yaratılarda yazar ya da şair gibi sözünü günlük dilden ayrı bir yön ve nitelikte kullanmaya yatkın kişilerin var olana yeni bir boyut kazandırma eğilimleri de etkilidir. Burada şairin ya da yazarın yeni bir anlam iletme isteğinden söz edebiliriz. Bu kişisel gereksinimin ortaya çıkardığı yeni söz ya da yeni bir anlamın toplumca benimsenmesi için de çeşitli faktörler rol oynamaktadır. Toplumun aydın kesiminin özellikle bilim çevresince yapılmış bir buluşun var olmayan bir kavramı önce doğurması ve buna bir ad bulunması dilin işlerliğine ve terim kapasitesine olan katkıyı ortaya çıkarmaktadır. Böylelikle dilin terim sözlüklerinin kapsamı genişlemekte ve bazen de terim nitelikli sözlük genel sözlüklere de girebilmektedir. “taksidolmuş”, “çekyat”, “seryat”, “kazıkazan”, “değnekçi” sözlerinde görüldüğü gibi sadece bilim çevreleri değil halkın kendi yarattığı ve gereksinimlerinden ortaya çıkardığı birimler de son yıllarda genel sözlüklere girmişlerdir. Kısaca yeni sözlerin ortaya çıkışı, bir kavram gereksinimiyle başlayıp, kavramı aktarabilecek bir adın bulunması sürecini kapsamaktadır (Emecan, 1998: 23, 24, 25).

Bu projenin amacı, yeni sözlerin Türkiye Türkçesi çevrim içi haber metinleri taranarak otomatik bir biçimde çıkarımının yapılmasıdır. Bu bağlamda proje başlangıcından projenin sonlanması aşamasına kadar olan süreçte, belirlenen çevrimiçi haber kaynaklarının söz listeleri çeşitli web tarama (crawlers, spiders) yazılımları tarafından günlük olarak taranıp, bir dur listesi (stop list) yardımıyla elde edilen sözler ve sıklıkları karşılaştırılarak Türk Dil Kurumu Güncel Türkçe Sözlük (GTS) madde başlarında bulunmayan sözler belirlenmeye çalışılacaktır. Proje kapsamında, sözlerin yazımsal özellikleri göz önüne alınıp, madde başı olabilecek aday yeni sözler bir veri tabanında tutulup, sözlük bilimcilerce değerlendirilmek üzere bu veri tabanına bağlı sistemle tarihsel bir sıradüzenle günlük olarak bir web arayüzüyle yayımlanacaktır. Böylelikle, hangi haber kaynağının günlük olarak ne kadar söz içerdiği, var olan sözler yanında olası aday sözlerin ayrı bir arayüzde gösterildiği birimler, kolayca erişilebilir bir duruma getirilmiş olacaktır. Proje süresi boyunca Türk Dil Kurumu’yla veri tabanlarının kullanımı, projenin söz varlığı listelerinin ve çevrim içi sistemin değerlendirilmesi konularında işbirliğine gidilecektir.

Projeden elde edilecek sonuçlar, Türkiye Türkçesi haber metinlerinin çevrim içi söz varlığının bütün olarak bir veri tabanına kaydedilmesiyle gerek doğal dil işleme (DDİ) gerekse derlem dilbilim çalışmalarına da katkı sağlamış olacaktır.

18 Ocak 2012 Çarşamba

Dilbilim Laboratuvara girer mi?

Başlıktaki sorunun yanıtını vermeden önce, şuradan laboratuvar sözcüğünün anlamına bakmakla, sözcüğün fen bilimlerinde araştırma, ayrıştırma işleri için kullanılan fiziksel ortam olduğunu anlıyoruz. Evet, laboratuvar gerçek-dünya bilgimizdeki ortamın adı.

Peki, dilbilimle ilişkisi ne olabilir? Ses laboratuvarları, akustik laboratuvarlar dışında bir de "yazılımsal" olanlarından söz etmek gerekir. 1990'lardan önce de derlem dilbilim (corpus linguistics) özellikle derlem (corpus) Batı literatüründe bilinen, yerleşen bir terimdir, bununla birlikte gerçek değerini ve yaygınlığını 90'lardan sonra kişisel bilgisayarlar ve sonrasında yazılım teknolojisinde yaşanan üstel gelişimle almıştır. Derlem'i dilbilim yöntembilgisi açısından çok önemli bir noktaya taşıyan da yazılımdır diyebiliriz.

Sezgisel yöntemin, temelde araştırmacının gerçek-dünya bilgisine dayalı sezgisel çıkarımlarıyla dilbilimsel ögeler üzerindeki kararları, bugün için pek de geçerli görünmemektedir. Özellikle sözlükbilim açısından durum yazılımlar lehine oldukça değişmiştir. Hangi sözcüğün kullanımda olduğu, hangisinin yayılım gösterdiği, ne kadarının kullanımdan düştüğü ya da düşmek üzere olduğunun kararını yazılımla verebilmekteyiz.

Şöyle bir somutlayış durumu açıklamak adına yararlı olabilir: Kafa travması geçiren bir olguda acil ünitesinde yapılan rutin göz bebeği muayenesi, kusma olup olmaması gibi iki kritik tanı kriteri dışında kesin tanı, BT (bilgisayarlı tomografi), MR gibi cihazlar ve bunlardaki görüntü işleme yazılımları yardımıyla konulmaktadır. Bu cihazlar bugün tanı ve tedavinin vazgeçilmezleri arasındadır. Sezgisel olarak karar vermek bir yana, tanı koymak artık kanıta dayalı yapılmaktadır.

Yukarıdaki örnek, özellikle sözlükbilim için, sözvarlığı çalışmaları için gittikçe akıllanan yazılımlar düşünüldüğünde, bu yazılımlar incelendiğinde yöntembilgisi açısından dilbilimin öngörülenin çok öncesinde değişeceği anlamına gelmektedir.

Başlıktaki sorunun yanıtı kısaca, evettir.

2 Ocak 2012 Pazartesi

Çukurova Üniversitesi Türkoloji Araştırmaları

Merkezimiz kurucusu Prof. Dr. Şükrü Haluk Akalın'ın ülkemizdeki ilk Türkoloji web alanını (turkoloji.cu.edu.tr) 1999'da yayımlamaya başlamasından bugüne, Çukurova Üniversitesi Türkoloji Araştırmaları Merkezi web sitesinin alanında akademik makale platformu olma özelliğini kazandığını düşünüyorum. Kaliteli içeriği aranılır-bulunur duruma getirmek ve herkesin rahatlıkla ulaşacağı büyük bir veritabanı oluşturmak en büyük amaçlarımız arasındadır.

Başta dilbilim olmak üzere Türk dili, halkbilim, yeni Türk edebiyatı, tarih ve diğer sosyal bilimlerden 10000'den fazla makaleyi barındıran bir ortam "Çukurova Türkoloji".

Çukurova Türkolojinin, bundan sonra da okuyucuya/araştırmacıya kaliteli akademik sitelerden içerik sağlamaya, okuyucuların gönderdikleri akademik makaleleri yayınlamaya devam edeceğini belirtmek isterim.