29 Mart 2024 Cuma

Akla Gelenler, YZ

 --> Yapay sinir ağlarına dayanan derin öğrenme ve çeşitlerinin "kapalı kutu" olduğu söylenir. Doğru, bu cümleyi yazarken de beynimde neler olduğunu bilmiyorum, bir fikrim var ama tam olarak bilmiyorum. İnsan zekası da kapalı kutu. Zeka belki de hep böyleydi ve hep böyle kalacak, bilmiyoruz. (29.03.2024; 17.24)

28 Mart 2024 Perşembe

Bir Yapay Zeka Dilbilimi'nden Söz Edebiliriz...

 --> Evet, üretken modeller (GPT'ler) için artık farklı bir dilbilim alanının doğmaya başladığını söyleyebiliriz. Ürettikleri dil ve içerik her türlü incelemeye açık.

--> İsteme dayalı, birçok metin içeriği üreten bu modeller trilyona varan parametreleriyle içerik yanında tarz ya da stil de üretebiliyorlar. Bu, bambaşka bir noktada olduğumuzu ve paradigma açısından bir dönüm noktasına geldiğimizi gösteriyor.

--> GPT'ler papağan değildir. Aynı oturumda aynı kişinin aynı istemine ya da sorusuna bile farklı yanıtlar verirler. İçerikleri özgündür, içeriği bir kaynaktan olduğu gibi önünüze getirmezler. Dil modeli oldukları için en iyi yaptıkları iş, dille ilgili her türlü üretim ve analizdir.

--> Önümüzdeki bir kaç yıl içinde metin tabanlı YZ'lerin daha çok kullanılacağını göreceğiz. 

25 Mart 2024 Pazartesi

Dil Modeline Dayalı Zeka

--> 18 Mart 2024'te Nvidia'nın duyurduğu yeni çip, işin içinde olan ve YZ teknolojilerini yakından takip edenler için kuşkusuz değişmekte/dönüşmekte olanın gelecekte nasıl bir duruma evrileceğinin de başlangıç noktası konumunda. Donanım bakımından hesaplama ve işlem kısıtının sonu gelmiş gibi görünüyor.

--> Gelecekte neler olabilir? Kesin olan şu: Mevcut metin üretim ve yayımlama süreçleri mevcut olmayacak. ChatGPT ve diğer dil modeli teknolojileri şu haliyle bile bir insanın ömrünce göremeyeceği (bir insandan daha çok insan sayısı diyelim) kadar metin ve metin türüyle eğitilmiş durumda. Bu da milyonlarca metnin trilyonlarca parametresiyle daha önce üretilmemiş cümle ya da ifadelerin üretilme olasılığının hiç olmadığı kadar olası olduğunu gösterir. Bu, özellikle kurmaca metinler açısından son derece gerçek bir durum. 

---> GPT teknolojisi, DDİ'de çok zorlanılan anlam-bağlam ikilisinin çözümünü mümkün kıldı. Anlamda belirsizlik çözümü bugün neredeyse sıradan bir iş biçimini almış durumda. Her gün bu zeka türüyle haşır neşir olanlar ve özellikle dilbilimcilerin testleri (kendimden biliyorum) bugün bile çok yetenekli bir platformla karşı karşıya olduğumuzu gösteriyor. 

--> Karşımızdak teknoloji basit bir "sohbet" yazılımı olmamasının ötesinde veri analitiğinde de kullanılan devasa bir platform. 

--> GPT'ler, bir dil modeli olduğundan yapabilecekleri en iyi işler dille, metinle ilgili çözümlemeler; dönüştürümler, yeniden ifadelemeler ve diğer yetenekler. 

--> GPT'leri etkili ve verimli kullanabilmenin temelinde sözcüklerle algoritmik düşünme becerisi var.
Sosyal medyanın sonsuz sayfa özelliğine ve görselliğine alışmış bir zihnin, statik bir platform üzerinde sözcüklerle etkileşim kurması zor olacaktır elbette. Soru sorma, soruyu ayrıntılandırma, sonuç bekleme, yeninden değerlendirme, düzeltme, farklı açıdan yeniden açımlama isteme vb. bir tür "istem organizasyonu"nu gerekli kılıyor. Kısacası; sözcüklerle bir şeyleri yapmak, yaptırmak ve üretmek önemli bir beceri olarak gelecekte daha çok karşımıza çıkacak. 


31 Temmuz 2020 Cuma

Dil Modelleme ve Yine Dilbilim

Dil Modelleme ve Yine Dilbilim

Bir dili tümüyle (yazılı ve sözlü üretimleri) modellemek çok zor belki de imkansız bir iş. Böyle olmakla birlikte bir dilin belirli bir dönemini modellemek belli oranda mümkün olabiliyor. Önceleri n-gram tabanlı modellemeler revaçtayken şimdilerde (özellikle 2013'te word2vec Mikolov ve arkadaşları tarafından duyurulduktan bugüne) makine öğrenmesi (yapay öğrenme) yöntemlerinden yararlanılıyor ve başarımı yüksek sonuçlar elde ediliyor. 

Google'ın çıkardığı BERT (Bidirectional Encoder Representations from Transformers) teknolojisinden sonra Hugging Face, dönüştürücülerle (tarnsformers) doğal dil işlemedeki güncel problemlere çözüm üretme yelpazesini iyice genişletti. Aşağıda Türkçe için hazırlanmış dil modellerine ulaşılabilir. 
Çok kısaca, insan dili teknolojileri (human language technologies) sayesinde hem dile bakışımız değişiyor ve ayrıntılanıyor hem de bu teknolojilerle hayatımızı kolaylaştırabiliyoruz.

Google da DDİ'de deneyimli dilbilimci istihdam etmeye devam ediyor: 
https://careers.google.com/jobs/results/110019480056144582/

Hugging Face Türkçe dil modelleri sayfası:

Sayfada yalnızca modeller değil, model üzerinde geliştirilmiş uygulamaları da çalıştırma olanağı bulunuyor.

Dil teknolojileri gelişirken dilbilimde yapılması gerekenler;

- Derlem oluşturmaya devam etmek (ne kadar çok o kadar iyi anlayışı),
- DDİ yöntemlerini yakından tanımak, tanıtmak,
- Yöntembilgisi üzerine daha çok düşünmek,
- Uygulamaya yönelik araç geliştirilmesine katkı sağlamak,
- Faydalı model oluşturmada ve yapay zekayla metin üretme çalışmalarında daha çok yer almak.



 

6 Şubat 2014 Perşembe

Büyük Veri

  • Son yıllarda artan oranda "büyük veri" kavramını duymaya başladık.
  • Verinin felsefesini ve uygulama alanlarını özetlemek bile epeyce bir çabayı gerektiriyor.
  • Hemen her şey veriye dönüşüyor.
  • Veriye dönüştürmek ayrı, verinin anlattığı dili çözümlemek ayrı.
  • Bu kadar fazla ve gerçek-zamanlı (akan) verinin tutulması, değerli bilginin çıkarılması ve sonunda da sonuç-yorum kısmının oluşturulup görselleştirilmesi...Bu bir cümle ama ayrı ayrı kitap konusu.
  • Türkçede konuyla ilgili teknolojilerin (Hadoop, Cassandra, Solr vb.) ele alındığı kitap sayısının artması gerekiyor.
  • NoSQL çılgınlığına ve yayın sayısı (yabancı dilde) artışına bağlı olarak, klasik veritabanı yönetim sistemlerinin geleceği nasıl olacağı merak konusu.

Aşağıda bağlantıları verilen kitaplar konuyla ilgili ilk Türkçe kaynaklar olması bakımından önemli.

Özellikle akademik alanda araştırma yöntemlerinin nasıl dönüşeceğini, bilgiyi elde etme ve yorumlama şeklimizi nelerin beklediğini görmek açısından mutlaka okunması gereken kitaplar.



Necmi Gürsakal 
Dora Yayınları-2013
 

(Yaşama, Çalışma ve Düşünme Şeklimizi Dönüştürecek Bir Devrim)
Viktor Mayer Schönberger/ Kenneth Cukier 
Paloma Yayınevi-2013


9 Ağustos 2012 Perşembe

Doğal Dil İşleme ve Dilbilim

İnternetin yararlarına büyük paragraflar ayırarak giriş yapmak yerine, kısasa şunu şöyleyebiliriz: HTML'nin geliştirilmesi (donanımsal altyapıyı da düşünmek ve ona ayrıca kitap ayırmak gerekir) insanoğlunun iletişimi ve yazılı kültürü anlamında çok büyük adımdır. Yazının, üretildiği noktadan tüketildiği uzak noktalara aktarılması, hiç olmadığı kadar bilişsel değişikliklere, yeni iletişimsel davranış örüntülerinin oluşmasına olanak sağlamaya devam etmektedir. Yazılım teknolojisinin bir şeyleri olanaklı kılmaları yeteneklerinin artması ölçüsünde önümüzdeki yıllar neler getirecek, bunu şimdiden öngörmek zor olasa da, "yazı"nın internet tabanlı gelişimi, dilin internetteki ortamlara duyarlı çerçevelerinin genişleyeceğini söylemek olasıdır.

Biz, bir teknoloji kültürünün gelişimindeyiz. Dille uğraşan araştırmacıların var olandan öte, yeni gelişen dilbilimsel araçları tanıması, dilbilimin kuramsal yönünün bu araçlarda nasıl ele alındığını görmesi her zamankinden çok önem kazanmaktadır.

Bu noktada yukarıda araç olarak sözünü ettiğim şey, aslında amaç olarak ele alınmaması durumunda gelişimin anlaşılamamasıyla sonuçlanabilir. Dilbilimcinin kullanacağı yazılım üretilirken dilbilimin "amaç"ları doğrultusunda bir çok yordam izlenmiştir aslında. Morfolojik çözümleme yapan bir paket ya da çevrimiçi uygulama, dilbilimcinin işini kolaylaştırması amacıyla da yapılsa (bu amaç pek gözetilmez) hangi dil çerçevesinin özellikleri ele alınmışsa, o çerçeveye uygun bir değil birden çok "yöntembilgisel" sorun çözümü düşünülmüştür. Burada dilbilimci, yazılımsal sürecin dışında kaldığı süre boyunca, aynı zamanda yazılımın geliştirilme aşamasında uygulanan algoritmik fırtınanın da dışında kalmaktadır. Bu bağlamda dilbilimcinin beyninin zaten algıladığı-çözümlediği dilbilgisel bütün düzeylerin; makine diliyle makineye nasıl gösterildiğini, hangi üst modellerin ilgilenilen dilbilgisi konusunu en iyi şekilde temsil edebileceğini ve sonuçta ortaya çıkacak "ürünün" başarımının nasıl ölçüleceğini önümüzdeki dönemde bir şekilde görmesi gerekecek diye düşünmek yine olası.

Doğal dil işleme (DDİ) (Natural language processing-NLP) lisansüstü konuları içeren bir mühendislik alanı olması yaında dilbilimin çeşitli alt alanlarını (sesbilim, biçimbilim, sözdizimi, anlambilim gibi çekirdek alanların yanında kullanımbilim, psikodilbilim, sosyodilbilim, söylem çözümlemesi gibi diğer bilim alanlarıyla yakın ilişkideki konuları) kendisine çalışma alanı olarak seçmektedir. DDİ yazınına göz atıldığında (başta textbook ve handbook türü yayınlar) dil'in en küçük birimlerinden iletişimde rol oynayan büyük birimlerine varıncaya kadar sırayla birçok konunun "teknik" açıdan ele alındığı görülür.

Önümüzdeki dönemde dilbilim ve DDİ arasında nasıl bir ilişki gelişebilir ya da dilbilim DDİ'leşebilir mi?
Yine, teknik açı, dilbilimciyi ne kadar ilgilendirmez?

Bu sorular şunun için soruldu: Bilimde kuramsal olana giden yol bir yerde sınıflandırmadan geçmekte. Örneğin sözcük türlerini sınıflandıracağız hem de binlerce metinlik bir derlemden...Bunu elle yapmak ne kadar mümkün olacaktır? Bu sayı internetteki metin yoğunluğunu da göz önüne alırsak milyonları, milyarları bulacaktır. Manuel yapamayacağımızı anladığımızda iş makineye düşecektir doğal olarak. Makine insan olmadığına göre sezgisel olarak kategorileri "anlaması" mümkün olmayacağından çalışma, sözcük nedirden, sözcük sayılarına, sözcüklerin olasılıksal birlikteliklerine kadar uzayan teknik bir bölgeye kaymak zorundadır. İşte asıl önemli nokta burda karşımıza çıkmakta: Gramatikal ya da istatistiksel model oluşturma...İşin bu noktasında DDİ'nin, dilbilimden çok ileride olduğunu görürüz.

2 Haziran 2012 Cumartesi

Derlem Dilbilim Terimleri

Derlem dilbilimle ilgili bazı önemli terimlerin çevirilerini  http://dilbilim.cu.edu.tr/node/6  adresinden yayımlamaya başladık. İngilizce terimlere kimi karşılıklar öneri olarak yer almaktadır.

Türkçe derlem dilbilim alanyazınının gelişmesi ve yeni terimlere karşılıkların bulunması doğal olarak zaman alacaktır. İngilizce alanyazının bu anlamda öne çıkan birçok eserinin Türkçe çevirilerinin yapılması önemli olmakla birlikte, bu alanın disiplinlerarası doğası (dilbilim, veri madenciliği, metin madenciliği, doğal dil işleme, yapay zeka, makine öğrenmesi vb. bilim dallarının bilgisi) terimlere hakimiyeti zorlaştırmaktadır. Geleneksel dilbilgisindeki birçok terim derlem dilbilimle yeniden tanımlanabilir. Bu noktada her bilim alanında olduğu gibi konunun çerçevesini ve içeriğini iyi takip etmek (teknolojiye-bağımlı bir alan olduğundan), yazın içeriklerine tanıdık olmak, terimlerin ilgili araştırmacılarca ölçünleştirilmesi bakımından önemli görünmektedir.