Büyük dil modellerini kullanarak insan dili ağını yönlendirmek ve bastırmak

“Ben ilericiyim ve sen sağa düşüyorsun.”

Siz yukarıdaki cümleyi okurken beyninizin dil sistemi yoğun bir şekilde çalışıyordu.

Beynin dil sistemi, beynin ön ve temporal kısımlarında bulunan ve çoğu kişide sol yarıkürenin yan tarafında yer alan bir dizi bölgeden oluşur. Bu bölgeler hem okurken hem de konuşmayı dinlerken dili anlamada rol oynar. Yetişkinlikte bu bölgelerden bazıları zarar görürse dilsel eksiklikler yaşarsınız. “Dil sistemi” olarak adlandırılan bu beyin bölgeleri, seçici olarak dil işlemeyi destekleyen, birbirine bağlı bir ağ oluşturur. Ancak, iç temsillere ve bu sistem içerisinde meydana gelen süreçlere ilişkin bir anlayış elde etmek hala bir zorluktur.


Yüzeyi şişmiş bir beynin sol yarıküresi. Kırmızı çizgiler, birçok bireydeki tipik dil alanlarını göstermektedir.

Bu çalışmada şunu sorduk: Dil sisteminin en çok hangi tür cümleler yanıt vermesini sağlayacak? Genel olarak konuşursak, belirli bir beyin hücresi veya bölgesi için “tercih edilen” uyaranı bilmek çok faydalıdır. Bu yaklaşımın kökleri, Hubel ve Wiesel’in 1950’lerin sonu ve 1960’larda yaptığı, kedilerin ve maymunların görsel alanlarındaki belirli beyin hücrelerinin, farklı yönlerdeki ışık gibi belirli görsel özelliklere güçlü ve seçici bir şekilde tepki verdiğini ortaya koyan öncü çalışmasına dayanmaktadır. Bu bulgular görsel algıyı mümkün kılan yapı taşlarına dair kritik bilgiler sağladı.

Çalışmamızda odak noktamız görsel sistem ya da ışığın yönelimi değildi; bunun yerine insan dil sisteminin tercih edilen uyarıcısını keşfetmek istedik. Bu hedefe doğru ilk adım olarak 1.000 adet 6 kelime uzunluğunda cümleden oluşan bir set hazırladık. Bu cümleler, kurgu öyküler, web metinleri ve yazıya geçirilmiş sözlü metinler de dahil olmak üzere çok çeşitli konuları kapsayan çeşitli metin derlemlerinden örneklenmiştir. Dil sisteminin bu cümlelere verdiği tepkileri incelemek için, katılımcılar her cümleyi okurken fonksiyonel manyetik rezonans görüntüleme (fMRI) kullanarak beyin aktivitesini kaydettik. Her katılımcı iki gün boyunca fMRI tarayıcısında yaklaşık dört saat geçirdi. Bu tarama seanslarından, beyindeki tüm “3D pikseller” boyunca 1000 cümlenin her biri için beyin aktivitesinin bir görüntüsünü elde ettik. Her katılımcıda dil sistemini oluşturan 3 boyutlu pikselleri izole ettik ve bu sistemdeki etkinliği 1.000 cümleye kadar inceledik. Dil sistemi bu cümlelere verdiği yanıtta oldukça fazla değişiklik gösterdi: bazı cümleler yüksek tepkiye yol açtı, bazı cümleler ise daha düşük tepkiye yol açtı. Ancak, olası 6 kelimelik cümlelerin çok sayıda olduğu göz önüne alındığında, 1000 cümleden oluşan setimizin dil sisteminin “tercih edilen” cümlelerini tamamen şans eseri içerip içermediğini bilmek imkansızdı.

İkinci adım olarak, dil sisteminin bu ağda maksimum aktiviteyi ortaya çıkaracak “tercih edilen” cümlelerini belirlemek için hedefe yönelik, veriye dayalı bir yaklaşım benimsedik. Bunu yapmak için ChatGPT gibi büyük dil modellerinin dil işleme sırasında beyin tepkilerini öngördüğüne dair son kanıtlardan yararlandık. Büyük dil modelleri beyin tepkilerini öngördüğü için süreci tersine çevirebiliriz: Beyin tepkilerini tahmin etmek yerine, ilgilenilen beyin bölgesini seçebilir ve modeli, beyin bölgesini istenen duruma getirecek uyaranları tahmin etmek için kullanabiliriz. Bizim durumumuzda beynimizin ilgi alanı dil sistemiydi ve arzu ettiğimiz durum maksimum aktiviteydi (“sürüş cümleleri”). Beyin tepkilerinin tamamını kapsamak ve yöntemimizin beyin tepkilerini ayrım gözetmeden artırmamasını sağlamak için, aynı zamanda minimum aktiviteyi ortaya çıkaracak cümleler de belirledik (“cümleleri bastır”).

Yeni dürtümüzü tanımlamak ve cümleleri bastırmak için, geniş dil modelinin cümle temsillerinden ortalama beyin aktivitesine kadar beş katılımcımızdan gelen 1000 cümleye bir regresyon modeli yerleştirdik. Böyle bir regresyon modelinin faydası, herhangi bir rastgele cümleyi girdi olarak alabilme ve bu cümleyle ilişkili tahmin edilen beyin aktivitesi düzeyini çıktı olarak alabilme yeteneğidir. Bu regresyon modelini çok sayıda cümleye (~1,8 milyon) uyguladık ve bu 1,8 milyon cümlenin her biri için dil sisteminde tahmin edilen bir yanıt elde ettik. Bu geniş kümeden, en yüksek beyin aktivitesini ortaya çıkardığı tahmin edilen 250 dürtü cümlesini seçtik;Doktora grubu değiştirme: Evet mi Hayır mı?” Ve “Al sat sinyalleri belirli olmaya devam ediyor.”. Benzer şekilde, bastırılmış cümlelerimizi minimum aktiviteyi ortaya çıkaracağı tahmin edilen 250 cümle olarak belirledik, örneğin: “Kanepede oturuyorduk.” Ve “Balkona çıktılar.”.

Daha sonra yeni cümlelerin tahmin edildiği gibi beyin aktivitesini bozup bozmayacağını nedensel olarak test etmek istedik. Daha da önemlisi, regresyon modelini geliştirmek için kullanılan orijinal beş katılımcıya güvenmek yerine, bu deney için üç yeni katılımcıyı işe aldık. Bu şekilde, tahrik ve bastırma cümleleriyle ilgili tahminlerimizin bu yeni katılımcılar için geçerli olup olmayacağını sorduk. Böyle bir genelleme, modelimizin insanlar arasında paylaşılan dil işleme özelliklerini keşfettiğini gösterir.

Yeni deneyin sonuçları tahminlerimizi doğruladı: Cümleleri harekete geçirme ve bastırma, üç yeni katılımcının dil sisteminde sırasıyla yüksek ve düşük aktiviteyi ortaya çıkardı. Dolayısıyla, yeni tahrik/bastırma cümleleri için dil sistemindeki aktivasyonun büyüklüğü hakkında tahminler üretmek üzere bir regresyon modeli eğittik ve ardından yeni katılımcılardan yeni cümleler için beyin verilerini etkili bir şekilde toplayarak, tabiri caizse döngüyü kapattık. beyin aktivitelerini “kontrol etmek”.

Çubuklar, üç katılımcının “tahrik” durumuna (yüksek beyin aktivitesini ortaya çıkarmak için tasarlanmış), “bastırma” durumuna (minimum aktiviteyi ortaya çıkarmak için tasarlanmış) ve ayrıca 1000’den oluşan çeşitli bir diziye göre ortalaması alınan normalleştirilmiş dil sistemi fMRI aktivitesini gösterir. cümleler (“taban çizgisi”). Sağdaki kutular her bir duruma ait örnekleri gösterir.

Modelimiz tarafından seçilen ve düşükten yükseğe tüm beyin tepkilerini kapsayan çeşitli cümleler dizisiyle, dil sisteminin tercih edilen uyaranını karakterize edebildik. Belirli bir derecede alışılmadık gramer ve/veya anlama sahip cümlelerin, dil sisteminde en yüksek etkinliği ortaya çıkardığını keşfettik; örneğin, bu makalenin başındaki cümle gibi: “Ben ilericiyim ve sen sağa düşüyorsun.” Cümle standart İngilizce kelimelerden oluşsa da, cümle düzeyindeki anlamın yorumlanması zordur; bu tür cümlenin beklenmedik yapısı ve belirsiz anlamı, dil sistemini sıkı çalışmaya zorlar. Ancak uyaran daha da sıra dışı hale gelirse, örneğin “LG önerilen Git’e geri dönmenize itiraz edecek.”? Bu tür cümlelere verilen yanıtlar oldukça düşük: Dil sistemi, İngilizcenin doğal istatistiklerine uymayan bu saçma cümlelere güçlü bir yanıt vermiyor. Başka bir deyişle, deneyimlerimizin muhtemelen dil sistemini bu tür girdilere göre ayarladığı göz önüne alındığında, bir uyaranın dille ilgili deneyimlerimizde karşılaştığımız girdi türüne yeterince benzemesi gerekir.

Bu nedenle, beyninizin belirli alanları (dil sistemi) dilin istatistikleriyle uyumlu dil girdisine seçici bir şekilde yanıt verecek ve sözcükleri ve bunların nasıl bir araya geldiklerini anlamlandırmak için gerçekten çok çalışacaktır.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir