Üretken Veri Zekası

Yapay Zeka Elmanın Ne Olduğunu Biliyor mu? Öğrenmeyi Amaçlıyor. | Quanta Dergisi

Tarih:

Giriş

Konuşmaya başla Ellie Pavlick Büyük dil modellerinde (LLM'ler) anlayışa dair kanıt arayan işi hakkında konuşuyor ve sanki onunla dalga geçiyormuş gibi görünebilir. "El-dalgalı" ifadesi favoridir ve eğer "anlam" veya "akıl yürütme" kelimesinden bahsederse, bu genellikle dikkat çekici hava alıntılarıyla birlikte gelir. Bu sadece Pavlick'in kendini dürüst tutma yöntemi. Brown Üniversitesi'nde ve Google DeepMind'da dil modelleri üzerinde çalışan bir bilgisayar bilimcisi olarak, doğal dilin doğasında olan duygusallığı benimsemenin, onu ciddiye almanın tek yolu olduğunu biliyor. "Bu bilimsel bir disiplin ve biraz yumuşak" dedi.

Pavlick'in dünyasında, matematik ve fen bilimlerinden hoşlandığı ancak her zaman daha yaratıcı bir tip olarak tanımlandığı ergenlik döneminden beri kesinlik ve nüans bir arada var olmuştur. Lisans öğrencisiyken ekonomi ve saksafon performansı alanında diplomalar aldı, ardından kendisini hala yabancı gibi hissettiği bilgisayar bilimleri alanında doktora yaptı. "Akıllı sistemlerin bilgisayar koduna çok benzeyeceğini düşünen pek çok insan var: pek çok sistem gibi düzgün ve kullanışlı bir şekilde anlama konusunda iyiyiz" dedi. “Cevapların karmaşık olduğuna inanıyorum. Eğer basit bir çözümüm varsa, bunun yanlış olduğundan oldukça eminim. Ve yanılmak istemiyorum."

Doğal dil işleme alanında çalışan bir bilgisayar bilimciyle şans eseri karşılaşması, Pavlick'in bilgisayarların dildeki anlambilimi veya anlamı nasıl kodlayabileceğini inceleyen doktora çalışmasına başlamasına yol açtı. "Sanırım belli bir kaşıntıyı kaşıdı" dedi. "Felsefeye dalıyor ve bu şu anda üzerinde çalıştığım birçok şeye uyuyor." Artık Pavlick'in temel araştırma alanlarından biri “temellendirmeye”, yani kelimelerin anlamının duyusal algılar, sosyal etkileşimler ve hatta diğer düşünceler gibi dilden bağımsız olarak var olan şeylere bağlı olup olmadığı sorusuna odaklanıyor. Dil modelleri tamamen metin üzerinde eğitilir, dolayısıyla temellendirmenin anlam açısından ne kadar önemli olduğunu keşfetmek için verimli bir platform sağlarlar. Ancak bu sorunun kendisi dilbilimcileri ve diğer düşünürleri onlarca yıldır meşgul ediyor.

Pavlick, "Bunlar yalnızca 'teknik' sorunlar değil" dedi. “Dil o kadar büyük ki bana her şeyi kapsıyormuş gibi geliyor.”

Kuantum Pavlick'le bilimi felsefeden çıkarma, "anlam"ın ne anlama geldiği ve seksi olmayan sonuçların önemi hakkında konuştu. Röportaj, netlik sağlamak amacıyla kısaltıldı ve düzenlendi.

Giriş

Ampirik olarak "anlama" veya "anlam" ne anlama gelir? Özellikle neyi arıyorsunuz?

Brown'da araştırma programıma başladığımda anlamın bir şekilde kavramları içerdiğine karar verdik. Bunun herkesin yapmadığı teorik bir taahhüt olduğunun farkındayım ama sezgisel görünüyor. Eğer “elma” kelimesini elma anlamında kullanırsanız, elma kavramına ihtiyacınız vardır. Bu kelimeyi ona atıfta bulunmak için kullansanız da kullanmasanız da, bu bir şey olmalı. "Anlam sahibi olmanın" anlamı budur: söze döktüğünüz bir kavramın, bir şeyin olması gerekir.

Modeldeki kavramları bulmak istiyorum. Sinir ağında yakalayabileceğim bir şey istiyorum; dahili olarak "elmayı" temsil eden, sürekli olarak aynı kelimeyle anılmasına olanak tanıyan bir şeyin olduğuna dair kanıt istiyorum. Çünkü rastgele ve keyfi olmayan bir iç yapı var gibi görünüyor. Güvenilir bir şekilde bir şeyler yapan, iyi tanımlanmış fonksiyona sahip bu küçük külçeleri bulabilirsiniz.

Bu iç yapıyı karakterize etmeye odaklandım. Nasıl bir formu var? Bu, sinir ağındaki ağırlıkların bir alt kümesi olabilir veya bu ağırlıklar üzerinde bir tür doğrusal cebirsel işlem, bir tür geometrik soyutlama olabilir. Ancak [modelin davranışında] nedensel bir rol oynaması gerekiyor: Şu girdilere bağlı ama bunlara değil ve bu çıktılara bağlı, bunlara değil.

Bu, "anlam" diyebileceğiniz bir şeye benziyor. Bu, bu yapıyı nasıl bulacağımızı ve ilişkiler kuracağımızı bulmakla ilgilidir, böylece her şeyi yerine oturttuktan sonra bunu "'Elma'nın ne anlama geldiğini biliyor mu?" gibi sorulara uygulayabiliriz.

Bu yapının herhangi bir örneğini buldunuz mu?

Evet bir tane sonuç Bir dil modelinin bir bilgi parçasını ne zaman aldığını içerir. Modele “Fransa'nın başkenti nedir” diye sorarsanız, “Paris” demesi gerekir ve “Polonya'nın başkenti nedir” sorusunun karşılığı “Varşova” olmalıdır. Tüm bu cevapları kolaylıkla ezberleyebilir ve bunlar [modelin içinde] her yere dağılabilir; bu şeyler arasında bir bağlantı olması gerekmesinin gerçek bir nedeni yoktur.

Bunun yerine, modelde bu bağlantıyı küçük bir vektöre indirgeyen küçük bir yer bulduk. Bunu "Fransa'nın başkenti nedir"e eklerseniz, "Paris"i alır; ve aynı vektör, "Polonya'nın başkenti nedir?" diye sorarsanız "Varşova"yı getirecektir. Bu sistematik “başkenti geri alma” vektörüne benziyor.

Bu gerçekten heyecan verici bir bulgu çünkü model bu küçük kavramları özetliyor ve ardından bunların üzerine genel algoritmalar uyguluyor gibi görünüyor. Ve bu gerçekten [basit] sorulara bakıyor olsak da, bu, modelin kullandığı bu ham bileşenlerin kanıtlarını bulmakla ilgilidir. Bu durumda ezberlemekten kurtulmak daha kolay olacaktır; birçok açıdan bu ağlar bunun için tasarlanmıştır. Bunun yerine, [bilgiyi] parçalara ayırır ve onunla ilgili “sebepleri” kullanır. Daha iyi deneysel tasarımlar buldukça, daha karmaşık kavram türleri için de benzer bir şey bulabileceğimizi umuyoruz.

Giriş

Temellendirmenin bu temsillerle nasıl bir ilişkisi var?

İnsanların dili öğrenme şekli dille ilgili olmayan bir sürü girdiye dayanır: bedensel duyumlarınız, duygularınız, aç olup olmadığınız, her neyse. Bunun anlam açısından gerçekten önemli olduğu düşünülüyor.

Ancak içsel temsillerle daha fazla ilgisi olan başka temellendirme kavramları da vardır. Açıkça fiziksel dünyayla bağlantılı olmayan ama yine de anlamları olan kelimeler var. “Demokrasi” gibi bir kelime favori bir örnektir. Aklınızda olan bir şey var: Demokrasi hakkında konuşmadan düşünebilirim. Yani temellendirme dilden o şeye, o içsel temsile kadar olabilir.

Ancak siz, renk gibi daha dışsal olan şeylerin bile algılara dayanmaksızın yine de içsel “kavramsal” temsillere bağlı olabileceğini savunuyorsunuz. Bu nasıl işe yarayacak?

Bir dil modelinin gözleri yoktur, değil mi? Renkler hakkında hiçbir şey “bilmez”. Yani belki de aralarındaki ilişkileri anlamak gibi daha genel bir şeyi yakalayabilir. Mavi ile kırmızıyı birleştirdiğimde mor elde ettiğimi biliyorum; bu tür ilişkiler bu içsel [temel] yapıyı tanımlayabilir.

Bir LLM'ye RGB kodlarını [renkleri temsil eden sayı dizileri] kullanarak renk örnekleri verebiliriz. "Tamam, işte kırmızı" derseniz ve ona kırmızı için RGB kodunu ve mavi için RGB koduyla birlikte "İşte mavi" verirseniz ve ardından "Bana morun ne olduğunu söyle" derseniz, bunun için RGB kodunu oluşturmalıdır. mor. Bu eşleme, modelin sahip olduğu iç yapının sağlam olduğuna dair iyi bir gösterge olmalıdır; [renk için] algılar eksiktir, ancak kavramsal yapı mevcuttur.

İşin zor yanı, [modelin] tüm eğitim verilerinin üzerinde bulunan RGB kodlarını ezberleyebilmesidir. Böylece tüm renkleri [gerçek RGB değerlerinden uzağa doğru] "döndürdük": LLM'ye "sarı" kelimesinin yeşilin RGB koduyla ilişkili olduğunu söylerdik, vb. Model iyi performans gösterdi: Yeşil istediğinizde size RGB kodunun döndürülmüş versiyonunu veriyordu. Bu, renklerin iç temsillerinde bir tür tutarlılık olduğunu gösteriyor. Sadece ezberlemek değil, ilişkilerine dair bilgiyi uygulamaktır.

Topraklamanın bütün amacı budur. Bir adı bir renkle eşleştirmek keyfidir. Daha çok aralarındaki ilişkilerle ilgili. Yani bu heyecan vericiydi.

Giriş

Felsefi gibi görünen bu sorular nasıl bilimsel olabilir?

Geçenlerde bir düşünce deneyini öğrendim: Ya okyanus kumun üzerine çıkıp geri çekildiğinde desenler bir şiir oluştursaydı? Şiirin anlamı var mı? Bu çok soyut görünüyor ve bu uzun felsefi tartışmayı yapabilirsiniz.

Dil modellerinin güzel yanı, bir düşünce deneyine ihtiyacımızın olmamasıdır. “Teorik olarak şöyle şöyle bir şey akıllı olur mu?” gibi bir şey değil. Sadece: Bu şey akıllı mı? Bilimsel ve ampirik hale gelir.

Bazen insanlar umursamaz davranırlar; orada “stokastik papağanlar" yaklaşmak. Sanırım bu, insanların bu tür şeylere zekayı gereğinden fazla bağlayacakları korkusundan geliyor - ki bunu da görüyoruz. Ve bunu düzeltmek için insanlar şöyle diyorlar: “Hayır, bunların hepsi birer uydurma. Bunlar duman ve aynalar.”

Bu biraz kötü bir hizmet. Oldukça heyecan verici ve oldukça yeni bir şeye ulaştık ve bunu derinlemesine anlamaya değer. Bu, gözden kaçırılmaması gereken çok büyük bir fırsat çünkü modellerin aşırı yorumlanmasından endişeleniyoruz.

Tabiki sen'ben de ürettim araştırma tam olarak bu tür bir aşırı yorumun çürütülmesi.

İnsanların, modellerin (anlamayı taklit etmek için) kullandığı tüm "sığ buluşsal yöntemleri" buldukları bu çalışma, bir bilim insanı olarak reşit olmam için çok temel nitelikteydi. Ama durum karmaşık. Bu, zaferinizi çok erken ilan etmeyin gibi bir şey. Çok dikkatli tasarladığımı bildiğim bir değerlendirmenin bile doğru yapıldığına dair [içimde] biraz şüphecilik veya paranoya var!

Yani bu işin bir parçası: aşırı iddiada bulunmak değil. Diğer bir kısım ise, eğer bu [dil modeli] sistemlerle ilgilenirseniz, bunların insan düzeyinde olmadığını bilirsiniz; sorunları çözme biçimleri, göründüğü kadar akıllı değildir.

Giriş

Bu alanda bu kadar çok temel yöntem ve terim tartışmaya açıkken, başarıyı nasıl ölçeceksiniz?

Bilim insanları olarak aradığımız şeyin, önemsediğimiz şeyin kesin, insanlar tarafından anlaşılabilir bir tanımı olduğunu düşünüyorum; bu durumda zeka. Ve sonra oraya ulaşmamıza yardımcı olacak kelimeleri ekliyoruz. Bir tür çalışma sözlüğüne ihtiyacımız var.

Ama bu zordur çünkü o zaman bu anlambilim savaşına girebilirsiniz. İnsanlar "Anlamı var mı: evet mi hayır mı?" Bilmiyorum. Konuşmayı yanlış yere yönlendiriyoruz.

Sunmaya çalıştığım şey, açıklamaya önem verdiğimiz davranışların kesin bir açıklamasıdır. Ve bu noktada buna "anlam" mı, "temsil" mi, yoksa bu yüklü kelimelerden herhangi biri mi demek istediğiniz tartışmalıdır. Mesele şu ki, masada bir teori ya da önerilen bir model var; hadi bunu değerlendirelim.

Giriş

Peki dil modelleri üzerine yapılan araştırmalar bu daha doğrudan yaklaşıma nasıl ilerleyebilir?

Gerçekten cevaplayabilmeyi istediğim türden derin sorular: Zekanın yapı taşları nelerdir? İnsan zekası neye benziyor? Model zekası neye benziyor? — gerçekten önemlidir. Ama önümüzdeki 10 yıl içinde olması gereken şeylerin pek de seksi olmadığını düşünüyorum.

Eğer bu [iç] temsillerle uğraşmak istiyorsak, onları bulmak için yöntemlere ihtiyacımız var; bilimsel açıdan sağlam yöntemlere. Doğru şekilde yapılırsa, bu düşük seviyeli, son derece sıradan metodolojik şeyler manşetlere çıkmayacak. Ancak bu derin sorulara doğru cevap vermemizi sağlayacak gerçekten önemli şeyler bunlar.

Bu arada modeller değişmeye devam edecek. Yani insanların sanki "atılım"mış gibi yayınlamaya devam edecekleri pek çok şey olacak ama muhtemelen öyle değil. Bence büyük atılımlar yapmak için henüz çok erken.

İnsanlar, [tamamlanacak bir dil modeli] "John _______'ye bir içki verdi" diye sormak ve "John" mu yoksa "Mary" mi yazdığını görmeye çalışmak gibi gerçekten basit görevler üzerinde çalışıyorlar. Bu, zekayı açıklayacak bir sonuç hissine sahip değil. Ama aslında bu sıkıcı sorunu tanımlamak için kullandığımız araçların, zekayla ilgili derin soruları yanıtlamak için gerekli olduğuna inanıyorum.

spot_img

En Son İstihbarat

spot_img