Üretken Veri Zekası

Belge Yerleştirme Teknikleri

Tarih:

Sözcük gömme - kelimelerin sayısal vektör uzaylarına eşlenmesi - son yıllarda doğal dil işleme (NLP) görevleri için inanılmaz derecede önemli bir yöntem olduğunu kanıtladı ve metinlerin daha zengin temsillerinden yararlanmak için girdi olarak vektör temsiline dayanan çeşitli makine öğrenimi modellerini etkinleştirdi. giriş. Bu temsiller, kelimelerle ilgili daha anlambilimsel ve sözdizimsel bilgileri koruyarak, akla gelebilecek neredeyse her NLP görevinde gelişmiş performansa yol açar.

Hem roman fikrinin kendisi hem de muazzam etkisi, araştırmacıları, bu zengin vektör temsillerinin nimetlerinden daha büyük metin birimlerine - cümlelerden kitaplara - nasıl sağlanacağı sorununu düşünmeye yöneltti. Bu çaba, soruna çeşitli yenilikçi çözümler ve bazı önemli gelişmelerle birlikte, bu eşleştirmeleri üretmek için bir dizi yeni yöntemle sonuçlandı.

Kendimi konuyla tanıştırırken yazılan bu gönderi ( BüyükPanda, Burada Ben danışırım ❤️™), pratisyenlerin belge düğünleri yapmak için buldukları farklı yolları sunmaktır.

Not: Kelimeyi kullanıyorum belge başvurmak için burada herhangi bir kelime dizisi, cümlelerden ve paragraflardan sosyal medya gönderilerine, makalelere, kitaplara ve daha karmaşık yapılandırılmış metin belgelerine (örneğin formlar) kadar uzanır.

Bu yazıda, yalnızca kelime gömme tekniklerinin doğrudan uzantısı olan yaklaşımlara değinmeyeceğim (örneğin, doktor2vec uzanır kelime2vec), ancak bazen diğer çıktıların yanı sıra belgelerin ℝⁿ 'deki vektörlere eşlenmesini üreten diğer önemli teknikler.

Ayrıca mümkün olduğunca gözden geçirilen yöntemlerin hem orijinal makalelerine hem de kod uygulamalarına bağlantılar ve referanslar sağlamaya çalışacağım.

Not: Bu konu, yapılandırılmış metin temsillerini öğrenme problemiyle bir şekilde ilgilidir, ancak eşdeğer değildir (örn. [Liu ve Lapata, 2018]).

NLP uygulamaları hakkındaki bu derin teknik eğitimin yararlı olduğunu düşünüyor musunuz? Yeni alakalı içerik yayınladığımızda güncellenmek için aşağıdan abone olun.  

İçindekiler

  1. Belge yerleştirme uygulamaları
  2. Öne çıkan yaklaşımlar ve eğilimler
    Belge yerleştirme yaklaşımları
    Eğilimler ve zorluklar
  3. Klasik teknikler
    Kelime torbası
    Gizli Dirichlet Tahsisi (LDA)
  4. Denetimsiz belge yerleştirme teknikleri
    n-gram düğünler
    Ortalama kelime düğünleri
    Gönderilen2Vec
    Paragraf vektörleri (doktor2vec)
    Doc2VecC
    Düşünce atlama vektörleri
    HızlıGönderildi
    Hızlı düşünce vektörleri
    Kelime Taşıyıcının Gömme (WME)
    Cümle-BERT (SBERT)
  5. Denetimli belge yerleştirme teknikleri
    Etiketli verilerden belge yerleştirmeyi öğrenme
    Göreve özel denetimli belge yerleştirmeleri
    - - GPT
    - - Derin Anlamsal Benzerlik Modeli (DSSM)
    Ortak olarak cümle temsillerini öğrenmek
    - - Evrensel Cümle Kodlayıcı
    - - GenSen
  6. Hangi tekniğin kullanılacağı nasıl seçilir?
  7. Son sözler
  8. Referanslar

Belge yerleştirme uygulamaları

Belgeleri bilgilendirici vektör temsilleriyle eşleştirme becerisinin geniş bir uygulama alanı vardır. Aşağıdakiler yalnızca kısmi bir listedir.

[Le ve Mikolov, 2014] yeteneklerini gösterdiler. paragraf vektörleri çeşitli metin sınıflandırma ve duygu analizi görevlerinde yöntem, [Dai vd, 2015] bunu belge benzerlik görevleri bağlamında inceledi ve [Lau ve Baldwin, 2016] bunu bir forum sorusu çoğaltma göreviyle karşılaştırdı ve Anlamsal Metinsel Benzerlik (STS) SemEval paylaşılan görev.

[Kiros ve diğerleri, 2015] kullanımlarını kanıtladı düşünce atlama anlamsal ilişki, açıklama algılama, imge-cümle sıralaması, soru tipi sınıflandırması ve dört duyarlılık ve öznellik veri kümesi için vektörler. [Broere, 2017] bunları POS etiketlerini ve bağımlılık ilişkilerini tahmin etmek için kullandı.

[Chen vd, 2018] gösterdi BioSentVec, cümle çifti benzerlik görevlerinde iyi performans göstermesi için biyomedikal metinler üzerinde eğitilmiş cümle yerleştirme setleri (resmi Python uygulaması).

Son olarak, Derin Anlamsal Benzerlik Modeli çeşitli yazarlar tarafından kullanılmıştır bilgi alma ve web araması sıralaması, reklam seçimi / alaka düzeyi, bağlamsal varlık arama ve ilginçlik görevleri, soru yanıtlama, bilgi çıkarımı, resim altyazıları ve makine çevirisi görevleri için.

Öne çıkan yaklaşımlar ve eğilimler

Bu bölümü en son olarak yazıyorum, bu makalenin nasıl yapılandırılacağı, sonraki bölümlerde ele alınan çeşitli tekniklerin öne çıkan yaklaşımlar halinde nasıl gruplandırılabileceği ve farklı işleyişlerin nasıl çalıştığını incelerken hangi eğilimlerin ortaya çıktığı üzerine düşünmek için çok zaman ayırdım. alan birbiriyle ve birbirini takip etme biçimiyle ilgilidir.

Bununla birlikte, belge gömme sorunu eski olsa da, şu anda etkili olan çözümlerin çoğunun genç olduğunu ve bu alanda, çağdaş kodlayıcı-kod çözücü temelli sözcüğün başarısını doğrudan takiben çok yakın zamanda (2014 civarında) yeniden canlandığını unutmayın. gömme teknikleri, bu yüzden bu çok daha ilk günler. Bunu söyledikten sonra, umarım bu bölüm aşağıdaki bölümleri daha geniş bir bağlama oturtabilir ve anlamlı bir şekilde çerçevelendirebilir.

Belge yerleştirme yaklaşımları

Alanın haritasını çıkarmanın olası bir yolu, aşağıdaki dört önemli yaklaşımı incelemektir:

  1. Kelime vektörlerini özetleme
    Bu the klasik yaklaşım. Kelime torbası tek sıcak kelime vektörleri için tam olarak bunu yapar ve ona uygulayabileceğiniz çeşitli tartım şemaları, kelime vektörlerini özetlemek için bu yolun varyasyonudur. Bununla birlikte, bu yaklaşım aynı zamanda en son teknoloji kelime temsilleriyle kullanıldığında (genellikle toplama yerine ortalama alarak), özellikle de kelime düğünleri bu kullanım akılda tutularak optimize edildiğinde geçerlidir ve herhangi birine karşı dayanabilir. burada anlatılan daha seksi yöntemler.
  2. Konu modelleme
    Bu genellikle LDA ve PLSI gibi konu modelleme tekniklerinin ana uygulaması olmasa da, doğası gereği bir belge yerleştirme alanı oluşturur derlemedeki kelime dağılımını modellemek ve açıklamak anlamına gelir ve boyutların verilerde gizlenmiş gizli anlamsal yapılar olarak görülebildiği ve bu nedenle bağlamımızda faydalıdır. Bu yazıda bu yaklaşımı gerçekten ele almıyorum (LDA'ya kısa bir giriş hariç), çünkü hem LDA tarafından iyi temsil edildiğini hem de genel olarak iyi bilindiğini düşünüyorum.
  3. Kodlayıcı-kod çözücü modelleri
    Bu, sahneye eklenen en yeni denetimsiz eklentidir ve şunların beğenilerini içerir: doktor2vec ve düşünce atlama. Bu yaklaşım 2000'li yılların başından beri varlığını sürdürürken - adı altında nöral olasılıklı dil modelleri - Son zamanlarda, kelime gömme nesline başarılı bir şekilde uygulanmasıyla, kullanımının belge gömme için nasıl genişletileceğine odaklanan mevcut araştırmalarla yeni bir hayat kazandı. Bu yaklaşım, büyük etiketlenmemiş külliyatın artan bulunabilirliğinden diğerlerinden daha fazla kazanç sağlar.
  4. Denetimli temsil öğrenimi
    Bu yaklaşım, ömrünü sinir ağı modellerinin büyük yükselişine (veya yeniden dirilişine) ve çeşitli doğrusal olmayan çok katmanlı operatörleri kullanarak giriş verilerinin zengin temsillerini öğrenme yeteneklerine borçludur. bu, geniş bir eşleme aralığına yaklaşabilir. Denetlenen metinle ilgili bazı problemleri çözmek için yalnızca eski kelime torbalarını bir sinir ağına girerek, gizli katmanların girdi metninin zengin temsillerini barındırdığı bir model elde edersiniz, ki bu tam da peşinde olduğumuz şeydir.

Yukarıdaki grupların hiçbirine uymayan birkaç denetimsiz yaklaşım vardır (özellikle, hızlı düşünce ve Kelime Taşıyıcının Mesafesi akla gel), ancak çoğu tekniğin bu dört geniş kategoriden birine girdiğini düşünüyorum.

Not: Klasik kelime torbası tekniğinin benzersiz bir sipariş bilgisi yokluğundan muzdarip olduğunu belirtmek cazip gelse de, bu aslında istisnadan ziyade kuraldır. Burada gözden geçirilen yeni yöntemlerin çoğu tarafından kazanılan temel bilgi, dağıtım hipotezini daha büyük metin birimlerine genişletmektir. Sinir ağı tabanlı dizi modelleri istisnadır.

Bir bütün olarak belge yerleştirme tekniklerinin hem araştırılması hem de uygulanması incelenirken ortaya çıkan çeşitli genel eğilimlerin yanı sıra tanımlanabilecek çeşitli zorluklar vardır.

  1. Kodlayıcı-Kod Çözücü Optimizasyonu: Araştırmanın dikkate değer bir kısmı, denetimsiz kodlayıcı-kod çözücü yaklaşımının hem tam mimarisini (örneğin NN / CNN / RNN) hem de bazı bileşenlerini / hiper parametrelerini (örneğin n-gramlar, projeksiyon fonksiyonları, tartım, vb.) Optimize etmeye odaklanmaktadır. belge yerleştirmeyi öğrenmek. Bu ince ayarın amacının bir parçası, çeşitli görevlerde başarı ölçütlerini iyileştirmek olsa da, modelleri daha büyük bir şirket üzerinden veya daha kısa sürede eğitme yeteneği de bir hedeftir.
  2. Hedef tasarımı öğrenmek: The crux of unsupervised (or self-supervised) representation learning is in designing a learning objective that exploits labels that are freely available within the data in a way that generates representations that prove to be useful to downstream tasks. This is, to me, the most exciting trend, and I think the one with the most potential for impact on NLP tasks that might equate the one word embedding techniques had. At the moment, I count only hızlı düşünce ve Kelime Taşıyıcının Mesafesi kodlayıcı-kod çözücü yaklaşımına bir alternatif olarak. Bu eğilimin bir başka çekici yönü de, buradaki yeniliklerin kelime düğünleri sorununa da uygulanabilir olmasıdır.
  3. Kıyaslama: Genel olarak makine öğrenimi araştırmalarındaki alan çapında bir eğilimin parçası olan belge gömme, belki de genç bir alt alan olması nedeniyle, geniş bir yelpazede ve çok sayıda görevde tekniklerin karşılaştırılmasına yönelik araştırmanın artan odak noktasını iyi bir şekilde göstermektedir (bkz. TUTKAL lider panosu). Bununla birlikte, konuyla ilgili hemen hemen her makale mevcut SOTA teknikleriyle karşılaştırılabilir veya daha üstün sonuçlar bildirirken, bu henüz paketin önünde net bir liderin ortaya çıkmasıyla sonuçlanmadı.
  4. Açık kaynak kullanımı: Yine, daha geniş bir eğilimin parçası olan, kolayca kullanılabilir kod uygulama tekniklerinin ve sıklıkla deneylerin ateşli bir şekilde serbest bırakılması, tekrarlanabilirliği mümkün kılar ve hem akademi dışındaki daha geniş veri bilimi topluluğuyla etkileşimi hem de gerçek kelime problemlerinde kullanımı teşvik eder.
  5. Çapraz görev uygulanabilirliği: Bu, belki de daha çok denetimli gömme öğrenmede geçerli bir durumdur, ancak tüm denetimsiz teknikler aynı düzeyde kapsamlılık ile kıyaslanmamıştır. Her durumda, metin verilerindeki farklı bilgi türlerine dayanan çok çeşitli NLP görevleri, bu sorunu öne çıkan bir sorun haline getirir. Çeşitli görevlerden gömülmelerin ortak öğrenilmesi, denetimli yaklaşımların bu zorluğun üstesinden gelebileceği ilginç bir yoldur.
  6. Etiketli külliyat: Çok büyük etiketli külliyatın sınırlı mevcudiyeti, ileriye dönük denetimli yaklaşımlar için de bir sorundur. Bu, denetimsiz yaklaşımların önümüzdeki yıllarda denetimli temsil öğreniminde sahip olacağı gerçek uç noktayı temsil edebilir.

Not: Bu bölümü biraz bağlam dışında bulduysanız, bu yazıda ele alınan tekniklerin iyi bir bölümünü inceledikten sonra tekrar gözden geçirmenizi öneririm.

Klasik teknikler

Bu bölüm kısaca, belge yerleştirmeye yönelik iki yerleşik tekniği kapsamaktadır: torba-of-the kelimeler ve gizli Dirichlet tahsisiAtlamaktan çekinmeyin.

Kelime torbası

[Harris, 1954] 'te sunulan bu yöntem, metni çanta olarak temsil eder (çoklu set) kelimelerinin (dilbilgisini ve sipariş bilgilerini kaybetme). Bu, bir dizi n eşleme tarafından desteklenen kelime hazinesini oluşturacak kelimeler ve kelime haznesindeki her kelimeye benzersiz bir indeks atama. Ardından, her belge bir uzunluk vektörü ile temsil edilir. n, içinde i-th giriş, kelimenin geçtiği sayıları içerir i belgede.

belge yerleştirme

Şekil 2: Örnek bir cümlenin kelime torbası temsili

Örneğin, "köpek köpek dünyasını yer, bebeğim!" (noktalama işaretlerini temizledikten sonra) 550 uzunluklu bir vektörle temsil edilebilir v (550 kelimelik bir kelime haznesi seçildiği varsayılarak), aşağıdaki girişler dışında her yerde sıfırdır:

  • V₇₆ = 1, kelime hazinesinin 76. kelimesi Dünya.
  • V₂₀₀ = 2, çünkü sözlüğün 200. kelimesi köpek.
  • V₃₂₂ = 1, kelime dağarcığının 332. kelimesi yemek olduğu için.
  • Kelime bebek kelime dağarcığına dahil edilmek üzere seçilmedi, bu nedenle vektörün girişi olmadığında 1 değerini indükler.

Muazzam basitliğine, kelime geçiş sıklığının yanı sıra tüm bilgilerin kaybolduğu gerçeğine ve zengin kelime dağarcığını desteklemek için temsil boyutunun hızla büyüme eğilimine rağmen, bu teknik neredeyse sadece ve onlarca yıldır çok çeşitli NLP görevlerinde büyük bir başarıyla kullanıldı. . Son yıllarda metin için vektör temsilinde önemli ilerlemelere rağmen, bu yöntemin yaygın küçük varyasyonları - aşağıda ele alınmıştır - bugün hala kullanılmaktadır ve her zaman hızlı bir şekilde aşılan ilk temel çizgi olarak her zaman değildir.

Torba-of-n-gram

Kelime torbası yaklaşımıyla kaybolan kelime sıra bilgilerinin bir kısmını geri kazanmak için, kelime vektörleri oluşturmak için kısa kelime dizilerinin (uzunlukta iki, üç, vb.) Sıklığı kullanılabilir (ek olarak veya bunun yerine). Doğal olarak, kelime torbası bu yöntemin özel bir durumudur. n = 1.

"Köpek köpek dünyasını yiyor, bebeğim!" Cümlesindeki kelime çiftleri "köpek yiyor", "köpek ye", "köpek dünyası" ve "dünya bebeği" (ve bazen de " köpek "ve" bebek ”) Ve kelime hazinesi, giriş külliyatındaki tüm ardışık kelime çiftlerinden oluşur (veya bunlarla zenginleştirilir).

belge yerleştirme

Şekil 3: "Film harika" cümlesinin 2 gramlık temsili

Bu yaklaşımın önemli bir dezavantajı, kelime dağarcığının büyüklüğünün benzersiz kelimelerin sayısına doğrusal olmayan bağımlılığıdır; Kelime dağarcığını azaltmak için genellikle filtreleme teknikleri kullanılır.

tf-idf ağırlıklandırma

Kelime torbası bağlamında bahsetmeye değer son bir ilgili teknik şudur: terim sıklığı-ters belge sıklığı, genellikle şu şekilde belirtilir: tf-idf. Bu yöntem, yukarıdaki kelime (veya n-gram) frekans vektörlerini, ters belge frekansı Her kelimenin (IDF). Bir sözcüğün IDF'si, basitçe, külliyattaki belge sayısının o sözcüğün içinde geçtiği belge sayısına bölünmesiyle elde edilen logaritmadır.

belge yerleştirme

Kısacası, kelime daha sık göründükçe TF terimi büyürken, IDF terimi kelimenin nadirliği ile artar. Bu, bazı kelimelerin genel olarak daha sık (veya daha az) görünmesi için sıklık puanlarını ayarlamak içindir. Görmek [Salton ve Buckley, 1988] terim ağırlıklandırma yaklaşımlarına kapsamlı bir genel bakış için.

Gizli Dirichlet tahsisi (LDA)

LDA, verilerin bazı bölümlerinin neden benzer olduğunu açıklayan gözlem setlerinin gözlemlenmemiş gruplar tarafından açıklanmasına izin veren üretken bir istatistiksel modeldir. Örneğin, gözlemler belgeler halinde toplanan sözcükler ise, bu, her belgenin az sayıda konunun bir karışımı olduğunu ve her sözcüğün varlığının belgenin konularından birine atfedilebileceğini varsayar.

Bunu kelime torbasına bağlayacak olursak, eski yaklaşım, kelimelerin üzerindeki dağılımlar olarak belgelerin basit bir olasılıkçı modeli olarak düşünülebilir. Kelime torbası vektörü, her bir belgedeki normalize edilmemiş kelime dağılımı için sahip olduğumuz en iyi yaklaşımı temsil eder; ancak buradaki belge, her biri benzersiz dağılımının tek bir örneği olan temel olasılık birimidir.

Öyleyse, meselenin özü, bu basit olasılıklı belge modelinden, sözcükler üzerindeki dağılımlar olarak, gizli (gizli) bir ara katman ekleyerek daha karmaşık bir modele geçmektir. K konular.

belge yerleştirme

Şekil 4: Olasılıklı model kelime torbasından LDA'ya geçiş

Belgeler konular üzerinden dağılımlar olurken, konular artık kelimeler üzerinden dağılımlarla karakterize ediliyor. Bir belgenin bu olasılık modeli, üretken bir belge modeline karşılık gelir; Bir dizi oluşturmak için M uzunluktaki belgeler {Nᵢ}, önceden belirlenmiş sayıda K Dir () bir Dirichlet dağılımı:

  1. Her konu için v, bir kelime dağılımı örneği φᵥ ~Dir (β).
  2. Her belge için i, bir konu dağılımını (veya karışımını) örnekleyin θᵢ ~Dir (α).
  3. Belge oluşturmak için i uzunluk Nᵢher kelime için j:
    3.1. Bir konuyu örnekleyin zᵢⱼ ~Çok terimli (θᵢ) kelime için j.
    3.2. Örnek kelime j~Çok terimli (zᵢⱼ).

Bu model ve bir belge külliyatı göz önüne alındığında, sorun bir çıkarım haline gelir ve yukarıda bahsedilen çeşitli dağıtımların yaklaşımları, çıkarım sürecinde bulunur. Bunların arasında θᵢ, her belgenin konu dağılımı i, boyut vektörleri K.

Modelin çıkarım sürecinde, bir vektör boyut uzayı K bir şekilde külliyatımızdaki konuları veya temaları ve içindeki belgeler arasında paylaşılma biçimlerini yakalayan bir sonuç çıkarılmıştır. Bu, elbette, bu belgeler için bir yerleştirme alanı olarak alınabilir ve - seçimine bağlı olarak K - kelime temelli olanlardan önemli ölçüde daha küçük boyutta olabilir.

Aslında, LDA için ana kullanım durumu denetimsiz konu / topluluk keşfi iken, diğer durumlar, sonuçta ortaya çıkan gizli konu alanının belge külliyatı için bir yerleştirme alanı olarak kullanılmasını içerir. Ayrıca, diğer konu modelleme tekniklerinin - örneğin negatif olmayan matris çarpanlara ayırma (NMF) ve olasılıksal gizli anlamsal indeksleme (PLSI) - belge yerleştirme alanlarını öğrenmek için benzer şekilde kullanılabilir.

Not: Uygulayıcıların olasılıklı konu modelleriyle ilgili temel sorunlarından biri istikrarlarıdır. Bir konu modelinin eğitilmesi olasılık dağılımlarının örneklenmesini gerektirdiğinden, rastgele sayı üretecinin tohumları değiştikçe aynı külliyetin modellerinin de farklı olması beklenebilir. Bu sorun, konu modellerinin nispeten küçük külliyat değişikliklerine duyarlılığıyla daha da artmaktadır.

Denetimsiz belge yerleştirme teknikleri

Bu bölümde sunulan yöntemlerin çoğu, aralarında en önemlisi olan önemli kelime yerleştirme tekniklerinden esinlenmiştir. kelime2vecve hatta bazen bu yöntemlerin doğrudan genellemeleridir. Bu kelime gömme teknikleri bazen Sinir Olasılıksal Dil Modelleri; Olasılıklı bir dil modeli olduğu için bunlar özdeş terimler değildir kelime dizileri üzerinde bir olasılık dağılımı, ancak bu yaklaşım [Bengi, 2003], yakından ilişkilidirler.

Bu nedenle, kelime gömme tekniklerinin temel bir şekilde anlaşılması, bu bölümü anlamak için gereklidir. Konuya aşina değilseniz, iyi yazılmış iki bölümlük eğitim kelime2vec Chris McCormick tarafındanXNUMX / XNUMX mükemmel bir başlangıç ​​noktasıdır (parçası 2) olduğu gibi Prof. Joshua Bengio'nun sinir ağı dil modelleri hakkındaki Scholarpedia makalesi (Ayrıca bkz Hunter Heidenreich'in genel olarak kelime düğünlerine daha genel ve özlü bir bakış gönderisi, ve Alex Minnar'ın iki bölümlük yazısı daha derinlemesine matematiksel derinlikli bir dalış için). Bununla birlikte, ayrıntıların derinlemesine kavranması için sizi ufuk açıcı makaleleri şu tarihe kadar okumanızı tavsiye ediyorum:Bengi, 2003], [Mikolov vd, 2013a] Ve [Pennington ve diğerleri, 2014] bu alt alanı birçok yönden şekillendiren konu üzerine.

Aşina olduğunuzu varsayarsak bile kelime2vecYine de, bu modelin yaptığı ve burada incelenen modellerin her biri tarafından ileriye taşınan önemli bir varsayımı belirtmek istiyorum: Dağılım Hipotezi. İşte kısa bir açıklama Vikipedi:

The dağılım hipotezi dilbilimde türetilmiştir anlambilim teorisi dil kullanımı, yani aynı bağlamlarda kullanılan ve geçen sözcükler benzer anlamlar ifade etme eğilimindedir. "Bir kelimenin sahip olduğu şirket tarafından karakterize edildiği" şeklindeki temel fikir, Haliç. Dağılım hipotezi şunun temelidir: istatistiksel anlambilim.

Gerçekten, bunu görmek kolaydır kelime2vecve kelime temsillerini öğrenmek için kendi kendini denetleyen diğer yöntemler, büyük ölçüde bu hipoteze dayanır; Sonuçta modelin özü, kelimenin kendisinden (veya tam tersi) bir kelimenin bağlamını tahmin etmeyi öğrenirken öğrenilen kelime temsillerinin, derin anlambilimsel ve sözdizimsel kavramları ve fenomenleri yakalayan bir vektör uzayını temsil etmesidir. Anlam, bir kelimenin bağlamından öğrenmek bize hem anlamını hem de sözdizimsel rolünü öğretebilir.

Kendi kendini denetleyen belge temsili öğrenimini kapsayan bu bölümde, tüm bu yöntemlerin hem kelimeler için bu varsayımı koruduğunu hem de bir şekilde daha büyük metin birimlerine genişlettiğini göreceksiniz.

n-gram düğünler

[Mikolov vd, 2013b] Genişletilmiş kelime2vecÇok sayıda kısa cümleleri tanımlayarak kısa cümleleri işlemek için atlama modelinin - yazarlar iki ve üç kelimelik cümlelere odaklanır - veriye dayalı bir yaklaşım kullanarak ve ardından cümleleri eğitim sırasında bireysel belirteçler olarak ele alır. kelime2vec model. Doğal olarak, bu daha uzun cümleleri öğrenmek için daha az uygundur - kelime öbeğinin uzunluğu arttıkça kelime haznesinin boyutu artar - ve görünmeyen ifadelere genelleme yapmamaya mahkumdur yanı sıra onu izleyen yöntemler.

Moshe Hazoom yazdı bu yaklaşımın harika bir pratik incelemesi, işvereni tarafından finans alanına odaklanan bir arama motoru için kullanılıyor.

Ortalama kelime düğünleri

Anlamlı kelime düğünlerinden belge düğünlerini oluşturmanın çok sezgisel bir yolu vardır: Bir belge verildiğinde, bunları aynı gömme alanındaki tek bir vektörde özetlemek için belgenin sözcüklerine karşılık gelen tüm vektörler üzerinde bazı vektör aritmetikleri gerçekleştirin; bu tür iki yaygın özetleme operatörü ortalama ve özettir.

Bundan yola çıkarak, kodlayıcı-kod çözücü mimarisinin genişletildiğini hayal edebilirsiniz. kelime2vec ve akrabalarının öğrenmesi için Nasıl kelime vektörlerini belge düğünlerinde birleştirmek ilginç olabilir; bunu takip eden yöntemler bu kategoriye girer.

İkinci bir olasılık, vektör özetlemesi için sabit (öğrenilemeyen) bir operatör kullanmaktır - örneğin ortalama alma - ve zengin belge yerleştirmeleri üretmeyi amaçlayan bir öğrenme hedefi kullanarak önceki bir katmandaki kelime yerleştirmelerini öğrenmektir; yaygın bir örnek, bağlam cümlelerini tahmin etmek için bir cümle kullanmaktır. Bu nedenle buradaki ana avantaj, kelime yerleştirmelerinin ortalama olarak belge temsillerine göre optimize edilmesidir.

belge yerleştirme

Şekil 5: Siyam CBOW ağ mimarisi [Kenter vd, 2016] 

[Kenter vd, 2016] kelime vektörlerinin ortalaması üzerinden basit bir sinir ağı kullanarak, bir cümle temsili verildiğinde, çevreleyen cümleleri tahmin ederek kelime düğünlerini öğrenerek tam olarak bunu yaptı. Sonuçları ortalamayla karşılaştırırlar kelime2vec vektörler ve atlama düşünceleri vektörler (aşağıdaki uygun alt bölüme bakın). [Hill vd, 2016] cümle temsilini optimize ederken CBOW eğitimi ve gram atlamalı kelime düğünlerini içeren çok sayıda yöntemi karşılaştırın (burada kelime vektörlerinin eleman bazında eklenmesini kullanarak). [Sinoara vd, 2019] ayrıca, belgeleri temsil etmek için ağırlık merkezlerine kelime gömme vektörlerinin ve diğer bilgi kaynaklarının (kelime-anlam vektörleri gibi) basit bir bileşimini önermektedir.

En sonunda, [Arora vd, 2016] ayrıca, iki küçük varyasyonla artırıldığında bu yaklaşımın basit ama yenmesi zor bir temel olduğunu göstermişlerdir: (1) pürüzsüz bir ters frekans ağırlıklandırma şeması kullanmak ve (2) ortak söylem bileşenini kelime vektörlerinden çıkarmak; bu bileşen PCA kullanılarak bulunur ve muhtemelen sözdizimiyle ilişkili olarak en sık kullanılan söylem için bir düzeltme terimi olarak kullanılır. Yazarlar bir Python uygulaması.

Not: Another demonstration of the power of correctly-averaged word “embeddings” can perhaps be found when looking at attention-based machine translation models. The one-directional decoder RNN gets the previous translated word as input, plus not just the “embedding” (i.e. the bi-directional activations from the encoder RNN) of the current word to translate, but also those of words around it; these are averaged in a weighted manner into a context vector. It is teaching that this weighted averaging is able to maintain the complex compositional and order-dependent information from the encoder network’s activations (recall, these are not isolated embeddings like in our case; each is infused with the context of previous/following words).

Gönderilen2Vec

Sunulan [Pagliardini ve diğerleri, 2017] Ve [Gupta ve diğerleri, 2019] (dahil olmak üzere resmi bir C ++ tabanlı Python uygulaması), bu teknik, yukarıdaki iki yaklaşımın bir kombinasyonudur: Klasik CBOW modeli kelime2vec her ikisi de n-gram kelimesini içerecek şekilde genişletilmiştir ve belge vektörleri elde etmek için ortalamalarını almak amacıyla kelime (ve n-gram) yerleştirmelerini optimize etmek için uyarlanmıştır.

belge yerleştirme

Şekil 6: sent2vec, fastText'in denetimsiz bir sürümü olarak düşünülebilir

Ek olarak, girdi alt örnekleme süreci, tüm cümle yerine bağlam olarak dikkate alınarak kaldırılır. Bu ikisinin de anlamı (A) n-gram özelliklerinin oluşmasını engellememek için sık sözcük alt örneklemesinin kullanımı atılır ve (B) tarafından kullanılan dinamik bağlam pencereleri kelime2vec 1 ile mevcut cümlenin uzunluğu arasında her bir alt örneklenen kelime için bağlam penceresi boyutunu tek tip olarak örneklemek yerine, tüm cümle bağlam penceresi olarak kabul edilir.

Düşünmenin başka bir yolu send2vec denetimsiz bir sürümü olarak hızlıMetin (bkz. Şekil 6), tüm cümlenin bağlam ve olası sınıf etiketlerinin tümü kelime sözcükleridir. Tesadüfen, [Agibetov vd, 2018] çok katmanlı bir algılayıcının performansını kullanarak send2vec özellikleri olarak vektörler hızlıMetin, biyomedikal cümle sınıflandırması görevine karşı.

Paragraf vektörleri (doc2vec)

Bazen doktor2vec, bu yöntem, [Le ve Mikolov, 2014] belki de ilk genelleme girişimidir kelime2vec kelime dizileri ile çalışmak. Yazarlar p'nin iki çeşidini tanıtıyoraragraf vektörleri Model: Dağıtılmış Bellek ve Dağıtılmış Kelime Torbası.

Paragraf Vektörleri: Dağıtılmış Bellek (PV-DM)
PV-DM modeli, paragrafın konusunu veya girdiden bağlamı yakalamayı amaçlayan bir bellek vektörü ekleyerek standart kodlayıcı-kod çözücü modelini artırır. Buradaki eğitim görevi, sürekli kelime paketi; tek bir kelime kendi bağlamından tahmin edilmelidir. Bu durumda, bağlam kelimeleri, paragrafta olduğu gibi çevreleyen kelimeler değil, önceki kelimelerdir.

belge yerleştirme

Şekil 7: Paragraf Vektörlerinin Dağıtılmış Bellek modeli (PV-DM)

Bunu başarmak için, her paragraf, bir matristeki bir sütunla temsil edilen benzersiz bir vektöre eşlenir ( D), kelime dağarcığındaki her kelime gibi. Bağlamlar sabit uzunluktadır ve paragraf üzerinde kayan bir pencereden örneklenir. Paragraf vektörü, aynı paragraftan oluşturulan tüm bağlamlarda paylaşılır, ancak paragraflar arasında paylaşılmaz. Doğal olarak, kelime düğünleri küreseldir ve önceden eğitilmiş kelime düğünleri kullanılabilir (bkz. uygulamalar ve geliştirmeler altında).

De olduğu gibi kelime2vecvektörler bir şekilde tek bir vektörde özetlenmelidir; ama aksine kelime2vecyazarlar deneylerinde birleştirme kullanırlar. Bunun sipariş bilgilerini koruduğuna dikkat edin. Benzer kelime2vec, basit bir softmax sınıflandırıcı (bu durumda, aslında hiyerarşik softmax), görev çıktısını tahmin etmek için bu özet vektör gösterimi üzerinde kullanılır. Eğitim, stokastik gradyan inişi kullanılarak ve geri yayılım yoluyla gradyan elde edilerek standart yolla yapılır.

Sadece eğitim külliyatındaki paragrafların bir sütun vektörüne sahip olduğuna dikkat edin D onlarla ilişkili. Tahmin zamanında, yeni bir paragraf için paragraf vektörünü hesaplamak için bir çıkarım adımı gerçekleştirilmesi gerekir: Belge vektörü rastgele başlatılır. Ardından, tekrar tekrar, yeni belgeden rastgele bir kelime seçilir ve gradyan inişi, seçilen kelime için softmax olasılığı en üst düzeye çıkarılırken, gizli-softmax-çıktı ağırlıkları iken girdiden gizli katmana ağırlıkları ayarlamak için kullanılır. sabit. Bu, yeni belgenin eğitim külliyat belge vektörlerinin bir karışımı olarak temsil edilmesiyle sonuçlanır (ör. D), doğal olarak belge yerleştirme alanında bulunur.

Paragraf Vektörleri: Dağıtılmış Kelime Çantası (PV-DBOW)
İkinci varyantı paragraf vektörleriismine rağmen, belki de paraleldir kelime2vec'S gram atlama mimari; sınıflandırma görevi, yalnızca paragraf vektörünü kullanarak tek bir bağlam kelimesini tahmin etmektir. Stokastik gradyan inişinin her yinelemesinde, bir metin penceresi örneklenir, ardından bu pencereden rastgele tek bir kelime örneklenir ve aşağıdaki sınıflandırma görevini oluşturur.

belge yerleştirme

Şekil 8: Paragraf Vektörlerinin Dağıtılmış Kelime Torbası modeli (PV-DBOW)

Training is otherwise similar, except for the fact that word vectors are not jointly learned along with paragraph vectors. This makes both memory and runtime performance of the PV-DBOW variant much better.

Not: In Gensim uygulamasıPV-DBOW, varsayılan olarak rastgele başlatılan sözcük yerleştirmelerini kullanır; dbow_words 1'e ayarlanırsa, dbow'u çalıştırmadan önce kelime yerleştirmelerini güncellemek için tek bir gram atlama adımı çalıştırılır. [Lau ve Baldwin, 2016], dbow'un teoride rastgele sözcük yerleştirmeleriyle çalışabildiği halde, bunun, inceledikleri görevlerdeki performansı ciddi şekilde düşürdüğünü savunuyorlar.

Sezgisel bir açıklama, modelin amaç işlevine kadar izlenebilir; bu, belge yerleştirme ile onu oluşturan kelime yerleştirmeleri arasındaki nokta çarpımını en üst düzeye çıkarmaktır: sözcük yerleştirmeleri rastgele dağıtılırsa, belge yerleştirmeyi yakın olacak şekilde optimize etmek daha zor hale gelir. daha kritik içerik kelimeleri.

Uygulamalar, uygulamalar ve geliştirmeler
[Le ve Mikolov, 2014], paragraf vektörleri [Dai ve diğerleri, 2015] bunu belge benzerlik görevleri bağlamında incelerken [Lau & Baldwin, 2016] bunu bir forum sorusu çoğaltma görevi ve Anlamsal Metinsel Benzerlik (STS) SemEval paylaşılan görev. Daha sonraki her iki makale de yöntemin genişletilmiş bir değerlendirmesini sunar (birincisi PV-DBOW varyantına odaklanır), onu diğer birkaç yöntemle karşılaştırır ve ayrıca pratik tavsiyeler verir (daha sonra kod dahil).

Yöntem vardır gensim paketinin bir parçası olarak bir Python uygulaması, ve bir PyTorch uygulaması. Tekrar, [Lau ve Baldwin, 2016] Ayrıca incelemeleri için kullanılan kodu sağladı.

Son olarak, yöntemde çeşitli geliştirmeler önerilmiştir. Örneğin, [Li vd, 2016] yöntemi n-gram özelliklerini de içerecek şekilde genişletirken, [Thongtan ve Phienthrakul, 2019] gömme projeksiyonunu hesaplarken nokta ürün yerine kosinüs benzerliğinin kullanılmasını önerir (ayrıca bir Java uygulaması).

Doc2VecC

[Chen, 2017], hem paragraf vektörleri yaklaşımının (PV-DM) dağıtılmış bellek modelinden hem de belgeleri temsil etmek için kelime yerleştirmelerini ortalayan yaklaşımlardan esinlenen ilginç bir yaklaşım sundu.

belge yerleştirme

Şekil 9: Doc2VecC modelinin mimarisi

Benzer paragraf vektörleriDoc2VecC (kısaltması yolsuzluk yoluyla belge vektörü) bir giriş katmanından, bir projeksiyon katmanından ve hedef sözcüğü tahmin etmek için bir çıktı katmanından (yukarıdaki örnekte "tören") oluşur. Komşu kelimelerin gömülmesi (ör. "Açma", "için", "the") yerel bağlam sağlarken, tüm belgenin vektör temsili (gri olarak gösterilmiştir) genel bağlam olarak hizmet eder. Kıyasla paragraf vektörleri, her belge için benzersiz bir vektörü doğrudan öğrenen, Doc2VecC her belgeyi, belgeden rastgele örneklenen kelimelerin yerleştirilmelerinin ortalaması olarak temsil eder (örneğin, konumdaki "performans" p, Pozisyonda "övüldü" qve pozisyonda "brezilya" r).

Ek olarak, yazarlar kelimelerin önemli bir bölümünü rastgele kaldırarak orijinal belgeyi bozmayı seçerler, bu da belgeyi yalnızca kalan kelimelerin gömülmelerinin ortalamasını alarak temsil eder. Bu bozulma mekanizması, geri yayılmada güncellenecek parametre sayısını önemli ölçüde azalttığı için eğitim sırasında hızlanma sağlar. Yazarlar ayrıca, gözlemlenen performans iyileştirmesi ile sonuçlandığına inandıkları, bir duyarlılık analizi görevi, bir belge sınıflandırma görevi ve bir semantik ilişkililik görevine karşı çok sayıda son teknoloji belge yerleştirme teknikleri.

Makalede deneyleri yeniden üretmek için yöntem ve kodun açık kaynaklı C tabanlı bir uygulaması şu adreste bulunabilir: herkese açık bir Github deposu.

Daha sağlam bir gömme alanı üretmek için öğrenme sürecini yerleştiren belgeye yolsuzluk veya gürültü ekleme genel fikri de [Hill vd, 2016] için düşünce atlama sıralı denoising otomatik kodlayıcı (SDAE) modelini oluşturmak için modeli (aşağıdaki alt bölüme bakın).

Düşünce atlama vektörleri

Sunulan [Kiros ve diğerleri, 2015], bu başka bir erken genelleme girişimidir kelime2vecve ile yayınlandı resmi bir saf Python uygulaması (ve son zamanlarda aynı zamanda PyTorch ve TensorFlow).

Ancak bu, kelime2vec - özellikle gram atlama mimari - başka bir sezgisel yolla: temel birim artık cümlelerdir ve etrafındaki cümleleri tahmin etmek için kodlanmış bir cümle kullanılır. Vektör gösterimleri, yukarıdaki görev üzerinde eğitilmiş bir kodlayıcı-kod çözücü modeli kullanılarak öğrenilir; yazarlar, GRU aktivasyonlu bir RNN kodlayıcı ve koşullu bir GRU'ya sahip RNN kod çözücüleri kullanır. Önceki ve sonraki cümleler için iki farklı kod çözücü eğitilir.

belge yerleştirme

Şekil 10: Atlama düşünceleri modeli. Bir dizi bitişik cümleler verildiğinde, sᵢ cümlesi kodlanır ve önceki cümle sᵢ₋₁ ile sonraki cümle sᵢ₊₁'yi yeniden oluşturmaya çalışır.

Düşüncede kelime dağarcığı genişletmesi

The düşünce atlama kodlayıcı, giriş cümlesindeki her kelimeyi karşılık gelen kelime gömme işlemine dönüştüren ve giriş cümlesini etkili bir şekilde kelime yerleştirme dizisine dönüştüren bir kelime gömme katmanı kullanır. Bu gömme katmanı ayrıca her iki kod çözücü ile paylaşılır.

belge yerleştirme

Şekil 11: Düşünce atlama modelinde, sᵢ cümlesi kodlayıcı tarafından kodlanır; iki kod çözücü, sᵢ₋₁ ve sᵢ₊₁'yı tahmin etmek için kodlayıcının hᵢ çıktısının gizli gösterimini koşullandırır [ Ammar Zaher'in gönderisi]

Bununla birlikte, yazarlar sadece 20,000 kelimelik küçük bir kelime dağarcığı kullanırlar ve sonuç olarak çeşitli görevlerde kullanım sırasında birçok görünmeyen kelimeyle karşılaşılabilir. Bunun üstesinden gelmek için, çok daha geniş bir kelime dağarcığı (ör. kelime2vec) kelime gömme boşluğuna atlama düşünceleri düzensiz bir modeli çözerek L2 matris için doğrusal regresyon kaybı W bu eşlemeyi parametrelendirme.

Uygulamalar, geliştirmeler ve daha fazla okuma
Yazarlar, düşünce atlama anlamsal ilişki, açıklama algılama, imge-cümle sıralaması, soru tipi sınıflandırması ve dört duyarlılık ve öznellik veri kümesi için vektörler. [Broere, 2017] daha fazla sözdizimsel özelliklerini araştırır düşünce atlama POS etiketlerini ve bağımlılık ilişkilerini tahmin etmek için üzerlerinde lojistik regresyon eğitimi vererek cümle temsilleri.

[Tang vd, 2017a] bir mahalle yaklaşımı önermek düşünce atlama, sıralama bilgisini bırakma ve tek bir kod çözücü kullanarak hem önceki hem de sonraki cümleyi tahmin etme. [Tang vd, 2017b] bu incelemeyi, daha hızlı ve daha hafif bir model kullanarak karşılaştırılabilir performans sağladığını iddia ettikleri modele üç geliştirme önerecek şekilde genişletin: (1) sadece bir sonraki cümleyi çözmeyi öğrenmek, (2) ekleme ort + maks kodlayıcı ve kod çözücü arasındaki bağlantı katmanı (doğrusal olmayan parametrik olmayan özellik mühendisliğine izin vermenin bir yolu olarak) ve (3) iyi kelime gömme başlatma yapmak. En sonunda, [Gan vd, 2016] geniş bir uygulama yelpazesinde yalnızca RNN içeren kodlayıcı yerine hiyerarşik bir CNN-LSTM tabanlı kodlayıcı kullanarak aynı yaklaşımı uygulayın.

Başka bir varyasyon, [Lee & Park, 2018], her hedef cümle için belge yapısına göre tüm belgede etkili cümleleri seçerek cümle yerleştirmeyi öğrenir, böylece metadata veya metin stillerini kullanarak cümlelerin bağımlılık yapılarını belirler. Bunlara ek olarak, [Hill vd, 2016] önermek sıralı denoising otomatik kodlayıcı (SDAE) model, bir varyantı düşünce atlama giriş verilerinin bazı gürültü işlevlerine göre bozulduğu ve modelin orijinal verileri bozuk verilerden kurtarmak için eğitildiği durumlarda.

Daha fazla akademik olmayan okuma için düşünce atlama Model, Sanyam Agarwa blogunda yöntemin ayrıntılı bir özetini veriyor., ve Ammar Zaher, yemek tarifleri için bir gömme alanı oluşturmak için kullanımını gösteriyor.

HızlıGönderildi

[Hill vd, 2016] önemli ölçüde daha basit bir varyasyon önermektedir. atlama düşünceleri modeli; HızlıGönderildi aynı sinyalden yararlanmak için tasarlanmış, ancak çok daha düşük bir hesaplama maliyetiyle basit bir toplamsal (log-çift doğrusal) cümle modelidir. Bazı bağlam cümlelerinin bir BOW temsili verildiğinde, model basitçe bitişik cümleleri tahmin eder (BOW olarak da temsil edilir). Daha resmi, HızlıGönderildi her kelime için bir kaynak uᵂ ve hedef vᵂ yerleştirmeyi öğrenir w model sözlüğünde. Eğitim örneği için Sᵢ₋₁, Sᵢ, S cons ardışık cümlelerde, Sᵢ kaynak yerleştirmelerinin toplamı olarak temsil edilir. sᵢ=Σsen tekrar w∈Sᵢ. Örneğin maliyeti basitçe Σ 𝜙 (sᵢ,vᵂ) bitti w∈Sᵢ₋₁∪Sᵢ₊₁, burada 𝜙 softmax işlevidir. Makale eşlik ediyor resmi bir Python uygulaması.

Hızlı düşünce vektörleri

[Logeswaran ve Lee, 2018] belge yerleştirme görevini - bir cümlenin göründüğü bağlamı tahmin etme sorunu - önceki yaklaşımların tahmin görevinden ziyade denetimli bir sınıflandırma problemi (bkz. Şekil 12b) olarak yeniden formüle edin (bkz. Şekil 12a).

belge yerleştirme

Şekil 12: Hızlı Düşünme problem formülasyonu (b), Atla-Düşün yaklaşımı (a) ile karşılaştırılmıştır.

Buradaki amaç, bitişik cümlelerin anlamlarını tahmin etmek için mevcut cümlenin anlamını kullanmaktır; burada anlam, bir kodlama işlevinden hesaplanan cümlenin bir gömülmesi ile temsil edilir; Burada iki kodlayıcının öğrenildiğine dikkat edin: f giriş cümlesi için ve g adaylar için. Bir girdi cümlesi verildiğinde, bir kodlayıcı (bu durumda RNN'ler) tarafından kodlanır, ancak hedef cümleyi oluşturmak yerine, model bir dizi aday cümleden doğru hedef cümleyi seçer; aday kümesi hem geçerli bağlam cümlelerinden (kesin referans) hem de bağlam dışı diğer birçok cümleden oluşturulmuştur. Son olarak, yapılandırılmış eğitim hedefi, eğitim verilerindeki her cümle için doğru bağlam cümlelerini tanımlama olasılığını en üst düzeye çıkarır. Önceki cümle tahmin formülasyonunu olası tüm cümlelerden bir cümle seçerken gören bu yeni yaklaşım, tahmin problemine ayrımcı bir yaklaşım olarak görülebilir.

Yazarlar, çeşitli metin sınıflandırma, açıklama tanımlama ve anlamsal ilişki görevleri konusundaki yaklaşımlarını değerlendirir ve ayrıca resmi bir Python uygulaması.

Kelime Taşıyıcının Gömme (WME)

IBM araştırmasından çıkan çok yeni bir yöntem, Kelime Taşıyıcının Gömme (WME), [Wu vd, 2018b]. Resmi bir C tabanlı, Python ile sarılmış uygulama sağlanır.

[Kushner ve diğerleri, 2015] W sunduord Mover'ın Mesafesi (WMD); bu, iki metin belgesi arasındaki farklılığı, bir belgenin gömülü kelimelerinin "seyahat etmek" için ihtiyaç duyduğu minimum mesafe olarak ölçer. gömme alanında başka bir belgenin gömülü kelimelerine ulaşmak için (bkz. Şekil 13a). Bunlara ek olarak, [Wu vd, 2018a], belirli bir uzaklık fonksiyonundan pozitif-tanımlı bir çekirdeğin türetilmesi için genel bir metodoloji olan D2KE'yi (çekirdeklere ve yerleştirmelere olan mesafeler) önerdi.

belge yerleştirme

Şekil 13: WMD'yi WME ile karşılaştırmak. (a) KİS, iki belge x ve y arasındaki mesafeyi ölçer, (b) WME ise bir dizi rastgele belge W ile KİS'den türetilen bir çekirdeğe yaklaşır.

WME, çeşitli uzunluklardaki metinler için sürekli vektör temsillerini öğrenmek için üç bileşen üzerine kurulmuştur:

  1. Gözetimsiz bir şekilde yüksek kaliteli kelime yerleştirmeyi öğrenme yeteneği (ör. kelime2vec).
  2. W kullanarak söz konusu düğünlere dayalı olarak belgeler için bir mesafe ölçüsü oluşturma yeteneğiord Mover'ın Mesafesi (KİS).
  3. D2KE kullanarak belirli bir mesafe işlevinden pozitif tanımlı çekirdek türetme yeteneği.

Bu üç bileşeni kullanarak aşağıdaki yaklaşım uygulanır:

  1. Bir pozitif tanımlı oluşturun Kelime Taşıyıcı'nın Çekirdeği (WMK) ile verilen sonsuz boyutlu özellik haritası aracılığıyla Kelime Taşıyıcı'nın mesafesi (WMD) belirli bir dağıtımdan rastgele belgelere 𝜔, D2KE kullanarak. KİS kullanımından dolayı, özellik haritası, önceden eğitilmiş kelime gömmeler tarafından verilen anlamsal boşluktaki belgeler arasındaki tek tek kelimelerin hizalamalarını hesaba katar (bkz. Şekil 13b).
  2. Bu çekirdeğe dayanarak, iç ürünleri tam çekirdek hesaplamalarına yaklaşan çekirdeğin rastgele özellikler yaklaşımı yoluyla gömülü bir belge türetin.

Bu çerçeve, iki yapı taşı olduğu için genişletilebilir, kelime2vec ve KİS, aşağıdaki gibi diğer tekniklerle değiştirilebilir Eldiven (kelime yerleştirmeleri için) veya S-WMD (kelime yerleştirme alanının bir belge mesafe ölçüsüne çevrilmesi için).

Yazarlar, WME'yi 9 gerçek dünya metin sınıflandırma görevi ve 22 metinsel benzerlik görevi üzerinde değerlendiriyor ve diğer son teknoloji tekniklerle tutarlı bir şekilde eşleştiğini ve hatta bazen daha iyi performans gösterdiğini gösteriyor.

Cümle-BERT (SBERT)

NLP'deki 2018, transformatörlerin yükselişiyle işaretlendi (bkz.Şekil 14), [Vaswani ve diğerleri 2017] - hem evrişimleri hem de yinelemeleri dağıtan ve bunun yerine sıralı bilgileri dizi temsiline dahil etmek için dikkati kullanan bir dizi modeli. Bu gelişen aile BERT (ve uzantıları), GPT (1 ve 2) ve XL aromalı transformatörleri içerir.

belge yerleştirme

Şekil 14: Transformatörlerin yükselişi

Bu modeller, her biri kendi çevresiyle ilgili bilgilerle aşılanmış, ancak girdi dizileri için zengin bir gömme alanı oluşturmayı amaçlamayan girdi belirteçlerinin (genellikle alt sözcük birimleri) bağlamsal yerleştirmelerini üretir. BERT, sınıflandırma görevleri için çıktı gömme kullanılan özel bir [CLS] belirtecine bile sahiptir, ancak yine de diğer görevler için girdi sırasının zayıf bir şekilde gömülmesine neden olur. [Reimers ve Gurevych, 2019]

Cümle-BERT, Sunulan [Reimers ve Gurevych, 2019] ve eşliğinde bir Python uygulaması, kosinüs benzerliği kullanılarak karşılaştırılabilecek anlamsal olarak anlamlı cümle yerleştirmeleri türetmek için siyam ve üçlü ağ yapılarını kullanarak BERT mimarisini uyarlamayı amaçlamaktadır (bkz. Şekil 15).

belge yerleştirme

Şekil 15: Bir sınıflandırma hedefi (solda) ve çıkarım (sağda) eğitiminde SBERT mimarisi

Denetimli belge yerleştirme teknikleri

Önceki bölümde ele alınan denetimsiz yöntemler, büyük etiketsiz topluluklardan yararlı temsiller öğrenmemizi sağladı. Doğal dil işlemeye özgü olmayan bu yaklaşım, veriler içinde serbestçe bulunabilen etiketleri kullanan öğrenme hedefleri tasarlayarak temsillerin öğrenilmesine odaklanır. Bu yöntemlerin gücü ve sağlamlığı, bu nedenle, yalnızca öğrenme çerçevesine değil, aynı zamanda yapay olarak tasarlanmış öğrenme hedefinin, çeşitli aşağı akış görevlerinde yararlı olacak anlamlı özelliklerin veya bilgilerin öğrenilmesini ne kadar iyi gerektirdiğine veya getirdiğine de bağlıdır. Örneğin, hem anlamsal hem de sözdizimsel bilgilerin kelime ve belge yerleştirme boşlukları tarafından iyi bir şekilde yakalanmasını bekliyoruz.

Verilerin anlamlı temsillerini öğrenmeye yönelik karşıt yaklaşım - bizim durumumuzda kelime dizileri - açık etiketler kullanmaktır (neredeyse her zaman bir şekilde insan açıklayıcıları tarafından oluşturulur). Burada, çeşitli görevlerle alaka düzeyi, açık görev ve etiketlerin nihai uygulamaya ne kadar yakın olduğuna ve yine, bu görevin genelleştirilebilir özelliklerin ve bilginin öğrenilmesini ne kadar iyi getirdiğine bağlıdır.

Denetimli yaklaşımların, temsilleri öğrenmek için belirli bir etiketli görevi doğrudan kullananlardan, görevleri yeniden yapılandıran veya daha iyi temsiller elde etmek için bunlardan yeni etiketli görevler çıkaranlara kadar çeşitlendiğini göreceğiz.

Etiketli verilerden belge yerleştirmeyi öğrenme

Cümle temsillerini öğrenmek için etiketli veya yapılandırılmış verileri kullanmak için çeşitli girişimler olmuştur. Özellikle, [Cho ve diğerleri, 2014a] Ve [Sutskever ve diğerleri, 2014] belki de etiketli verilerle cümle / kelime öbeği yerleştirmelerini açık bir şekilde öğrenmek için kodlayıcı-kod çözücü yaklaşımını uygulamaya yönelik ilk girişimlerdir; ilk kullanan Europarl, istatistiksel makine çevirisi için paralel bir ifadeler bütünü, ikincisi ise WMT-14 veri kümesinden İngilizce'den Fransızcaya çeviri görevini kullanıyor. Bu tür bir başka kayda değer girişim, [Wieting ve diğerleri, 2015] ve [Wieting & Gimpel, 2017], burada hem sözcük düğünleri hem de bunların belge yerleştirmeleriyle eşleştirilmesinin, başka sözcüklerle ifade çiftleri arasındaki kosinüs benzerliğini en aza indirmek için birlikte öğrenildiği PPDB veri kümesi). [Hill vd, 2015] sözlük tanımlarını bu tanımlarla tanımlanan kelimelerin önceden eğitilmiş kelime yerleştirmeleriyle eşleştirmek için eğitilmiş sinir dili modelleri. En sonunda, [Conneau ve diğerleri, 2017] Stanford Natural Language Inference görevinde çeşitli mimarilerin eğitimli NN kodlayıcıları (bkz. Şekil 16).

belge yerleştirme

Şekil 16: Genel NLI eğitim şeması

Belge benzerliği için bağlamsal yerleştirmeler

Yukarıdaki yaklaşımın özel bir durumu, belge benzerliği ile yönlendirilir. [Das vd, 2016] topluluk Q / A için bir siyam ağı aracılığıyla iki belge arasındaki benzerliği en üst düzeye çıkardığı öğrenilen belge düğünlerini sergileme (bkz.Şekil 17)

belge yerleştirme

Şekil 17: SCQA ağı, yinelenen evrişim, maksimum havuzlama ve ReLU katmanları ve tamamen bağlı bir katmandan oluşur. W1'den W5'e kadar olan ağırlıklar, alt ağlar arasında paylaşılır.

Benzer şekilde, [Lefkoşa ve Moschitti, 2017] İkili metin benzerliğini öğrenirken aynı kategorideki örnekleri benzer olarak dikkate alarak kelime temsilleri üretmek için siyam ağlarını kullanırlar. (bkz.Şekil 18)

belge yerleştirme

Şekil 18: Siyam ağının mimarisi [Lefkoşa ve Moschitti, 2017]. Her cümlenin kelime yerleştirmeleri, 3 Çift Yönlü GRU'luk bir yığın tarafından tüketilir. Her iki ağ dalı da parametre ağırlıklarını paylaşır.

Crosslingual reduced-rank ridge regression (Cr5)
[Josifoski ve diğerleri, 2019] herhangi bir dilde yazılmış belgeleri tek, dilden bağımsız bir vektör uzayına yerleştirmek için bir yöntem sunar. Bu, belirli bir belgenin ilgili olduğu kavramı tahmin etmek için dile özgü kelime torbası özelliklerini kullanan bir sırt-regresyon tabanlı sınıflandırıcı eğitilerek yapılır. Yazarlar, öğrenilen ağırlık matrisini düşük dereceli olarak sınırlarken, dile özgü kelime çantalarından dilden bağımsız yerleştirmelere kadar istenen eşleştirmeleri elde etmenin faktörlere dahil edilebileceğini gösteriyor. Resmi bir Python uygulaması sağlanır.

Göreve özel denetimli belge yerleştirmeleri

Belge yerleştirmeleri üretmek için yaygın bir denetimli yöntem, çeşitli sinir ağı mimarilerini kullanır, vektörleri belgelemek için kelime vektörlerini eşleyen kompozisyon operatörlerini öğrenir; bunlar denetlenen bir göreve aktarılır ve bileşim ağırlıkları boyunca geri yayılmaları için bir sınıf etiketine bağlıdır (bkz. Şekil 19).

Bu nedenle, ağın neredeyse tüm gizli katmanlarının, bir giriş belgesinin bir vektör gömülmesini oluşturduğu düşünülebilir; ağın o katmana kadar olan öneki, kelime vektörlerinden gömme alanına öğrenilmiş eşlemedir. Kelime vektörlerine dayalı cümle vektörlerini öğrenmenin farklı yollarının titiz bir incelemesi ve denetimli bir öğrenme görevi [Wieting ve diğerleri, 2015].

belge yerleştirme

Şekil 19: Sinir ağları, düğünleri belgelemek için kelime gömme dizilerini örtük olarak eşlemeyi öğrenir

Kullanılan kelime yerleştirmelerinin önceden oluşturulmuş ve görevden bağımsız (en azından bir dereceye kadar) olabilmesine rağmen, bunlardan öğrenilen eşlemenin belgeye gömülmeye özel olduğunu unutmayın. Bunlar ilgili görevler için faydalı olabilirken, bu yöntemin, en azından teoride, denetimsiz olanlara göre daha az sağlam ve genelleştirilmiş olması kaçınılmazdır. [Kiros ve diğerleri, 2015]

Dikkate değer kullanımlar arasında RNN'ler kullanılarak duygu sınıflandırması [Socher ve diğerleri, 2013], CNN'ler kullanılarak çeşitli metin sınıflandırma görevleri [Kalchbrenner ve diğerleri, 2014] [Kim, 2014] ve yinelemeli-evrişimli sinir ağları kullanan hem makine çevirisi hem de metin sınıflandırma görevleri [Cho et al al, 2014a, 2014b] [Zhao ve diğerleri, 2015].

GPT
[Radford vd, 2018sundu üretken ön eğitim (GPT) yaklaşımı (bir Python uygulaması eşliğinde), [Vaswani ve diğerleri 2017] etiketlenmemiş yapı üzerinde denetimsiz bir dil modelini öğrenmek ve ardından denetlenen verileri kullanarak her görev için ayrı ayrı kullanımında ince ayar yapmak. Daha sonra GPT-2'yi sundular içinde [Radford vd, 2019], çalışmalarının denetimsiz öğrenme kısmını desteklemeye odaklanarak, resmi bir Python uygulaması yayınlamak.

Derin Anlamsal Benzerlik Modeli (DSSM)
Bir Microsoft Araştırma projesiDSSM, metin dizelerini sürekli bir semantik uzayda temsil etmek ve iki metin dizisi arasındaki anlamsal benzerliği modellemek için derin bir sinir ağı modelleme tekniğidir (bkz. Şekil 20).

belge yerleştirme

Şekil 20: Bir DSSM sinir ağının mimarisi

DSSM, diğer uygulamaların yanı sıra, sıralama ve sınıflandırma gibi çeşitli makine öğrenimi görevleri için farklı türlerdeki varlıkları (örneğin sorgular ve belgeler) ortak bir düşük boyutlu anlamsal alana yansıtan gizli anlamsal modeller geliştirmek için kullanıldı. Örneğin, [Huang vd, 2013] Sorguları ve belgeleri ortak, düşük boyutlu bir alana yansıtın, burada, verilen bir belgenin alaka düzeyi aralarındaki mesafe olarak hesaplanır.

Uygulamalar şunları içerir: TensorFlowkeras ve iki PyTorch varyasyonlar.

Ortak olarak cümle temsillerini öğrenmek

[Ahmad vd, 2018] birden fazla metin sınıflandırma görevinden cümle temsillerini birlikte öğrenmenin ve bunları önceden eğitilmiş kelime düzeyinde ve cümle düzeyinde kodlayıcılarla birleştirmenin, aktarım öğrenimi için yararlı olan sağlam cümle temsilleriyle sonuçlandığını öne sürüyorlar.

belge yerleştirme

Şekil 21: Yardımcı görevleri kullanarak cümle yerleştirmelerinin ortaklaşa öğrenilmesi

[Yu ve Jiang, 2016] benzer şekilde, bir cümle yerleştirmeye yardımcı olmak için iki yardımcı görev kullanmanın, duygu sınıflandırması için alanlarda iyi çalıştığını, bu cümlenin duygu sınıflandırıcısının kendisiyle birlikte gömüldüğünü ortaklaşa öğrendiğini gösterir (Şekil 21).

Evrensel Cümle Kodlayıcı
Sunulan [Cer vd, 2018a] Ve [Cer vd, 2018b] ve eşliğinde bir TensorFlow uygulaması, bu yöntem aslında cümle temsilini öğrenmek için iki olası model içerir: Trafo model ve Derin Ortalama Alma Ağı (DAN) model (bkz.Şekil 22). Her ikisi de (1) aşağıdaki gibi desteklenen görevlerle çoklu görev öğrenmeye izin verecek şekilde tasarlanmıştır.kip düşüncesi denetimsiz öğrenme için görev gibi; (2) ayrıştırılmış konuşma verilerinin dahil edilmesi için bir etkileşimli girdi-yanıt görevi; ve (3) denetlenen verilerle ilgili eğitim için sınıflandırma görevleri (önceki alt bölüme bakın). Yazarlar, transfer öğrenme görevleri ile deneylere odaklanır ve modellerini basit CNN ve DAN temelleri ile karşılaştırır. Yöntem daha sonraydı çok dilli ayarları ele almak için genişletildi.

The transformatör model doğrudan [Vaswani ve diğerleri 2017], tamamen dikkati temel alan birinci dizi iletim modeli, kodlayıcı-kod çözücü mimarilerinde en yaygın olarak kullanılan tekrarlayan katmanları çok başlı öz dikkat ile değiştirir (bkz. Şekil 22a).

Model, transformatör mimarisinin kodlama alt grafiğini kullanarak cümle yerleştirmeleri oluşturur. Kodlayıcı, diğer kelimelerin hem sırasını hem de kimliğini hesaba katan bir cümledeki kelimelerin bağlama duyarlı temsillerini hesaplamak için dikkati kullanır. Bağlama duyarlı kelime temsillerinin, cümle düzeyinde bir yerleştirme elde etmek için birlikte ortalaması alınır.

belge yerleştirme

Şekil 22: Evrensel Cümle Kodlayıcının iki modeli: (a) Transformatör ve (b) DAN

Tersine, DAN modelinde, [Iyyer vd, 2015], kelimeler ve bi-gramlar için giriş yerleştirmelerinin önce birlikte ortalaması alınır ve ardından cümle yerleştirmeleri oluşturmak için ileri beslemeli bir derin sinir ağından (DNN) geçirilir (bkz. Şekil 22b).

GenSen
Evrensel Cümle Kodlayıcıya çok benzer, GenSen yaklaşımı [Subramanian vd, 2018] birlikte resmi bir Python uygulaması, gömme işleminin çıkarıldığı bir RNN w / GRU tabanlı kodlayıcı-kod çözücü modeli eğitmek için birden çok denetimli ve denetimsiz öğrenme görevini birleştirir. Desteklenen dört görev şunlardır: (1) Düşünceyi atla vektörler, (2) nöral makine çevirisi, (3) seçim bölgesi ayrıştırma ve (4) doğal dil çıkarımı (3 yollu bir sınıflandırma problemi; bir öncül ve bir hipotez cümlesi verildiğinde, amaç, bunların ilişkilerini gereklik, gerekse çelişki olarak sınıflandırmaktır. veya nötr). Resmi bir Python uygulaması yayınlandı.

Hangi tekniğin kullanılacağı nasıl seçilir?

Burada kolay bir cevabım yok, ancak işte birkaç olası çıkarım:

  1. Kelime vektörlerinin ortalamasını almak güçlü bir temeldirBu nedenle, iyi belge düğünleri arayışınıza, çok iyi kelime vektörleri oluşturmaya odaklanarak ve ilk başta bunların ortalamasını alarak başlamak iyi bir fikirdir. Kuşkusuz, belge yerleştirmelerinin gücünün çoğu, üzerine inşa edildikleri kelime vektörlerinden geliyor ve ileriye gitmeden önce bu katmanda optimize edilecek önemli bir bilgi deltası olduğunu söylemenin güvenli olduğunu düşünüyorum. Önceden eğitilmiş farklı kelime yerleştirmelerini deneyebilir, hangi kaynak alan adlarını keşfedebilir ve hangi yöntemlerin (örneğin word2vec, GloVe, BERT, ELMo) ihtiyacınız olan bilgi türünü daha iyi yakalayacağını keşfedebilirsiniz. Ardından, farklı özetleme operatörlerini veya diğer hileleri deneyerek bunu biraz daha genişletin ([Arora vd, 2016]) yeterli olabilir.
  2. Performans önemli bir faktör olabilirözellikle yöntemler arasında net bir lider olmadan. Bu durumda her ikisi de ortalama kelime vektörlerive bazı yalın yöntemler gibi send2vec ve HızlıGönderildi, iyi adaylardır. Buna karşılık, kullanılırken her cümle için gereken gerçek zamanlı vektör temsili çıkarımı doktor2vec uygulama kısıtlamaları göz önüne alındığında maliyetli olabilir. SentEval, cümle temsilleri için bir değerlendirme araç takımı Sunulan [Conneau ve Kiela, 2018], bu bağlamda bahsetmeye değer bir araçtır.
  3. Göreviniz için öğrenme hedefinin geçerliliğini değerlendirin. Yukarıda ele alınan farklı kendi kendini denetleyen teknikler genişletilmiş dağılım hipotezi farklı şekillerde düşünce atlama ve hızlı düşünce modeling a strong relation between sentences/paragraphs based on their distance in a document. This perhaps applies trivially for books, articles and social media posts, but might not apply as strongly to other sequences of texts, especially structured ones, and might thus project your documents into an embedding space which does not apply to them. Similarly, the word-alignment approach which WME relies on might not apply to every scenario.
  4. Açık kaynak uygulamaları bol miktarda bulunur, bu nedenle görevinize göre farklı yaklaşımları kıyaslamak mümkün olabilir.
  5. Göreve özgü net bir lider yoktur. Makaleler genellikle farklı yöntemleri sınıflandırma, başka kelimelerle ifade etme ve anlambilimsel ilişki görevleri ile karşılaştırır. Bununla birlikte, yukarıdaki sonuç hem konuyla ilgili literatürün tamamı düşünüldüğünde hem de özellikle 2018'deki en son iki kıyaslamanın sonuçları göz önüne alındığında ortaya çıkar, ilki [Logeswaran ve Lee, 2018] sunum yaparken hızlı düşünce yöntem ve ikincisi [Wu vd, 2018b] makalelerinin bir parçası olarak Kelime Taşıyıcının Gömme.

Son sözler

Bu kadar! Her zaman olduğu gibi, yazdığım gönderilerin tam olmadığından eminim, bu nedenle, burada yorum yaparak veya yukarıdaki genel bakış için düzeltmeler ve eklemeler önermekten çekinmeyin. doğrudan benimle iletişime geçmek.

İkisine de teşekkür etmek istiyorum Adam Bali ve Ori Cohen, çok değerli geri bildirimler sağlayanlar. Gidin gönderilerini okuyun!

Sonunda bundan bahsetmeye değer buldum Kodlu Makaleler vardır belge yerleştirmeye adanmış bir görevve Facebook Research'ün açık kaynaklı olduğu SentEval, cümle temsilleri için bir değerlendirme araç takımı Sunulan [Conneau ve Kiela, 2018].

Şimdi arkanıza yaslanın ve referansların sizi bunaltmasına izin verin.

Referanslar

Agibetov, A., Blagec, K., Xu, H. ve Samwald, M. (2018). Biyomedikal cümle sınıflandırması için hızlı ve ölçeklenebilir nöral gömme modelleriBMC biyoinformatik19(1), 541.

Ahmad, WU, Bai, X., Peng, N. ve Chang, KW (2018). Metin Sınıflandırması için Sağlam, Aktarılabilir Cümle Temsillerini ÖğrenmekarXiv ön baskı arXiv: 1810.00681.

Arora, S., Liang, Y. ve Ma, T. (2016). Cümle düğünleri için basit ama yenmesi zor bir temel. [resmi olmayan uygulama]

Bengio, Y., Ducharme, R., Vincent, P. ve Jauvin, C. (2003). Sinirsel olasılıklı bir dil modeliMakine öğrenimi araştırmaları dergisi3(Şubat), 1137–1155.

B. Broere, (2017). Düşünce atlama vektörlerinin sözdizimsel özellikleriYüksek lisans tezi, Tilburg Üniversitesi.

Cer, D., Yang, Y., Kong, SY, Hua, N., Limtiaco, N., John, RS,… & Sung, YH (2018). Evrensel cümle kodlayıcıarXiv ön baskı arXiv: 1803.11175.

Cer, D., Yang, Y., Kong, SY, Hua, N., Limtiaco, N., John, RS,… & Strope, B. (2018, Kasım). İngilizce için evrensel cümle kodlayıcı. içinde Doğal Dil İşlemede Ampirik Yöntemler Üzerine 2018 Konferansı Bildirileri: Sistem Gösterileri (sayfa 169-174).

Chen, M. (2017). Bozulma yoluyla belgeler için verimli vektör gösterimiarXiv ön baskı arXiv: 1707.02377.

Chen, Q., Peng, Y. ve Lu, Z. (2018). BioSentVec: biyomedikal metinler için cümle yerleştirmeleri oluşturma. arXiv ön baskı arXiv: 1810.09302.

Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H. ve Bengio, Y. (2014). İstatistiksel makine çevirisi için RNN kodlayıcı-kod çözücüyü kullanarak ifade temsillerini öğrenmearXiv ön baskı arXiv: 1406.1078.

Cho, K., Van Merriënboer, B., Bahdanau, D. ve Bengio, Y. (2014). Sinir makinesi çevirisinin özellikleri hakkında: Kodlayıcı-kod çözücü yaklaşımlarıarXiv ön baskı arXiv: 1409.1259.

Conneau, A., Kiela, D., Schwenk, H., Barrault, L. ve Bordes, A. (2017). Doğal dil çıkarım verilerinden evrensel cümle temsillerinin denetimli öğrenimiarXiv ön baskı arXiv: 1705.02364.

Conneau, A. ve Kiela, D. (2018). Senteval: Evrensel cümle temsilleri için bir değerlendirme araç takımıarXiv ön baskı arXiv: 1803.05449.

Dai, AM, Olah, C. ve Le, QV (2015). Paragraf vektörleriyle belge gömmearXiv ön baskı arXiv: 1507.07998.

Das, A., Yenala, H., Chinnakotla, M. ve Shrivastava, M. (2016, Ağustos). Birlikte duruyoruz: Benzer soruların geri çağrılması için Siyam ağları. içinde Hesaplamalı Dilbilim Derneği'nin 54. Yıllık Toplantısı Bildirileri (Cilt 1: Uzun Makaleler) (sayfa 378-387).

Gan, Z., Pu, Y., Henao, R., Li, C., He, X. ve Carin, L. (2016). Evrişimli sinir ağlarını kullanarak cümle temsillerinin denetimsiz öğrenimi. arXiv ön baskı arXiv: 1611.07897.

Gan, Z., Pu, Y., Henao, R., Li, C., He, X. ve Carin, L. (2016). Evrişimli sinir ağlarını kullanarak genel cümle temsillerini öğrenmekarXiv ön baskı arXiv: 1611.07897.

Gupta, P., Pagliardini, M. ve Jaggi, M. (2019). Better Word Embeddings by Disentangling Contextual n-Gram InformationarXiv ön baskı arXiv: 1904.05033.

Harris, ZS (1954). Dağıtım yapısı. Kelime, 10 (2–3), 146–162.

Hill, F., Cho, K., Korhonen, A. ve Bengio, Y. (2015). Sözlüğü yerleştirerek cümleleri anlamayı öğrenmekHesaplamalı Dilbilim Derneği'nin İşlemleri4, 17-30.

Hill, F., Cho, K. ve Korhonen, A. (2016). Etiketsiz verilerden dağıtılmış cümlelerin temsillerini öğrenmearXiv ön baskı arXiv: 1602.03483.

Huang, PS, He, X., Gao, J., Deng, L., Acero, A. ve Heck, L. (2013, Ekim). Tıklama verilerini kullanarak web araması için derin yapılandırılmış anlamsal modelleri öğrenme. içinde 22. ACM Uluslararası Bilgi ve Bilgi Yönetimi Konferansı Bildirileri (sayfa 2333–2338). ACM.

Iyyer, M., Manjunatha, V., Boyd-Graber, J. ve Daumé III, H. (2015). Derin sırasız kompozisyon, metin sınıflandırması için sözdizimsel yöntemlere rakip olur. içinde Hesaplamalı Dilbilim Derneği 53. Yıllık Toplantısı ve 7. Uluslararası Doğal Dil İşleme Ortak Konferansı Bildirileri (Cilt 1: Uzun Makaleler) (Cilt 1, sayfa 1681-1691).

Josifoski, M., Paskov, IS, Paskov, HS, Jaggi, M., & West, R. (2019, Ocak). Azaltılmış Sıralı Sırt Regresyonu Olarak Crosslingual Belge Gömme. içinde Onikinci ACM Uluslararası Web Arama ve Veri Madenciliği Konferansı Bildirileri (sayfa 744–752). ACM.

Kalchbrenner, N., Grefenstette, E. ve Blunsom, P. (2014). Cümleleri modellemek için evrişimli bir sinir ağı. arXiv ön baskı arXiv: 1404.2188.

Kenter, T., Borisov, A. ve De Rijke, M. (2016). Siyam cbow: Cümle temsilleri için kelime düğünlerini optimize etmearXiv ön baskı arXiv: 1606.04640.

Kim, Yoon. "Cümle sınıflandırması için evrişimli sinir ağları." arXiv ön baskı arXiv: 1408.5882 (2014).

Kiros, R., Zhu, Y., Salakhutdinov, RR, Zemel, R., Urtasun, R., Torralba, A. ve Fidler, S. (2015). Düşünce atlama vektörleri. içinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (sayfa 3294-3302).

Kusner, M., Sun, Y., Kolkin, N. ve Weinberger, K. (2015, Haziran). Kelime düğünlerinden belge mesafelerine. içinde Makine öğrenimi üzerine uluslararası konferans (sayfa 957-966).

Lau, JH ve Baldwin, T. (2016). Belge yerleştirme oluşturma konusunda pratik bilgilerle doc2vec'in ampirik bir değerlendirmesiarXiv ön baskı arXiv: 1607.05368. [kod]

Le, Q. ve Mikolov, T. (2014, Ocak). Cümlelerin ve belgelerin dağıtılmış sunumları. içinde Makine öğrenimi üzerine uluslararası konferans (sayfa 1188-1196).

Lee, T. ve Park, Y. (2018). BELGE YAPISI TABANLI BAĞLAM KULLANILARAK DENETLENMEYEN CÜMLE YAPIŞTIRMA.

Logeswaran, L. ve Lee, H. (2018). Cümle temsillerini öğrenmek için etkili bir çerçeve. arXiv ön baskı arXiv: 1803.02893.

Li, B., Liu, T., Du, X., Zhang, D. ve Zhao, Z. (2015). Uzun film incelemelerinin duyarlılık sınıflandırması için n-gramları tahmin ederek belge yerleştirmelerini öğrenmearXiv ön baskı arXiv: 1512.08183.

Liu, Y. ve Lapata, M. (2018). Yapılandırılmış metin temsillerini öğrenmek. Hesaplamalı Dilbilim Derneği İşlemleri, 6, 63–75.

Mikolov, T., Chen, K., Corrado, G. ve Dean, J. (2013). Vektör uzayında kelime temsillerinin verimli tahmini. arXiv ön baskı arXiv: 1301.3781.

Mikolov, T., Sutskever, I., Chen, K., Corrado, GS ve Dean, J. (2013). Kelimelerin ve cümlelerin dağıtılmış temsilleri ve bunların bileşimi. içinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (sayfa 3111-3119).

Lefkoşa, M. ve Moschitti, A. (2017, Ağustos). Kategorik bilgileri kullanarak yapısal anlamsal benzerlik için bağlamsal yerleştirmeleri öğrenme. içinde 21. Hesaplamalı Doğal Dil Öğrenimi Konferansı Bildirileri (CoNLL 2017)(sayfa 260-270).

Pagliardini, M., Gupta, P. ve Jaggi, M. (2017). Kompozisyonel n-gram özelliklerini kullanarak cümle yerleştirmelerinin denetimsiz öğrenimiarXiv ön baskı arXiv: 1703.02507.

Pennington, J., Socher, R. ve Manning, C. (2014, Ekim). Eldiven: Kelime temsili için küresel vektörler. içinde Doğal dil işlemede (EMNLP) deneysel yöntemler konulu 2014 konferansının bildirileri (sayfa 1532-1543).

Radford, A., Narasimhan, K., Salimans, T. ve Sutskever, I. (2018). Denetimsiz öğrenimle dil anlayışını geliştirmek. Teknik rapor, OpenAI.

Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. ve Sutskever, I. (2019). Dil modelleri, denetimsiz çok görevli öğrenicilerdirOpenAI Blogu1(8).

Reimers, N. ve Gurevych, I. (2019). Cümle-BERT: Siyam BERT-Ağları Kullanarak Cümle GömmearXiv ön baskı arXiv: 1908.10084.

Rudolph, M., Ruiz, F., Athey, S. ve Blei, D. (2017). Gruplanmış veriler için yapılandırılmış gömme modelleri. İçinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (sayfa 251-261).

Salton, G. ve Buckley, C. (1988). Otomatik metin erişiminde terim ağırlıklandırma yaklaşımlarıBilgi işleme ve yönetimi24(5), 513-523.

Sinoara, RA, Camacho-Collados, J., Rossi, RG, Navigli, R. ve Rezende, SO (2019). Metin sınıflandırması için bilgi ile zenginleştirilmiş belge yerleştirmeleriBilgiye Dayalı Sistemler163, 955-971.

Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, CD, Ng, A. ve Potts, C. (2013, Ekim). Bir duyarlılık düzeyi bankası üzerinde anlamsal kompozisyon için yinelemeli derin modeller. içinde Doğal dil işlemede deneysel yöntemler üzerine 2013 konferansının bildirileri (sayfa 1631-1642).

Subramanian, S., Trischler, A., Bengio, Y. ve Pal, CJ (2018). Büyük ölçekli çok görevli öğrenme yoluyla genel amaçlı dağıtılmış cümle temsillerini öğrenmekarXiv ön baskı arXiv: 1804.00079.

Sutskever, I., Vinyals, O. ve Le, QV (2014). Sinir ağları ile öğrenmeyi sıralamak için sıralama. içinde Sinirsel bilgi işleme sistemlerindeki gelişmeler (sayfa 3104-3112).

Tang, S., Jin, H., Fang, C., Wang, Z. ve de Sa, VR (2017). Düşünmeden yeniden düşünmek: Mahalleye dayalı bir yaklaşımarXiv ön baskı arXiv: 1706.03146.

Tang, S., Jin, H., Fang, C., Wang, Z. ve de Sa, VR (2017). Düşünmeden atlama vektörlerini kırpma ve iyileştirmearXiv ön baskı arXiv: 1706.03148.

Thongtan, T. ve Phienthrakul, T. (2019, Temmuz). Kosinüs Benzerliği ile eğitilmiş Belge Gömme kullanarak Duygu Sınıflandırması. İçinde Hesaplamalı Dilbilim Derneği 57. Konferansı Bildirileri: Öğrenci Araştırma Çalıştayı (sayfa 407-414).

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, AN,… & Polosukhin, I. (2017). Tek ihtiyacınız olan dikkatSinirsel bilgi işleme sistemlerindeki gelişmelerde (sayfa 5998-6008).

Wieting, J., Bansal, M., Gimpel, K. ve Livescu, K. (2015). Evrensel parafrastik cümle düğünlerine doğru. arXiv ön baskı arXiv: 1511.08198.

Wieting, J. ve Gimpel, K. (2017). Başka kelimelerle ifade edilen cümle yerleştirmeleri için tekrarlayan ağları yeniden ziyaret etmek. arXiv ön baskı arXiv: 1705.00364.

Wu, L., Yen, IEH, Xu, F., Ravikumar, P. ve Witbrock, M. (2018). D2ke: Uzaktan çekirdeğe ve yerleştirmeyearXiv ön baskı arXiv: 1802.04956.

Wu, L., Yen, IE, Xu, K., Xu, F., Balakrishnan, A., Chen, PY,… & Witbrock, MJ (2018). Word Mover'ın Gömme: Word2Vec'ten Belge GömmeyearXiv ön baskı arXiv: 1811.01713.

Yu, J. ve Jiang, J. (2016, Kasım). Alanlar arası duyarlılık sınıflandırması için yardımcı görevlerle birlikte cümle yerleştirmelerini öğrenme. içinde Doğal dil işlemede deneysel yöntemler üzerine 2016 konferansının bildirileri (sayfa 236-246).

Zhang, Y., Chen, Q., Yang, Z., Lin, H. ve Lu, Z. (2019). BioWordVec, alt kelime bilgileri ve MeSH ile biyomedikal kelime düğünlerini iyileştiriyor. Bilimsel veri6(1), 52.

Zhao, H., Lu, Z. ve Poupart, P. (2015, Haziran). Kendinden uyarlamalı hiyerarşik cümle modeli. İçinde Yapay Zeka Üzerine Yirmi Dördüncü Uluslararası Ortak Konferans.

Bu yazı orijinalinde Veri Bilimine Doğru ve yazarın izniyle TOPBOTS'a yeniden yayınlandı.

Bu makaleyi beğendiniz mi? Daha fazla AI ve NLP güncellemesi için kaydolun.

Daha ayrıntılı teknik eğitim verdiğimizde size haber vereceğiz.

Kaynak: https://www.topbots.com/document-embedding-techniques/?utm_source=rss&utm_medium=rss&utm_campaign=document-embedding-techniques

spot_img

En Son İstihbarat

spot_img