生成的データ インテリジェンス

AIはリンゴが何であるかを知っていますか?彼女はそれを知ることを目指しています。 |クアンタマガジン

日付:

概要

と話し始める エリー・パブリック 彼女の仕事、つまり大規模言語モデル (LLM) 内での理解の証拠を探していることについて話すと、あたかもそれをからかっているように聞こえるかもしれません。 「手を振る」というフレーズが口癖で、「意味」や「理屈」について言及すると、目立つ空気引用が付くことが多い。これはパブリックが自分自身を正直に保つための方法です。ブラウン大学と Google DeepMind で言語モデルを研究しているコンピューター科学者として、彼女は自然言語に固有の厄介さを受け入れることが、自然言語を真剣に受け止める唯一の方法であることを知っています。 「これは科学の分野であり、少し曖昧です」と彼女は言いました。

パブリックさんの世界には、数学や科学を楽しんでいた思春期以来、正確さとニュアンスが共存してきたが、「常にクリエイティブなタイプだと認識されていた」。彼女は学部時代に経済学とサクソフォーン演奏の学位を取得し、その後、コンピュータ サイエンスの博士号を取得しましたが、この分野では今でも部外者のように感じられています。 「インテリジェント システムはコンピューター コードによく似ていると考えている人がたくさんいます。つまり、[私たちが理解するのが得意な多くのシステムと同様に、整っていて便利です]」と彼女は言いました。 「答えは複雑だと私は信じています。もし私が単純な解決策を持っているとしても、それは間違いなく間違っています。そして、私は間違いを犯したくないのです。」

自然言語処理に携わっていたコンピューター科学者との偶然の出会いが、パブリックを博士課程の研究に着手させ、コンピューターがセマンティクス、つまり言語の意味をどのようにエンコードできるかを研究しました。 「それが、ある種のかゆいところを掻いたのだと思います」と彼女は言った。 「それは哲学に深く関わっており、それは私が現在取り組んでいることの多くと一致します。」現在、パブリックの主な研究分野の 1 つは、「グラウンディング」、つまり、言葉の意味が、感覚的認識、社会的相互作用、さらには他の思考など、言語自体とは独立して存在するものに依存するかどうかという問題に焦点を当てています。言語モデルは完全にテキストに基づいてトレーニングされるため、意味にとってグラウンディングがどのように重要かを探索するための有益なプラットフォームを提供します。しかし、この問題自体は、言語学者やその他の思想家を何十年も悩ませてきました。

「これらは単に『技術的な』問題ではありません」とパブリック氏は言う。 「言語は非常に巨大なので、私にとってはすべてを包含しているように感じます。」

クアンタ 哲学から科学を生み出すこと、「意味」とは何か、そしてセクシーでない結果の重要性についてパブリックと語った。インタビューはわかりやすくするために要約および編集されています。

概要

「理解」あるいは「意味」とは経験的に何を意味するのでしょうか?具体的には何を探していますか?

私がブラウン大学で研究プログラムを開始したとき、意味には何らかの形で概念が含まれると判断しました。これは誰もが行うわけではない理論的なコミットメントであることは承知していますが、直感的にはそう思われます。リンゴを意味するために「apple」という単語を使用する場合は、リンゴの概念が必要です。それを指す言葉を使うかどうかに関係なく、それは重要なことです。それが「意味がある」ということの意味です。概念、つまり言語化しているものが必要です。

モデルの中にコンセプトを見つけたいです。ニューラル ネットワーク内で取得できるもの、つまり内部的に「リンゴ」を表すものが存在するという証拠、つまり同じ単語で一貫して参照できるものが必要です。なぜなら、ランダムでも恣意的でもない内部構造が存在しているように見えるからです。確実に何かを実行する、明確に定義された関数の小さな塊を見つけることができます。

私はこの内部構造の特徴を明らかにすることに焦点を当ててきました。どのような形があるのでしょうか?それは、ニューラル ネットワーク内の重みのサブセット、またはそれらの重みに対するある種の線形代数演算、ある種の幾何学的抽象化である可能性があります。しかし、それは[モデルの動作において]因果的な役割を果たさなければなりません。つまり、これらの入力には接続されていますが、それらには接続されておらず、これらの出力には接続されていますが、それらには接続されていません。

それは「意味」と呼んでもいいような気がします。この構造を見つけて関係を確立する方法を見つけ出すことが重要です。それをすべて理解したら、「それは『リンゴ』の意味を知っていますか?」などの質問に適用できるようになります。

この構造の例を見つけましたか?

はい、XNUMXつ 結果 言語モデルが情報を取得するときに関係します。モデルに「フランスの首都はどこですか」と尋ねると、モデルは「パリ」と答える必要があり、「ポーランドの首都はどこですか」と尋ねると、「ワルシャワ」と返されるはずです。これらすべての答えを簡単に記憶することもできますし、それらを [モデル内] のあちこちに散らばらせることもできます。これらのものの間に関連性を持たせる必要がある本当の理由はありません。

代わりに、モデル内で基本的にその接続を 1 つの小さなベクトルに要約する小さな場所を見つけました。これを「フランスの首都はどこですか」に追加すると、「パリ」が検索されます。そして同じベクトルで、「ポーランドの首都はどこですか」と尋ねると、「ワルシャワ」が検索されます。これは、この体系的な「首都の検索」ベクトルのようなものです。

これは非常に興味深い発見です。なぜなら、[モデルは] これらの小さな概念を煮詰めて、一般的なアルゴリズムを適用しているように見えるからです。そして、私たちはこれらの非常に[単純な]質問を検討していますが、それはモデルが使用しているこれらの原材料の証拠を見つけることです。この場合、暗記するほうが簡単です。多くの点で、これらのネットワークはそのように設計されています。代わりに、[情報] を断片に分解し、それに関する「理由」を説明します。そして、より良い実験デザインを思いつくにつれて、より複雑な種類のコンセプトでも同様のものが見つかるかもしれないと期待しています。

概要

グラウンディングはこれらの表現とどのように関係するのでしょうか?

人間が言語を学習する方法は、身体の感覚、感情、お腹が空いているかどうかなど、大量の非言語入力に基づいています。それは意味にとって非常に重要であると考えられています。

しかし、内部表現にもっと関係のあるグラウンディングの概念は他にもあります。明らかに物理的世界に関連していない単語もありますが、それでも意味はあります。 「民主主義」のような言葉が好例です。それはあなたの頭の中にあるものです。私は民主主義について話さなくても考えることができます。つまり、グラウンディングは言語からその物体、その内部表現へのものである可能性があります。

しかし、あなたは、色のような、より外側のものであっても、知覚に依存せずに、依然として内部の「概念的」表現に固定されている可能性があると主張しています。それはどのように機能するでしょうか?

そうですね、言語モデルには目はありませんよね?色については何も「認識」しません。したがって、それらの間の関係を理解するなど、より一般的なものを捉えているのかもしれません。青と赤を組み合わせると紫になることはわかっています。そうした種類の関係は、この内部 [接地] 構造を定義する可能性があります。

RGB コード [色を表す数値の文字列] を使用して、LLM に色の例を与えることができます。 「OK、ここは赤です」と言って赤の RGB コードを与え、「ここは青です」と青の RGB コードを与えて、「紫が何なのか教えて」と言えば、次の RGB コードを生成するはずです。紫。このマッピングは、モデルの内部構造が健全であることを示す良い指標となるはずです。モデルには [色の] 知覚が欠けていますが、概念的な構造は存在します。

難しいのは、[モデル] がトレーニング データ全体に含まれる RGB コードを記憶するだけである可能性があることです。そこで、[実際の RGB 値から離れて] すべての色を「回転」しました。LLM に、「黄色」という単語が緑の RGB コードに関連付けられていることを伝えます。モデルのパフォーマンスは良好でした。緑色を要求すると、RGB コードの回転バージョンが提供されます。これは、色の内部表現にある種の一貫性があることを示唆しています。それは単に暗記するのではなく、彼らの関係に関する知識を応用することです。

それがグラウンディングの要点です。名前を色にマッピングするのは任意です。それよりも彼らの間の関係についてです。とても刺激的でした。

概要

このような哲学的に聞こえる質問がどうして科学的と言えるのでしょうか?

私は最近、ある思考実験について知りました。海が砂の上に押し上げられ、引き戻されたとき、パターンが詩を生み出したらどうなるでしょうか?その詩には意味があるのでしょうか?それは非常に抽象的なように思えますが、これほど長い哲学的な議論ができるのです。

言語モデルの良い点は、思考実験が必要ないことです。 「理論的には、これこれのものが知的になるだろうか?」というようなものではありません。それはただ、「これは知性を持っているのだろうか?」ということです。それは科学的かつ経験的になります。

時々人々は否定的になります。 「」があります確率オウム" アプローチ。それは、人々がこれらの事柄に知性を過剰にサブスクライブするのではないかという恐怖から来ていると思います。私たちはそれを実際に目にしています。そして、それを正すために、人々はこう言います。「いいえ、それはすべて偽物です。これは煙と鏡だ。」

ちょっと残念ですね。私たちは非常にエキサイティングで全く新しいものを思いついたので、それを深く理解する価値があります。これは大きなチャンスであり、モデルを拡大解釈することを懸念して無視されるべきではありません。

もちろんあなた'もプロデュースしました 研究 まさにそのような過大解釈の誤りを暴きます。

その研究では、モデルが[理解を模倣するために]利用しているすべての「浅いヒューリスティック」を人々が発見していました。それらは、科学者としての私の成長にとって非常に基礎的なものでした。しかし、それは複雑です。あまり早く勝利宣言するなよ、みたいな。 [私の中には]、たとえ非常に慎重に設計したとわかっている評価であっても、評価が正しく行われたという疑念や被害妄想が少しあります。

それは、主張しすぎないことの一部です。もう 1 つの点は、これらの [言語モデル] システムを扱うと、それらが人間のレベルではないことがわかるということです。つまり、物事を解決する方法は、見た目ほどインテリジェントではありません。

概要

この分野では、非常に多くの基本的な手法や用語が議論の対象になっているのに、成功をどうやって測定すればよいのでしょうか?

私たちが科学者として求めているのは、私たちが関心を持っているもの、この場合は知能についての、人間が理解できる正確な説明だと思います。そして、そこに到達するのに役立つ言葉を付け加えます。何らかの実用的な語彙が必要です。

しかし、それは難しいことです。なぜなら、セマンティクスの戦いに巻き込まれる可能性があるからです。 「それに意味はありますか?イエスかノーか?」と人々が言うとき。わからない。会話を間違った方向に誘導しています。

私が提供しようとしているのは、私たちが説明しようとしている行動の正確な説明です。そして、それを「意味」と呼ぶのか、「表現」と呼ぶのか、あるいはこれらの詰め込まれた言葉のいずれかと呼ぶのかは、その時点ではちょっと議論の余地があります。重要なのは、理論または提案されたモデルがテーブルにあるということです。それを評価しましょう。

概要

では、言語モデルの研究はどのようにしてそのより直接的なアプローチに向かうことができるのでしょうか?

私が本当に答えられるようになりたい種類の深い質問 — 知性の構成要素は何ですか?人間の知能とはどのようなものなのでしょうか?モデルの知能はどのようなものですか? —本当に重要です。しかし、今後10年間に起こるべきことは、それほどセクシーなものではないと思います。

これらの [内部] 表現を扱いたい場合は、それらを見つけるための方法、つまり科学的に適切な方法が必要です。それが正しい方法で行われれば、この低レベルで非常に雑草のような方法論的な内容が見出しになることはありません。しかし、それこそが、これらの深い質問に正しく答えることを可能にする本当に重要なことなのです。

その間にもモデルはどんどん変わっていきます。したがって、あたかも「画期的な進歩」であるかのように人々が出版し続けるものはたくさんあるでしょうが、おそらくそうではありません。私の心の中では、大きな進歩を遂げるのは早すぎると感じています。

人々はこれらの非常に単純なタスクを研究しています。たとえば、[完了する言語モデル] に「ジョンは _______ に飲み物をあげました」と質問し、そこに「ジョン」と書かれているか「メアリー」と書かれているかを確認しようとしています。それは知性を説明する結果とは思えません。しかし、私は実際、この退屈な問題を説明するために私たちが使用しているツールは、知能に関する深い質問に答えるために不可欠であると信じています。

スポット画像

最新のインテリジェンス

スポット画像