Inteligencia de datos generativa

¿Sabe la IA qué es una Apple? Ella pretende descubrirlo. | Revista Quanta

Fecha:

Introducción

empezar a hablar con ellie pavlick sobre su trabajo (buscar evidencia de comprensión dentro de modelos de lenguaje grandes (LLM)) y puede parecer que se está burlando de ello. La frase "ondulada a mano" es una de sus favoritas, y si menciona "significado" o "razonamiento", a menudo vendrá con citas aéreas llamativas. Ésta es simplemente la manera que tiene Pavlick de mantenerse honesta. Como científica informática que estudia modelos de lenguaje en la Universidad de Brown y Google DeepMind, sabe que aceptar la suavidad inherente del lenguaje natural es la única manera de tomarlo en serio. "Esta es una disciplina científica, y es un poco blanda", dijo.

La precisión y los matices han coexistido en el mundo de Pavlick desde la adolescencia, cuando disfrutaba de las matemáticas y las ciencias "pero siempre se identificó como un tipo más creativo". Como estudiante universitaria, obtuvo títulos en economía y saxofón antes de realizar un doctorado en informática, un campo en el que todavía se siente como una outsider. "Hay muchas personas que [piensan] que los sistemas inteligentes se parecerán mucho a los códigos de computadora: limpios y convenientemente, como muchos sistemas que [somos] buenos entendiendo", dijo. “Simplemente creo que las respuestas son complicadas. Si tengo una solución que sea simple, estoy bastante seguro de que está mal. Y no quiero equivocarme”.

Un encuentro casual con un científico informático que trabajaba en el procesamiento del lenguaje natural llevó a Pavlick a embarcarse en su trabajo doctoral estudiando cómo las computadoras podían codificar la semántica o el significado del lenguaje. “Creo que me provocó cierta picazón”, dijo. "Se sumerge en la filosofía y eso encaja con muchas de las cosas en las que estoy trabajando actualmente". Ahora, una de las principales áreas de investigación de Pavlick se centra en la "fundamentación": la cuestión de si el significado de las palabras depende de cosas que existen independientemente del lenguaje mismo, como las percepciones sensoriales, las interacciones sociales o incluso otros pensamientos. Los modelos de lenguaje se entrenan completamente en texto, por lo que proporcionan una plataforma fructífera para explorar cómo la conexión a tierra es importante para el significado. Pero la cuestión en sí ha preocupado a lingüistas y otros pensadores durante décadas.

"Estos no son sólo problemas 'técnicos'", afirmó Pavlick. “El lenguaje es tan enorme que, para mí, parece que lo abarca todo”.

¿Cuánto Habló con Pavlick sobre cómo hacer ciencia a partir de la filosofía, qué significa "significado" y la importancia de los resultados poco atractivos. La entrevista ha sido condensada y editada para mayor claridad.

Introducción

¿Qué significa empíricamente “comprensión” o “significado”? ¿Qué buscas específicamente?

Cuando comencé mi programa de investigación en Brown, decidimos que el significado involucra conceptos de alguna manera. Me doy cuenta de que este es un compromiso teórico que no todo el mundo hace, pero parece intuitivo. Si usa la palabra "manzana" para referirse a manzana, necesita el concepto de manzana. Eso tiene que existir, ya sea que uses la palabra para referirte a ello o no. Eso es lo que significa “tener significado”: ​​tiene que haber un concepto, algo que estás verbalizando.

Quiero encontrar conceptos en el modelo. Quiero algo que pueda captar dentro de la red neuronal, evidencia de que hay algo que representa "manzana" internamente, que permite hacer referencia a ella constantemente con la misma palabra. Porque parece existir esta estructura interna que no es aleatoria ni arbitraria. Puede encontrar estas pequeñas pepitas de función bien definida que hacen algo de manera confiable.

Me he centrado en caracterizar esta estructura interna. ¿Qué forma tiene? Puede ser algún subconjunto de pesos dentro de la red neuronal, o algún tipo de operación algebraica lineal sobre esos pesos, algún tipo de abstracción geométrica. Pero tiene que desempeñar un papel causal [en el comportamiento del modelo]: está conectado a estas entradas pero no a aquellas, y a estas salidas y no a aquellas.

Eso parece algo que podrías empezar a llamar "significado". Se trata de descubrir cómo encontrar esta estructura y establecer relaciones, de modo que una vez que lo tengamos todo en su lugar, podamos aplicarlo a preguntas como "¿Sabe lo que significa 'manzana'?"

¿Has encontrado algún ejemplo de esta estructura?

Si uno resultado implica cuando un modelo de lenguaje recupera una pieza de información. Si le pregunta al modelo "¿Cuál es la capital de Francia?", debe decir "París" y "Cuál es la capital de Polonia" debería responder "Varsovia". Muy fácilmente podría memorizar todas estas respuestas, y podrían estar dispersas por todas partes [dentro del modelo]; no hay ninguna razón real para que necesite tener una conexión entre esas cosas.

En cambio, encontramos un pequeño lugar en el modelo donde básicamente se reduce esa conexión a un pequeño vector. Si lo agrega a "¿Cuál es la capital de Francia", recuperará "París"; y ese mismo vector, si preguntas "¿Cuál es la capital de Polonia?", obtendrá "Varsovia". Es como este vector sistemático de “recuperación de la capital”.

Es un hallazgo realmente interesante porque parece que [el modelo] está resumiendo estos pequeños conceptos y luego aplicando algoritmos generales sobre ellos. Y aunque estamos analizando estas preguntas realmente [simples], se trata de encontrar evidencia de estos ingredientes crudos que utiliza el modelo. En este caso, sería más fácil memorizar; en muchos sentidos, para eso están diseñadas estas redes. En cambio, descompone [la información] en pedazos y “razona” al respecto. Y esperamos que a medida que logremos mejores diseños experimentales, podamos encontrar algo similar para tipos de conceptos más complicados.

Introducción

¿Cómo se relaciona la conexión a tierra con estas representaciones?

La forma en que los humanos aprenden el lenguaje se basa en una gran cantidad de información no lingüística: tus sensaciones corporales, tus emociones, si tienes hambre, lo que sea. Eso se considera realmente importante para el significado.

Pero hay otras nociones de fundamento que tienen más que ver con representaciones internas. Hay palabras que no están obviamente conectadas con el mundo físico, pero aun así tienen significado. Una palabra como “democracia” es un ejemplo favorito. Es algo que está en tu cabeza: puedo pensar en la democracia sin hablar de ella. Entonces la base podría ser desde el lenguaje hasta esa cosa, esa representación interna.

Pero usted sostiene que incluso las cosas que son más externas, como el color, aún podrían estar ancladas a representaciones “conceptuales” internas, sin depender de percepciones. ¿Cómo funcionaría eso?

Bueno, un modelo de lenguaje no tiene ojos, ¿verdad? No “sabe” nada sobre colores. Entonces tal vez [capte] algo más general, como comprender las relaciones entre ellos. Sé que cuando combino azul y rojo, obtengo morado; ese tipo de relaciones podrían definir esta estructura interna [fundamental].

Podemos dar ejemplos de color a un LLM usando códigos RGB [cadenas de números que representan colores]. Si dice "OK, aquí está rojo" y le da el código RGB para rojo y "Aquí está azul", con el código RGB para azul, y luego dice "Dime qué es el morado", debería generar el código RGB para púrpura. Este mapeo debería ser una buena indicación de que la estructura interna que tiene el modelo es sólida: le faltan las percepciones [de color], pero la estructura conceptual está ahí.

Lo complicado es que [el modelo] podría simplemente memorizar códigos RGB, que se encuentran en todos sus datos de entrenamiento. Entonces “rotamos” todos los colores [alejándolos de sus valores RGB reales]: le decíamos al LLM que la palabra “amarillo” estaba asociada con el código RGB para verde, y así sucesivamente. El modelo funcionó bien: cuando pedías verde, te daba la versión rotada del código RGB. Eso sugiere que existe algún tipo de coherencia en sus representaciones internas del color. Se trata de aplicar el conocimiento de sus relaciones, no sólo de memorizar.

Ese es el objetivo de la conexión a tierra. Asignar un nombre a un color es arbitrario. Se trata más de las relaciones entre ellos. Eso fue emocionante.

Introducción

¿Cómo pueden ser científicas estas preguntas que parecen filosóficas?

Hace poco me enteré de un experimento mental: ¿Qué pasaría si el océano llegara a la arena y [cuando] retrocediera, los patrones generaran un poema? ¿Tiene significado el poema? Eso parece súper abstracto y puedes tener este largo debate filosófico.

Lo bueno de los modelos de lenguaje es que no necesitamos un experimento mental. No es como, "En teoría, ¿tal o cual cosa sería inteligente?" Es simplemente: ¿Es esta cosa inteligente? Se vuelve científico y empírico.

A veces la gente es desdeñosa; ahí está el “loros estocásticos" acercarse. Creo que [proviene de] el temor de que la gente suscriba en exceso inteligencia a estas cosas, lo cual sí vemos. Y para corregir eso, la gente dice: “No, todo es una farsa. Esto es humo y espejos”.

Es un flaco favor. Hemos encontrado algo bastante emocionante y bastante nuevo, y vale la pena comprenderlo en profundidad. Esa es una gran oportunidad que no deberíamos dejar pasar por alto porque nos preocupa sobreinterpretar los modelos.

Por supuesto tú'También he producido la investigación desacreditando exactamente ese tipo de sobreinterpretación.

Ese trabajo, en el que la gente encontraba todas las “heurísticas superficiales” que explotaban los modelos [para imitar la comprensión], fue fundamental para mi mayoría de edad como científico. Pero es complicado. Es como no declarar la victoria demasiado pronto. Hay un poco de escepticismo o paranoia [en mí] respecto de que una evaluación se haya hecho bien, ¡incluso una que sé que diseñé con mucho cuidado!

Así que eso es parte del asunto: no reclamar demasiado. Otra parte es que, si trabajas con estos sistemas [modelos de lenguaje], sabes que no están al nivel humano: la forma en que resuelven las cosas no es tan inteligente como parece.

Introducción

Cuando tantos métodos y términos básicos están en debate en este campo, ¿cómo se mide el éxito?

Lo que creo que estamos buscando, como científicos, es una descripción precisa y comprensible para los humanos de lo que nos importa: la inteligencia, en este caso. Y luego adjuntamos palabras que nos ayuden a llegar allí. Necesitamos algún tipo de vocabulario de trabajo.

Pero eso es difícil, porque entonces puedes entrar en esta batalla de la semántica. Cuando la gente dice "¿Tiene significado: sí o no?" No sé. Estamos encaminando la conversación hacia algo equivocado.

Lo que intento ofrecer es un relato preciso de los comportamientos que nos importaba explicar. Y en ese momento es discutible si quieres llamarlo “significado” o “representación” o cualquiera de estas palabras cargadas. La cuestión es que hay una teoría o un modelo propuesto sobre la mesa: evaluémoslo.

Introducción

Entonces, ¿cómo puede la investigación sobre modelos lingüísticos avanzar hacia ese enfoque más directo?

El tipo de preguntas profundas que realmente me gustaría poder responder: ¿Cuáles son los componentes básicos de la inteligencia? ¿Cómo es la inteligencia humana? ¿Cómo se ve la inteligencia modelo? - son realmente importantes. Pero creo que las cosas que deben suceder durante los próximos 10 años no son muy atractivas.

Si queremos abordar estas representaciones [internas], necesitamos métodos para encontrarlas, métodos que sean científicamente sólidos. Si se hace de la manera correcta, este material metodológico de bajo nivel y súper sofisticado no generará titulares. Pero eso es lo realmente importante que nos permitirá responder correctamente a estas preguntas profundas.

Mientras tanto, los modelos van a seguir cambiando. Así que habrá muchas cosas que la gente seguirá publicando como si fueran “el gran avance”, pero probablemente no lo sea. En mi opinión, parece demasiado pronto para lograr grandes avances.

La gente está estudiando estas tareas realmente simples, como preguntar [un modelo de lenguaje para completar] “Juan le dio de beber a _______” y tratar de ver si dice “Juan” o “María”. Eso no tiene la sensación de un resultado que explique la inteligencia. Pero en realidad creo que las herramientas que estamos usando para describir este aburrido problema son esenciales para responder las preguntas profundas sobre la inteligencia.

punto_img

Información más reciente

punto_img

Habla con nosotros!

¡Hola! ¿Le puedo ayudar en algo?