Trí thông minh dữ liệu tạo

AI có biết Apple là gì không? Cô ấy muốn tìm hiểu. | Tạp chí Quanta

Ngày:

Giới thiệu

Bắt đầu nói chuyện với Ellie Pavlick về công việc của cô ấy - tìm kiếm bằng chứng về sự hiểu biết trong các mô hình ngôn ngữ lớn (LLM) - và cô ấy có thể nghe như thể đang giễu cợt nó. Cụm từ “lượn sóng bằng tay” là một cụm từ được yêu thích và nếu cô ấy đề cập đến “ý nghĩa” hoặc “lý do”, thì nó thường đi kèm với những dấu ngoặc kép không khí dễ thấy. Đây chỉ là cách Pavlick giữ mình trung thực. Là một nhà khoa học máy tính đang nghiên cứu các mô hình ngôn ngữ tại Đại học Brown và Google DeepMind, cô biết rằng nắm bắt được tính chất ủy mị vốn có của ngôn ngữ tự nhiên là cách duy nhất để xem xét nó một cách nghiêm túc. Cô nói: “Đây là một môn khoa học - và nó hơi yếu đuối.

Sự chính xác và sắc thái đã cùng tồn tại trong thế giới của Pavlick từ thời niên thiếu, khi cô thích toán và khoa học “nhưng luôn được xác định là thiên về sáng tạo hơn”. Khi còn là sinh viên, cô đã lấy được bằng kinh tế và biểu diễn saxophone trước khi theo đuổi bằng tiến sĩ về khoa học máy tính, một lĩnh vực mà cô vẫn cảm thấy mình như một người ngoài cuộc. Cô nói: “Có rất nhiều người [nghĩ] các hệ thống thông minh sẽ trông rất giống mã máy tính: gọn gàng và tiện lợi giống như nhiều hệ thống [chúng tôi] rất hiểu biết”. “Tôi chỉ tin rằng câu trả lời rất phức tạp. Nếu tôi có một giải pháp đơn giản thì tôi khá chắc chắn rằng nó sai. Và tôi không muốn mình sai.”

Một cuộc gặp gỡ tình cờ với một nhà khoa học máy tính tình cờ làm việc trong lĩnh vực xử lý ngôn ngữ tự nhiên đã khiến Pavlick bắt tay vào công việc tiến sĩ của mình để nghiên cứu cách máy tính có thể mã hóa ngữ nghĩa hoặc ý nghĩa trong ngôn ngữ. “Tôi nghĩ nó gãi một chỗ ngứa nào đó,” cô nói. “Nó liên quan đến triết học và phù hợp với rất nhiều thứ tôi đang làm.” Giờ đây, một trong những lĩnh vực nghiên cứu chính của Pavlick tập trung vào “nền tảng” - câu hỏi liệu ý nghĩa của từ có phụ thuộc vào những thứ tồn tại độc lập với chính ngôn ngữ hay không, chẳng hạn như nhận thức giác quan, tương tác xã hội hay thậm chí là những suy nghĩ khác. Các mô hình ngôn ngữ được đào tạo hoàn toàn trên văn bản, vì vậy chúng cung cấp một nền tảng hiệu quả để khám phá tầm quan trọng của nền tảng đối với ý nghĩa. Nhưng bản thân câu hỏi này đã khiến các nhà ngôn ngữ học và các nhà tư tưởng khác bận tâm trong nhiều thập kỷ.

Pavlick nói: “Đây không chỉ là vấn đề 'kỹ thuật'. “Ngôn ngữ rộng lớn đến nỗi đối với tôi, nó có cảm giác như bao trùm mọi thứ.”

Quanta đã nói chuyện với Pavlick về việc biến triết học thành khoa học, “ý nghĩa” nghĩa là gì và tầm quan trọng của những kết quả không hấp dẫn. Cuộc phỏng vấn đã được cô đọng và chỉnh sửa cho rõ ràng.

Giới thiệu

Về mặt thực nghiệm, “sự hiểu biết” hay “ý nghĩa” có nghĩa là gì? Cụ thể là bạn đang tìm kiếm điều gì?

Khi tôi bắt đầu chương trình nghiên cứu của mình tại Brown, chúng tôi quyết định rằng ý nghĩa liên quan đến các khái niệm theo một cách nào đó. Tôi nhận thấy đây là một cam kết về mặt lý thuyết mà không phải ai cũng thực hiện, nhưng nó có vẻ trực quan. Nếu bạn dùng từ “quả táo” để chỉ quả táo thì bạn cần có khái niệm về quả táo. Đó phải là một vật gì đó, cho dù bạn có dùng từ này để chỉ nó hay không. Đó chính là ý nghĩa của “có ý nghĩa”: cần phải có khái niệm, điều gì đó mà bạn đang diễn đạt bằng lời nói.

Tôi muốn tìm các khái niệm trong mô hình. Tôi muốn thứ gì đó mà tôi có thể lấy được trong mạng lưới thần kinh, bằng chứng cho thấy có một thứ đại diện cho “quả táo” trong nội bộ, cho phép nó được nhắc đến một cách nhất quán bằng cùng một từ. Bởi vì dường như có một cấu trúc bên trong không ngẫu nhiên và tùy tiện. Bạn có thể tìm thấy những phần nhỏ có chức năng được xác định rõ ràng này có thể thực hiện được điều gì đó một cách đáng tin cậy.

Tôi đang tập trung vào việc mô tả cấu trúc bên trong này. Nó có hình thức gì? Nó có thể là một tập hợp con của các trọng số trong mạng lưới thần kinh hoặc một loại phép toán đại số tuyến tính nào đó trên các trọng số đó, một loại trừu tượng hình học nào đó. Nhưng nó phải đóng vai trò nhân quả [trong hành vi của mô hình]: Nó được kết nối với những đầu vào này chứ không phải những đầu vào đó, và những đầu ra này chứ không phải những đầu ra đó.

Cảm giác đó giống như một thứ gì đó mà bạn có thể bắt đầu gọi là “ý nghĩa”. Đó là việc tìm ra cách tìm ra cấu trúc này và thiết lập các mối quan hệ, để khi chúng ta đã hiểu rõ tất cả, thì chúng ta có thể áp dụng nó cho các câu hỏi như “Nó có biết 'quả táo' nghĩa là gì không?”

Bạn đã tìm thấy bất kỳ ví dụ nào về cấu trúc này chưa?

Vâng, một kết quả liên quan đến khi một mô hình ngôn ngữ truy xuất một phần thông tin. Nếu bạn hỏi mô hình “Thủ đô của Pháp là gì”, mô hình cần phải nói “Paris” và “Thủ đô của Ba Lan là gì” sẽ trả về “Warsaw”. Nó rất dễ dàng ghi nhớ tất cả những câu trả lời này và chúng có thể nằm rải rác xung quanh [trong mô hình] - không có lý do thực sự nào khiến nó cần phải có mối liên hệ giữa những thứ đó.

Thay vào đó, chúng tôi tìm thấy một vị trí nhỏ trong mô hình nơi về cơ bản nó tổng hợp kết nối đó thành một vectơ nhỏ. Nếu bạn thêm nó vào “Thủ đô của nước Pháp là gì”, nó sẽ lấy ra “Paris”; và cùng vectơ đó, nếu bạn hỏi “Thủ đô của Ba Lan là gì” thì sẽ trả về “Warsaw”. Nó giống như vectơ “truy xuất thành phố thủ đô” có hệ thống này.

Đó là một phát hiện thực sự thú vị vì có vẻ như [mô hình này] đang cô đọng những khái niệm nhỏ này và sau đó áp dụng các thuật toán chung lên chúng. Và mặc dù chúng ta đang xem xét những câu hỏi thực sự [đơn giản] này, nhưng vấn đề là tìm ra bằng chứng về những nguyên liệu thô mà mô hình đang sử dụng. Trong trường hợp này, việc ghi nhớ sẽ dễ dàng hơn - theo nhiều cách, đó là những gì các mạng này được thiết kế để thực hiện. Thay vào đó, nó chia [thông tin] thành từng phần và “lý do” về nó. Và chúng tôi hy vọng rằng khi chúng tôi nghĩ ra những thiết kế thử nghiệm tốt hơn, chúng tôi có thể tìm thấy điều gì đó tương tự cho những loại khái niệm phức tạp hơn.

Giới thiệu

Việc nối đất liên quan đến những biểu diễn này như thế nào?

Cách con người học ngôn ngữ dựa trên rất nhiều thông tin đầu vào phi ngôn ngữ: cảm giác cơ thể, cảm xúc của bạn, dù bạn có đói hay không, bất cứ điều gì. Điều đó được coi là thực sự quan trọng đối với ý nghĩa.

Nhưng có những khái niệm khác về nền tảng liên quan nhiều hơn đến các biểu diễn bên trong. Có những từ rõ ràng không được kết nối với thế giới vật chất nhưng chúng vẫn có ý nghĩa. Một từ như “dân chủ” là một ví dụ được ưa chuộng. Đó là một điều trong đầu bạn: Tôi có thể nghĩ về dân chủ mà không cần nói về nó. Vì vậy, nền tảng có thể là từ ngôn ngữ đến thứ đó, sự thể hiện bên trong đó.

Nhưng bạn lập luận rằng ngay cả những thứ ở bên ngoài hơn, như màu sắc, vẫn có thể được gắn với những cách thể hiện “khái niệm” bên trong mà không cần dựa vào nhận thức. Nó sẽ hoạt động như thế nào?

À, mô hình ngôn ngữ không có mắt phải không? Nó không “biết” bất cứ điều gì về màu sắc. Vì vậy, có thể [nó nắm bắt] điều gì đó tổng quát hơn, chẳng hạn như hiểu được mối quan hệ giữa chúng. Tôi biết rằng khi tôi kết hợp màu xanh và màu đỏ, tôi sẽ có màu tím; những loại quan hệ đó có thể xác định cấu trúc [nền tảng] bên trong này.

Chúng tôi có thể đưa ra ví dụ về màu sắc cho LLM bằng cách sử dụng mã RGB [chuỗi số đại diện cho màu sắc]. Nếu bạn nói “OK, đây là màu đỏ” và đặt cho nó mã RGB cho màu đỏ và “Đây là màu xanh lam” với mã RGB cho màu xanh lam, sau đó nói “Hãy cho tôi biết màu tím là gì”, nó sẽ tạo mã RGB cho màu tím. Ánh xạ này phải là một dấu hiệu tốt cho thấy cấu trúc bên trong của mô hình là ổn định - nó thiếu các nhận thức [về màu sắc], nhưng cấu trúc khái niệm thì có.

Điều khó khăn là [mô hình] chỉ có thể ghi nhớ các mã RGB có trong dữ liệu huấn luyện của nó. Vì vậy, chúng tôi đã “xoay” tất cả các màu [ra khỏi giá trị RGB thực của chúng]: Chúng tôi sẽ nói với LLM rằng từ “màu vàng” được liên kết với mã RGB cho màu xanh lá cây, v.v. Mô hình hoạt động tốt: Khi bạn yêu cầu màu xanh lá cây, nó sẽ cung cấp cho bạn phiên bản xoay của mã RGB. Điều đó gợi ý rằng có một sự nhất quán nào đó trong cách thể hiện bên trong của nó về màu sắc. Đó là áp dụng kiến ​​thức về mối quan hệ của họ chứ không chỉ là ghi nhớ.

Đó là toàn bộ quan điểm của nền tảng. Ánh xạ tên vào một màu là tùy ý. Đó là nhiều hơn về mối quan hệ giữa họ. Điều đó thật thú vị.

Giới thiệu

Làm thế nào những câu hỏi nghe có vẻ triết học này lại có thể mang tính khoa học?

Gần đây tôi biết đến một thí nghiệm tưởng tượng: Điều gì sẽ xảy ra nếu đại dương tràn vào cát và [khi nó] rút lui, các hình mẫu tạo ra một bài thơ? Bài thơ có ý nghĩa không? Điều đó có vẻ siêu trừu tượng và bạn có thể có một cuộc tranh luận triết học kéo dài.

Điều thú vị về mô hình ngôn ngữ là chúng ta không cần thử nghiệm tư duy. Nó không giống như, “Về lý thuyết, liệu thứ như vậy và thứ như vậy có thông minh không?” Chỉ là: Thứ này có thông minh không? Nó trở nên khoa học và thực nghiệm.

Đôi khi mọi người có thái độ bác bỏ; có “vẹt ngẫu nhiên" tiếp cận. Tôi nghĩ nó [xuất phát từ] nỗi sợ hãi rằng mọi người sẽ đăng ký quá nhiều thông tin tình báo vào những thứ này - điều mà chúng tôi thấy. Và để khắc phục điều đó, mọi người sẽ nói, “Không, tất cả chỉ là giả tạo. Đây là khói và gương.”

Đó là một chút bất lợi. Chúng ta đã tìm ra một điều gì đó khá thú vị và khá mới mẻ, và đáng để hiểu sâu sắc về nó. Đó là một cơ hội lớn không nên bỏ qua vì chúng tôi lo lắng về việc diễn giải quá mức các mô hình.

Tất nhiên, bạn'cũng đã sản xuất nghiên cứu vạch trần chính xác kiểu diễn giải quá mức đó.

Công việc đó, nơi mọi người tìm thấy tất cả “các phương pháp phỏng đoán nông cạn” mà các mô hình đang khai thác [để bắt chước sự hiểu biết] - những điều đó rất nền tảng cho tuổi trưởng thành của tôi với tư cách là một nhà khoa học. Nhưng nó phức tạp. Giống như đừng tuyên bố chiến thắng quá sớm. Có một chút hoài nghi hoặc hoang tưởng [trong tôi] rằng việc đánh giá đã được thực hiện đúng, thậm chí cả việc đánh giá mà tôi biết mình đã thiết kế rất cẩn thận!

Vì vậy, đó là một phần của nó: không tuyên bố quá mức. Một phần khác là, nếu bạn làm việc với các hệ thống [mô hình ngôn ngữ] này, bạn sẽ biết rằng chúng không ở cấp độ con người - cách chúng giải quyết mọi việc không thông minh như người ta tưởng.

Giới thiệu

Khi có rất nhiều phương pháp và thuật ngữ cơ bản được tranh luận trong lĩnh vực này, bạn làm cách nào để đo lường thành công?

Điều tôi nghĩ chúng tôi đang tìm kiếm, với tư cách là các nhà khoa học, là một mô tả chính xác, dễ hiểu cho con người về điều chúng tôi quan tâm - trong trường hợp này là trí thông minh. Và sau đó chúng tôi đính kèm các từ để giúp chúng tôi đạt được điều đó. Chúng ta cần một số loại từ vựng có ích.

Nhưng điều đó thật khó, vì khi đó bạn có thể tham gia vào cuộc chiến ngữ nghĩa này. Khi người ta nói “Nó có ý nghĩa gì không: có hay không?” Tôi không biết. Chúng ta đang hướng cuộc trò chuyện đến sai hướng.

Điều tôi đang cố gắng đưa ra là một bản tường thuật chính xác về những hành vi mà chúng tôi quan tâm giải thích. Và ở thời điểm đó, việc bạn muốn gọi nó là “ý nghĩa” hay “sự đại diện” hay bất kỳ từ nào trong số những từ được tải này sẽ gây tranh cãi. Vấn đề là có một lý thuyết hoặc một mô hình được đề xuất trên bàn - hãy đánh giá điều đó.

Giới thiệu

Vậy làm thế nào nghiên cứu về mô hình ngôn ngữ có thể hướng tới cách tiếp cận trực tiếp hơn?

Những loại câu hỏi sâu sắc mà tôi thực sự muốn có thể trả lời - Nền tảng của trí thông minh là gì? Trí thông minh của con người trông như thế nào? Trí thông minh của mô hình trông như thế nào? - thực sự quan trọng. Nhưng tôi nghĩ những điều cần xảy ra trong 10 năm tới không hấp dẫn lắm.

Nếu chúng ta muốn giải quyết những cách biểu diễn [nội bộ] này, chúng ta cần những phương pháp để tìm ra chúng - những phương pháp hợp lý về mặt khoa học. Nếu nó được thực hiện đúng cách, thì phương pháp luận cấp thấp, siêu dễ này sẽ không gây được sự chú ý. Nhưng đó mới là điều thực sự quan trọng sẽ cho phép chúng ta trả lời chính xác những câu hỏi sâu sắc này.

Trong khi đó, các mô hình sẽ tiếp tục thay đổi. Vì vậy, sẽ có rất nhiều thứ mà mọi người sẽ tiếp tục xuất bản như thể đó là “bước đột phá”, nhưng có lẽ không phải vậy. Trong suy nghĩ của tôi, có vẻ còn quá sớm để đạt được những bước đột phá lớn.

Mọi người đang nghiên cứu những nhiệm vụ thực sự đơn giản này, chẳng hạn như yêu cầu [một mô hình ngôn ngữ cần hoàn thành] “John đưa đồ uống cho _______” và cố gắng xem liệu nó nói “John” hay “Mary”. Điều đó không có cảm giác về một kết quả giải thích được trí thông minh. Nhưng tôi thực sự tin rằng những công cụ chúng ta đang sử dụng để mô tả vấn đề nhàm chán này là cần thiết để trả lời những câu hỏi sâu sắc về trí thông minh.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?