Trí thông minh dữ liệu tạo

Chắc chắn rồi, Microsoft, hãy để ChatGPT kiểm soát rô-bốt

Ngày:

Video Microsoft, đã cam kết đầu tư “nhiều năm, nhiều tỷ đô la” vào OpenAI, bị mê hoặc bởi các mô hình ngôn ngữ lớn như ChatGPT đến mức họ thấy phần mềm hiểu biết như vậy đơn giản hóa cách chúng ta giao tiếp với rô-bốt.

ChatGPT là một mô hình ngôn ngữ lớn (LLM) được đào tạo trên bộ dữ liệu OpenAI GPT (Generative Pre-training Transformer), bao gồm văn bản được lấy từ web và các nguồn khác. Mặc dù vậy, kết hợp với giao diện trò chuyện, khả năng trả lời các câu hỏi của mô hình một cách mạch lạc không phải lúc nào cũng chính xác, giành cho nó một vị trí trong công cụ tìm kiếm Bing của Microsoft, và khiến người ta xì xào bàn tán rằng sự thống trị của trang web được trang trí bằng quảng cáo, được trang trí bằng SEO, hỗ trợ thanh toán Tìm kiếm của Google cuối cùng có thể sắp kết thúc.

không đủ bận rộn dập lửa từ sự kết hợp trí tuệ nhân tạo của Bing, Microsoft hiện đang đề xuất ChatGPT như một cách giúp mọi người điều khiển robot trong thế giới thực.

“Mục tiêu của chúng tôi với nghiên cứu này là để xem liệu ChatGPT có thể nghĩ xa hơn văn bản hay không và suy luận về thế giới vật chất để trợ giúp các nhiệm vụ của rô-bốt,” công ty cho biết trong đưa lên vào thứ Hai. “Chúng tôi muốn giúp mọi người tương tác với rô-bốt dễ dàng hơn mà không cần học các ngôn ngữ lập trình phức tạp hay chi tiết về hệ thống rô-bốt.”

Để đạt được mục đích đó, các nhà nghiên cứu của Redmond đã phát hành Nhắc nhở, được mô tả là một nền tảng mã nguồn mở hợp tác để chia sẻ cách tốt nhất từ ​​các truy vấn LLM và lệnh cho robot.

Hóa ra bạn không thể đi thẳng đến “Làm ơn mở cửa pod bay đi, Hal,” nếu bạn đang tương tác với ChatGPT dưới dạng kênh điều khiển bằng giọng nói cho máy bay không người lái. Bạn phải thiết lập bối cảnh cho mô hình. Nó bắt đầu một cái gì đó như thế này:

Hãy tưởng tượng bạn đang giúp tôi tương tác với trình giả lập AirSim dành cho máy bay không người lái. Tại bất kỳ thời điểm nào, bạn có các khả năng sau, mỗi khả năng được xác định bằng một thẻ duy nhất. Bạn cũng được yêu cầu xuất mã cho một số yêu cầu.

Câu hỏi: Bạn có thể hỏi tôi một câu hỏi làm rõ, miễn là bạn xác định cụ thể nó là “Câu hỏi”. Mã: Xuất lệnh mã đạt được mục tiêu mong muốn.

Lý do: Sau khi bạn xuất mã, bạn nên giải thích lý do tại sao bạn đã làm những gì bạn đã làm.

Trình giả lập chứa một máy bay không người lái, cùng với một số đồ vật. Ngoài máy bay không người lái, không có vật thể nào có thể di chuyển được. Trong mã, chúng tôi có sẵn các lệnh sau. Bạn không được sử dụng bất kỳ chức năng giả định nào khác.

...

Và có những thông số điều hướng quan trọng cần được chỉ định. Nhưng sau một số chuẩn bị, bạn có thể đạt đến mức có thể trò chuyện với ChatGPT và điều khiển máy bay không người lái tìm đồ uống cho bạn trong môi trường xung quanh. Hoặc nó có thể tạo mã Python, nếu không có lỗi, sẽ cho phép máy bay không người lái thực hiện đấu thầu của bạn.

Youtube video

“ChatGPT mở ra một mô hình rô-bốt mới và cho phép người dùng (có thể không có kỹ thuật) ngồi trên vòng lặp, cung cấp phản hồi cấp cao cho mô hình ngôn ngữ lớn (LLM) trong khi theo dõi hiệu suất của rô-bốt,” Microsoft giải thích. “Bằng cách tuân theo bộ nguyên tắc thiết kế của chúng tôi, ChatGPT có thể tạo mã cho các kịch bản người máy.”

Nói cách khác, cùng một loại mã không nhất thiết phải chính xác do Github Copilot tạo ra có thể được cung cấp trực tiếp cho rô bốt thông qua ChatGPT để giúp rô bốt hoàn thành một nhiệm vụ cụ thể.

Sai Vemprala, Rogerio Bonatti, Arthur Bucker và Ashish Kapoor, từ Nhóm nghiên cứu rô-bốt và hệ thống tự trị của Microsoft, mô tả nỗ lực của họ để điều khiển rô-bốt thông qua ChatGPT trong một bài nghiên cứu [PDF] có tiêu đề “ChatGPT cho Robotics: Nguyên tắc thiết kế và khả năng của mô hình.”

Dự án xác định một API cấp cao mà ChatGPT có thể hiểu và ánh xạ API đó tới các chức năng của rô-bốt cấp thấp hơn. Sau đó, họ viết lời nhắc văn bản cho ChatGPT mô tả các mục tiêu của nhiệm vụ, chỉ định các chức năng khả dụng và đặt các ràng buộc cho nhiệm vụ.

ChatGPT sau đó đã phản hồi bằng cách tạo mã áp dụng cho thiết bị để hoàn thành bất kỳ mục tiêu mô phỏng nào đã được đặt. Ý tưởng là một người trò chuyện với ChatGPT có thể kiểm tra lỗi chỉ thị của rô-bốt cho đến khi chúng hoạt động bình thường.

Các quan chức của Microsoft cho rằng ChatGPT có khả năng “suy luận không gian”, dựa trên khả năng điều khiển rô-bốt bằng máy ảnh, vì vậy nó có thể sử dụng các cảm biến hình ảnh để bắt bóng rổ.

Họ giải thích trong bài báo: “Chúng tôi thấy rằng ChatGPT có thể sử dụng một cách thích hợp các chức năng API được cung cấp, suy luận về hình dạng của quả bóng và gọi các chức năng OpenCV có liên quan cũng như điều khiển vận tốc của rô-bốt dựa trên bộ điều khiển tỷ lệ”.

Lập luận kiểu đó - có một số mô hình thông thường về thế giới - giúp rô-bốt hoạt động hiệu quả trong môi trường vật lý dễ dàng hơn rất nhiều, người ta lập luận. Ngành công nghiệp xe tự lái vẫn chưa xuất hiện và có vẻ như ChatGPT cũng vậy.

Chỉ trong tuần này, một cặp nhà nghiên cứu từ Đại học Nam California, Zhisheng Tang và Mayank Kejriwal, đã phát hành một tờ giấy thông qua ArXiv thách thức khả năng đưa ra những suy luận hợp lý về thế giới của ChatGPT và DALL•E 2.

Bài báo có tiêu đề “Đánh giá thử nghiệm ChatGPT và DALL-E 2 về quá trình ra quyết định và suy luận không gian,” kết luận rằng hai mô hình suy luận không nhất quán.

Đối với ChatGPT, họ phát hiện ra rằng, “mặc dù nó thể hiện một số mức độ ra quyết định hợp lý, nhưng nhiều quyết định của nó vi phạm ít nhất một trong các tiên đề ngay cả dưới các cấu trúc hợp lý về sở thích, đặt cược và gợi ý ra quyết định.” Và đôi khi, họ nói, ChatGPT đưa ra quyết định đúng đắn vì những lý do sai lầm.

Các quan chức của Microsoft thừa nhận rằng ChatGPT có những hạn chế và họ lưu ý rằng không nên áp dụng kết quả đầu ra của mô hình cho rô-bốt chưa được kiểm tra.

“Chúng tôi nhấn mạnh rằng những công cụ này không nên được trao toàn quyền kiểm soát hệ thống robot, đặc biệt là đối với các ứng dụng quan trọng về an toàn,” họ nêu trong bài báo của mình. “Do xu hướng của các LLM cuối cùng tạo ra các phản hồi không chính xác, điều khá quan trọng là phải đảm bảo chất lượng giải pháp và độ an toàn của mã với sự giám sát của con người trước khi thực hiện nó trên rô-bốt.” ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img