Trí thông minh dữ liệu tạo

Apple phát hành OpenELM, LLM chính xác hơn một chút

Ngày:

Apple, thường không được biết đến với tính cởi mở, đã phát hành một mô hình AI tổng quát có tên OpenELM, dường như vượt trội hơn một tập hợp các mô hình ngôn ngữ khác được đào tạo trên các tập dữ liệu công cộng.

Nó không nhiều – so với OLMo, ra mắt vào tháng 2, OpenELM chính xác hơn 2.36 phần trăm trong khi sử dụng mã thông báo đào tạo trước ít hơn 2 lần. Nhưng có lẽ nó đủ để nhắc nhở mọi người rằng Apple không còn hài lòng với vai trò là hoa tường vi trong cơn sốt AI trong ngành nữa.

Tuyên bố về tính cởi mở của Apple xuất phát từ quyết định phát hành không chỉ mô hình mà còn cả khung đào tạo và đánh giá.

“Khác với các phương pháp trước đây chỉ cung cấp trọng số mô hình và mã suy luận cũng như đào tạo trước trên các tập dữ liệu riêng tư, bản phát hành của chúng tôi bao gồm khuôn khổ hoàn chỉnh để đào tạo và đánh giá mô hình ngôn ngữ trên các tập dữ liệu có sẵn công khai, bao gồm nhật ký đào tạo, nhiều điểm kiểm tra và cài đặt trước. -cấu hình đào tạo,” mười một nhà nghiên cứu của Apple giải thích trong phần liên quan giấy kỹ thuật.

Và khác với thực tiễn học thuật, địa chỉ email của tác giả không được liệt kê. Hãy đánh dấu nó theo cách giải thích của Apple về tính cởi mở, phần nào có thể so sánh được với OpenAI không mấy cởi mở.

Các đính kèm phát hành phần mềm không phải là giấy phép nguồn mở được công nhận. Nó không phải là hạn chế quá mức, nhưng nó làm rõ rằng Apple có quyền nộp đơn yêu cầu bằng sáng chế nếu bất kỳ tác phẩm phái sinh nào dựa trên OpenELM bị coi là vi phạm các quyền của họ.

OpenELM sử dụng một kỹ thuật gọi là chia tỷ lệ theo lớp để phân bổ các tham số hiệu quả hơn trong mô hình máy biến áp. Vì vậy, thay vì mỗi lớp có cùng một bộ tham số, các lớp biến áp của OpenELM có cấu hình và tham số khác nhau. Kết quả là tốt hơn chính xác, được thể hiện bằng phần trăm dự đoán đúng từ mô hình trong các bài kiểm tra điểm chuẩn.

Chúng tôi được biết rằng OpenELM đã được đào tạo trước bằng cách sử dụng Bộ Đồ Ngủ Màu Đỏ tập dữ liệu từ GitHub, rất nhiều sách, Wikipedia, bài đăng trên StackExchange, tài liệu ArXiv, v.v. nhồi được đặt từ Reddit, Wikibooks, Project Gutenberg, v.v. Mô hình có thể được sử dụng như bạn mong đợi: Bạn đưa ra lời nhắc và mô hình sẽ cố gắng trả lời hoặc tự động hoàn thành mô hình đó.

Một khía cạnh đáng chú ý của bản phát hành là nó đi kèm với “mã chuyển đổi mô hình sang thư viện MLX để suy luận và tinh chỉnh trên các thiết bị Apple”.

MLX là một khuôn khổ được phát hành năm ngoái để chạy máy học trên silicon của Apple. Khả năng hoạt động cục bộ trên các thiết bị Apple, thay vì qua mạng, sẽ khiến OpenELM trở nên thú vị hơn đối với các nhà phát triển.

Shahar Chen, CEO và đồng sáng lập của dịch vụ AI biz Aquant, cho biết: “Bản phát hành OpenELM của Apple đánh dấu một bước tiến đáng kể cho cộng đồng AI, cung cấp giải pháp xử lý AI trên thiết bị hiệu quả, lý tưởng cho các ứng dụng di động và thiết bị IoT có khả năng tính toán hạn chế”. Đăng ký. “Điều này cho phép đưa ra quyết định cục bộ, nhanh chóng, cần thiết cho mọi thứ từ điện thoại thông minh đến thiết bị nhà thông minh, mở rộng tiềm năng cho AI trong công nghệ hàng ngày.”

Apple rất muốn thể hiện giá trị của kiến ​​trúc chip cây nhà lá vườn của mình đối với máy học, được hỗ trợ đặc biệt trong phần cứng kể từ khi Cupertino giới thiệu kiến ​​trúc này. Động cơ thần kinh vào năm 2017. Tuy nhiên, OpenELM, mặc dù có thể đạt điểm cao hơn về các điểm chuẩn về độ chính xác, nhưng lại kém về mặt hiệu suất.

“Mặc dù OpenELM có độ chính xác cao hơn đối với số lượng tham số tương tự, nhưng chúng tôi nhận thấy rằng nó chậm hơn OLMo,” bài báo giải thích, trích dẫn các thử nghiệm chạy bằng CUDA của Nvidia trên Linux cũng như phiên bản MLX của OpenELM trên Apple Silicon.

Các quan chức của Apple cho biết lý do cho màn trình diễn không mấy thắng lợi là do họ “thực hiện một cách ngây thơ RMSNorm,” một kỹ thuật chuẩn hóa dữ liệu trong học máy. Trong tương lai, họ có kế hoạch khám phá những tối ưu hóa hơn nữa.

OpenELM có sẵn trong các mô hình được huấn luyện trước và điều chỉnh theo hướng dẫn với 270 triệu, 450 triệu, 1.1 tỷ và 3 tỷ tham số. Những người sử dụng nó được cảnh báo phải thực hiện thẩm định trước khi thử mô hình này cho bất kỳ điều gì có ý nghĩa.

“Việc phát hành các mô hình OpenELM nhằm mục đích trao quyền và làm phong phú thêm cộng đồng nghiên cứu mở bằng cách cung cấp quyền truy cập vào các mô hình ngôn ngữ tiên tiến nhất,” bài báo cho biết. “Được đào tạo trên các bộ dữ liệu có sẵn công khai, những mô hình này được cung cấp mà không có bất kỳ đảm bảo an toàn nào.” ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?