생성 데이터 인텔리전스

Apple, 좀 더 정확한 LLM인 OpenELM 출시

시간

일반적으로 개방성으로 알려지지 않은 Apple은 공개 데이터 세트에서 훈련된 다른 언어 모델 세트보다 성능이 뛰어난 OpenELM이라는 생성 AI 모델을 출시했습니다.

에 비하면 많지는 않습니다. OLMo2월에 데뷔한, 오픈ELM 2.36배 적은 사전 훈련 토큰을 사용하면서 2% 더 정확합니다. 그러나 이는 애플이 더 이상 업계 AI 극찬의 꽃이 되는 것에 만족하지 않는다는 점을 사람들에게 상기시키기에 충분할 것입니다.

개방성에 대한 Apple의 주장은 모델뿐만 아니라 교육 및 평가 프레임워크를 출시하기로 한 결정에서 비롯됩니다.

“모델 가중치와 추론 코드만 제공하고 비공개 데이터 세트에 대한 사전 훈련을 제공했던 이전 관행과 달리, 우리 릴리스에는 훈련 로그, 다중 체크포인트 및 사전 학습을 포함하여 공개적으로 사용 가능한 데이터 세트에 대한 언어 모델의 훈련 및 평가를 위한 완전한 프레임워크가 포함되어 있습니다. -훈련 구성”이라고 관련 Apple 연구원 11명이 설명합니다. 기술 논문.

그리고 학문적 관행에 따라 저자의 이메일 주소는 기재하지 않습니다. 개방성에 대한 Apple의 해석을 생각해 보세요. 이는 그다지 개방적이지 않은 OpenAI와 다소 비슷합니다.

동반 소프트웨어 릴리스 은(는) 인정된 오픈 소스 라이선스가 아닙니다. 이는 지나치게 제한적이지는 않지만, OpenELM을 기반으로 한 파생 저작물이 Apple의 권리를 침해하는 것으로 간주되는 경우 Apple이 특허 청구를 제기할 권리를 보유하고 있음을 분명히 합니다.

OpenELM은 레이어별 스케일링이라는 기술을 활용하여 변환기 모델에서 매개변수를 보다 효율적으로 할당합니다. 따라서 각 레이어가 동일한 매개변수 세트를 갖는 대신 OpenELM의 변환기 레이어는 서로 다른 구성과 매개변수를 갖습니다. 결과가 더 좋아졌네요 , 벤치마크 테스트에서 모델의 정확한 예측 비율로 표시됩니다.

OpenELM은 다음을 사용하여 사전 훈련되었다고 들었습니다. 레드파자마 GitHub의 데이터 세트, 수많은 책, Wikipedia, StackExchange 게시물, ArXiv 논문 등 돌마 Reddit, Wikibooks, Project Gutenberg 등에서 설정되었습니다. 모델은 예상대로 사용할 수 있습니다. 프롬프트를 표시하면 응답하거나 자동 완성을 시도합니다.

이번 릴리스에서 주목할만한 점 중 하나는 "Apple 기기에서 추론 및 미세 조정을 위해 모델을 MLX 라이브러리로 변환하는 코드"가 함께 제공된다는 점입니다.

MLX Apple Silicon에서 기계 학습을 실행하기 위해 작년에 출시된 프레임워크입니다. 네트워크를 통하지 않고 Apple 장치에서 로컬로 작동할 수 있는 기능은 OpenELM을 개발자에게 더욱 흥미롭게 만듭니다.

AI 서비스 사업 AQuant의 CEO이자 공동 창업자인 Shahar Chen은 "Apple의 OpenELM 출시는 컴퓨팅 능력이 제한된 모바일 앱 및 IoT 장치에 이상적인 효율적인 온디바이스 AI 처리를 제공함으로써 AI 커뮤니티에 중요한 발전을 가져왔습니다"라고 말했습니다. 등록. “이를 통해 스마트폰부터 스마트 홈 기기까지 모든 것에 필수적인 신속한 현지 의사결정이 가능해지며, 일상 기술에서 AI의 잠재력이 확장됩니다.”

Apple은 Cupertino가 출시한 이후 하드웨어에서 특별히 지원되는 기계 학습을 위한 자체 개발 칩 아키텍처의 장점을 보여주고 싶어합니다. 신경 엔진 그럼에도 불구하고 OpenELM은 정확도 벤치마크에서 더 높은 점수를 받을 수 있지만 성능 측면에서는 부족합니다.

"유사한 매개변수 수에 대한 OpenELM의 정확도가 높음에도 불구하고 우리는 이것이 OLMo보다 느리다는 것을 관찰했습니다."라고 이 문서에서는 Linux에서 Nvidia의 CUDA와 Apple Silicon에서 OpenELM의 MLX 버전을 사용하여 실행된 테스트를 인용하면서 설명합니다.

승리하지 못한 이유는 애플이 말하는 "순진한 구현" 때문이라고 합니다. RMS표준,” 머신러닝에서 데이터를 정규화하는 기술입니다. 앞으로는 추가적인 최적화를 모색할 계획입니다.

OpenELM은 270억 450천만 개, 1.1억 3천만 개, XNUMX억 개, XNUMX억 개 매개변수를 갖춘 사전 훈련 및 명령 조정 모델로 제공됩니다. 이를 사용하는 사람들은 의미 있는 모델을 시도하기 전에 실사를 수행해야 한다는 경고를 받습니다.

“OpenELM 모델의 출시는 최첨단 언어 모델에 대한 액세스를 제공함으로써 개방형 연구 커뮤니티를 강화하고 풍요롭게 하는 것을 목표로 합니다.”라고 논문은 말합니다. "공개적으로 사용 가능한 데이터 세트를 기반으로 훈련된 이 모델은 어떠한 안전 보장 없이 사용할 수 있습니다." ®

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?