Generativ dataintelligens

Denne ultralette AI-model passer på din telefon og kan slå ChatGPT – Dekrypter

Dato:

Microsoft i dag hævdede at det har udgivet "de mest dygtige og omkostningseffektive små sprogmodeller (SLM'er) tilgængelige," siger Phi-3— den tredje iteration af dens Phi familie af små sprogmodeller (SLM'er) – overgår modeller af sammenlignelig størrelse og nogle få større.

En lille sprogmodel (SLM) er en type AI-model, der er designet til at være ekstremt effektiv til at udføre specifikke sprogrelaterede opgaver. I modsætning til store sprogmodeller (LLM'er), som er velegnede til en bred vifte af generiske opgaver, er SLM'er bygget på et mindre datasæt for at gøre dem mere effektive og omkostningseffektive til specifikke brugstilfælde.

Phi-3 kommer i forskellige versioner, forklarede Microsoft, hvor den mindste er Phi-3 Mini, en 3.8 milliarder parametermodel trænet på 3.3 billioner tokens. På trods af dens forholdsvis lille størrelse - vejer Lama-3's korpus over 15 billioner tokens af data – Phi-3 Mini er stadig i stand til at håndtere 128K tokens of context. Dette gør den sammenlignelig med GPT-4 og slår Llama-3 og Mistral Large med hensyn til token-kapacitet.

Med andre ord kan kunstig intelligens som Llama-3 på Meta.ai og Mistral Large kollapse efter en lang chat eller prompte længe før denne letvægtsmodel begynder at kæmpe.

En af de væsentligste fordele ved Phi-3 Mini er dens evne til at passe og køre på en typisk smartphone. Microsoft testede modellen på en iPhone 14, og den kørte uden problemer og genererede 14 tokens i sekundet. At køre Phi-3 Mini kræver kun 1.8 GB VRAM, hvilket gør det til et let og effektivt alternativ for brugere med mere fokuserede krav.

Selvom Phi-3 Mini måske ikke er så velegnet til avancerede kodere eller personer med brede krav, kan det være et effektivt alternativ for brugere med specifikke behov. For eksempel kan startups, der har brug for en chatbot eller folk, der udnytter LLM'er til dataanalyse, bruge Phi-3 Mini til opgaver som dataorganisering, udtrækning af information, matematisk ræsonnement og opbygning af agenter. Hvis modellen får internetadgang, kan den blive temmelig kraftfuld og kompensere for dens manglende evner med realtidsinformation.

Phi-3 Mini opnår høje testresultater på grund af Microsofts fokus på at kurere sit datasæt med den mest nyttige information som muligt. Den bredere Phi-familie er faktisk ikke god til opgaver, der kræver faktuel viden, men høje ræsonnementskompetencer placerer dem over større konkurrenter. Phi-3 Medium (en 14-milliarder parametermodel) slår konsekvent kraftfulde LLM'er som GPT-3.5 - LLM'en, der driver den gratis version af ChatGPT - og Mini-versionen slår kraftfulde modeller som Mixtral-8x7B i størstedelen af ​​de syntetiske benchmarks.

Det er dog værd at bemærke, at Phi-3 ikke er open source som sin forgænger, Phi-2. I stedet er det en åben model, hvilket betyder, at den er tilgængelig og tilgængelig til brug, men den har ikke den samme open source-licens som Phi-2, hvilket giver mulighed for bredere brug og kommercielle applikationer.

I de kommende uger sagde Microsoft, at det vil frigive flere modeller i Phi-3-familien, inklusive Phi-3 Small (7 milliarder parametre) og det førnævnte Phi-3 Medium.

Microsoft har gjort Phi-3 Mini tilgængelig på Azure AI Studio, Hugging Face og Ollama. Modellen er instruktionstunet og optimeret til ONNX Runtime med understøttelse af Windows DirectML, samt understøttelse på tværs af platforme på tværs af forskellige GPU'er, CPU'er og endda mobil hardware.

Hold dig opdateret med kryptonyheder, få daglige opdateringer i din indbakke.

spot_img

Seneste efterretninger

spot_img

Chat med os

Hej! Hvordan kan jeg hjælpe dig?