ജനറേറ്റീവ് ഡാറ്റ ഇന്റലിജൻസ്

ആമസോൺ സേജ് മേക്കർ മോഡൽ പാരലൽ, ഡാറ്റ പാരലൽ ലൈബ്രറികൾക്കൊപ്പം വിതരണം ചെയ്ത പരിശീലനവും കാര്യക്ഷമമായ സ്കെയിലിംഗും | ആമസോൺ വെബ് സേവനങ്ങൾ

തീയതി:

വലിയ ഭാഷാ മോഡലുകൾക്ക് (LLM-കൾ) വിതരണം ചെയ്യുന്ന ആഴത്തിലുള്ള പഠന മേഖലയിൽ വലിയ പുരോഗതി ഉണ്ടായിട്ടുണ്ട്, പ്രത്യേകിച്ചും 2022 ഡിസംബറിൽ ChatGPT പുറത്തിറങ്ങിയതിന് ശേഷം. LLM-കൾ ശതകോടികളോ ട്രില്യൺ കണക്കിന് പാരാമീറ്ററുകളോ ഉപയോഗിച്ച് വലുപ്പത്തിൽ വളരുന്നത് തുടരുന്നു, അവ പലപ്പോഴും വളരുകയില്ല. മെമ്മറി പരിമിതികൾ കാരണം GPU പോലെയുള്ള ഒരൊറ്റ ആക്സിലറേറ്റർ ഉപകരണത്തിലോ അല്ലെങ്കിൽ ml.p5.32xlarge പോലെയുള്ള ഒരൊറ്റ നോഡിലോ യോജിപ്പിക്കുക. LLM-കളെ പരിശീലിപ്പിക്കുന്ന ഉപഭോക്താക്കൾ പലപ്പോഴും അവരുടെ ജോലിഭാരം നൂറുകണക്കിന് അല്ലെങ്കിൽ ആയിരക്കണക്കിന് GPU-കളിൽ വിതരണം ചെയ്യണം. വിതരണം ചെയ്ത പരിശീലനത്തിൽ അത്തരം സ്കെയിലിൽ പരിശീലനം പ്രാപ്‌തമാക്കുന്നത് ഒരു വെല്ലുവിളിയായി തുടരുന്നു, മാത്രമല്ല ഇത്രയും വലിയ സംവിധാനത്തിൽ കാര്യക്ഷമമായി പരിശീലനം നേടുന്നത് മറ്റൊരു പ്രധാന പ്രശ്‌നമാണ്. കഴിഞ്ഞ വർഷങ്ങളിൽ, വിതരണം ചെയ്യപ്പെട്ട പരിശീലന കമ്മ്യൂണിറ്റി അത്തരം വെല്ലുവിളികളെ നേരിടാൻ 3D പാരലലിസവും (ഡാറ്റ പാരലലിസം, പൈപ്പ്ലൈൻ പാരലലിസം, ടെൻസർ പാരലലിസം) മറ്റ് സാങ്കേതിക വിദ്യകളും (സീക്വൻസ് പാരലലിസം, എക്സ്പെർട്ട് പാരലലിസം പോലുള്ളവ) അവതരിപ്പിച്ചിട്ടുണ്ട്.

2023 ഡിസംബറിൽ, ആമസോൺ റിലീസ് പ്രഖ്യാപിച്ചു സേജ് മേക്കർ മോഡൽ പാരലൽ ലൈബ്രറി 2.0 (SMP), വലിയ മോഡൽ പരിശീലനത്തിൽ അത്യാധുനിക കാര്യക്ഷമത കൈവരിക്കുന്നു SageMaker ഡാറ്റ പാരലലിസം ലൈബ്രറി വിതരണം ചെയ്തു (എസ്എംഡിഡിപി). ഈ റിലീസ് 1.x-ൽ നിന്നുള്ള ഒരു സുപ്രധാന അപ്‌ഡേറ്റാണ്: SMP ഇപ്പോൾ ഓപ്പൺ സോഴ്‌സ് PyTorch-മായി സംയോജിപ്പിച്ചിരിക്കുന്നു പൂർണ്ണമായി പങ്കിട്ട ഡാറ്റ സമാന്തരം (FSDP) API-കൾ, വലിയ മോഡലുകൾ പരിശീലിപ്പിക്കുമ്പോൾ പരിചിതമായ ഒരു ഇൻ്റർഫേസ് ഉപയോഗിക്കാൻ നിങ്ങളെ അനുവദിക്കുന്ന, ഒപ്പം അനുയോജ്യവുമാണ് ട്രാൻസ്ഫോർമർ എഞ്ചിൻ (TE), എഫ്എസ്ഡിപിയ്ക്കൊപ്പം ടെൻസർ പാരലലിസം ടെക്നിക്കുകൾ ആദ്യമായി അൺലോക്ക് ചെയ്യുന്നു. റിലീസിനെ കുറിച്ച് കൂടുതലറിയാൻ, റഫർ ചെയ്യുക ആമസോൺ സേജ് മേക്കർ മോഡൽ പാരലൽ ലൈബ്രറി ഇപ്പോൾ PyTorch FSDP വർക്ക്ലോഡുകളെ 20% വരെ ത്വരിതപ്പെടുത്തുന്നു.

ഈ പോസ്റ്റിൽ, ഇതിൻ്റെ പ്രകടന നേട്ടങ്ങൾ ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യുന്നു ആമസോൺ സേജ് മേക്കർ (SMP, SMDDP എന്നിവയുൾപ്പെടെ), വലിയ മോഡലുകളെ SageMaker-ൽ കാര്യക്ഷമമായി പരിശീലിപ്പിക്കാൻ നിങ്ങൾക്ക് ലൈബ്രറി എങ്ങനെ ഉപയോഗിക്കാം. 4 സംഭവങ്ങൾ വരെ ml.p24d.128x ലാർജ് ക്ലസ്റ്ററുകളിൽ ബെഞ്ച്മാർക്കുകളുള്ള SageMaker-ൻ്റെ പ്രകടനവും Llama 16 മോഡലിനായി FSDP മിക്സഡ് പ്രിസിഷൻ bfloat2-ഉം ഞങ്ങൾ പ്രകടിപ്പിക്കുന്നു. SageMaker-നുള്ള നിയർ-ലീനിയർ സ്കെയിലിംഗ് കാര്യക്ഷമതയുടെ ഒരു പ്രകടനത്തോടെ ഞങ്ങൾ ആരംഭിക്കുന്നു, തുടർന്ന് ഒപ്റ്റിമൽ ത്രൂപുട്ടിനായി ഓരോ ഫീച്ചറിൽ നിന്നുമുള്ള സംഭാവനകൾ വിശകലനം ചെയ്യുന്നു, കൂടാതെ ടെൻസർ പാരലലിസത്തിലൂടെ 32,768 വരെയുള്ള വിവിധ ശ്രേണി ദൈർഘ്യങ്ങളുള്ള കാര്യക്ഷമമായ പരിശീലനത്തോടെ അവസാനിക്കുന്നു.

സേജ് മേക്കർ ഉപയോഗിച്ചുള്ള നിയർ-ലീനിയർ സ്കെയിലിംഗ്

LLM മോഡലുകളുടെ മൊത്തത്തിലുള്ള പരിശീലന സമയം കുറയ്ക്കുന്നതിന്, വലിയ ക്ലസ്റ്ററുകളിലേക്ക് (ആയിരക്കണക്കിന് GPU-കൾ) സ്കെയിൽ ചെയ്യുമ്പോൾ ഉയർന്ന ത്രൂപുട്ട് സംരക്ഷിക്കുന്നത് ഇൻ്റർ-നോഡ് കമ്മ്യൂണിക്കേഷൻ ഓവർഹെഡ് കണക്കിലെടുക്കുമ്പോൾ നിർണായകമാണ്. ഈ പോസ്റ്റിൽ, എസ്എംപിയും എസ്എംഡിഡിപിയും അഭ്യർത്ഥിക്കുന്ന p4d സംഭവങ്ങളിൽ കരുത്തുറ്റതും രേഖീയവുമായ സ്കെയിലിംഗ് (ഒരു നിശ്ചിത മൊത്തത്തിലുള്ള പ്രശ്ന വലുപ്പത്തിനായുള്ള GPU-കളുടെ എണ്ണം വ്യത്യാസപ്പെടുത്തുന്നതിലൂടെ) കാര്യക്ഷമത ഞങ്ങൾ പ്രകടമാക്കുന്നു.

ഈ വിഭാഗത്തിൽ, ഞങ്ങൾ എസ്എംപിയുടെ നിയർ-ലീനിയർ സ്കെയിലിംഗ് പ്രകടനം കാണിക്കുന്നു. 2 മുതൽ 7 വരെ p13d നോഡുകളുള്ള, കൂട്ടായ ആശയവിനിമയത്തിനുള്ള SMDDP ബാക്കെൻഡ്, TE പ്രവർത്തനക്ഷമമാക്കിയ, 70 ദശലക്ഷം ആഗോള ബാച്ച് വലുപ്പം, 4,096 എന്ന നിശ്ചിത സീക്വൻസ് ദൈർഘ്യം ഉപയോഗിച്ച് വിവിധ വലുപ്പത്തിലുള്ള (4B, 16B, 128B പാരാമീറ്ററുകൾ) ലാമ 4 മോഡലുകൾ ഞങ്ങൾ ഇവിടെ പരിശീലിപ്പിക്കുന്നു. . ഇനിപ്പറയുന്ന പട്ടിക ഞങ്ങളുടെ ഒപ്റ്റിമൽ കോൺഫിഗറേഷനും പരിശീലന പ്രകടനവും (സെക്കൻഡിലെ മോഡൽ TFLOPs) സംഗ്രഹിക്കുന്നു.

മോഡൽ വലിപ്പം നോഡുകളുടെ എണ്ണം TFLOP-കൾ* sdp* tp* ഓഫ്‌ലോഡ്* സ്കെയിലിംഗ് കാര്യക്ഷമത
7B 16 136.76 32 1 N 100.0%
32 132.65 64 1 N 97.0%
64 125.31 64 1 N 91.6%
128 115.01 64 1 N 84.1%
ക്സനുമ്ക്സബ് 16 141.43 32 1 Y 100.0%
32 139.46 256 1 N 98.6%
64 132.17 128 1 N 93.5%
128 120.75 128 1 N 85.4%
ക്സനുമ്ക്സബ് 32 154.33 256 1 Y 100.0%
64 149.60 256 1 N 96.9%
128 136.52 64 2 N 88.5%

*നൽകിയിരിക്കുന്ന മോഡൽ വലുപ്പം, സീക്വൻസ് ദൈർഘ്യം, നോഡുകളുടെ എണ്ണം എന്നിവയിൽ, വിവിധ sdp, tp, ആക്റ്റിവേഷൻ ഓഫ്‌ലോഡിംഗ് കോമ്പിനേഷനുകൾ എന്നിവ പര്യവേക്ഷണം ചെയ്തതിന് ശേഷം ആഗോളതലത്തിൽ ഒപ്റ്റിമൽ ത്രൂപുട്ടും കോൺഫിഗറേഷനുകളും ഞങ്ങൾ കാണിക്കുന്നു.

ഷാർഡഡ് ഡാറ്റ പാരലൽ (എസ്ഡിപി) ഡിഗ്രിക്ക് വിധേയമായ ഒപ്റ്റിമൽ ത്രൂപുട്ട് നമ്പറുകളെ മുൻ പട്ടിക സംഗ്രഹിക്കുന്നു (സാധാരണയായി ഫുൾ ഷാർഡിംഗിന് പകരം എഫ്എസ്ഡിപി ഹൈബ്രിഡ് ഷാർഡിംഗ് ഉപയോഗിക്കുന്നു, കൂടുതൽ വിശദാംശങ്ങളോടെ അടുത്ത വിഭാഗത്തിൽ), ടെൻസർ പാരലൽ (ടിപി) ഡിഗ്രി, ആക്ടിവേഷൻ ഓഫ്‌ലോഡിംഗ് മൂല്യ മാറ്റങ്ങൾ, എസ്എംഡിഡിപിയുമായി ചേർന്ന് എസ്എംപിക്ക് ഒരു നിയർ-ലീനിയർ സ്കെയിലിംഗ് പ്രകടമാക്കുന്നു. ഉദാഹരണത്തിന്, ലാമ 2 മോഡൽ വലുപ്പം 7B, സീക്വൻസ് ദൈർഘ്യം 4,096 എന്നിവ നൽകിയാൽ, മൊത്തത്തിൽ ഇത് യഥാക്രമം 97.0, 91.6, 84.1 നോഡുകളിൽ 16%, 32%, 64% (128 നോഡുകളുമായി താരതമ്യപ്പെടുത്തുമ്പോൾ) സ്കെയിലിംഗ് കാര്യക്ഷമത കൈവരിക്കുന്നു. സ്കെയിലിംഗ് കാര്യക്ഷമത വ്യത്യസ്ത മോഡൽ വലുപ്പങ്ങളിൽ സ്ഥിരതയുള്ളതും മോഡൽ വലുപ്പം വലുതാകുന്നതിനനുസരിച്ച് ചെറുതായി വർദ്ധിക്കുന്നതുമാണ്.

എസ്എംപിയും എസ്എംഡിഡിപിയും 2,048, 8,192 എന്നിങ്ങനെയുള്ള മറ്റ് സീക്വൻസ് ദൈർഘ്യങ്ങൾക്ക് സമാനമായ സ്കെയിലിംഗ് കാര്യക്ഷമത കാണിക്കുന്നു.

സേജ് മേക്കർ മോഡൽ പാരലൽ ലൈബ്രറി 2.0 പ്രകടനം: ലാമ 2 70 ബി

LLM കമ്മ്യൂണിറ്റിയിലെ പതിവ് അത്യാധുനിക പ്രകടന അപ്‌ഡേറ്റുകൾക്കൊപ്പം കഴിഞ്ഞ വർഷങ്ങളിൽ മോഡൽ വലുപ്പങ്ങൾ വർദ്ധിച്ചുകൊണ്ടിരിക്കുന്നു. ഈ വിഭാഗത്തിൽ, ഒരു നിശ്ചിത മോഡൽ വലുപ്പം 2B, സീക്വൻസ് ദൈർഘ്യം 70, ആഗോള ബാച്ച് വലുപ്പം 4,096 ദശലക്ഷം എന്നിവ ഉപയോഗിച്ച് ലാമ 4 മോഡലിനായുള്ള SageMaker-ലെ പ്രകടനം ഞങ്ങൾ ചിത്രീകരിക്കുന്നു. മുമ്പത്തെ പട്ടികയുടെ ആഗോളതലത്തിലുള്ള ഒപ്റ്റിമൽ കോൺഫിഗറേഷനും ത്രൂപുട്ടും (SMDDP ബാക്കെൻഡിനൊപ്പം, സാധാരണ FSDP ഹൈബ്രിഡ് ഷാർഡിംഗും TE ഉം) താരതമ്യം ചെയ്യാൻ, ഇനിപ്പറയുന്ന പട്ടിക മറ്റ് ഒപ്റ്റിമൽ ത്രൂപുട്ടുകളിലേക്കും (ടെൻസർ പാരലലിസത്തിനൊപ്പം) വിതരണം ചെയ്ത ബാക്കെൻഡിലെ (NCCL, SMDDP) അധിക സ്പെസിഫിക്കേഷനുകളിലേക്കും വ്യാപിക്കുന്നു. , FSDP ഷാർഡിംഗ് തന്ത്രങ്ങൾ (പൂർണ്ണമായ ഷാർഡിംഗും ഹൈബ്രിഡ് ഷാർഡിംഗും), കൂടാതെ TE അല്ലെങ്കിൽ അല്ലാത്തതും (സ്ഥിരസ്ഥിതി) പ്രവർത്തനക്ഷമമാക്കുന്നു.

മോഡൽ വലിപ്പം നോഡുകളുടെ എണ്ണം TFLOPS TFLOPs #3 കോൺഫിഗറേഷൻ അടിസ്ഥാന നിലവാരത്തേക്കാൾ TFLOP-കളുടെ മെച്ചപ്പെടുത്തൽ
. . NCCL പൂർണ്ണ ഷാർഡിംഗ്: #0 SMDDP പൂർണ്ണമായ ഷാർഡിംഗ്: #1 SMDDP ഹൈബ്രിഡ് ഷാർഡിംഗ്: #2 TE-യുമായുള്ള SMDDP ഹൈബ്രിഡ് ഷാർഡിംഗ്: #3 sdp* tp* ഓഫ്‌ലോഡ്* #0 → #1 #1 → #2 #2 → #3 #0 → #3
ക്സനുമ്ക്സബ് 32 150.82 149.90 150.05 154.33 256 1 Y -0.6% 0.1% 2.9% 2.3%
64 144.38 144.38 145.42 149.60 256 1 N 0.0% 0.7% 2.9% 3.6%
128 68.53 103.06 130.66 136.52 64 2 N 50.4% 26.8% 4.5% 99.2%

*നൽകിയിരിക്കുന്ന മോഡൽ വലുപ്പം, സീക്വൻസ് ദൈർഘ്യം, നോഡുകളുടെ എണ്ണം എന്നിവയിൽ, വിവിധ sdp, tp, ആക്റ്റിവേഷൻ ഓഫ്‌ലോഡിംഗ് കോമ്പിനേഷനുകൾ എന്നിവ പര്യവേക്ഷണം ചെയ്തതിന് ശേഷം ആഗോളതലത്തിൽ ഒപ്റ്റിമൽ ത്രൂപുട്ടും കോൺഫിഗറേഷനും ഞങ്ങൾ കാണിക്കുന്നു.

എസ്എംപിയുടെയും എസ്എംഡിഡിപിയുടെയും ഏറ്റവും പുതിയ പതിപ്പ് നേറ്റീവ് പൈടോർച്ച് എഫ്എസ്ഡിപി, വിപുലീകൃതവും കൂടുതൽ ഫ്ലെക്സിബിൾ ഹൈബ്രിഡ് ഷാർഡിംഗ്, ട്രാൻസ്ഫോർമർ എഞ്ചിൻ ഇൻ്റഗ്രേഷൻ, ടെൻസർ പാരലലിസം, ഒപ്റ്റിമൈസ് ചെയ്ത എല്ലാ ശേഖരിക്കുന്ന കൂട്ടായ പ്രവർത്തനവും ഉൾപ്പെടെ ഒന്നിലധികം സവിശേഷതകളെ പിന്തുണയ്ക്കുന്നു. LLM-കൾക്കായി SageMaker കാര്യക്ഷമമായ വിതരണം ചെയ്യുന്ന പരിശീലനം എങ്ങനെ നേടുന്നുവെന്ന് നന്നായി മനസ്സിലാക്കാൻ, SMDDP-യിൽ നിന്നും ഇനിപ്പറയുന്ന SMP-യിൽ നിന്നും വർദ്ധിച്ചുവരുന്ന സംഭാവനകൾ ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യുന്നു. പ്രധാന സവിശേഷതകൾ:

  • FSDP ഫുൾ ഷാർഡിംഗിനൊപ്പം NCCL-നേക്കാൾ SMDDP മെച്ചപ്പെടുത്തൽ
  • എഫ്എസ്ഡിപി ഫുൾ ഷാർഡിംഗിനെ ഹൈബ്രിഡ് ഷാർഡിംഗ് ഉപയോഗിച്ച് മാറ്റിസ്ഥാപിക്കുന്നു, ഇത് ത്രൂപുട്ട് മെച്ചപ്പെടുത്തുന്നതിന് ആശയവിനിമയ ചെലവ് കുറയ്ക്കുന്നു
  • ടെൻസർ പാരലലിസം അപ്രാപ്‌തമാക്കിയിരിക്കുമ്പോൾ പോലും, TE ഉപയോഗിച്ചുള്ള ത്രൂപുട്ടിലേക്ക് കൂടുതൽ ബൂസ്റ്റ്
  • താഴ്ന്ന റിസോഴ്‌സ് ക്രമീകരണങ്ങളിൽ, ആക്റ്റിവേഷൻ ഓഫ്‌ലോഡിംഗിന് പരിശീലനം പ്രാപ്‌തമാക്കാൻ കഴിയും, അത് ഉയർന്ന മെമ്മറി മർദ്ദം കാരണം അപ്രായോഗികമോ വളരെ മന്ദഗതിയിലോ ആയിരിക്കും.

എഫ്എസ്ഡിപി ഫുൾ ഷാർഡിംഗ്: എൻസിസിഎല്ലിനേക്കാൾ എസ്എംഡിഡിപി മെച്ചപ്പെടുത്തൽ

മുമ്പത്തെ പട്ടികയിൽ കാണിച്ചിരിക്കുന്നതുപോലെ, മോഡലുകൾ എഫ്എസ്ഡിപി ഉപയോഗിച്ച് പൂർണ്ണമായി പങ്കിടുമ്പോൾ, NCCL (TFLOPs #0), SMDDP (TFLOPs #1) ത്രൂപുട്ടുകൾ 32 അല്ലെങ്കിൽ 64 നോഡുകളിൽ താരതമ്യപ്പെടുത്താവുന്നതാണെങ്കിലും, NCCL-ൽ നിന്ന് SMDDP-യിലേക്ക് 50.4% വലിയ പുരോഗതിയുണ്ട്. 128 നോഡുകളിൽ.

ചെറിയ മോഡൽ വലുപ്പങ്ങളിൽ, SMDDP-യ്‌ക്ക് ആശയവിനിമയ തടസ്സം ഫലപ്രദമായി ലഘൂകരിക്കാൻ കഴിയുന്നതിനാൽ, ചെറിയ ക്ലസ്റ്റർ വലുപ്പങ്ങളിൽ തുടങ്ങി, NCCL-നേക്കാൾ SMDDP-യിൽ സ്ഥിരവും പ്രധാനപ്പെട്ടതുമായ മെച്ചപ്പെടുത്തലുകൾ ഞങ്ങൾ നിരീക്ഷിക്കുന്നു.

ആശയവിനിമയ ചെലവ് കുറയ്ക്കുന്നതിന് FSDP ഹൈബ്രിഡ് ഷാർഡിംഗ്

SMP 1.0-ൽ ഞങ്ങൾ സമാരംഭിച്ചു പങ്കിട്ട ഡാറ്റ പാരലലിസം, ആമസോൺ ഇൻ-ഹൗസ് നൽകുന്ന ഒരു വിതരണം ചെയ്ത പരിശീലന സാങ്കേതികത MiCS സാങ്കേതികവിദ്യ. എസ്എംപി 2.0-ൽ, എഫ്എസ്ഡിപി ഫുൾ ഷാർഡിംഗിൻ്റെ കാര്യമായ എല്ലാ പരിശീലന ജിപിയുകൾക്കും പകരമായി, ജിപിയുവിൻ്റെ ഒരു ഉപവിഭാഗത്തിൽ മോഡലുകളെ ഷേർഡ് ചെയ്യാൻ അനുവദിക്കുന്ന വിപുലീകരിക്കാവുന്നതും കൂടുതൽ വഴക്കമുള്ളതുമായ ഹൈബ്രിഡ് ഷാർഡിംഗ് ടെക്നിക് ആയ എസ്എംപി ഹൈബ്രിഡ് ഷാർഡിംഗ് ഞങ്ങൾ അവതരിപ്പിക്കുന്നു. ഓരോ ജിപിയു മെമ്മറി പരിമിതികളും തൃപ്തിപ്പെടുത്തുന്നതിന് മുഴുവൻ ക്ലസ്റ്ററുകളിലുടനീളം ഷെയർ ചെയ്യേണ്ട ആവശ്യമില്ലാത്ത ഇടത്തരം മോഡലുകൾക്ക് ഇത് ഉപയോഗപ്രദമാണ്. ഒന്നിലധികം മോഡൽ പകർപ്പുകളുള്ള ക്ലസ്റ്ററുകളിലേക്കും ഓരോ ജിപിയുവും റൺടൈമിൽ കുറച്ച് പിയർമാരുമായി ആശയവിനിമയം നടത്തുന്നതിലേക്കും ഇത് നയിക്കുന്നു.

SMP-യുടെ ഹൈബ്രിഡ് ഷാർഡിംഗ് ഒരു വിശാലമായ ശ്രേണിയിൽ കാര്യക്ഷമമായ മോഡൽ ഷാർഡിംഗ് പ്രാപ്തമാക്കുന്നു, മെമ്മറി പ്രശ്‌നങ്ങളില്ലാത്ത ചെറിയ ഷാർഡ് ഡിഗ്രി മുതൽ മുഴുവൻ ക്ലസ്റ്റർ വലുപ്പം വരെ (ഇത് പൂർണ്ണ ഷാർഡിംഗിന് തുല്യമാണ്).

ലാളിത്യത്തിനായി tp = 1-ൽ sdp-യുടെ ത്രൂപുട്ട് ആശ്രിതത്വം ഇനിപ്പറയുന്ന ചിത്രം വ്യക്തമാക്കുന്നു. മുമ്പത്തെ പട്ടികയിലെ NCCL അല്ലെങ്കിൽ SMDDP ഫുൾ ഷാർഡിംഗിനുള്ള ഒപ്റ്റിമൽ tp മൂല്യത്തിന് സമാനമായിരിക്കണമെന്നില്ലെങ്കിലും, അക്കങ്ങൾ വളരെ അടുത്താണ്. 128 നോഡുകളുടെ ഒരു വലിയ ക്ലസ്റ്റർ വലുപ്പത്തിൽ ഫുൾ ഷാർഡിംഗിൽ നിന്ന് ഹൈബ്രിഡ് ഷാർഡിംഗിലേക്ക് മാറുന്നതിൻ്റെ മൂല്യം ഇത് വ്യക്തമായി സാധൂകരിക്കുന്നു, ഇത് NCCL, SMDDP എന്നിവയ്ക്ക് ബാധകമാണ്. ചെറിയ മോഡൽ വലുപ്പങ്ങൾക്ക്, ഹൈബ്രിഡ് ഷാർഡിംഗിൻ്റെ കാര്യമായ മെച്ചപ്പെടുത്തലുകൾ ചെറിയ ക്ലസ്റ്റർ വലുപ്പങ്ങളിൽ ആരംഭിക്കുന്നു, കൂടാതെ ക്ലസ്റ്റർ വലുപ്പത്തിനനുസരിച്ച് വ്യത്യാസം വർദ്ധിക്കുന്നു.

TE ഉപയോഗിച്ചുള്ള മെച്ചപ്പെടുത്തലുകൾ

NVIDIA GPU-കളിൽ LLM പരിശീലനം ത്വരിതപ്പെടുത്തുന്നതിനാണ് TE രൂപകൽപ്പന ചെയ്തിരിക്കുന്നത്. P8d സന്ദർഭങ്ങളിൽ പിന്തുണയ്ക്കാത്തതിനാൽ FP4 ഉപയോഗിക്കുന്നില്ലെങ്കിലും, p4d-ൽ TE-യിൽ കാര്യമായ വേഗത ഞങ്ങൾ ഇപ്പോഴും കാണുന്നു.

SMDDP ബാക്കെൻഡ് ഉപയോഗിച്ച് പരിശീലിപ്പിച്ച MiCS-ന് മുകളിൽ, ടെൻസർ പാരലലിസം പ്രവർത്തനരഹിതമാക്കിയിരിക്കുമ്പോഴും (ടെൻസർ പാരലൽ ഡിഗ്രി 128 ആണ്) എല്ലാ ക്ലസ്റ്റർ വലുപ്പങ്ങളിലും (1 നോഡുകളിൽ പൂർണ്ണമായ ഷാർഡിംഗ് മാത്രമാണ് അപവാദം) ത്രൂപുട്ടിനായി സ്ഥിരമായ ഒരു ബൂസ്റ്റ് TE അവതരിപ്പിക്കുന്നത്.

ചെറിയ മോഡൽ വലുപ്പങ്ങൾക്കോ ​​വിവിധ സീക്വൻസ് ദൈർഘ്യങ്ങൾക്കോ ​​വേണ്ടി, TE ബൂസ്റ്റ് സ്ഥിരതയുള്ളതും നിസ്സാരമല്ലാത്തതുമാണ്, ഏകദേശം 3–7.6% പരിധിയിൽ.

കുറഞ്ഞ റിസോഴ്‌സ് ക്രമീകരണങ്ങളിൽ ആക്ടിവേഷൻ ഓഫ്‌ലോഡിംഗ്

കുറഞ്ഞ റിസോഴ്‌സ് ക്രമീകരണങ്ങളിൽ (കുറച്ച് എണ്ണം നോഡുകൾ നൽകിയാൽ), ആക്ടിവേഷൻ ചെക്ക്‌പോയിൻ്റിംഗ് പ്രവർത്തനക്ഷമമാക്കുമ്പോൾ FSDP ഉയർന്ന മെമ്മറി മർദ്ദം അനുഭവിച്ചേക്കാം (അല്ലെങ്കിൽ ഏറ്റവും മോശം അവസ്ഥയിൽ പോലും മെമ്മറി ഇല്ല). മെമ്മറി തടസ്സപ്പെടുത്തുന്ന അത്തരം സാഹചര്യങ്ങൾക്ക്, ആക്റ്റിവേഷൻ ഓഫ്‌ലോഡിംഗ് ഓണാക്കുന്നത് പ്രകടനം മെച്ചപ്പെടുത്തുന്നതിനുള്ള ഒരു ഓപ്ഷനാണ്.

ഉദാഹരണത്തിന്, നമ്മൾ മുമ്പ് കണ്ടതുപോലെ, മോഡൽ സൈസ് 2B, സീക്വൻസ് ദൈർഘ്യം 13 എന്നിവയിലുള്ള ലാമ 4,096 ന് കുറഞ്ഞത് 32 നോഡുകളെങ്കിലും ആക്ടിവേഷൻ ചെക്ക്‌പോയിൻ്റിംഗും ആക്റ്റിവേഷൻ ഓഫ്‌ലോഡിംഗ് ഇല്ലാതെയും മികച്ച രീതിയിൽ പരിശീലിപ്പിക്കാൻ കഴിയുമെങ്കിലും, 16 ആയി പരിമിതപ്പെടുത്തുമ്പോൾ അത് ആക്റ്റിവേഷൻ ഓഫ്‌ലോഡിംഗിനൊപ്പം മികച്ച ത്രൂപുട്ട് കൈവരിക്കുന്നു. നോഡുകൾ.

ദൈർഘ്യമേറിയ ക്രമങ്ങളുള്ള പരിശീലനം പ്രവർത്തനക്ഷമമാക്കുക: SMP ടെൻസർ പാരലലിസം

ദൈർഘ്യമേറിയ സംഭാഷണങ്ങൾക്കും സന്ദർഭത്തിനും ദൈർഘ്യമേറിയ സീക്വൻസ് ദൈർഘ്യം ആവശ്യമാണ്, മാത്രമല്ല LLM കമ്മ്യൂണിറ്റിയിൽ കൂടുതൽ ശ്രദ്ധ നേടുകയും ചെയ്യുന്നു. അതിനാൽ, ഇനിപ്പറയുന്ന പട്ടികയിൽ ഞങ്ങൾ വിവിധ ലോംഗ് സീക്വൻസ് ത്രൂപുട്ടുകൾ റിപ്പോർട്ട് ചെയ്യുന്നു. 2 മുതൽ 2,048 വരെയുള്ള വിവിധ ശ്രേണി ദൈർഘ്യങ്ങളുള്ള, SageMaker-ലെ Llama 32,768 പരിശീലനത്തിനുള്ള ഒപ്റ്റിമൽ ത്രൂപുട്ടുകൾ പട്ടിക കാണിക്കുന്നു. സീക്വൻസ് ലെങ്ത് 32,768-ൽ, 32 ദശലക്ഷം ആഗോള ബാച്ച് വലുപ്പത്തിൽ 4 നോഡുകൾ ഉപയോഗിച്ച് നേറ്റീവ് എഫ്എസ്ഡിപി പരിശീലനം അപ്രായോഗികമാണ്.

. . . TFLOPS
മോഡൽ വലിപ്പം സീക്വൻസ് ദൈർഘ്യം നോഡുകളുടെ എണ്ണം നേറ്റീവ് FSDP, NCCL എസ്എംപി, എസ്എംഡിഡിപി എസ്എംപി മെച്ചപ്പെടുത്തൽ
7B 2048 32 129.25 138.17 6.9%
4096 32 124.38 132.65 6.6%
8192 32 115.25 123.11 6.8%
16384 32 100.73 109.11 8.3%
32768 32 പ്രസക്തമല്ല 82.87 .
ക്സനുമ്ക്സബ് 2048 32 137.75 144.28 4.7%
4096 32 133.30 139.46 4.6%
8192 32 125.04 130.08 4.0%
16384 32 111.58 117.01 4.9%
32768 32 പ്രസക്തമല്ല 92.38 .
*: പരമാവധി . . . . 8.3%
*: മീഡിയൻ . . . . 5.8%

ക്ലസ്റ്റർ വലുപ്പം വലുതായിരിക്കുകയും ഒരു നിശ്ചിത ആഗോള ബാച്ച് വലുപ്പം നൽകുകയും ചെയ്യുമ്പോൾ, ഒരു ബിൽറ്റ്-ഇൻ പൈപ്പ്ലൈനോ ടെൻസർ പാരലലിസം പിന്തുണയോ ഇല്ലാത്ത നേറ്റീവ് PyTorch FSDP ഉപയോഗിച്ച് ചില മോഡൽ പരിശീലനം അപ്രായോഗികമായേക്കാം. മുമ്പത്തെ പട്ടികയിൽ, ആഗോള ബാച്ച് വലുപ്പം 4 ദശലക്ഷം, 32 നോഡുകൾ, സീക്വൻസ് ദൈർഘ്യം 32,768 എന്നിവ നൽകിയാൽ, ഒരു GPU-യ്‌ക്ക് ഫലപ്രദമായ ബാച്ച് വലുപ്പം 0.5 ആണ് (ഉദാഹരണത്തിന്, ബാച്ച് വലുപ്പം 2 ഉള്ള tp = 1), ഇത് അവതരിപ്പിക്കാതെ തന്നെ അപ്രായോഗികമായിരിക്കും. ടെൻസർ പാരലലിസം.

തീരുമാനം

ഈ പോസ്റ്റിൽ, SMP, SMDDP എന്നിവയുമായുള്ള കാര്യക്ഷമമായ LLM പരിശീലനം p4d സന്ദർഭങ്ങളിൽ ഞങ്ങൾ പ്രദർശിപ്പിച്ചു, NCCL-നേക്കാൾ SMDDP മെച്ചപ്പെടുത്തൽ, ഫുൾ ഷാർഡിംഗിന് പകരം ഫ്ലെക്സിബിൾ FSDP ഹൈബ്രിഡ് ഷാർഡിംഗ്, ടെൻസർ പാരലലിസം എന്നിവയ്ക്ക് അനുകൂലമായി ടെൻസർ പാരലലിസം പ്രവർത്തനക്ഷമമാക്കുന്നു. നീണ്ട ശ്രേണി ദൈർഘ്യം. വിവിധ മോഡലുകൾ, മോഡൽ വലുപ്പങ്ങൾ, സീക്വൻസ് ദൈർഘ്യം എന്നിവ ഉപയോഗിച്ച് വിപുലമായ ക്രമീകരണങ്ങളിൽ പരീക്ഷിച്ചതിന് ശേഷം, ഇത് SageMaker-ൽ 128 p4d സംഭവങ്ങൾ വരെ ശക്തമായ നിയർ-ലീനിയർ സ്കെയിലിംഗ് കാര്യക്ഷമത കാണിക്കുന്നു. ചുരുക്കത്തിൽ, LLM ഗവേഷകർക്കും പ്രാക്ടീഷണർമാർക്കും SageMaker ഒരു ശക്തമായ ഉപകരണമായി തുടരുന്നു.

കൂടുതലറിയാൻ, റഫർ ചെയ്യുക സേജ് മേക്കർ മോഡൽ പാരലലിസം ലൈബ്രറി v2, അല്ലെങ്കിൽ എസ്എംപി ടീമുമായി ബന്ധപ്പെടുക [ഇമെയിൽ പരിരക്ഷിച്ചിരിക്കുന്നു].

കടപ്പാടുകൾ

റോബർട്ട് വാൻ ഡ്യൂസൻ, ബെൻ സ്‌നൈഡർ, ഗൗതം കുമാർ, ലൂയിസ് ക്വിൻ്റേല എന്നിവരുടെ ക്രിയാത്മകമായ ഫീഡ്‌ബാക്കിനും ചർച്ചകൾക്കും നന്ദി പറയാൻ ഞങ്ങൾ ആഗ്രഹിക്കുന്നു.


രചയിതാക്കളെക്കുറിച്ച്

Xinle Sheila Liu Amazon SageMaker-ൽ ഒരു SDE ആണ്. അവളുടെ ഒഴിവുസമയങ്ങളിൽ, അവൾ വായനയും ഔട്ട്ഡോർ സ്പോർട്സും ആസ്വദിക്കുന്നു.

സുഹിത് കോഡ്ഗുലെ ആഴത്തിലുള്ള പഠന ചട്ടക്കൂടുകളിൽ പ്രവർത്തിക്കുന്ന AWS ആർട്ടിഫിഷ്യൽ ഇൻ്റലിജൻസ് ഗ്രൂപ്പിലെ ഒരു സോഫ്റ്റ്‌വെയർ ഡെവലപ്‌മെൻ്റ് എഞ്ചിനീയറാണ്. ഒഴിവുസമയങ്ങളിൽ, കാൽനടയാത്രയും യാത്രയും പാചകവും അവൻ ആസ്വദിക്കുന്നു.

വിക്ടർ സു ആമസോൺ വെബ് സേവനങ്ങളിലെ ഡിസ്ട്രിബ്യൂട്ടഡ് ഡീപ് ലേണിംഗിൽ സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറാണ്. SF ബേ ഏരിയയ്ക്ക് ചുറ്റുമുള്ള ഹൈക്കിംഗും ബോർഡ് ഗെയിമുകളും അവൻ ആസ്വദിക്കുന്നതായി കാണാം.

ദേര്യ കാവ്ദാർ AWS-ൽ സോഫ്റ്റ്‌വെയർ എഞ്ചിനീയറായി ജോലി ചെയ്യുന്നു. ആഴത്തിലുള്ള പഠനവും വിതരണം ചെയ്ത പരിശീലന ഒപ്റ്റിമൈസേഷനും അവളുടെ താൽപ്പര്യങ്ങളിൽ ഉൾപ്പെടുന്നു.

ടെങ് സൂ AWS AI-യിലെ ഡിസ്ട്രിബ്യൂട്ടഡ് ട്രെയിനിംഗ് ഗ്രൂപ്പിലെ സോഫ്റ്റ്‌വെയർ ഡെവലപ്‌മെൻ്റ് എഞ്ചിനീയറാണ്. അവൻ വായന ആസ്വദിക്കുന്നു.

സ്പോട്ട്_ഐഎംജി

ഏറ്റവും പുതിയ ഇന്റലിജൻസ്

സ്പോട്ട്_ഐഎംജി

ഞങ്ങളുമായി ചാറ്റുചെയ്യുക

ഹേയ്, അവിടെയുണ്ടോ! എനിക്ക് നിങ്ങളെ എങ്ങനെ സഹായിക്കാനാകും?