ਐਮਾਜ਼ਾਨ ਇੰਜਨੀਅਰਿੰਗ ਲਈ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ 'ਤੇ ਮਨੁੱਖੀ ਅਤੇ ਏਆਈ ਫੀਡਬੈਕ ਨਾਲ ਐਲਐਲਐਮ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਸੁਧਾਰ ਕਰੋ | ਐਮਾਜ਼ਾਨ ਵੈੱਬ ਸੇਵਾਵਾਂ

Amazon EU ਡਿਜ਼ਾਈਨ ਅਤੇ ਨਿਰਮਾਣ (Amazon D&C) ਟੀਮ ਐਮਾਜ਼ਾਨ ਗੋਦਾਮਾਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਨ ਅਤੇ ਉਸਾਰਨ ਵਾਲੀ ਇੰਜੀਨੀਅਰਿੰਗ ਟੀਮ ਹੈ। ਟੀਮ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਨੈਵੀਗੇਟ ਕਰਦੀ ਹੈ ਅਤੇ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਸਹੀ ਜਾਣਕਾਰੀ ਲੱਭਦੀ ਹੈ ਕਿ ਵੇਅਰਹਾਊਸ ਡਿਜ਼ਾਈਨ ਉੱਚੇ ਮਿਆਰਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ। ਪੋਸਟ ਵਿੱਚ ਐਮਾਜ਼ਾਨ ਈਯੂ ਡਿਜ਼ਾਈਨ ਅਤੇ ਨਿਰਮਾਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ 'ਤੇ ਇੱਕ ਜਨਰੇਟਿਵ AI-ਸੰਚਾਲਿਤ ਹੱਲ, ਅਸੀਂ ਇੱਕ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਇੱਕ ਪ੍ਰਸ਼ਨ ਉੱਤਰ ਬੋਟ ਹੱਲ ਪੇਸ਼ ਕੀਤਾ ਹੈ ਮੁੜ ਪ੍ਰਾਪਤੀ ਵਧੀ ਹੋਈ ਪੀੜ੍ਹੀ (RAG) ਪਾਈਪਲਾਈਨ ਇੱਕ ਵਧੀਆ-ਟਿਊਨਡ ਨਾਲ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLM) Amazon D&C ਲਈ ਅਸੰਗਠਿਤ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਇੱਕ ਵੱਡੀ ਮਾਤਰਾ ਤੋਂ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸਹੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਦੇ ਨਿਰਮਾਣ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਸਮੇਂ ਸਿਰ ਅਤੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਸੇਵਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ। ਐਮਾਜ਼ਾਨ ਡੀ ਐਂਡ ਸੀ ਟੀਮ ਨੇ ਐਮਾਜ਼ਾਨ ਇੰਜੀਨੀਅਰਾਂ ਲਈ ਇੱਕ ਪਾਇਲਟ ਵਿੱਚ ਹੱਲ ਲਾਗੂ ਕੀਤਾ ਅਤੇ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਇਕੱਤਰ ਕੀਤਾ।

ਇਸ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਸਾਂਝਾ ਕਰਦੇ ਹਾਂ ਕਿ ਅਸੀਂ ਫੀਡਬੈਕ ਡੇਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਿਵੇਂ ਕੀਤਾ ਅਤੇ RAG ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਸ਼ੁੱਧਤਾ ਅਤੇ ਭੁਲੇਖੇ ਦੀਆਂ ਸੀਮਾਵਾਂ ਦੀ ਪਛਾਣ ਕੀਤੀ, ਅਤੇ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ ਸਕੋਰ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਸ਼ਕਤੀ ਸਿਖਲਾਈ. ਬਿਹਤਰ ਸਿੱਖਣ ਲਈ ਸਿਖਲਾਈ ਦੇ ਨਮੂਨੇ ਵਧਾਉਣ ਲਈ, ਅਸੀਂ ਫੀਡਬੈਕ ਸਕੋਰ ਬਣਾਉਣ ਲਈ ਇੱਕ ਹੋਰ LLM ਦੀ ਵਰਤੋਂ ਵੀ ਕੀਤੀ। ਇਸ ਵਿਧੀ ਨੇ ਆਰਏਜੀ ਸੀਮਾਵਾਂ ਨੂੰ ਸੰਬੋਧਿਤ ਕੀਤਾ ਅਤੇ ਬੋਟ ਜਵਾਬ ਗੁਣਵੱਤਾ ਵਿੱਚ ਹੋਰ ਸੁਧਾਰ ਕੀਤਾ। ਅਸੀਂ LLM ਪ੍ਰਦਰਸ਼ਨ ਸੁਧਾਰ ਨੂੰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਨ ਲਈ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਅਤੇ ਬੈਂਚਮਾਰਕਿੰਗ ਨਤੀਜੇ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ। ਹੱਲ ਵਰਤਦਾ ਹੈ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ ਜੰਪਸਟਾਰਟ ਮਾਡਲ ਡਿਪਲਾਇਮੈਂਟ, ਫਾਈਨ-ਟਿਊਨਿੰਗ, ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਈ ਮੁੱਖ ਸੇਵਾ ਵਜੋਂ।

ਇੱਕ ਪਾਇਲਟ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਐਮਾਜ਼ਾਨ ਇੰਜੀਨੀਅਰਾਂ ਤੋਂ ਫੀਡਬੈਕ ਇਕੱਤਰ ਕਰੋ

ਵਿੱਚ ਦੱਸੇ ਗਏ ਹੱਲ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਤੋਂ ਬਾਅਦ ਐਮਾਜ਼ਾਨ ਈਯੂ ਡਿਜ਼ਾਈਨ ਅਤੇ ਨਿਰਮਾਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ 'ਤੇ ਇੱਕ ਜਨਰੇਟਿਵ AI-ਸੰਚਾਲਿਤ ਹੱਲ, Amazon D&C ਟੀਮ ਨੇ ਹੱਲ ਤੈਨਾਤ ਕੀਤਾ ਅਤੇ Amazon ਇੰਜੀਨੀਅਰਾਂ ਨਾਲ ਇੱਕ ਪਾਇਲਟ ਪ੍ਰੋਜੈਕਟ ਚਲਾਇਆ। ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤੇ ਗਏ ਇੱਕ ਵੈਬ ਐਪਲੀਕੇਸ਼ਨ ਰਾਹੀਂ ਇੰਜੀਨੀਅਰਾਂ ਨੇ ਪਾਇਲਟ ਪ੍ਰਣਾਲੀ ਤੱਕ ਪਹੁੰਚ ਕੀਤੀ ਸਟ੍ਰੀਮਲਾਈਟ, RAG ਪਾਈਪਲਾਈਨ ਨਾਲ ਜੁੜਿਆ ਹੋਇਆ ਹੈ। ਪਾਈਪਲਾਈਨ ਵਿੱਚ, ਅਸੀਂ ਵਰਤਿਆ ਐਮਾਜ਼ਾਨ ਓਪਨ ਖੋਜ ਸੇਵਾ ਵੈਕਟਰ ਡਾਟਾਬੇਸ ਲਈ, ਅਤੇ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ 'ਤੇ ਇੱਕ ਵਧੀਆ-ਟਿਊਨਡ ਮਿਸਟਰਲ-7ਬੀ-ਇੰਸਕਟ ਮਾਡਲ ਤਾਇਨਾਤ ਕੀਤਾ।

ਪਾਇਲਟ ਦੇ ਮੁੱਖ ਉਦੇਸ਼ਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਐਮਾਜ਼ਾਨ ਇੰਜੀਨੀਅਰਾਂ ਤੋਂ ਫੀਡਬੈਕ ਇਕੱਠਾ ਕਰਨਾ ਅਤੇ LLM ਭਰਮਾਂ ਨੂੰ ਘਟਾਉਣ ਲਈ ਫੀਡਬੈਕ ਦੀ ਵਰਤੋਂ ਕਰਨਾ। ਇਸ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ, ਅਸੀਂ UI ਵਿੱਚ ਇੱਕ ਫੀਡਬੈਕ ਸੰਗ੍ਰਹਿ ਮੋਡੀਊਲ ਵਿਕਸਿਤ ਕੀਤਾ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੇ ਚਿੱਤਰ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਅਤੇ ਵੈੱਬ ਸੈਸ਼ਨ ਦੀ ਜਾਣਕਾਰੀ ਅਤੇ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਨੂੰ ਸਟੋਰ ਕੀਤਾ ਹੈ। ਐਮਾਜ਼ਾਨ ਡਾਇਨਾਮੋਡੀਬੀ. ਫੀਡਬੈਕ ਸੰਗ੍ਰਹਿ UI ਦੁਆਰਾ, ਐਮਾਜ਼ਾਨ ਇੰਜੀਨੀਅਰ ਪੰਜ ਸੰਤੁਸ਼ਟੀ ਪੱਧਰਾਂ ਵਿੱਚੋਂ ਚੁਣ ਸਕਦੇ ਹਨ: 1-5 ਤੱਕ ਫੀਡਬੈਕ ਸਕੋਰਾਂ ਦੇ ਅਨੁਸਾਰ, ਜ਼ੋਰਦਾਰ ਅਸਹਿਮਤ, ਅਸਹਿਮਤ, ਨਿਰਪੱਖ, ਸਹਿਮਤ, ਅਤੇ ਜ਼ੋਰਦਾਰ ਸਹਿਮਤੀ। ਉਹ ਸਵਾਲ ਦਾ ਬਿਹਤਰ ਜਵਾਬ ਦੇ ਸਕਦੇ ਹਨ ਜਾਂ ਇਸ 'ਤੇ ਟਿੱਪਣੀ ਕਰ ਸਕਦੇ ਹਨ ਕਿ LLM ਜਵਾਬ ਤਸੱਲੀਬਖਸ਼ ਕਿਉਂ ਨਹੀਂ ਹੈ।

ਮਨੁੱਖੀ ਫੀਡਬੈਕ UI

ਪਾਇਲਟ ਦੌਰਾਨ, ਉਪਭੋਗਤਾਵਾਂ ਨੇ 118 ਫੀਡਬੈਕ ਜਵਾਬ ਦਿੱਤੇ। ਹੇਠਾਂ ਦਿੱਤਾ ਚਾਰਟ ਨਕਾਰਾਤਮਕ ਤੋਂ ਸਕਾਰਾਤਮਕ ਤੱਕ ਵੰਡ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਅਸੀਂ ਦੇਖਿਆ ਹੈ ਕਿ ਨਕਾਰਾਤਮਕ ਫੀਡਬੈਕ (ਅਸਹਿਮਤ ਅਤੇ ਜ਼ੋਰਦਾਰ ਅਸਹਿਮਤ) ਦੁਆਰਾ ਚਿੰਨ੍ਹਿਤ ਗਲਤ ਜਵਾਬ ਕੁੱਲ ਫੀਡਬੈਕ (45 ਵਿੱਚੋਂ 53) ਵਿੱਚੋਂ 118% ਹਨ। ਕੁਝ ਗਲਤੀਆਂ (ਲਗਭਗ 10% ਨਕਾਰਾਤਮਕ ਫੀਡਬੈਕ ਅਤੇ 7.5% ਸਮੁੱਚੀ ਪ੍ਰਤੀਕਿਰਿਆਵਾਂ) ਨੂੰ ਉਪਭੋਗਤਾ ਸਿੱਖਿਆ ਅਤੇ ਪ੍ਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਦੁਆਰਾ ਹੱਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਅਗਲੇ ਭਾਗ ਵਿੱਚ ਵਰਣਿਤ LLM ਫਾਈਨ-ਟਿਊਨਿੰਗ ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਹੱਲ ਨਾਲ ਇਸ ਮੁੱਦੇ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੇ ਹਾਂ।

ਪਾਇਲਟ ਤੋਂ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ

ਕੁਝ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਸਿਰਫ਼ ਇੱਕ ਨੋਟ ਛੱਡਿਆ, ਜਿਵੇਂ ਕਿ "ਮਹਾਨ!" ਜ਼ੋਰਦਾਰ ਸਹਿਮਤੀ ਵਾਲੇ ਜਵਾਬਾਂ ਲਈ, ਜਾਂ "ਸਵਾਲ ਦਾ ਜਵਾਬ ਨਹੀਂ ਦਿੰਦਾ," ਜ਼ੋਰਦਾਰ ਅਸਹਿਮਤ ਜਵਾਬਾਂ ਲਈ। ਦੂਜੇ ਉਪਭੋਗਤਾਵਾਂ ਨੇ ਸਕੋਰ ਪ੍ਰਦਾਨ ਕੀਤੇ ਅਤੇ ਦੱਸਿਆ ਕਿ ਉਹ ਆਪਣੇ ਨੋਟਸ ਵਿੱਚ LLM ਜਵਾਬਾਂ ਨੂੰ ਕਿਵੇਂ ਜਾਇਜ਼ ਠਹਿਰਾਉਂਦੇ ਹਨ। ਨਿਮਨਲਿਖਤ ਉਦਾਹਰਨ ਵਿੱਚ, ਉਪਭੋਗਤਾ ਨੇ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ LLM ਭਰਮ ਨੂੰ ਠੀਕ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਦਸਤਾਵੇਜ਼ ਅਤੇ ਸਮੱਗਰੀ ਪ੍ਰਦਾਨ ਕੀਤੀ ਹੈ।

ਸਵਾਲ	ਸਾਡੇ ਕੋਲ ਕਿੰਨੀਆਂ ਕਾਰ ਪਾਰਕਿੰਗ ਥਾਵਾਂ ਹਨ?
ਬੋਟ ਜਵਾਬ	ਦਿੱਤੇ ਗਏ ਸੰਦਰਭ ਦੇ ਆਧਾਰ 'ਤੇ, ਸਾਡੇ ਕੋਲ ਕਾਰ ਪਾਰਕਿੰਗ ਥਾਵਾਂ ਦੀ ਗਿਣਤੀ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਨਹੀਂ ਹੈ। ਸੰਦਰਭ ਪਾਰਕਿੰਗ ਸਥਾਨਾਂ ਦੇ ਘੱਟੋ-ਘੱਟ ਆਕਾਰ ਅਤੇ ਬਾਹਰੀ ਰੋਸ਼ਨੀ ਪੱਧਰਾਂ ਲਈ ਲੋੜਾਂ ਬਾਰੇ ਚਰਚਾ ਕਰਦਾ ਹੈ, ਪਰ ਇਹ ਪਾਰਕਿੰਗ ਸਥਾਨਾਂ ਦੀ ਇੱਕ ਖਾਸ ਸੰਖਿਆ ਪ੍ਰਦਾਨ ਨਹੀਂ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੇ ਸਰੋਤਾਂ ਵਿੱਚ ਹੋਰ ਸਪੱਸ਼ਟੀਕਰਨਾਂ ਦਾ ਹਵਾਲਾ ਦੇ ਸਕਦੇ ਹੋ: * ARS GEN 10.0/05.01.02. ਡਿਜ਼ਾਈਨ ਮਾਪਦੰਡ ਅਤੇ ਅੰਤਿਕਾ/ਪ੍ਰਦਰਸ਼ਨ ਪੈਕੇਜ AR ਛਾਂਟਣਯੋਗ ਡਿਜ਼ਾਈਨ ਮਾਪਦੰਡ v20.1.1.pdf – ਪੰਨਾ: 10 * ARS GEN 10.0/05.01.02. ਡਿਜ਼ਾਈਨ ਮਾਪਦੰਡ ਅਤੇ ਅੰਤਿਕਾ/ਪ੍ਰਦਰਸ਼ਨ ਪੈਕੇਜ AR ਛਾਂਟਣਯੋਗ ਡਿਜ਼ਾਈਨ ਮਾਪਦੰਡ v20.1.1.pdf – ਪੰਨਾ: 79
ਉਪਭੋਗਤਾ ਸਕੋਰ	ਜ਼ੋਰਦਾਰ ਅਸਹਿਮਤ
ਉਪਭੋਗਤਾ ਨੋਟਸ	ਇਹ ਡਿਜ਼ਾਈਨ ਮਾਪਦੰਡ ਸੈਕਸ਼ਨ 21 01 13 ਦੇ ਪੰਨਾ 10 'ਤੇ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਹੈ

ਨਿਰੀਖਣ ਕੀਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਅਤੇ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਨਾਲ ਬੋਟ ਪ੍ਰਤੀਕਿਰਿਆ ਵਿੱਚ ਸੁਧਾਰ ਕਰੋ

ਹੱਲ ਵਿੱਚ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੇ ਤਿੰਨ ਪੜਾਅ ਹੁੰਦੇ ਹਨ:

ਲੇਬਲ ਕੀਤੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨਿਰੀਖਣ ਕੀਤਾ ਗਿਆ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਕਰੋ। ਵਿਚ ਇਸ ਵਿਧੀ ਦਾ ਵਰਣਨ ਕੀਤਾ ਗਿਆ ਸੀ ਐਮਾਜ਼ਾਨ ਈਯੂ ਡਿਜ਼ਾਈਨ ਅਤੇ ਨਿਰਮਾਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ 'ਤੇ ਇੱਕ ਜਨਰੇਟਿਵ AI-ਸੰਚਾਲਿਤ ਹੱਲ.
ਹੋਰ LLM ਟਿਊਨਿੰਗ ਲਈ ਪ੍ਰਸ਼ਨ-ਉੱਤਰ ਜੋੜਿਆਂ ਨੂੰ ਲੇਬਲ ਕਰਨ ਲਈ ਉਪਭੋਗਤਾ ਫੀਡਬੈਕ ਇਕੱਤਰ ਕਰੋ।
ਜਦੋਂ ਸਿਖਲਾਈ ਡੇਟਾ ਤਿਆਰ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਇਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਮਾਡਲ ਨੂੰ ਹੋਰ ਟਿਊਨ ਕਰੋ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਤੋਂ ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ (RLHF)।

RLHF ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਜਨਰੇਟਿਵ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਅਤੇ LLM ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਇਨਾਮ ਫੰਕਸ਼ਨ ਵਿੱਚ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ ਅਤੇ ਇਨਾਮਾਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਮਾਡਲ ਨੂੰ ਇੱਕ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਐਲਗੋਰਿਦਮ ਨਾਲ ਸਿਖਲਾਈ ਦਿੰਦਾ ਹੈ, ਜੋ ਕਿ ਮਾਡਲ ਨੂੰ ਮਨੁੱਖੀ ਟੀਚਿਆਂ ਦੇ ਨਾਲ ਵਧੇਰੇ ਇਕਸਾਰ ਕੰਮ ਕਰਦਾ ਹੈ। ਹੇਠਾਂ ਦਿੱਤਾ ਚਿੱਤਰ ਕਦਮਾਂ ਦੀ ਪਾਈਪਲਾਈਨ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਵਧੀਆ ਟਿਊਨਿੰਗ ਵਰਕਫਲੋ

ਅਸੀਂ ਸੇਜਮੇਕਰ ਜੰਪਸਟਾਰਟ 'ਤੇ ਮਿਸਟਰਲ-7ਬੀ ਮਾਡਲ ਦੇ ਨਾਲ ਐਮਾਜ਼ਾਨ ਡੀ ਐਂਡ ਸੀ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਧੀ ਦੀ ਜਾਂਚ ਕੀਤੀ।

ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ

ਪਿਛਲੀ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਦਿਖਾਇਆ ਕਿ ਕਿਵੇਂ ਵਧੀਆ-ਟਿਊਨਡ Falcon-7B ਮਾਡਲ RAG ਪਾਈਪਲਾਈਨ ਨੂੰ ਪਛਾੜਦਾ ਹੈ ਅਤੇ QA ਬੋਟ ਜਵਾਬ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ। ਇਸ ਪੋਸਟ ਲਈ, ਅਸੀਂ Mistral-7B ਮਾਡਲ 'ਤੇ ਨਿਗਰਾਨੀ ਕੀਤੀ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਕੀਤੀ ਹੈ। ਨਿਰੀਖਣ ਕੀਤੀ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਨੇ 512 ਪੈਰਾਮੀਟਰਾਂ (ਕੁੱਲ 1024 ਪੈਰਾਮੀਟਰਾਂ ਦਾ 436,207,616%) 'ਤੇ PEFT/LoRA ਤਕਨੀਕ (LoRA_r = 5.68, LoRA_alpha = 7,677,964,288) ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਸਿਖਲਾਈ ਇੱਕ p3.8x ਨੋਡ 'ਤੇ ਆਯੋਜਿਤ ਕੀਤੀ ਗਈ ਸੀ ਜਿਸ ਵਿੱਚ 137 ਨਮੂਨੇ LLM ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਸਨ ਅਤੇ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਪ੍ਰਮਾਣਿਤ ਕੀਤੇ ਗਏ ਸਨ; ਪ੍ਰਕਿਰਿਆ 20 ਯੁੱਗਾਂ ਦੇ ਬਾਅਦ ਚੰਗੀ ਤਰ੍ਹਾਂ ਇਕੱਠੀ ਹੋ ਜਾਂਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੇ ਚਿੱਤਰ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ।

SFT ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ

ਫਾਈਨ-ਟਿਊਨਡ ਮਾਡਲ ਨੂੰ 274 ਨਮੂਨਿਆਂ ਦੁਆਰਾ ਪ੍ਰਮਾਣਿਤ ਕੀਤਾ ਗਿਆ ਸੀ, ਅਤੇ ਅਨੁਮਾਨ ਦੇ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਸਿਮੈਂਟਿਕ ਸਮਾਨਤਾ ਸਕੋਰ ਦੁਆਰਾ ਹਵਾਲਾ ਜਵਾਬਾਂ ਨਾਲ ਕੀਤੀ ਗਈ ਸੀ। ਸਕੋਰ 0.8100 ਹੈ, ਜੋ ਕਿ ਰਵਾਇਤੀ RAG ਤੋਂ 0.6419 ਦੇ ਸਕੋਰ ਤੋਂ ਵੱਧ ਹੈ।

ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ ਲਈ ਮਨੁੱਖੀ ਅਤੇ AI ਫੀਡਬੈਕ ਇਕੱਤਰ ਕਰੋ

RLHF ਲਈ, ਵਿਸ਼ਾ ਵਸਤੂ ਮਾਹਿਰਾਂ (SMEs) ਦੁਆਰਾ ਲੇਬਲ ਕੀਤੇ ਉੱਚ-ਗੁਣਵੱਤਾ ਸਿਖਲਾਈ ਦੇ ਨਮੂਨੇ ਦੀ ਕਾਫੀ ਮਾਤਰਾ ਜ਼ਰੂਰੀ ਹੈ। ਹਾਲਾਂਕਿ, ਮਾੜੀ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਮਨੁੱਖੀ ਲੇਬਲ ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ RLHF ਸਿਖਲਾਈ ਤੋਂ ਬਾਅਦ ਅਸਲ ਮਾਡਲ ਨਾਲੋਂ ਮਾੜੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦੇ ਹਨ। SMEs ਦਾ ਸਮਾਂ ਹੈ ਕਿਸੇ ਵੀ ਸੰਸਥਾ ਵਿੱਚ ਇੱਕ ਦੁਰਲੱਭ ਸਰੋਤ; ਸੈਂਕੜੇ ਜਾਂ ਹਜ਼ਾਰਾਂ LLM ਜਵਾਬਾਂ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਅਤੇ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ SMEs ਤੋਂ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਸਮੇਂ ਦੇ ਨਿਵੇਸ਼ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਜਿਸ ਵਿੱਚ ਨਿਵੇਸ਼ 'ਤੇ ਸਪੱਸ਼ਟ ਵਾਪਸੀ ਨਹੀਂ ਹੁੰਦੀ।

ਇਸ ਚੁਣੌਤੀ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਅਸੀਂ ਅਪਣਾਇਆ AI ਫੀਡਬੈਕ ਤੋਂ ਮਜਬੂਤੀ ਦੀ ਸਿਖਲਾਈ (RLAIF) ਵਿਧੀ। RLAIF ਇੱਕ AI ਸਹਾਇਕ (ਇੱਕ ਹੋਰ LLM) ਨੂੰ ਮੁਲਾਂਕਣ ਸਕੋਰ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਨਿਯੁਕਤ ਕਰਦਾ ਹੈ, ਨਾ ਕਿ ਮਨੁੱਖਾਂ ਤੋਂ। ਇਸ ਹਾਈਬ੍ਰਿਡ ਸਿੱਖਣ ਦੀ ਪਹੁੰਚ ਵਿੱਚ, ਸਿੱਖਣ ਦਾ ਏਜੰਟ ਨਾ ਸਿਰਫ਼ ਇੱਕ ਮਨੁੱਖ ਨਾਲ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੇ ਆਧਾਰ 'ਤੇ ਕਾਰਵਾਈਆਂ ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ, ਸਗੋਂ ਕਿਸੇ ਹੋਰ AI ਮਾਡਲ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਫੀਡਬੈਕ ਤੋਂ ਵੀ। ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ ਲਈ ਲੋੜੀਂਦਾ ਸਿਖਲਾਈ ਡੇਟਾ ਪ੍ਰਦਾਨ ਕਰਨਾ ਬਹੁਤ ਜ਼ਿਆਦਾ ਮਾਪਯੋਗ ਹੈ, ਅਤੇ ਬਹੁਤ ਘੱਟ ਵਿਅਕਤੀਗਤ ਹੈ ਕਿਉਂਕਿ ਸਿਖਲਾਈ SMEs ਦੇ ਇੱਕ ਛੋਟੇ ਸਮੂਹ ਦੀਆਂ ਖਾਸ ਤਰਜੀਹਾਂ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਹੈ। SMEs ਅਜੇ ਵੀ ਸ਼ਾਮਲ ਹੋ ਸਕਦੇ ਹਨ, ਪਰ ਸਿਰਫ ਪ੍ਰਕਿਰਿਆ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਅਤੇ AI ਫੀਡਬੈਕ ਗੁਣਵੱਤਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ। ਇਹ SMEs ਦੇ ਕੰਮ ਦੇ ਬੋਝ ਨੂੰ ਬਹੁਤ ਘਟਾਉਂਦਾ ਹੈ, ਕਿਉਂਕਿ AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਸਕੋਰ ਅਤੇ ਲੇਬਲ SMEs ਲਈ ਵਿਸ਼ਲੇਸ਼ਣ, ਫਿਲਟਰ ਅਤੇ ਛਾਂਟਣ ਲਈ ਬਹੁਤ ਘੱਟ ਗੁੰਝਲਦਾਰ ਹੁੰਦੇ ਹਨ।

ਇਸ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਟੈਪ ਲਈ ਸਿਖਲਾਈ ਦੇ ਨਮੂਨੇ ਵਜੋਂ ਮੁਲਾਂਕਣ ਸਕੋਰ ਬਣਾਉਣ ਲਈ ਇੱਕ ਐਂਥਰੋਪਿਕ ਕਲਾਉਡ 2 ਮਾਡਲ ਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਪ੍ਰੋਂਪਟ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ:

"""

Human:

I am going to provide you with a question, a reference answer, and an machine generated answer to the question.

question: {question}

reference answer: {reference_answer}

machine_answer: {machine_answer}

Please analyze the question, the reference answer, and the machine generated answer to determine if the machine generated answer semantically matches the reference answer.

First think through your answer inside of <thinking> tags, then assign a score between 0.0 and 5.0 based on how well the machine answer matches the reference answer. Score 5.0 means a completely match, score 0.0 means a completely mismatch. Answer the score inside of <scoring> tags.

Also provide the reason to give this score inside of <reason> tags.

Assistant: <thinking>

"""

ਕਲਾਉਡ 2 ਮਾਡਲ ਇੱਕ ਮੁਲਾਂਕਣ ਸਕੋਰ ਅਤੇ ਇੱਕ ਟਿੱਪਣੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਸਕੋਰ ਕਿਉਂ ਦਿੱਤਾ ਗਿਆ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਨ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ।

ਸਵਾਲ	ਇਸ ਸੰਦਰਭ ਵਿੱਚ 'ਫਿਟ ਆਊਟ ਵਰਕਸ' ਦਾ ਕੀ ਅਰਥ ਹੈ?
ਹਵਾਲਾ ਜਵਾਬ	ਫਿਟ ਆਉਟ ਵਰਕਸ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਸਾਰੀ ਦੇ ਇਕਰਾਰਨਾਮੇ ਦੇ ਤਹਿਤ ਐਮਾਜ਼ਾਨ ਦੁਆਰਾ ਜਾਂ ਉਸ ਦੀ ਤਰਫੋਂ ਡਿਵੈਲਪਰ ਦੁਆਰਾ ਇੱਕ ਕਾਲਪਨਿਕ ਡਿਵੈਲਪਰ ਸ਼ੈੱਲ ਅਤੇ ਕੋਰ ਬੇਸ-ਬਿਲਡ ਸਥਿਤੀ ਤੋਂ ਪਹਿਲੀ ਪ੍ਰਾਪਤੀ ਦੀ ਮਿਤੀ ਤੱਕ ਕੀਤੇ ਗਏ ਕੰਮ। ਇਹਨਾਂ ਕੰਮਾਂ ਵਿੱਚ ਐਮਾਜ਼ਾਨ ਦੇ ਲੋੜੀਂਦੇ ਫਿਟ-ਆਉਟਸ, ਵੱਡੇ-ਬਾਕਸ ਸਥਾਪਨਾਵਾਂ, ਅਤੇ ਕਸਟਮ ਸ਼ਾਮਲ ਹਨ
QA ਬੋਟ ਜਵਾਬ	ਫਿਟ ਆਉਟ ਵਰਕਸ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਉਸਾਰੀ ਦੇ ਇਕਰਾਰਨਾਮੇ ਦੇ ਤਹਿਤ ਐਮਾਜ਼ਾਨ ਦੁਆਰਾ ਜਾਂ ਉਸ ਦੀ ਤਰਫੋਂ ਡਿਵੈਲਪਰ ਦੁਆਰਾ ਇੱਕ ਕਾਲਪਨਿਕ ਡਿਵੈਲਪਰ ਸ਼ੈੱਲ ਅਤੇ ਕੋਰ ਬੇਸ-ਬਿਲਡ ਸਥਿਤੀ ਤੋਂ ਪਹਿਲੀ ਪ੍ਰਾਪਤੀ ਦੀ ਮਿਤੀ ਤੱਕ ਕੀਤੇ ਗਏ ਕੰਮ।
AI ਸਕੋਰ	4.5
AI ਟਿੱਪਣੀ	ਮਸ਼ੀਨ ਜਵਾਬ ਸਟੈਂਡਰਡ ਜਵਾਬ ਤੋਂ ਮੁੱਖ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ - ਜੋ ਕਿ ਫਿਟ ਆਉਟ ਵਰਕਸ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ ਨਿਰਮਾਣ ਇਕਰਾਰਨਾਮੇ ਦੇ ਤਹਿਤ ਐਮਾਜ਼ਾਨ ਦੁਆਰਾ ਜਾਂ ਉਸ ਦੀ ਤਰਫੋਂ ਡਿਵੈਲਪਰ ਦੁਆਰਾ ਇੱਕ ਕਾਲਪਨਿਕ ਡਿਵੈਲਪਰ ਸ਼ੈੱਲ ਅਤੇ ਕੋਰ ਬੇਸ-ਬਿਲਡ ਸਥਿਤੀ ਤੋਂ ਪਹਿਲੀ ਪ੍ਰਾਪਤੀ ਦੀ ਮਿਤੀ ਤੱਕ ਕੀਤੇ ਗਏ ਕੰਮਾਂ ਨੂੰ। . ਐਮਾਜ਼ਾਨ ਦੇ ਲੋੜੀਂਦੇ ਫਿਟ-ਆਊਟਸ, ਵੱਡੇ-ਬਾਕਸ ਸਥਾਪਨਾਵਾਂ, ਅਤੇ ਅਨੁਕੂਲਤਾਵਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਬਾਰੇ ਵਾਧੂ ਵੇਰਵੇ ਢੁਕਵੇਂ ਹਨ ਅਤੇ ਹੋਰ ਸੰਦਰਭ ਪ੍ਰਦਾਨ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ, ਇਸਲਈ ਮੈਂ ਮਸ਼ੀਨ ਜਵਾਬ ਨੂੰ 4.5 ਵਿੱਚੋਂ 5 ਸਕੋਰ ਕੀਤਾ ਹੈ। ਇਹ ਮਿਆਰੀ ਜਵਾਬ ਦੇ ਤੱਤ ਨੂੰ ਹਾਸਲ ਕਰਦਾ ਹੈ ਅਤੇ ਕੁਝ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਲਾਭਦਾਇਕ ਵਾਧੂ ਵੇਰਵੇ।

274 ਪ੍ਰਮਾਣਿਕਤਾ ਪ੍ਰਸ਼ਨਾਂ ਵਿੱਚੋਂ, ਨਿਰੀਖਣ ਕੀਤੇ ਵਧੀਆ-ਟਿਊਨਡ ਮਾਡਲ ਨੇ 159 ਜਵਾਬ ਤਿਆਰ ਕੀਤੇ ਜਿਨ੍ਹਾਂ ਦੇ AI ਸਕੋਰ 4 ਤੋਂ ਵੱਧ ਹਨ। ਅਸੀਂ 60 ਤੋਂ ਘੱਟ ਸਕੋਰਾਂ ਵਾਲੇ 3 ਜਵਾਬ ਵੇਖੇ; ਸਮੁੱਚੀ ਜਵਾਬ ਗੁਣਵੱਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਲਈ ਜਗ੍ਹਾ ਹੈ।

RLHF ਤੋਂ ਪਹਿਲਾਂ ਫੀਡਬੈਕ ਸਕੋਰ

Amazon Engineering SMEs ਨੇ ਇਸ AI ਫੀਡਬੈਕ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕੀਤਾ ਅਤੇ AI ਸਕੋਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਲਾਭਾਂ ਨੂੰ ਸਵੀਕਾਰ ਕੀਤਾ। AI ਫੀਡਬੈਕ ਤੋਂ ਬਿਨਾਂ, SMEs ਨੂੰ ਕੱਟ-ਆਫ ਜਵਾਬਾਂ ਅਤੇ ਭਰਮਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ, ਅਤੇ ਇਹ ਨਿਰਣਾ ਕਰਨ ਲਈ ਕਿ ਕੀ LLM ਸਹੀ ਸਮੱਗਰੀ ਅਤੇ ਮੁੱਖ ਸੰਕਲਪਾਂ ਨੂੰ ਵਾਪਸ ਕਰ ਰਿਹਾ ਹੈ, ਹਰੇਕ LLM ਜਵਾਬ ਦੀ ਸਮੀਖਿਆ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਕੁਝ ਸਮਾਂ ਚਾਹੀਦਾ ਹੈ। AI ਫੀਡਬੈਕ AI ਸਕੋਰਾਂ ਨੂੰ ਸਵੈਚਲਿਤ ਤੌਰ 'ਤੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਅਤੇ SMEs ਨੂੰ ਸਕੋਰਾਂ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਨ ਅਤੇ ਜਵਾਬਾਂ ਵਿੱਚ ਰੁਝਾਨਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਫਿਲਟਰਿੰਗ, ਛਾਂਟਣ ਅਤੇ ਗਰੁੱਪਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਔਸਤ SME ਦੇ ਸਮੀਖਿਆ ਸਮੇਂ ਨੂੰ 80% ਘਟਾਉਂਦਾ ਹੈ।

ਮਨੁੱਖੀ ਅਤੇ AI ਫੀਡਬੈਕ ਤੋਂ ਮਜਬੂਤੀ ਦੀ ਸਿਖਲਾਈ

ਜਦੋਂ ਸਿਖਲਾਈ ਦੇ ਨਮੂਨੇ ਤਿਆਰ ਹੁੰਦੇ ਹਨ, ਅਸੀਂ ਵਰਤਦੇ ਹਾਂ ਪ੍ਰੌਕਸੀਮਲ ਪਾਲਿਸੀ ਓਪਟੀਮਾਈਜੇਸ਼ਨ (PPO) ਐਲਗੋਰਿਦਮ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਕਰਨ ਲਈ। PPO ਇੱਕ ਪਾਲਿਸੀ ਗਰੇਡੀਐਂਟ ਵਿਧੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਜੋ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਪਾਲਿਸੀ ਨੂੰ ਅੱਪਡੇਟ ਕਰਨ ਲਈ ਛੋਟੇ ਕਦਮ ਚੁੱਕਦਾ ਹੈ, ਤਾਂ ਜੋ ਸਿੱਖਣ ਦੇ ਏਜੰਟ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਅਨੁਕੂਲ ਨੀਤੀ ਨੈੱਟਵਰਕ ਤੱਕ ਪਹੁੰਚ ਸਕਣ। ਇਹ ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਵਧੇਰੇ ਸਥਿਰ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਵਿਭਿੰਨਤਾ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ।

ਸਿਖਲਾਈ ਦੇ ਦੌਰਾਨ, ਪਹਿਲਾਂ ਅਸੀਂ ਇੱਕ ਇਨਾਮ ਮਾਡਲ ਬਣਾਉਣ ਲਈ ਮਨੁੱਖੀ- ਅਤੇ AI-ਲੇਬਲ ਵਾਲੇ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਜਿਸਦੀ ਵਰਤੋਂ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਵਜ਼ਨ ਅੱਪਡੇਟ ਲਈ ਗਾਈਡ ਕੀਤੀ ਜਾਵੇਗੀ। ਇਸ ਵਰਤੋਂ ਦੇ ਕੇਸ ਲਈ, ਅਸੀਂ ਇੱਕ ਡਿਸਟਿਲਰੋਬਰਟਾ-ਬੇਸ ਇਨਾਮ ਮਾਡਲ ਚੁਣਦੇ ਹਾਂ ਅਤੇ ਇਸਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਫਾਰਮੈਟ ਵਿੱਚ ਨਮੂਨਿਆਂ ਦੁਆਰਾ ਸਿਖਲਾਈ ਦਿੰਦੇ ਹਾਂ:

[Instruction, Chosen_response, Rejected_response]

ਹੇਠਾਂ ਸਿਖਲਾਈ ਰਿਕਾਰਡ ਦੀ ਇੱਕ ਉਦਾਹਰਨ ਹੈ।

ਸਿੱਖਿਆ	ਸੰਦਰਭ ਦੇ ਅਨੁਸਾਰ, ਸੰਮਲਿਤ ਅਤੇ ਪਹੁੰਚਯੋਗ ਡਿਜ਼ਾਈਨ ਲਈ ਕੀ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਹੈ?
ਚੁਣਿਆ_ਜਵਾਬ	BREEAM ਕ੍ਰੈਡਿਟ HEA06 - ਸੰਮਲਿਤ ਅਤੇ ਪਹੁੰਚਯੋਗ ਡਿਜ਼ਾਈਨ - ਇਮਾਰਤ ਨੂੰ ਉਦੇਸ਼ ਲਈ ਫਿੱਟ, ਢੁਕਵੇਂ ਅਤੇ ਸਾਰੇ ਸੰਭਾਵੀ ਉਪਭੋਗਤਾਵਾਂ ਦੁਆਰਾ ਪਹੁੰਚਯੋਗ ਬਣਾਉਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। BREEAM ਚੈੱਕ ਲਿਸਟ A3 ਦੇ ਅਨੁਸਾਰ ਪਹੁੰਚ ਦੀ ਰਣਨੀਤੀ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ
ਅਸਵੀਕਾਰ ਕੀਤਾ_ਜਵਾਬ	ਪ੍ਰਸੰਗ ਦੱਸਦਾ ਹੈ ਕਿ

ਇਨਾਮ ਮਾਡਲ ਨੂੰ ਸਿੱਖਣ ਦੀ ਦਰ 1e-5 ਨਾਲ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ। ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਦਿੱਤੇ ਚਾਰਟ ਵਿੱਚ ਦਿਖਾਇਆ ਗਿਆ ਹੈ, ਸਿਖਲਾਈ 10 ਯੁੱਗਾਂ ਦੇ ਬਾਅਦ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕਨਵਰਜ ਕਰਦੀ ਹੈ।

RLHF ਸਿਖਲਾਈ ਪ੍ਰਕਿਰਿਆ

ਫਿਰ ਇਨਾਮ ਮਾਡਲ ਨੂੰ ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਇਸ ਵਰਤੋਂ ਦੇ ਕੇਸ ਲਈ, ਅਸੀਂ ਸਿੱਖਣ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ PEFT/LoRA ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। LoRA_r 32 ਹੈ ਅਤੇ LoRA_alpha 64 ਹੈ। PPO-ਅਧਾਰਿਤ ਸਿਖਲਾਈ ਤਿੰਨ ਯੁੱਗਾਂ ਵਿੱਚ 1.41e-5 ਦੀ ਦਰ 'ਤੇ ਹੈ। ਰੀਇਨਫੋਰਸਮੈਂਟ ਟਰੇਨਿੰਗ ਬਹੁਤ ਜ਼ਿਆਦਾ ਅਸਥਿਰ ਅਤੇ ਲੇਬਲ ਡੇਟਾ ਅਤੇ ਫੀਡਬੈਕ ਡੇਟਾ ਲਈ ਬਹੁਤ ਸੰਵੇਦਨਸ਼ੀਲ ਹੈ। ਅਸੀਂ reward_mean ਮੈਟ੍ਰਿਕ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ, ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਦੇਖਣ ਲਈ, ਇਨਾਮ ਮਾਡਲ ਦੀ ਵਿਸ਼ੇਸ਼ ਤੌਰ 'ਤੇ ਨਿਗਰਾਨੀ ਕਰਕੇ ਵਾਤਾਵਰਣ ਤੋਂ ਪ੍ਰਾਪਤ ਔਸਤ ਇਨਾਮ।

RLAIF ਤੋਂ ਬਾਅਦ, ਅਸੀਂ ਸਕਾਰਾਤਮਕ ਸਕੋਰ (3 ਤੋਂ ਉੱਪਰ) ਦੇ ਨਾਲ ਬੋਟ ਜਵਾਬਾਂ ਦੀ ਸੰਖਿਆ 78.1% ਤੋਂ 85.5% ਤੱਕ ਵਧਦੇ ਹੋਏ ਦੇਖ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਨਕਾਰਾਤਮਕ ਸਕੋਰ (3 ਤੋਂ ਹੇਠਾਂ) ਵਾਲੇ 21.9% ਤੋਂ 14.5% ਤੱਕ ਘਟਦੇ ਹਨ। ਕੁੱਲ ਮਿਲਾ ਕੇ, ਔਸਤ AI ਫੀਡਬੈਕ ਸਕੋਰ 8% ਤੱਕ ਵਧਦਾ ਹੈ, 3.9 ਤੋਂ 4.2 ਤੱਕ।

RLAIF ਦੁਆਰਾ ਸੁਧਾਰ

ਤੁਸੀਂ ਹੇਠਾਂ ਦਿੱਤੀ ਉਦਾਹਰਨ ਵਿੱਚ ਸੁਧਾਰ ਦੇਖ ਸਕਦੇ ਹੋ।

ਸਵਾਲ	ਫਰਸ਼ ਵਾਲੇ ਖੇਤਰਾਂ ਲਈ ਟਾਇਲ ਕੀਤੇ ਜਾ ਰਹੇ ਹਨ, ਕਿਸ ਸਕ੍ਰੀਡ ਦੀ ਲੋੜ ਹੈ?
ਹਵਾਲਾ	ਕੰਕਰੀਟ ਸਕ੍ਰੀਡ ਫਲੋਰਿੰਗ ਸਿਰਫ ਫਰਸ਼-ਟਾਈਲ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੀ ਹੈ। ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਫਰਸ਼-ਟਾਈਲਾਂ ਕਿੱਥੇ ਲਾਗੂ ਹੁੰਦੀਆਂ ਹਨ, ਡਰਾਇੰਗ ਸੀਰੀਜ਼ A-32 ਨੂੰ ਵੇਖੋ।
RLAIF ਤੋਂ ਪਹਿਲਾਂ ਬੋਟ ਜਵਾਬ	ਕੰਕਰੀਟ ਸਕ੍ਰੀਡ ਫਲੋਰਿੰਗ ਸਿਰਫ ਵਿੱਚ ਲਾਗੂ ਹੈ
RLAIF ਤੋਂ ਪਹਿਲਾਂ AI ਸਕੋਰ	3
RLAIF ਤੋਂ ਬਾਅਦ ਬੋਟ ਜਵਾਬ	ਕੰਕਰੀਟ ਸਕ੍ਰੀਡ ਫਲੋਰਿੰਗ ਸਿਰਫ ਟਾਈਲਾਂ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਲਾਗੂ ਹੁੰਦੀ ਹੈ। ਇਹ ਦੇਖਣ ਲਈ ਕਿ ਟਾਈਲ ਫਲੋਰਿੰਗ ਕਿੱਥੇ ਲਾਗੂ ਹੁੰਦੀ ਹੈ, ਡਰਾਇੰਗ ਸੀਰੀਜ਼ A-32 ਨੂੰ ਵੇਖੋ।
RLAIF ਤੋਂ ਬਾਅਦ AI ਸਕੋਰ	4.5

ਸਿੱਟਾ

ਇਹ ਪੋਸਟ ਐਮਾਜ਼ਾਨ ਈਯੂ ਡਿਜ਼ਾਈਨ ਅਤੇ ਨਿਰਮਾਣ ਟੀਮ ਦੇ ਨਾਲ ਸਾਡੇ ਕੰਮ ਦੀ ਨਿਰੰਤਰਤਾ ਹੈ ਜਿਵੇਂ ਕਿ ਇਸ ਵਿੱਚ ਚਰਚਾ ਕੀਤੀ ਗਈ ਹੈ ਐਮਾਜ਼ਾਨ ਈਯੂ ਡਿਜ਼ਾਈਨ ਅਤੇ ਨਿਰਮਾਣ ਵਿੱਚ ਮਦਦ ਕਰਨ ਲਈ ਐਮਾਜ਼ਾਨ ਸੇਜਮੇਕਰ 'ਤੇ ਇੱਕ ਜਨਰੇਟਿਵ AI-ਸੰਚਾਲਿਤ ਹੱਲ. ਇਸ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਦਿਖਾਇਆ ਹੈ ਕਿ ਕਿਵੇਂ ਅਸੀਂ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਨਾਲ ਮਿਸਟਰਲ-7ਬੀ ਮਾਡਲ ਨੂੰ ਵਧੀਆ ਬਣਾਉਣ ਲਈ ਮਨੁੱਖੀ ਅਤੇ AI ਫੀਡਬੈਕ ਡੇਟਾ ਤਿਆਰ ਕੀਤਾ ਹੈ। RLAIF ਤੋਂ ਬਾਅਦ ਮਾਡਲ ਨੇ ਐਮਾਜ਼ਾਨ ਇੰਜੀਨੀਅਰਿੰਗ ਦੇ ਪ੍ਰਸ਼ਨ ਉੱਤਰ ਬੋਟ ਲਈ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਦਾਨ ਕੀਤਾ, AI ਫੀਡਬੈਕ ਸਕੋਰ ਵਿੱਚ 8% ਸੁਧਾਰ ਕੀਤਾ। Amazon D&C ਟੀਮ ਦੇ ਪਾਇਲਟ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ, RLAIF ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ SMEs ਲਈ ਪ੍ਰਮਾਣਿਕਤਾ ਵਰਕਲੋਡ ਨੂੰ ਅੰਦਾਜ਼ਨ 80% ਤੱਕ ਘਟਾਇਆ ਗਿਆ ਹੈ। ਅਗਲੇ ਕਦਮ ਵਜੋਂ, ਅਸੀਂ ਐਮਾਜ਼ਾਨ ਇੰਜਨੀਅਰਿੰਗ ਦੇ ਡੇਟਾ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਨਾਲ ਜੁੜ ਕੇ ਇਸ ਹੱਲ ਨੂੰ ਵਧਾਵਾਂਗੇ, ਅਤੇ ਲੂਪ ਵਿੱਚ ਮਨੁੱਖ ਦੇ ਨਾਲ ਨਿਰੰਤਰ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸਵੈਚਾਲਤ ਕਰਨ ਲਈ ਇੱਕ ਫਰੇਮਵਰਕ ਤਿਆਰ ਕਰਾਂਗੇ। ਅਸੀਂ ਪ੍ਰੋਂਪਟ ਟੈਮਪਲੇਟ ਨੂੰ ਟਿਊਨ ਕਰਕੇ AI ਫੀਡਬੈਕ ਗੁਣਵੱਤਾ ਵਿੱਚ ਹੋਰ ਸੁਧਾਰ ਕਰਾਂਗੇ।

ਇਸ ਪ੍ਰਕਿਰਿਆ ਦੇ ਮਾਧਿਅਮ ਤੋਂ, ਅਸੀਂ ਸਿੱਖਿਆ ਕਿ RLHF ਅਤੇ RLAIF ਦੁਆਰਾ ਪ੍ਰਸ਼ਨ ਉੱਤਰ ਕਾਰਜਾਂ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਕਿਵੇਂ ਕਰਨਾ ਹੈ।

LLM ਤੋਂ ਸਹੀ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰ ਆਉਟਪੁੱਟ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਮਨੁੱਖੀ ਪ੍ਰਮਾਣਿਕਤਾ ਅਤੇ ਵਾਧਾ ਜ਼ਰੂਰੀ ਹੈ। ਮਾਨਵੀ ਫੀਡਬੈਕ ਦੀ ਵਰਤੋਂ ਮਾਡਲ ਪ੍ਰਤੀਕਿਰਿਆ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ RLHF ਵਿੱਚ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ।
RLAIF ਮੁਲਾਂਕਣ ਅਤੇ ਸਿੱਖਣ ਦੇ ਚੱਕਰ ਨੂੰ ਸਵੈਚਲਿਤ ਕਰਦਾ ਹੈ। AI ਦੁਆਰਾ ਤਿਆਰ ਫੀਡਬੈਕ ਘੱਟ ਵਿਅਕਤੀਗਤ ਹੈ ਕਿਉਂਕਿ ਇਹ SMEs ਦੇ ਇੱਕ ਛੋਟੇ ਪੂਲ ਤੋਂ ਕਿਸੇ ਖਾਸ ਤਰਜੀਹ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰਦਾ ਹੈ।
RLAIF SMEs ਤੋਂ ਲੋੜੀਂਦੇ ਯਤਨਾਂ ਨੂੰ ਘੱਟ ਕਰਦੇ ਹੋਏ ਨਿਰੰਤਰ ਮਜ਼ਬੂਤੀ ਸਿਖਲਾਈ ਦੁਆਰਾ ਬੋਟ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨ ਲਈ ਵਧੇਰੇ ਮਾਪਯੋਗ ਹੈ। ਇਹ ਖਾਸ ਤੌਰ 'ਤੇ ਵੱਡੀਆਂ ਸੰਸਥਾਵਾਂ ਦੇ ਅੰਦਰ ਡੋਮੇਨ-ਵਿਸ਼ੇਸ਼ ਜਨਰੇਟਿਵ AI ਹੱਲਾਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਲਾਭਦਾਇਕ ਹੈ।
ਇਹ ਪ੍ਰਕਿਰਿਆ ਨਿਯਮਤ ਅਧਾਰ 'ਤੇ ਕੀਤੀ ਜਾਣੀ ਚਾਹੀਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਨਵਾਂ ਡੋਮੇਨ ਡੇਟਾ ਹੱਲ ਦੁਆਰਾ ਕਵਰ ਕਰਨ ਲਈ ਉਪਲਬਧ ਹੁੰਦਾ ਹੈ.

ਇਸ ਵਰਤੋਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ, ਅਸੀਂ ਮਲਟੀਪਲ LLM ਦੀ ਜਾਂਚ ਕਰਨ ਅਤੇ ਮਲਟੀਪਲ LLM ਸਿਖਲਾਈ ਪਹੁੰਚਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨ ਲਈ ਸੇਜਮੇਕਰ ਜੰਪਸਟਾਰਟ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹ ਵੱਧ ਤੋਂ ਵੱਧ ਕੁਸ਼ਲਤਾ ਅਤੇ ਗੁਣਵੱਤਾ ਦੇ ਨਾਲ AI ਫੀਡਬੈਕ ਅਤੇ ਸਿੱਖਣ ਦੇ ਚੱਕਰ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਤੇਜ਼ ਕਰਦਾ ਹੈ। ਆਪਣੇ ਖੁਦ ਦੇ ਪ੍ਰੋਜੈਕਟ ਲਈ, ਤੁਸੀਂ ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਫੀਡਬੈਕ ਨੂੰ ਇਕੱਠਾ ਕਰਨ ਲਈ ਮਨੁੱਖੀ-ਇਨ-ਦੀ-ਲੂਪ ਪਹੁੰਚ ਪੇਸ਼ ਕਰ ਸਕਦੇ ਹੋ, ਜਾਂ ਕਿਸੇ ਹੋਰ LLM ਦੀ ਵਰਤੋਂ ਕਰਕੇ AI ਫੀਡਬੈਕ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹੋ। ਫਿਰ ਤੁਸੀਂ RLHF ਅਤੇ RLAIF ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਵਧੀਆ ਬਣਾਉਣ ਲਈ ਇਸ ਪੋਸਟ ਵਿੱਚ ਪਰਿਭਾਸ਼ਿਤ ਤਿੰਨ-ਪੜਾਵੀ ਪ੍ਰਕਿਰਿਆ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦੇ ਹੋ। ਅਸੀਂ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਸੇਜਮੇਕਰ ਜੰਪਸਟਾਰਟ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੇ ਤਰੀਕਿਆਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨ ਦੀ ਸਿਫਾਰਸ਼ ਕਰਦੇ ਹਾਂ।

ਲੇਖਕ ਬਾਰੇ

ਯੂਨਫੇਈ ਬਾਈ AWS ਵਿਖੇ ਇੱਕ ਸੀਨੀਅਰ ਸੋਲਿਊਸ਼ਨ ਆਰਕੀਟੈਕਟ ਹੈ। AI/ML, ਡੇਟਾ ਸਾਇੰਸ, ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਪਿਛੋਕੜ ਦੇ ਨਾਲ, Yunfei ਗਾਹਕਾਂ ਨੂੰ ਵਪਾਰਕ ਨਤੀਜੇ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ AWS ਸੇਵਾਵਾਂ ਨੂੰ ਅਪਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਉਹ AI/ML ਅਤੇ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਹੱਲ ਤਿਆਰ ਕਰਦਾ ਹੈ ਜੋ ਗੁੰਝਲਦਾਰ ਤਕਨੀਕੀ ਚੁਣੌਤੀਆਂ ਨੂੰ ਦੂਰ ਕਰਦੇ ਹਨ ਅਤੇ ਰਣਨੀਤਕ ਉਦੇਸ਼ਾਂ ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦੇ ਹਨ। ਯੂਨਫੇਈ ਨੇ ਇਲੈਕਟ੍ਰਾਨਿਕ ਅਤੇ ਇਲੈਕਟ੍ਰੀਕਲ ਇੰਜੀਨੀਅਰਿੰਗ ਵਿੱਚ ਪੀਐਚਡੀ ਕੀਤੀ ਹੈ। ਕੰਮ ਤੋਂ ਬਾਹਰ, ਯੂਨਫੇਈ ਨੂੰ ਪੜ੍ਹਨ ਅਤੇ ਸੰਗੀਤ ਦਾ ਆਨੰਦ ਮਿਲਦਾ ਹੈ।

ਇਲਾਦ ਡਵੇਕ ਐਮਾਜ਼ਾਨ 'ਤੇ ਕੰਸਟਰਕਸ਼ਨ ਟੈਕਨਾਲੋਜੀ ਮੈਨੇਜਰ ਹੈ। ਉਸਾਰੀ ਅਤੇ ਪ੍ਰੋਜੈਕਟ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਇੱਕ ਪਿਛੋਕੜ ਦੇ ਨਾਲ, ਇਲਾਡ ਟੀਮਾਂ ਨੂੰ ਉਸਾਰੀ ਪ੍ਰੋਜੈਕਟਾਂ ਨੂੰ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਨਵੀਆਂ ਤਕਨਾਲੋਜੀਆਂ ਅਤੇ ਡੇਟਾ-ਅਧਾਰਿਤ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਅਪਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਉਹ ਲੋੜਾਂ ਅਤੇ ਹੱਲਾਂ ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ, ਅਤੇ ਬੇਸਪੋਕ ਗੁਣਾਂ ਦੇ ਵਿਕਾਸ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ। ਏਲਾਦ ਨੇ ਸਟ੍ਰਕਚਰਲ ਇੰਜੀਨੀਅਰਿੰਗ ਵਿੱਚ ਐਮਬੀਏ ਅਤੇ ਬੀਐਸਸੀ ਕੀਤੀ ਹੈ। ਕੰਮ ਤੋਂ ਬਾਹਰ, ਇਲਾਡ ਨੂੰ ਯੋਗਾ, ਲੱਕੜ ਦਾ ਕੰਮ, ਅਤੇ ਆਪਣੇ ਪਰਿਵਾਰ ਨਾਲ ਸਫ਼ਰ ਕਰਨਾ ਪਸੰਦ ਹੈ।

ਲੂਕਾ ਸੇਰਾਬੋਨ ਐਮਾਜ਼ਾਨ ਵਿਖੇ ਬਿਜ਼ਨਸ ਇੰਟੈਲੀਜੈਂਸ ਇੰਜੀਨੀਅਰ ਹੈ। ਡਾਟਾ ਵਿਗਿਆਨ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਉਸਦੀ ਪਿੱਠਭੂਮੀ ਤੋਂ ਖਿੱਚਦੇ ਹੋਏ, ਲੂਕਾ ਕ੍ਰਾਫਟਸ ਨੇ ਆਪਣੇ ਗਾਹਕਾਂ ਦੀਆਂ ਵਿਲੱਖਣ ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਤਕਨੀਕੀ ਹੱਲ ਤਿਆਰ ਕੀਤੇ, ਉਹਨਾਂ ਨੂੰ ਵਧੇਰੇ ਟਿਕਾਊ ਅਤੇ ਸਕੇਲੇਬਲ ਪ੍ਰਕਿਰਿਆਵਾਂ ਵੱਲ ਵਧਾਇਆ। ਡੇਟਾ ਸਾਇੰਸ ਵਿੱਚ ਐਮਐਸਸੀ ਨਾਲ ਲੈਸ, ਲੂਕਾ ਆਪਣੇ ਵਿਹਲੇ ਪਲਾਂ ਵਿੱਚ DIY ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ, ਬਾਗਬਾਨੀ ਕਰਨ ਅਤੇ ਰਸੋਈ ਦੇ ਅਨੰਦ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨ ਦਾ ਅਨੰਦ ਲੈਂਦਾ ਹੈ।

ਐਸਈਓ ਦੁਆਰਾ ਸੰਚਾਲਿਤ ਸਮੱਗਰੀ ਅਤੇ PR ਵੰਡ. ਅੱਜ ਹੀ ਵਧਾਓ।
PlatoData.Network ਵਰਟੀਕਲ ਜਨਰੇਟਿਵ ਏ.ਆਈ. ਆਪਣੇ ਆਪ ਨੂੰ ਸਮਰੱਥ ਬਣਾਓ। ਇੱਥੇ ਪਹੁੰਚ ਕਰੋ।
ਪਲੈਟੋਏਆਈਸਟ੍ਰੀਮ। Web3 ਇੰਟੈਲੀਜੈਂਸ। ਗਿਆਨ ਵਧਾਇਆ। ਇੱਥੇ ਪਹੁੰਚ ਕਰੋ।
ਪਲੇਟੋਈਐਸਜੀ. ਕਾਰਬਨ, ਕਲੀਨਟੈਕ, ਊਰਜਾ, ਵਾਤਾਵਰਨ, ਸੂਰਜੀ, ਕੂੜਾ ਕਰਕਟ ਪ੍ਰਬੰਧਨ. ਇੱਥੇ ਪਹੁੰਚ ਕਰੋ।
ਪਲੈਟੋ ਹੈਲਥ। ਬਾਇਓਟੈਕ ਅਤੇ ਕਲੀਨਿਕਲ ਟਰਾਇਲ ਇੰਟੈਲੀਜੈਂਸ। ਇੱਥੇ ਪਹੁੰਚ ਕਰੋ।
ਸਰੋਤ: https://aws.amazon.com/blogs/machine-learning/improve-llm-performance-with-human-and-ai-feedback-on-amazon-sagemaker-for-amazon-engineering/

ਜਨਰੇਟਿਵ ਡਾਟਾ ਇੰਟੈਲੀਜੈਂਸ

ਇੱਕ ਪਾਇਲਟ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਐਮਾਜ਼ਾਨ ਇੰਜੀਨੀਅਰਾਂ ਤੋਂ ਫੀਡਬੈਕ ਇਕੱਤਰ ਕਰੋ

ਨਿਰੀਖਣ ਕੀਤੇ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਅਤੇ ਰੀਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੇ ਨਾਲ ਬੋਟ ਪ੍ਰਤੀਕਿਰਿਆ ਵਿੱਚ ਸੁਧਾਰ ਕਰੋ

ਫਾਈਨ-ਟਿਊਨਿੰਗ ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ

ਮਜ਼ਬੂਤੀ ਸਿੱਖਣ ਲਈ ਮਨੁੱਖੀ ਅਤੇ AI ਫੀਡਬੈਕ ਇਕੱਤਰ ਕਰੋ

ਮਨੁੱਖੀ ਅਤੇ AI ਫੀਡਬੈਕ ਤੋਂ ਮਜਬੂਤੀ ਦੀ ਸਿਖਲਾਈ

ਸਿੱਟਾ

ਲੇਖਕ ਬਾਰੇ

ਓਪਨਏਆਈ ਏਆਈ-ਪਾਵਰਡ ਖੋਜ ਨਾਲ ਗੂਗਲ ਅਤੇ ਪਰੇਸ਼ਾਨੀ ਨੂੰ ਚੁਣੌਤੀ ਦੇ ਸਕਦਾ ਹੈ: ਰਿਪੋਰਟਾਂ - ਡੀਕ੍ਰਿਪਟ

ਕ੍ਰਿਪਟੋ ਵ੍ਹੇਲਜ਼ ਨੇ ਸਿੰਗਲ-ਡੇ ਫੈਨਜ਼ ਵਿੱਚ ਬਿਟਕੋਇਨ ਵਿੱਚ $ 2.9 ਬਿਲੀਅਨ ਖੋਹ ਲਏ

ਨਵੀਨਤਮ ਖੁਫੀਆ ਜਾਣਕਾਰੀ

ਨਾਈਜੀਰੀਆ ਰਾਸ਼ਟਰੀ ਸੁਰੱਖਿਆ ਚਿੰਤਾਵਾਂ 'ਤੇ P2P ਕ੍ਰਿਪਟੋ ਵਪਾਰ ਨੂੰ ਗੈਰਕਾਨੂੰਨੀ ਕਰਨ ਲਈ ਤਿਆਰ ਹੈ

ਵੈਬ 3 ਗੇਮਿੰਗ ਰਿਸੈਪਸ਼ਨ ਸੰਦੇਹਵਾਦ ਤੋਂ ਉਤਸ਼ਾਹ ਵਿੱਚ ਬਦਲਦਾ ਹੈ: ਸਟੂਡੀਓ ਦੇ ਸ਼ਰੇਪਨਲ ਦੇ ਮੁਖੀ

ਟਰੰਪ ਦੇ ਅਧੀਨ ਐਸਈਸੀ ਕ੍ਰਿਪਟੋ ਰੈਗੂਲੇਸ਼ਨ 'ਤੇ ਜ਼ੋਰਦਾਰ ਪੈਰਵੀ ਕਰੇਗਾ - ਸਾਬਕਾ ਰੈਗੂਲੇਟਰ ਕਹਿੰਦਾ ਹੈ

ਗ੍ਰੇਸਕੇਲ ਬਿਟਕੋਇਨ ETF ਨੇ ਸਟ੍ਰੀਕ ਗੁਆ ਲਈ, $63 ਮਿਲੀਅਨ ਵਿੱਚ ਖਿੱਚਿਆ - ਡੀਕ੍ਰਿਪਟ

ਸੀਆਈਐਸਓ ਕੋਨਰ: ਵੇਰੀਜੋਨ ਡੀਬੀਆਈਆਰ ਪਾਠ; ਵਰਕਪਲੇਸ ਮਾਈਕ੍ਰੋਐਗਰੇਸ਼ਨ; ਸ਼ੈਡੋ APIs

ਸੀਆਈਐਸਓ ਕੋਨਰ: ਵੇਰੀਜੋਨ ਡੀਬੀਆਈਆਰ ਪਾਠ; ਵਰਕਪਲੇਸ ਮਾਈਕ੍ਰੋਐਗਰੇਸ਼ਨ; ਸ਼ੈਡੋ APIs

ਸਾਡੇ ਨਾਲ ਚੈਟ ਕਰੋ