Generatiivne andmeluure

Nielsen Sports näeb Amazon SageMakeri mitme mudeli lõpp-punktide abil videoanalüüsi kulude vähenemist 75% võrra | Amazoni veebiteenused

kuupäev:

See on külalispostitus, mis on kirjutatud koos Tamir Rubinsky ja Aviad Araniasega Nielsen Spordist.

Nielseni sport kujundab maailma meedia ja sisu ülemaailmne liider publiku ülevaate, andmete ja analüüsi osas. Tänu oma arusaamale inimestest ja nende käitumisest kõigis kanalites ja platvormides anname oma klientidele sõltumatud ja teostatavad luureandmed, et nad saaksid oma vaatajaskonnaga ühendust võtta ja nendega suhelda – nii praegu kui ka tulevikus.

Meie Nielsen Spordi missiooniks on pakkuda oma klientidele – kaubamärkidele ja õiguste omanikele – võimalust mõõta investeeringutasuvust (ROI) ja spordi sponsorlusreklaami kampaania tõhusust kõigis kanalites, sealhulgas televisioonis, võrgus, sotsiaalmeedias ja isegi ajalehed ning pakkuda täpset sihti kohalikul, riiklikul ja rahvusvahelisel tasandil.

Selles postituses kirjeldame, kuidas Nielsen Sports moderniseeris süsteemi, mis käitab tootmises tuhandeid erinevaid masinõppe (ML) mudeleid, kasutades Amazon SageMaker mitme mudeli lõpp-punktid (MME) ning vähendasid tegevus- ja finantskulusid 75%.

Kanalivideo segmenteerimisega seotud väljakutsed

Meie tehnoloogia põhineb tehisintellektil (AI) ja täpsemalt arvutinägemisel (CV), mis võimaldab meil jälgida brändi eksponeerimist ja tuvastada täpselt selle asukohta. Näiteks tuvastame, kas bränd on bänneril või särgil. Lisaks tuvastame kaubamärgi asukoha esemel, näiteks sildi või varruka ülemises nurgas. Järgmisel joonisel on näide meie sildistamissüsteemist.

Nielseni märgistamissüsteemi näide

Et mõista meie skaleerimise ja kuludega seotud väljakutseid, vaatame mõnda tüüpilist arvu. Iga kuu tuvastame erinevates kanalites üle 120 miljoni kaubamärgi näitamise ning süsteem peab toetama enam kui 100,000 6 kaubamärgi ja erinevate kaubamärkide variatsioonide tuvastamist. Oleme loonud üle XNUMX miljardi andmepunktiga ühe maailma suurima kaubamärgi näitamiste andmebaasi.

Meie meedia hindamisprotsess koosneb mitmest etapist, nagu on näidatud järgmisel joonisel:

  1. Esiteks salvestame rahvusvahelise salvestussüsteemi abil tuhandeid kanaleid üle maailma.
  2. Voogesitame sisu koos saatekavaga (elektrooniline programmeerimisjuhend) järgmisse etappi, milleks on segmenteerimine ja mänguülekannete endi ja muu sisu või reklaamide eraldamine.
  3. Teostame meediaseiret, kus lisame igale segmendile täiendavaid metaandmeid, nagu liigaskoorid, asjakohased meeskonnad ja mängijad.
  4. Teeme brändide nähtavuse eksponeerimise analüüsi ja seejärel ühendame vaatajaskonna teabe kampaania väärtuse arvutamiseks.
  5. Teave edastatakse kliendile armatuurlaua või analüütikute aruannete kaudu. Analüütikule antakse otsene juurdepääs algandmetele või meie andmelao kaudu.

meedia hindamise sammud

Kuna tegutseme aastas üle tuhande kanali ja kümnete tuhandete videotundide mastaabis, peab meil olema analüüsiprotsessi jaoks skaleeritav automatiseerimissüsteem. Meie lahendus segmenteerib saate automaatselt ja teab, kuidas asjakohased videoklipid ülejäänud sisust eraldada.

Teeme seda spetsiaalsete algoritmide ja mudelite abil, mille oleme välja töötanud kanalite spetsiifiliste omaduste analüüsimiseks.

Kokku on meil tootmises tuhandeid erinevaid mudeleid, et toetada seda missiooni, mis on kulukas, tööga seotud üldkulud ning veatundlik ja aeglane. Uue mudeliarhitektuuriga mudelite tootmisse jõudmine võttis kuid.

See on koht, kus tahtsime oma süsteemi uuendada ja ümber kujundada.

Kulusäästlik skaleerimine CV mudelite jaoks, kasutades SageMaker MME-sid

Meie pärandvideote segmenteerimissüsteemi oli raske testida, muuta ja hooldada. Mõned väljakutsed hõlmavad töötamist vana ML-raamistikuga, komponentide vastastikust sõltuvust ja raskesti optimeeritavat töövoogu. Seda seetõttu, et põhinesime torujuhtme jaoks RabbitMQ-l, mis oli olekupõhine lahendus. Ühe komponendi silumiseks, näiteks funktsioonide ekstraktimiseks, pidime testima kogu konveieri.

Järgmine diagramm illustreerib eelmist arhitektuuri.

eelmine arhitektuur

Osana oma analüüsist tuvastasime jõudluse kitsaskohad, nagu ühe mudeli töötamine masinas, mis näitas madalat GPU kasutust 30–40%. Samuti avastasime mudelite jaoks ebatõhusad torujuhtmed ja ajastamisalgoritmid.

Seetõttu otsustasime ehitada SageMakeril põhineva uue mitme rentniku arhitektuuri, mis rakendaks jõudluse optimeerimise täiustusi, toetaks dünaamilisi partii suurusi ja käitaks mitut mudelit samaaegselt.

Iga töövoo käitamine on suunatud videorühmale. Iga video pikkus on 30–90 minutit ja igal rühmal on käitamiseks rohkem kui viis mudelit.

Vaatleme näidet: video võib olla 60 minutit pikk, koosnedes 3,600 pildist ja iga pilt tuleb esimese etapi jooksul järeldada kolme erineva ML-mudeliga. SageMaker MME-dega saame paralleelselt käitada 12 pildist koosnevaid partiisid ja kogu partii valmib vähem kui 2 sekundiga. Tavalise päeva jooksul on meil üle 20 videorühma ja tihedal nädalavahetuse päeval võib meil olla üle 100 videorühma.

Järgmine diagramm näitab meie uut, lihtsustatud arhitektuuri SageMaker MME abil.

lihtsustatud arhitektuur, kasutades SageMaker MME-d

Tulemused

Uue arhitektuuriga saavutasime paljud soovitud tulemused ja mõned ennenägematud eelised vana arhitektuuri ees:

  • Parem tööaeg - Suurendades partiide suurust (paralleelselt 12 videot) ja käivitades samaaegselt mitut mudelit (paralleelselt viis mudelit), oleme vähendanud kogu konveieri tööaega 33%, 1 tunnilt 40 minutile.
  • Täiustatud infrastruktuur – SageMakeriga uuendasime oma olemasolevat infrastruktuuri ja kasutame nüüd uuemaid AWS-i eksemplare uuemate GPU-dega, nagu g5.xlarge. Üks muudatuse suurimaid eeliseid on TorchScripti ja CUDA optimeerimiste kasutamise vahetu jõudluse paranemine.
  • Optimeeritud infrastruktuuri kasutamine – Kui meil on üks lõpp-punkt, mis võib hostida mitut mudelit, saame vähendada nii lõpp-punktide kui ka hooldatavate masinate arvu ning suurendada ka ühe masina ja selle GPU kasutust. Konkreetse viie videoga ülesande jaoks kasutame nüüd ainult viit masinat g5 eksemplare, mis annab meile eelmisest lahendusest 75% kulukasu. Tüüpilise töökoormuse jaoks päevasel ajal kasutame ühte lõpp-punkti ühe masinaga g5.xlarge, mille GPU kasutus on üle 80%. Võrdluseks, eelmise lahenduse kasutusaste oli alla 40%.
  • Suurenenud agility ja tootlikkus – SageMakeri kasutamine võimaldas meil kulutada vähem aega mudelite migreerimisele ja rohkem aega oma põhialgoritmide ja -mudelite täiustamisele. See on suurendanud meie inseneri- ja andmeteadusmeeskondade tootlikkust. Nüüd saame uut ML-mudelit uurida ja juurutada vähem kui 7 päevaga, mitte rohkem kui 1 kuuga. See on kiiruse ja planeerimise paranemine 75%.
  • Parem kvaliteet ja enesekindlus – SageMaker A/B testimisvõimaluste abil saame oma mudeleid järk-järgult kasutusele võtta ja turvaliselt tagasi kerida. Kiirem elutsükkel tootmiseni suurendas ka meie ML-mudelite täpsust ja tulemusi.

Järgmine joonis näitab meie GPU kasutust eelmise arhitektuuriga (30-40% GPU kasutust).

GPU kasutamine eelmise arhitektuuriga

Järgmine joonis näitab meie GPU kasutust uue lihtsustatud arhitektuuriga (90% GPU kasutust).

GPU kasutamine uue lihtsustatud arhitektuuriga

Järeldus

Selles postituses jagasime, kuidas Nielsen Sports moderniseeris SageMakeri MME-de abil tuhandeid erinevaid tootmismudeleid kasutavat süsteemi ning vähendas nende tegevus- ja finantskulusid 75%.

Lisalugemiseks vaadake järgmist:


Autoritest

Eitan SelaEitan Sela on generatiivse tehisintellekti ja masinõppe spetsialisti lahenduste arhitekt ettevõttes Amazon Web Services. Ta teeb koostööd AWS-i klientidega, et pakkuda juhiseid ja tehnilist abi, aidates neil AWS-is luua ja kasutada generatiivseid AI- ja masinõppelahendusi. Vabal ajal naudib Eitan sörkimist ja uusimate masinõppeartikleid lugemist.

Gal GoldmanGal Goldman on AWS-i vanemtarkvarainsener ja ettevõtte vanemlahenduste arhitekt, kelle kirg on tipptasemel lahendused. Ta on spetsialiseerunud paljudele hajutatud masinõppeteenustele ja -lahendustele ning on neid välja töötanud. Gal keskendub ka sellele, et aidata AWS-i klientidel oma inseneri- ja generatiivse AI väljakutseid kiirendada ja ületada.

Tal PanchekTal Panchek on Amazon Web Services tehisintellekti ja masinõppe vanem äriarendusjuht. BD spetsialistina vastutab ta AWS-i teenuste kasvava kasutuselevõtu, kasutamise ja tulude eest. Ta kogub kokku klientide ja tööstuse vajadused ning teeb koostööd AWS-i tootemeeskondadega, et uuendada, arendada ja tarnida AWS-i lahendusi.

Tamir RubinskiTamir Rubinski juhib Nielsen Spordi ülemaailmset teadus- ja arendustegevuse inseneritööd, tuues kaasa tohutu kogemuse uuenduslike toodete loomisel ja suure jõudlusega meeskondade juhtimisel. Tema töö muutis spordi sponsorluse meedia hindamist uuenduslike tehisintellektil põhinevate lahenduste kaudu.

Aviad AraniasAviad Aranias on MLOpsi meeskonna juht ja Nielseni spordianalüüsi arhitekt, kes on spetsialiseerunud keerukate torujuhtmete loomisele spordiürituste videote analüüsimiseks paljudes kanalites. Ta on suurepärane süvaõppemudelite loomisel ja juurutamisel suuremahuliste andmete tõhusaks käsitlemiseks. Vabal ajal naudib ta maitsvate Napoli pitsade küpsetamist.

spot_img

Uusim intelligentsus

spot_img