Kecerdasan Data Generatif

Nielsen Sports melihat pengurangan biaya sebesar 75% dalam analisis video dengan titik akhir multi-model Amazon SageMaker | Layanan Web Amazon

Tanggal:

Ini adalah postingan tamu yang ditulis bersama Tamir Rubinsky dan Aviad Aranias dari Nielsen Sports.

Olahraga Nielsen membentuk media dan konten dunia sebagai pemimpin global dalam wawasan audiens, data, dan analisis. Melalui pemahaman kami tentang orang-orang dan perilaku mereka di seluruh saluran dan platform, kami memberdayakan klien kami dengan kecerdasan yang independen dan dapat ditindaklanjuti sehingga mereka dapat terhubung dan terlibat dengan audiens mereka—sekarang dan di masa depan.

Di Nielsen Sports, misi kami adalah memberikan pelanggan—merek dan pemegang hak—kemampuan untuk mengukur laba atas investasi (ROI) dan efektivitas kampanye iklan sponsorship olahraga di semua saluran, termasuk TV, online, media sosial, dan bahkan surat kabar, dan untuk memberikan sasaran yang akurat di tingkat lokal, nasional, dan internasional.

Dalam postingan ini, kami menjelaskan bagaimana Nielsen Sports memodernisasi sistem yang menjalankan ribuan model pembelajaran mesin (ML) yang berbeda dalam produksi dengan menggunakan Amazon SageMaker titik akhir multi-model (MME) dan mengurangi biaya operasional dan keuangan sebesar 75%.

Tantangan dalam segmentasi saluran video

Teknologi kami didasarkan pada kecerdasan buatan (AI) dan khususnya visi komputer (CV), yang memungkinkan kami melacak paparan merek dan mengidentifikasi lokasinya secara akurat. Misalnya, kami mengidentifikasi apakah merek tersebut ada pada spanduk atau kaos. Selain itu, kami mengidentifikasi lokasi merek pada item tersebut, seperti sudut atas tanda atau selongsong. Gambar berikut menunjukkan contoh sistem penandaan kami.

contoh sistem penandaan Nielsen

Untuk memahami tantangan penskalaan dan biaya, mari kita lihat beberapa angka yang mewakili. Setiap bulan, kami mengidentifikasi lebih dari 120 juta tayangan merek di berbagai saluran, dan sistem harus mendukung identifikasi lebih dari 100,000 merek dan variasi merek yang berbeda. Kami telah membangun salah satu database kesan merek terbesar di dunia dengan lebih dari 6 miliar titik data.

Proses evaluasi media kami meliputi beberapa langkah, seperti yang diilustrasikan pada gambar berikut:

  1. Pertama, kami merekam ribuan saluran di seluruh dunia menggunakan sistem perekaman internasional.
  2. Kami melakukan streaming konten yang dikombinasikan dengan jadwal siaran (Panduan Pemrograman Elektronik) ke tahap berikutnya, yaitu segmentasi dan pemisahan antara siaran game itu sendiri dan konten atau iklan lain.
  3. Kami melakukan pemantauan media, di mana kami menambahkan metadata tambahan ke setiap segmen, seperti skor liga, tim terkait, dan pemain.
  4. Kami melakukan analisis eksposur terhadap visibilitas merek dan kemudian menggabungkan informasi audiens untuk menghitung penilaian kampanye.
  5. Informasi tersebut dikirimkan ke pelanggan melalui dashboard atau laporan analis. Analis diberikan akses langsung ke data mentah atau melalui gudang data kami.

langkah evaluasi media

Karena kami beroperasi pada skala lebih dari seribu saluran dan puluhan ribu jam video per tahun, kami harus memiliki sistem otomatisasi yang dapat diskalakan untuk proses analisis. Solusi kami secara otomatis mengelompokkan siaran dan mengetahui cara mengisolasi klip video yang relevan dari konten lainnya.

Kami melakukan ini menggunakan algoritme dan model khusus yang kami kembangkan untuk menganalisis karakteristik spesifik saluran.

Secara total, kami menjalankan ribuan model berbeda dalam produksi untuk mendukung misi ini, yang memakan biaya besar, menimbulkan overhead operasional, dan rawan kesalahan serta lambat. Butuh waktu berbulan-bulan untuk memasukkan model dengan arsitektur model baru ke produksi.

Di sinilah kami ingin berinovasi dan merancang ulang sistem kami.

Penskalaan hemat biaya untuk model CV menggunakan MME SageMaker

Sistem segmentasi video lama kami sulit untuk diuji, diubah, dan dipelihara. Beberapa tantangannya termasuk bekerja dengan framework ML lama, saling ketergantungan antar komponen, dan alur kerja yang sulit dioptimalkan. Hal ini karena kami didasarkan pada RabbitMQ untuk pipeline, yang merupakan solusi stateful. Untuk men-debug satu komponen, seperti ekstraksi fitur, kami harus menguji seluruh pipeline.

Diagram berikut menggambarkan arsitektur sebelumnya.

arsitektur sebelumnya

Sebagai bagian dari analisis kami, kami mengidentifikasi hambatan kinerja seperti menjalankan satu model pada sebuah mesin, yang menunjukkan pemanfaatan GPU yang rendah sebesar 30–40%. Kami juga menemukan proses pipeline dan algoritma penjadwalan yang tidak efisien untuk model tersebut.

Oleh karena itu, kami memutuskan untuk membangun arsitektur multi-penyewa baru berdasarkan SageMaker, yang akan menerapkan peningkatan pengoptimalan kinerja, mendukung ukuran batch dinamis, dan menjalankan beberapa model secara bersamaan.

Setiap alur kerja yang dijalankan menargetkan sekelompok video. Setiap video berdurasi antara 30–90 menit, dan setiap grup memiliki lebih dari lima model untuk dijalankan.

Mari kita lihat contohnya: sebuah video bisa berdurasi 60 menit, terdiri dari 3,600 gambar, dan setiap gambar perlu disimpulkan oleh tiga model ML yang berbeda pada tahap pertama. Dengan MME SageMaker, kami dapat menjalankan kumpulan 12 gambar secara paralel, dan kumpulan penuh selesai dalam waktu kurang dari 2 detik. Pada hari biasa, kami memiliki lebih dari 20 grup video, dan pada hari akhir pekan yang padat, kami dapat memiliki lebih dari 100 grup video.

Diagram berikut menunjukkan arsitektur baru kami yang disederhanakan menggunakan SageMaker MME.

arsitektur yang disederhanakan menggunakan SageMaker MME

Hasil

Dengan arsitektur baru, kami mencapai banyak hasil yang kami inginkan dan beberapa keunggulan yang belum terlihat dibandingkan arsitektur lama:

  • Waktu proses yang lebih baik – Dengan meningkatkan ukuran batch (12 video secara paralel) dan menjalankan beberapa model secara bersamaan (lima model secara paralel), kami telah mengurangi keseluruhan waktu proses pipeline sebesar 33%, dari 1 jam menjadi 40 menit.
  • Infrastruktur yang ditingkatkan – Dengan SageMaker, kami meningkatkan infrastruktur yang ada, dan kini kami menggunakan instans AWS yang lebih baru dengan GPU yang lebih baru seperti g5.xlarge. Salah satu manfaat terbesar dari perubahan ini adalah peningkatan kinerja langsung dari penggunaan TorchScript dan optimalisasi CUDA.
  • Penggunaan infrastruktur yang dioptimalkan – Dengan memiliki satu titik akhir yang dapat menampung beberapa model, kita dapat mengurangi jumlah titik akhir dan jumlah mesin yang perlu dipelihara, dan juga meningkatkan pemanfaatan satu mesin dan GPU-nya. Untuk tugas spesifik dengan lima video, kini kami hanya menggunakan lima mesin instans g5, yang memberi kami manfaat biaya sebesar 75% dari solusi sebelumnya. Untuk beban kerja biasa pada siang hari, kami menggunakan satu titik akhir dengan satu mesin g5.xlarge dengan pemanfaatan GPU lebih dari 80%. Sebagai perbandingan, solusi sebelumnya memiliki pemanfaatan kurang dari 40%.
  • Peningkatan ketangkasan dan produktivitas – Menggunakan SageMaker memungkinkan kami menghabiskan lebih sedikit waktu untuk memigrasi model dan lebih banyak waktu untuk meningkatkan algoritma dan model inti kami. Hal ini telah meningkatkan produktivitas tim teknik dan ilmu data kami. Kini kami dapat meneliti dan menerapkan model ML baru dalam waktu kurang dari 7 hari, dibandingkan sebelumnya lebih dari 1 bulan. Ini adalah peningkatan 75% dalam kecepatan dan perencanaan.
  • Kualitas dan kepercayaan diri yang lebih baik – Dengan kemampuan pengujian A/B SageMaker, kami dapat menerapkan model kami secara bertahap dan dapat melakukan roll back dengan aman. Siklus proses produksi yang lebih cepat juga meningkatkan akurasi dan hasil model ML kami.

Gambar berikut menunjukkan pemanfaatan GPU kami dengan arsitektur sebelumnya (30-40% penggunaan GPU).

Pemanfaatan GPU dengan arsitektur sebelumnya

Gambar berikut menunjukkan pemanfaatan GPU kami dengan arsitektur baru yang disederhanakan (90% pemanfaatan GPU).

Pemanfaatan GPU dengan arsitektur baru yang disederhanakan

Kesimpulan

Dalam postingan ini, kami berbagi bagaimana Nielsen Sports memodernisasi sistem yang menjalankan ribuan model berbeda dalam produksi dengan menggunakan MME SageMaker dan mengurangi biaya operasional dan finansial sebesar 75%.

Untuk bacaan lebih lanjut, lihat berikut ini:


Tentang Penulis

Eitan SelaEitan Sela adalah Arsitek Solusi Spesialis AI Generatif dan Pembelajaran Mesin dengan Amazon Web Services. Dia bekerja dengan pelanggan AWS untuk memberikan panduan dan bantuan teknis, membantu mereka membangun dan mengoperasikan solusi AI Generatif dan Pembelajaran Mesin di AWS. Di waktu luangnya, Eitan senang jogging dan membaca artikel pembelajaran mesin terbaru.

Gal GoldmanGal Goldman adalah Insinyur Perangkat Lunak Senior dan Arsitek Solusi Senior Perusahaan di AWS dengan hasrat terhadap solusi mutakhir. Dia berspesialisasi dalam dan telah mengembangkan banyak layanan dan solusi Pembelajaran Mesin terdistribusi. Gal juga berfokus untuk membantu pelanggan AWS mempercepat dan mengatasi tantangan teknis dan AI Generatif mereka.

Tal PanchekTal Panchek adalah Manajer Pengembangan Bisnis Senior untuk Kecerdasan Buatan dan Pembelajaran Mesin di Amazon Web Services. Sebagai Spesialis BD, dia bertanggung jawab untuk meningkatkan adopsi, pemanfaatan, dan pendapatan layanan AWS. Dia mengumpulkan kebutuhan pelanggan dan industri serta bermitra dengan tim produk AWS untuk berinovasi, mengembangkan, dan memberikan solusi AWS.

Tamir RubinskyTamir Rubinsky memimpin Global R&D Engineering di Nielsen Sports, membawa pengalaman luas dalam membangun produk inovatif dan mengelola tim berkinerja tinggi. Karyanya mengubah evaluasi media sponsorship olahraga melalui solusi inovatif yang didukung AI.

Aviad AraniasAviad Aranias adalah Ketua Tim MLOps dan Arsitek Analisis Olahraga Nielsen yang berspesialisasi dalam menyusun saluran kompleks untuk menganalisis video acara olahraga di berbagai saluran. Dia unggul dalam membangun dan menerapkan model pembelajaran mendalam untuk menangani data berskala besar secara efisien. Di waktu luangnya, dia menikmati membuat pizza Neapolitan yang lezat.

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?