Kecerdasan Data Generatif

Aktifkan berbagi data melalui pembelajaran gabungan: Pendekatan kebijakan untuk chief digital officer | Layanan Web Amazon

Tanggal:

Ini adalah postingan blog tamu yang ditulis oleh Nitin Kumar, Ilmuwan Data Utama di T and T Consulting Services, Inc.

Dalam postingan ini, kami membahas nilai dan potensi dampak pembelajaran gabungan di bidang kesehatan. Pendekatan ini dapat membantu pasien stroke jantung, dokter, dan peneliti dengan diagnosis yang lebih cepat, pengambilan keputusan yang lebih kaya, dan penelitian yang lebih informatif dan inklusif mengenai masalah kesehatan terkait stroke, menggunakan pendekatan cloud-native dengan layanan AWS untuk peningkatan yang ringan dan penerapan yang mudah. .

Tantangan diagnosis dengan stroke jantung

Statistik dari Pusat Pengendalian dan Pencegahan Penyakit (CDC) menunjukkan bahwa setiap tahun di AS, lebih dari 795,000 orang menderita stroke pertama, dan sekitar 25% di antaranya mengalami serangan berulang. Ini adalah penyebab kematian nomor lima menurut Asosiasi Stroke Amerika dan penyebab utama kecacatan di AS. Oleh karena itu, diagnosis dan pengobatan yang cepat sangat penting untuk mengurangi kerusakan otak dan komplikasi lain pada pasien stroke akut.

CT dan MRI adalah standar emas dalam teknologi pencitraan untuk mengklasifikasikan berbagai subtipe stroke dan sangat penting dalam penilaian awal pasien, menentukan akar penyebab, dan pengobatan. Salah satu tantangan penting dalam hal ini, terutama dalam kasus stroke akut, adalah waktu diagnosis pencitraan, yang rata-rata berkisar antara 0 hingga 10 tahun 30 menit hingga satu jam dan bisa lebih lama tergantung pada kepadatan unit gawat darurat.

Dokter dan staf medis memerlukan diagnosis gambar yang cepat dan akurat untuk mengevaluasi kondisi pasien dan mengusulkan pilihan pengobatan. Dalam kata-kata Dr. Werner Vogels sendiri di AWS ulang: Ciptakan 2023, “setiap detik seseorang terkena stroke sangat berarti.” Korban stroke bisa kehilangan sekitar 1.9 miliar neuron setiap detiknya jika tidak diobati.

Pembatasan data medis

Anda dapat menggunakan pembelajaran mesin (ML) untuk membantu dokter dan peneliti dalam tugas diagnosis, sehingga mempercepat prosesnya. Namun, kumpulan data yang diperlukan untuk membangun model ML dan memberikan hasil yang andal masih tersimpan di berbagai sistem dan organisasi layanan kesehatan. Data warisan yang terisolasi ini berpotensi menimbulkan dampak besar jika dikumpulkan. Lalu kenapa belum digunakan?

Ada berbagai tantangan saat bekerja dengan kumpulan data domain medis dan membangun solusi ML, termasuk privasi pasien, keamanan data pribadi, serta batasan birokrasi dan kebijakan tertentu. Selain itu, lembaga-lembaga penelitian telah memperketat praktik berbagi data mereka. Kendala-kendala ini juga menghalangi tim peneliti internasional untuk bekerja sama dalam menghasilkan kumpulan data yang beragam dan kaya, yang antara lain dapat menyelamatkan nyawa dan mencegah kecacatan akibat stroke jantung.

Kebijakan dan peraturan seperti Peraturan Perlindungan Data Umum (GDPR), Portabilitas Asuransi Kesehatan dan Akuntabilitas Act (HIPPA), dan Undang-undang Privasi Konsumen California (CCPA) membatasi pembagian data dari domain medis, terutama data pasien. Selain itu, kumpulan data di masing-masing lembaga, organisasi, dan rumah sakit seringkali terlalu kecil, tidak seimbang, atau memiliki distribusi yang bias, sehingga menimbulkan kendala generalisasi model.

Pembelajaran gabungan: Pengantar

Pembelajaran gabungan (FL) adalah bentuk ML yang terdesentralisasi—pendekatan rekayasa dinamis. Dalam pendekatan ML terdesentralisasi ini, model ML dibagikan antar organisasi untuk pelatihan subset data kepemilikan, tidak seperti pelatihan ML terpusat tradisional, yang modelnya umumnya dilatih pada set data gabungan. Data tetap terlindungi di balik firewall atau VPC organisasi, sementara model dengan metadatanya dibagikan.

Pada fase pelatihan, model FL global disebarluaskan dan disinkronkan antar unit organisasi untuk pelatihan pada kumpulan data individual, dan model lokal yang dilatih dikembalikan. Model global final tersedia untuk digunakan dalam membuat prediksi bagi semua peserta, dan juga dapat digunakan sebagai dasar untuk pelatihan lebih lanjut guna membangun model kustom lokal bagi organisasi yang berpartisipasi. Hal ini selanjutnya dapat diperluas untuk memberi manfaat bagi lembaga lain. Pendekatan ini dapat secara signifikan mengurangi persyaratan keamanan siber untuk data dalam transit dengan menghilangkan kebutuhan data untuk transit di luar batas-batas organisasi.

Diagram berikut mengilustrasikan contoh arsitektur.

Pada bagian berikut, kita membahas bagaimana pembelajaran gabungan dapat membantu.

Federasi belajar untuk menyelamatkan hari ini (dan menyelamatkan nyawa)

Untuk kecerdasan buatan (AI) yang baik, Anda memerlukan data yang baik.

Sistem lama, yang sering ditemukan di domain federal, menimbulkan tantangan pemrosesan data yang signifikan sebelum Anda dapat memperoleh intelijen apa pun atau menggabungkannya dengan kumpulan data yang lebih baru. Hal ini merupakan hambatan dalam memberikan intelijen yang berharga kepada para pemimpin. Hal ini dapat menyebabkan pengambilan keputusan yang tidak akurat karena proporsi data lama terkadang jauh lebih berharga dibandingkan dengan kumpulan data kecil yang lebih baru. Anda ingin mengatasi hambatan ini secara efektif dan tanpa beban kerja upaya konsolidasi dan integrasi manual (termasuk proses pemetaan yang rumit) untuk kumpulan data lama dan baru yang ada di seluruh rumah sakit dan institut, yang dapat memakan waktu berbulan-bulan—bahkan bertahun-tahun, dalam banyak kasus. Data lama ini cukup berharga karena menyimpan informasi kontekstual penting yang diperlukan untuk pengambilan keputusan yang akurat dan pelatihan model yang terinformasi dengan baik, sehingga menghasilkan AI yang andal di dunia nyata. Durasi data menginformasikan variasi dan pola jangka panjang dalam kumpulan data yang tidak terdeteksi dan menyebabkan prediksi yang bias dan kurang informasi.

Menghancurkan silo data untuk menyatukan potensi data yang tersebar yang belum dimanfaatkan dapat menyelamatkan dan mengubah banyak nyawa. Hal ini juga dapat mempercepat penelitian terkait masalah kesehatan sekunder yang timbul akibat stroke jantung. Solusi ini dapat membantu Anda berbagi wawasan dari data yang diisolasi antar lembaga karena kebijakan dan alasan lainnya, baik Anda rumah sakit, lembaga penelitian, atau organisasi lain yang berfokus pada data kesehatan. Hal ini dapat memungkinkan pengambilan keputusan berdasarkan informasi mengenai arah penelitian dan diagnosis. Selain itu, hal ini menghasilkan gudang intelijen terpusat melalui basis pengetahuan yang aman, privat, dan global.

Pembelajaran gabungan memiliki banyak manfaat secara umum dan khusus untuk pengaturan data medis.

Fitur Keamanan dan Privasi:

  • Menyimpan data sensitif dari internet dan tetap menggunakannya untuk ML, serta memanfaatkan kecerdasannya dengan privasi diferensial
  • Memungkinkan Anda membangun, melatih, dan menerapkan model yang kuat dan tidak memihak tidak hanya di mesin tetapi juga jaringan, tanpa bahaya keamanan data apa pun
  • Mengatasi rintangan dengan banyak vendor yang mengelola data
  • Menghilangkan kebutuhan untuk berbagi data lintas situs dan tata kelola global
  • Menjaga privasi dengan privasi diferensial dan menawarkan komputasi multi-pihak yang aman dengan pelatihan lokal

Peningkatan Kinerja:

  • Mengatasi masalah ukuran sampel yang kecil di bidang pencitraan medis dan proses pelabelan yang mahal
  • Menyeimbangkan distribusi data
  • Memungkinkan Anda menggabungkan sebagian besar metode ML tradisional dan pembelajaran mendalam (DL).
  • Menggunakan kumpulan gambar yang dikumpulkan untuk membantu meningkatkan kekuatan statistik, mengatasi batasan ukuran sampel di masing-masing institusi

Manfaat Ketahanan:

  • Jika ada salah satu pihak yang memutuskan keluar, hal itu tidak akan menghambat pelatihan
  • Rumah sakit atau institut baru dapat bergabung kapan saja; itu tidak bergantung pada kumpulan data tertentu dengan organisasi node mana pun
  • Tidak diperlukan jalur rekayasa data yang ekstensif untuk data lama yang tersebar di lokasi geografis yang luas

Fitur-fitur ini dapat membantu meruntuhkan tembok pembatas antar institusi yang menghosting kumpulan data terisolasi di domain serupa. Solusi ini dapat menjadi pengganda kekuatan dengan memanfaatkan kekuatan terpadu dari kumpulan data yang terdistribusi dan meningkatkan efisiensi dengan mengubah aspek skalabilitas secara radikal tanpa memerlukan banyak infrastruktur. Pendekatan ini membantu ML mencapai potensi penuhnya, menjadi mahir di tingkat klinis dan bukan hanya penelitian.

Pembelajaran gabungan memiliki performa yang sebanding dengan ML biasa, seperti yang ditunjukkan berikut ini eksperimen oleh NVidia Clara (di Medical Modal ARchive (MMAR) menggunakan dataset BRATS2018). Di sini, FL mencapai kinerja segmentasi yang sebanding dibandingkan dengan pelatihan dengan data terpusat: lebih dari 80% dengan sekitar 600 periode saat melatih tugas segmentasi tumor otak multi-modal dan kelas multi.

Pembelajaran gabungan baru-baru ini diuji di beberapa sub-bidang medis untuk kasus penggunaan termasuk pembelajaran kesamaan pasien, pembelajaran representasi pasien, fenotip, dan pemodelan prediktif.

Cetak biru aplikasi: Pembelajaran gabungan menjadikannya mungkin dan mudah

Untuk memulai FL, Anda dapat memilih dari banyak kumpulan data berkualitas tinggi. Misalnya, kumpulan data dengan gambar otak meliputi TINGGAL (Inisiatif Pertukaran Data Pencitraan Otak Autisme), ADNI (Inisiatif Neuroimaging Penyakit Alzheimer), RSNA (Masyarakat Radiologi Amerika Utara) CT Otak, anak nakal (Tolok Ukur Segmentasi Gambar Tumor Otak Multimodal) diperbarui secara berkala untuk Tantangan Segmentasi Tumor Otak di bawah UPenn (University of Pennsylvania), UK BioBank (dicakup dalam NIH berikut kertas), Dan IXI. Demikian pula untuk gambar jantung, Anda dapat memilih dari beberapa opsi yang tersedia untuk umum, termasuk ACDC (Automatic Cardiac Diagnosis Challenge), yang merupakan kumpulan data penilaian MRI jantung dengan anotasi lengkap yang disebutkan oleh National Library of Medicine berikut ini kertas, dan Tantangan Segmentasi Jantung M&M (Multi-Center, Multi-Vendor, dan Multi-Disease) yang disebutkan berikut ini IEEE kertas.

Gambar berikut menunjukkan a peta tumpang tindih lesi probabilistik untuk lesi primer dari dataset ATLAS R1.1. (Stroke adalah salah satu penyebab paling umum dari lesi otak menurut Cleveland Clinic.)

Untuk data Catatan Kesehatan Elektronik (EHR), tersedia beberapa kumpulan data berikut Sumber Daya Interoperabilitas Perawatan Kesehatan yang Cepat (FHIR) standar. Standar ini membantu Anda membangun uji coba langsung dengan menghilangkan tantangan tertentu pada kumpulan data yang heterogen dan tidak dinormalisasi, sehingga memungkinkan pertukaran, pembagian, dan integrasi kumpulan data yang lancar dan aman. FHIR memungkinkan interoperabilitas maksimum. Contoh kumpulan data meliputi MIMIK-IV (Mart Informasi Medis untuk Perawatan Intensif). Kumpulan data berkualitas baik lainnya yang saat ini bukan FHIR tetapi dapat dengan mudah dikonversi termasuk Pusat Layanan Medicare & Medicaid (CMS) File Penggunaan Umum (PUF) dan Database Penelitian Kolaborasi eICU dari MIT (Institut Teknologi Massachusetts). Ada juga sumber daya lain yang menawarkan kumpulan data berbasis FHIR.

Siklus hidup penerapan FL dapat mencakup hal berikut tangga: inisialisasi tugas, pemilihan, konfigurasi, pelatihan model, komunikasi klien/server, penjadwalan dan pengoptimalan, pembuatan versi, pengujian, penerapan, dan penghentian. Ada banyak langkah yang memakan waktu dalam menyiapkan data pencitraan medis untuk ML tradisional, seperti yang dijelaskan berikut ini kertas. Pengetahuan domain mungkin diperlukan dalam beberapa skenario untuk memproses data mentah pasien terlebih dahulu, terutama karena sifatnya yang sensitif dan pribadi. Hal ini dapat dikonsolidasikan dan terkadang dihilangkan untuk FL, sehingga menghemat waktu penting untuk pelatihan dan memberikan hasil yang lebih cepat.

Organisasi

Alat dan perpustakaan FL telah berkembang dengan dukungan yang luas, sehingga memudahkan penggunaan FL tanpa beban overhead yang berat. Ada banyak sumber daya dan opsi kerangka kerja yang tersedia untuk memulai. Anda dapat merujuk pada yang berikut ini daftar ekstensif salah satu kerangka kerja dan alat paling populer di domain FL, termasuk PySyft, FedML, Bunga, OpenFL, TAKDIR, Federasi TensorFlow, dan NVFlare. Ini memberikan daftar proyek bagi pemula untuk dimulai dengan cepat dan dikembangkan.

Anda dapat menerapkan pendekatan cloud-native dengan Amazon SageMaker yang bekerja dengan mulus Rekan AWS VPC, menjaga pelatihan setiap node dalam subnet privat di VPC masing-masing dan memungkinkan komunikasi melalui alamat IPv4 privat. Selanjutnya model hosting aktif Mulai Lompatan Amazon SageMaker dapat membantu dengan mengekspos API titik akhir tanpa membagikan bobot model.

Hal ini juga menghilangkan potensi tantangan komputasi tingkat tinggi dengan perangkat keras lokal Cloud komputasi elastis Amazon (Amazon EC2) sumber daya. Anda dapat mengimplementasikan klien dan server FL di AWS dengan Buku catatan SageMaker dan Layanan Penyimpanan Sederhana Amazon (Amazon S3), pertahankan akses teregulasi ke data dan model dengan Identitas AWS dan Manajemen Akses (IAM) peran, dan penggunaan Layanan Token Keamanan AWS (AWS STS) untuk keamanan sisi klien. Anda juga dapat membangun sistem kustom Anda sendiri untuk FL menggunakan Amazon EC2.

Untuk gambaran rinci penerapan FL dengan Bunga kerangka kerja pada SageMaker, dan diskusi tentang perbedaannya dari pelatihan terdistribusi, lihat Pembelajaran mesin dengan data pelatihan terdesentralisasi menggunakan pembelajaran gabungan di Amazon SageMaker.

Gambar berikut menggambarkan arsitektur pembelajaran transfer di FL.

Mengatasi tantangan data FL

Pembelajaran gabungan mempunyai tantangan tersendiri terhadap data, termasuk privasi dan keamanan, namun tantangan tersebut mudah untuk diatasi. Pertama, Anda perlu mengatasi masalah heterogenitas data pada data pencitraan medis yang timbul dari data yang disimpan di berbagai situs dan organisasi yang berpartisipasi, yang dikenal sebagai a pergeseran domain masalah (juga disebut sebagai pergeseran klien dalam sistem FL), seperti yang disoroti oleh Guan dan Liu berikut ini kertas. Hal ini dapat menyebabkan perbedaan konvergensi model global.

Komponen lain yang perlu dipertimbangkan termasuk memastikan kualitas dan keseragaman data pada sumbernya, menggabungkan pengetahuan ahli ke dalam proses pembelajaran untuk menginspirasi kepercayaan terhadap sistem di kalangan profesional medis, dan mencapai presisi model. Untuk informasi selengkapnya tentang beberapa potensi tantangan yang mungkin Anda hadapi selama penerapan, lihat yang berikut ini kertas.

AWS membantu Anda mengatasi tantangan ini dengan fitur seperti komputasi fleksibel Amazon EC2 dan siap pakai gambar buruh pelabuhan di SageMaker untuk penerapan yang mudah. Anda dapat menyelesaikan masalah sisi klien seperti data yang tidak seimbang dan sumber daya komputasi untuk setiap organisasi node. Anda dapat mengatasi masalah pembelajaran sisi server seperti serangan keracunan dari pihak jahat dengan Cloud Pribadi Virtual Amazon (VPC Amazon), kelompok keamanan, dan standar keamanan lainnya, mencegah korupsi klien dan menerapkan layanan deteksi anomali AWS.

AWS juga membantu mengatasi tantangan implementasi di dunia nyata, yang dapat mencakup tantangan integrasi, masalah kompatibilitas dengan sistem rumah sakit saat ini atau yang lama, dan hambatan adopsi pengguna, dengan menawarkan solusi teknologi pengangkatan yang fleksibel, mudah digunakan, dan mudah.

Dengan layanan AWS, Anda dapat mengaktifkan penelitian dan penerapan klinis berbasis FL berskala besar serta penerapannya, yang dapat mencakup berbagai lokasi di seluruh dunia.

Kebijakan terbaru mengenai interoperabilitas menyoroti perlunya pembelajaran gabungan

Banyak undang-undang yang baru-baru ini disahkan oleh pemerintah mencakup fokus pada interoperabilitas data, sehingga memperkuat kebutuhan interoperabilitas data lintas organisasi untuk intelijen. Hal ini dapat dipenuhi dengan menggunakan FL, termasuk framework seperti TEFCA (Kerangka Pertukaran Tepercaya dan Perjanjian Umum) dan diperluas USCDI (Data Inti Amerika Serikat untuk Interoperabilitas).

Ide yang diusulkan juga berkontribusi terhadap inisiatif penangkapan dan distribusi CDC CDC Bergerak Maju. Berikut kutipan dari artikel GovCIO Berbagi Data dan AI Menjadi Prioritas Utama Badan Kesehatan Federal pada tahun 2024 juga mengusung tema serupa: “Kemampuan ini juga dapat mendukung masyarakat secara adil, bertemu pasien di mana pun mereka berada, dan membuka akses penting terhadap layanan ini. Sebagian besar pekerjaan ini berkaitan dengan data.”

Hal ini dapat membantu lembaga dan lembaga medis di seluruh negeri (dan di seluruh dunia) dengan silo data. Mereka dapat memperoleh manfaat dari integrasi dan interoperabilitas data yang lancar dan aman, sehingga data medis dapat digunakan untuk prediksi dan pengenalan pola berbasis ML yang berdampak. Anda bisa memulai dengan gambar, namun pendekatan ini juga berlaku untuk semua EHR. Tujuannya adalah untuk menemukan pendekatan terbaik bagi pemangku kepentingan data, dengan pipeline cloud-native untuk menormalkan dan menstandarisasi data atau langsung menggunakannya untuk FL.

Mari kita jelajahi contoh kasus penggunaan. Data dan pemindaian pencitraan stroke jantung tersebar di seluruh negeri dan dunia, berada dalam silo terisolasi di institut, universitas, dan rumah sakit, dan dipisahkan oleh batasan birokrasi, geografis, dan politik. Tidak ada satu sumber tunggal dan tidak ada cara mudah bagi profesional medis (non-programmer) untuk mengambil wawasan dari sumber tersebut. Pada saat yang sama, tidak mungkin untuk melatih model ML dan DL berdasarkan data ini, yang dapat membantu profesional medis membuat keputusan yang lebih cepat dan akurat di saat-saat kritis ketika pemindaian jantung membutuhkan waktu berjam-jam sementara nyawa pasien mungkin berada di ujung tanduk. keseimbangan.

Kasus penggunaan lain yang diketahui termasuk POT (Pembelian Sistem Pelacakan Online) di NIH (Institut Kesehatan Nasional) dan keamanan siber untuk kebutuhan solusi intelijen yang tersebar dan berjenjang di lokasi COMCOM/MAJCOM di seluruh dunia.

Kesimpulan

Pembelajaran gabungan sangat menjanjikan untuk analisis dan kecerdasan data layanan kesehatan yang lama. Mengimplementasikan solusi cloud-native dengan layanan AWS sangatlah mudah, dan FL sangat membantu organisasi medis dengan data lama dan tantangan teknis. FL dapat mempunyai dampak potensial pada seluruh siklus pengobatan, dan terlebih lagi dengan fokus pada interoperabilitas data dari organisasi federal besar dan pemimpin pemerintah.

Solusi ini dapat membantu Anda menghindari inovasi baru dan menggunakan teknologi terbaru untuk melakukan lompatan dari sistem lama dan menjadi yang terdepan dalam dunia AI yang terus berkembang ini. Anda juga dapat menjadi pemimpin dalam praktik terbaik dan pendekatan efisien terhadap interoperabilitas data di dalam dan antar lembaga dan lembaga di bidang kesehatan dan di luarnya. Jika Anda adalah lembaga atau lembaga dengan silo data yang tersebar di seluruh negeri, Anda bisa mendapatkan keuntungan dari integrasi yang lancar dan aman ini.

Konten dan opini dalam postingan ini adalah milik penulis pihak ketiga dan AWS tidak bertanggung jawab atas konten atau keakuratan postingan ini. Setiap pelanggan bertanggung jawab untuk menentukan apakah mereka tunduk pada HIPAA, dan jika demikian, cara terbaik untuk mematuhi HIPAA dan peraturan penerapannya. Sebelum menggunakan AWS sehubungan dengan informasi kesehatan yang dilindungi, pelanggan harus memasukkan AWS Business Associate Addendum (BAA) dan mengikuti persyaratan konfigurasinya.


tentang Penulis

Nitin Kumar (MS, CMU) adalah Ilmuwan Data Utama di T and T Consulting Services, Inc. Ia memiliki pengalaman luas dalam pembuatan prototipe R&D, informatika kesehatan, data sektor publik, dan interoperabilitas data. Dia menerapkan pengetahuannya tentang metode penelitian mutakhir ke sektor federal untuk menghasilkan makalah teknis yang inovatif, POC, dan MVP. Dia telah bekerja dengan beberapa lembaga federal untuk memajukan tujuan data dan AI mereka. Area fokus Nitin lainnya mencakup pemrosesan bahasa alami (NLP), saluran data, dan AI generatif.

tempat_img

Intelijen Terbaru

tempat_img

Hubungi kami

Hai, yang di sana! Apa yang bisa saya bantu?