Generative Data Intelligence

Як HSR.health обмежує ризики передачі хвороб від тварин до людей за допомогою геопросторових можливостей Amazon SageMaker | Веб-сервіси Amazon

Дата:

Це гостьовий допис, співавторами якого є Аджай К. Гупта, Жан Феліпе Теотоніо та Пол А. Церква з HSR.health.

HSR.здоров'я – це фірма з геопросторової аналітики ризиків для здоров’я, бачення якої полягає в тому, що глобальні проблеми охорони здоров’я можна вирішити завдяки людській винахідливості та цілеспрямованому й точному застосуванню аналітики даних. У цій публікації ми представляємо один підхід до профілактики зоонозних захворювань, який використовує Геопросторові можливості Amazon SageMaker створити інструмент, який надає науковцям у галузі охорони здоров’я точнішу інформацію про поширення хвороби, щоб допомогти їм швидше врятувати більше життів.

Зоонози вражають як тварин, так і людей. Перехід хвороби від тварини до людини, відомий як перелив, це явище, яке постійно відбувається на нашій планеті. За даними таких організацій охорони здоров’я, як Центри з контролю та профілактики захворювань (CDC) та Всесвітня організація охорони здоров’я (ВООЗ), побічна подія на мокрому ринку в Ухані, Китай, швидше за все, спричинила коронавірусну хворобу 2019 (COVID-19). Дослідження показують, що вірус, виявлений у плодових кажанів, зазнав значних мутацій, що дозволило йому заразити людей. Початковий пацієнт, або «нульовий пацієнт», на COVID-19, ймовірно, став причиною подальшого місцевого спалаху, який згодом поширився на міжнародний рівень. HSR.здоров'яІндекс ризику передавання зоонозів має на меті допомогти в ідентифікації цих ранніх спалахів до того, як вони перетнуть міжнародні кордони та призведуть до широкого глобального впливу.

Основною зброєю охорони здоров’я проти поширення регіональних спалахів є спостереження за хворобами: ціла взаємозв’язана система звітності про захворювання, розслідування та передачі даних між різними рівнями системи громадського здоров’я. Ця система залежить не лише від людських факторів, а й від технологій і ресурсів для збору даних про захворювання, аналізу закономірностей і створення послідовного та безперервного потоку передачі даних від місцевих до регіональних і центральних органів охорони здоров’я.

Швидкість, з якою COVID-19 перетворився з локального спалаху на глобальну хворобу, поширену на кожному окремому континенті, має бути яскравим прикладом гострої потреби використовувати інноваційні технології для створення більш ефективних і точних систем спостереження за захворюваннями.

Ризик поширення зоонозних захворювань чітко пов’язаний із багатьма соціальними, екологічними та географічними факторами, які впливають на те, як часто люди взаємодіють із дикою природою. HSR.здоров'я Індекс ризику поширення зоонозних захворювань використовує понад 20 різних географічних, соціальних і екологічних факторів, які, як відомо, впливають на ризик взаємодії людини та диких тварин і, отже, на ризик поширення зоонозних захворювань. Багато з цих факторів можна нанести на карту за допомогою поєднання супутникових зображень і дистанційного зондування.

У цій публікації ми досліджуємо, як HSR.здоров'я використовує геопросторові можливості SageMaker для отримання відповідних функцій із супутникових зображень і дистанційного зондування для розробки індексу ризику. Геопросторові можливості SageMaker спрощують науковцям із обробки даних та інженерам машинного навчання (ML) створювати, навчати та розгортати моделі з використанням геопросторових даних. Завдяки геопросторовим можливостям SageMaker ви можете ефективно трансформувати або збагачувати великомасштабні набори геопросторових даних, прискорювати створення моделей за допомогою попередньо навчених моделей ML і досліджувати прогнози моделі та геопросторові дані на інтерактивній карті за допомогою прискореної 3D-графіки та вбудованих інструментів візуалізації.

Використання ML і геопросторових даних для зменшення ризиків

ML дуже ефективний для виявлення аномалій у просторових або часових даних завдяки своїй здатності навчатися на основі даних без явного програмування для визначення конкретних типів аномалій. Просторові дані, які стосуються фізичного положення та форми об’єктів, часто містять складні шаблони та зв’язки, які може бути важко проаналізувати традиційним алгоритмам.

Об’єднання машинного навчання з геопросторовими даними покращує можливості систематичного виявлення аномалій і незвичайних моделей, що важливо для систем раннього попередження. Ці системи мають вирішальне значення в таких сферах, як моніторинг навколишнього середовища, боротьба зі стихійними лихами та безпека. Прогнозне моделювання з використанням історичних геопросторових даних дозволяє організаціям визначати потенційні майбутні події та готуватися до них. Ці події варіюються від стихійних лих і збоїв у русі до спалахів захворювань, як обговорюється в цій публікації.

Виявлення ризиків поширення зоонозів

Щоб передбачити ризик поширення зоонозів, HSR.здоров'я прийняв мультимодальний підхід. Використовуючи комбінацію типів даних, включно з екологічною, біогеографічною та епідеміологічною інформацією, цей метод дозволяє комплексно оцінити динаміку захворювання. Така багатогранна перспектива має вирішальне значення для розробки профілактичних заходів і забезпечення швидкого реагування на спалахи.

Підхід включає наступні компоненти:

  • Дані про захворювання та спалахи – HSR.здоров'я використовує великі дані про захворювання та спалахи, надані Гідеон та Всесвітня організація охорони здоров’я (ВООЗ), два надійних джерела глобальної епідеміологічної інформації. Ці дані служать фундаментальною опорою аналітичної системи. Для Gideon доступ до даних можна отримати через API, а для ВООЗ — HSR.здоров'я створив велику мовну модель (LLM) для отримання даних про спалахи з минулих звітів про спалахи захворювань.
  • Дані спостереження Землі – Фактори навколишнього середовища, аналіз землекористування та виявлення змін середовища проживання є невід’ємними компонентами оцінки зоонозного ризику. Ці відомості можна отримати з даних супутникового спостереження Землі. HSR.здоров'я може оптимізувати використання даних спостереження Землі за допомогою геопросторових можливостей SageMaker для доступу до великомасштабних наборів геопросторових даних і керування ними. SageMaker geospatial пропонує багатий каталог даних, включаючи набори даних з USGS Landsat-8, Sentinel-1, Sentinel-2 та інших. Також можна залучати інші набори даних, наприклад зображення високої роздільної здатності від Planet Labs.
  • Соціальні детермінанти ризику – Крім біологічних факторів і факторів навколишнього середовища, команда HSR.здоров'я також розглядаються соціальні детермінанти, які охоплюють різноманітні соціально-економічні та демографічні показники та відіграють ключову роль у формуванні динаміки поширення зоонозів.

З цих компонентів HSR.здоров'я оцінили низку різних факторів, і наступні характеристики були визначені як впливові для визначення ризиків поширення зоонозів:

  • Середовища проживання тварин і зони проживання – Розуміння середовищ існування потенційних зоонозних хазяїв та їх придатних для життя зон є основоположним для оцінки ризику передачі.
  • Населені пункти – Близькість до густонаселених районів є ключовим моментом, оскільки це впливає на ймовірність взаємодії людей і тварин.
  • Втрата середовища існування – Деградація природних середовищ існування, зокрема через вирубку лісів, може прискорити поширення зоонозів.
  • Інтерфейс людина-дика природа – Території, де людські поселення перетинаються з середовищами проживання диких тварин, є потенційними гарячими точками передачі зоонозів.
  • Соціальні характеристики – Соціально-економічні та культурні фактори можуть суттєво впливати на зоонозний ризик і HSR.здоров'я перевіряє і ці.
  • Характеристики здоров'я людини – Стан здоров’я місцевого населення є важливою змінною, оскільки він впливає на сприйнятливість і динаміку передачі.

Огляд рішення

HSR.здоров'яРобочий процес охоплює попередню обробку даних, виділення функцій і створення інформативних візуалізацій за допомогою методів ML. Це дає змогу чітко зрозуміти еволюцію даних від необробленої форми до практичних ідей.

Нижче наведено візуальне представлення робочого процесу, починаючи з вхідних даних від Gideon, даних спостереження Землі та даних соціальної детермінанти ризику.

Огляд рішення

Отримання та обробка супутникових зображень за допомогою геопросторових можливостей SageMaker

Супутникові дані є наріжним каменем аналізу, який виконується для побудови індексу ризику, надаючи важливу інформацію про зміни навколишнього середовища. Щоб отримати інформацію із супутникових зображень, HSR.здоров'я використовує Робота зі спостереження Землі (EOJs). EOJ дозволяють отримувати та перетворювати растрові дані, зібрані з поверхні Землі. EOJ отримує супутникові зображення з визначеного джерела даних, наприклад, супутникового угруповання, за певну територію та період часу. Потім він застосовує одну або кілька моделей до отриманих зображень.

Крім того, Студія Amazon SageMaker пропонує геопросторовий блокнот із попередньо встановленими геопросторовими бібліотеками, які зазвичай використовуються. Цей блокнот забезпечує пряму візуалізацію та обробку геопросторових даних у середовищі блокнота Python. EOJ можна створювати в середовищі геопросторового блокнота.

Для налаштування EOJ використовуються такі параметри:

  • InputConfig – Вхідна конфігурація визначає джерела даних і критерії фільтрації, які будуть використовуватися під час збору даних:
    • RasterDataCollectionArn – Визначає супутник, з якого потрібно збирати дані.
    • Сфера інтересів – Географічна зона інтересу (AOI) визначає межі полігону для збирання зображень.
    • TimeRangeFilter – Діапазон часу, що цікавить: {StartTime: <string>, EndTime: <string>}.
    • Фільтри властивостей – Додаткові фільтри властивостей, такі як прийнятний відсоток хмарного покриття або бажані кути азимута сонця.
  • JobConfig – Ця конфігурація визначає тип завдання, яке буде застосовано до даних отриманих супутникових зображень. Він підтримує такі операції, як смугова математика, повторна вибірка, геомозаїка або видалення хмар.

У наведеному нижче прикладі коду демонструється запуск EOJ для видалення хмари, що представляє кроки, які виконує HSR.здоров'я:

eoj_input_config = { "RasterDataCollectionQuery": { "RasterDataCollectionArn": "arn:aws:sagemaker-geospatial:us-west-2:378778860802:raster-data-collection/public/nmqj48dcu3g7ayw8", "AreaOfInterest": { "AreaOfInterestGeometry": { "PolygonGeometry": { "Coordinates": [ [ [-76.23240119828894,-6.268815697653608], [-76.23240119828894,-6.339419992332921], [-76.13834453776985,-6.339419992332921], [-76.13834453776985,-6.268815697653608], [-76.23240119828894,-6.268815697653608] ] ] } } }, "TimeRangeFilter": { "StartTime": "2022-03-01T00:00:00Z", "EndTime": "2022-06-30T23:59:59Z", }, "PropertyFilters": { "Properties": [{"Property": {"EoCloudCover": {"LowerBound": 0.0, "UpperBound": 2.0}}}], "LogicalOperator": "AND", }, }
}
eoj_job_config = { "CloudRemovalConfig": { "AlgorithmName": "INTERPOLATION", "InterpolationValue": "-9999", "TargetBands": ["red", "green", "blue", "nir", "swir16"], }
} eoj = geospatial_client.start_earth_observation_job( Name="eoj-analysis-loreto", InputConfig=eoj_input_config, JobConfig=eoj_job_config, ExecutionRoleArn=execution_role,
)

HSR.здоров'я використовував кілька операцій для попередньої обробки даних і вилучення відповідних функцій. Це включає в себе такі операції, як класифікація ґрунтового покриву, картографування коливань температури та індекси рослинності.

Одним з вегетаційних індексів, які мають значення для вказівки здоров’я рослинності, є нормалізований відмінний індекс рослинності (NDVI). NDVI кількісно оцінює стан рослинності за допомогою ближнього інфрачервоного світла, яке рослинність відбиває, та червоного світла, яке рослинність поглинає. Моніторинг NDVI з часом може виявити зміни в рослинності, наприклад вплив діяльності людини, як-от вирубка лісів.

У наступному фрагменті коду показано, як обчислити індекс рослинності, як-от NDVI, на основі даних, переданих через видалення хмар:

eoj_input_config = { "PreviousEarthObservationJobArn": eoj["Arn"]
}
eoj_job_config = { "BandMathConfig": { "CustomIndices": { "Operations": [ { "Equation": "(nir - red) / (nir + red)", "Name": "ndvi", "OutputType": "FLOAT32" } ] } }
}
eoj = geospatial_client.start_earth_observation_job( Name="eoj-vi-ndvi", InputConfig=eoj_input_config, JobConfig=eoj_job_config, ExecutionRoleArn=execution_role,
)

Візуалізація EOJ

Ми можемо візуалізувати результат роботи за допомогою геопросторових можливостей SageMaker. Геопросторові можливості SageMaker можуть допомогти вам накласти прогнози моделі на базову карту та забезпечити багатошарову візуалізацію для полегшення співпраці. Завдяки інтерактивному візуалізатору на базі графічного процесора та блокнотам Python можна досліджувати мільйони точок даних в одному поданні, полегшуючи спільне дослідження ідей і результатів.

Кроки, описані в цьому дописі, демонструють лише одну з багатьох растрових функцій HSR.здоров'я видобув для створення індексу ризику.

Поєднання растрових функцій із даними про здоров’я та соціальні дані

Після вилучення відповідних функцій у растровий формат HSR.здоров'я використовував зональну статистику для агрегування растрових даних у межах полігонів адміністративних кордонів, яким присвоєно соціальні та медичні дані. Аналіз включає комбінацію растрових і векторних геопросторових даних. Такий вид агрегації дозволяє керувати растровими даними у фреймі геоданих, що полегшує їх інтеграцію з даними про здоров’я та соціальні дані для отримання остаточного індексу ризику.

У наведеному нижче фрагменті коду показано, як агрегувати растрові дані в межі адміністративного вектора:

import geopandas as gp
import numpy as np
import pandas as pd
import rasterio
from rasterstats import zonal_stats
import pandas as pd def get_proportions(inRaster, inVector, classDict, idCols, year): # Reading In Vector File if '.parquet' in inVector: vector = gp.read_parquet(inVector) else: vector = gp.read_file(inVector) raster = rasterio.open(inRaster) vector = vector.to_crs(raster.crs) # Retrieving the Bounding Box for the Raster Image xmin, ymin, xmax, ymax = raster.bounds # Selecting the Vector Features that Intersect with the Raster Bounding Box vector = vector.cx[xmin:xmax, ymin:ymax] vector = vector.reset_index() # Calculate the sum of pixels of each class in the vector geometries stats = zonal_stats(vector.geometry, raster.read(1), affine=raster.transform, nodata=raster.nodata, categorical=True) # Creating a dataframe with the class sum of pixels and the id fields of the vector geometries df1 = pd.DataFrame(data=stats) df1 = df1.fillna(0) df1['totalpixels'] = df1.sum(axis=1) df1['year'] = year if 'year' in vector.columns.tolist(): vector = vector.drop(['year'], 1) # Merging the class sum of pixels dataframe with the vector geodataframe df = vector.merge(df1, left_index=True, right_index=True) # Renaming Columns cdict = pd.read_csv(classDict) cdict = cdict.set_index("Value")['Class_name'].to_dict() df = df.rename(columns=cdict) keptCols = [x for x in df.columns.tolist() if x in idCols + list(cdict.values()) + ['totalpixels', 'year']] df = df[keptCols] return(df) def aggregateData(rasterList, inVector, classDict, idCols, years): dfList = [] # Creating aggregated raster to vector geodataframes for all rasters in rasterList for tiff in rasterList: inRaster = tiff year = [x for x in years if x in tiff][0] dfList.append(get_proportions(inRaster, inVector, classDict, idCols, year)) # Concating into a single geodataframe allDf = pd.concat(dfList, ignore_index=True) classDictDf = pd.read_csv(classDict) # Renaming the numerical values of the categories to the string version of the category name classCols = classDictDf['Class_name'].unique().tolist() # Summing the pixel counts by administrative division as a single administrative division might cover more than one raster image for col in classCols: allDf[col] = allDf[col].fillna(0) allDf[col] = allDf.groupby(idCols + ['year'])[col].transform(lambda x: x.sum()) # Removing Duplicates from the dataframe allDf = allDf.groupby(idCols + ['year']).first().reset_index() # Reattaching the geometry to the aggregated raster data if '.parquet' in inVector: vector = gp.read_parquet(inVector) else: vector = gp.read_file(inVector) allDf = vector.merge(allDf, on=idCols) return(allDf)

Для ефективної оцінки вилучених функцій використовуються моделі ML для прогнозування факторів, що представляють кожну функцію. Однією з використовуваних моделей є опорна векторна машина (SVM). Модель SVM допомагає виявити закономірності та асоціації в даних, які дають змогу оцінити ризики.

Індекс являє собою кількісну оцінку рівнів ризику, розраховану як середньозважену величину цих факторів, щоб допомогти зрозуміти потенційні вторинні події в різних регіонах.

import pandas as pd
import numpy as np
import geopandas as gp def finalIndicatorCalculation(inputLayer, weightDictionary, outLayer): # Creating a dictionary with the weights for each factor in the indicator weightsDict = pd.read_csv(weightDictionary).set_index('metric')['weight'].to_dict() # Reading in the data from the layer layer = gp.read_file(inputLayer) # Initializing the Sum of the Weights layer['sumweight'] = 0 # Calculating the sum of the weighted factors for col in weightsDict.keys(): layer[col] = layer[col].fillna(0) layer['sumweight'] = layer['sumweight'] + (layer[col] * zweights[col]) # Calculating Raw Zoonotic Spillover Risk Index layer['raw_idx'] = np.log(layer['e_pop']) * layer['sumweight'] # Normalizing the Index between 0 and 100 layer['zs_idx'] = ((layer['raw_idx'] - layer['raw_idx'].min()) / (layer['raw_idx'].max() - layer['raw_idx'].min()) * 100).round(2) return(layer)

На наступному малюнку ліворуч показано агрегування класифікації зображень із сцени тестової зони на півночі Перу, агреговане до адміністративного рівня району з обчисленою зміною лісової площі між 2018–2023 роками. Вирубка лісів є одним із ключових факторів, що визначають ризик розповсюдження зоонозів. На малюнку праворуч показано рівні серйозності ризику зоонозного поширення в охоплених регіонах, починаючи від найвищого (червоний) до найнижчого (темно-зелений) ризику. Цю територію було обрано як одну з навчальних областей для класифікації зображень через різноманітність земельного покриву, зафіксованого на сцені, зокрема: місто, ліс, пісок, воду, луки та сільське господарство тощо. Крім того, це одна з багатьох сфер інтересу для потенційних зоонозних подій через вирубку лісів і взаємодію між людьми і тваринами.

Рівні ризику поширення зоонозів у північному Перу

Застосовуючи цей мультимодальний підхід, який охоплює історичні дані про спалахи захворювань, дані спостереження Землі, соціальні детермінанти та методи МЛ, ми можемо краще зрозуміти та передбачити ризик поширення зоонозів, зрештою спрямовуючи спостереження за захворюваннями та стратегії запобігання захворюванням у зони найбільшого ризику спалаху. На наступному знімку екрана показано інформаційну панель результатів аналізу ризику поширення зоонозів. Цей аналіз ризику підкреслює, де можуть виникнути ресурси та спостереження для нових потенційних спалахів зоонозів, щоб можна було стримати наступне захворювання до того, як воно стане ендемічним або новою пандемією.

Інформаційна панель аналізу ризику поширення зоонозів

Новий підхід до запобігання пандемії

У 1998 році вздовж річки Ніпа в Малайзії, з осені 1998 року до весни 1999 року, 265 людей були інфіковані на той час невідомим вірусом, який викликав гострий енцефаліт і важку респіраторну недостатність. З них 105 померли, летальність – 39.6%. Рівень смертності від COVID-19 без лікування, навпаки, становить 6.3%. З тих пір вірус Nipah, як його зараз називають, вийшов зі свого лісового середовища існування та спричинив понад 20 смертельних спалахів, переважно в Індії та Бангладеш.

Віруси, такі як Nipah, з’являються щороку, створюючи проблеми для нашого повсякденного життя, особливо в країнах, де важче створити потужні, довговічні та надійні системи спостереження та виявлення захворювань. Ці системи виявлення мають вирішальне значення для зниження ризиків, пов’язаних з такими вірусами.

Рішення, які використовують ML і геопросторові дані, такі як Zoonotic Spillover Risk Index, можуть допомогти місцевим органам охорони здоров’я визначити пріоритетність розподілу ресурсів для зон найвищого ризику. Роблячи це, вони можуть запровадити цільові та локалізовані заходи спостереження для виявлення та припинення регіональних спалахів до того, як вони поширяться за межі кордонів. Такий підхід може значно обмежити вплив спалаху хвороби та врятувати життя.

Висновок

Ця публікація продемонструвала, як HSR.здоров'я успішно розробив індекс ризику поширення зоонозних захворювань, об’єднавши геопросторові дані, дані про стан здоров’я, соціальні детермінанти та ML. Використовуючи SageMaker, команда створила масштабований робочий процес, який може точно визначити найбільш суттєві загрози потенційної майбутньої пандемії. Ефективне управління цими ризиками може призвести до зменшення глобального тягаря захворювань. Значні економічні та соціальні переваги зниження ризику пандемії неможливо переоцінити, причому переваги поширюються на регіональному та глобальному рівнях.

HSR.здоров'я використовував геопросторові можливості SageMaker для початкового впровадження Індексу ризику поширення зоонозів і зараз шукає партнерства, а також підтримку з боку приймаючих країн і джерел фінансування для подальшого розвитку індексу та поширення його застосування на додаткові регіони по всьому світу. Для отримання додаткової інформації про HSR.здоров'я та Індекс ризику поширення зоонозів, відвідайте www.hsr.health.

Відкрийте для себе потенціал інтеграції даних спостереження Землі у ваші ініціативи в галузі охорони здоров’я, досліджуючи геопросторові функції SageMaker. Для отримання додаткової інформації див Геопросторові можливості Amazon SageMaker, або займатися з додаткові приклади отримати практичний досвід.


Про авторів

Аджай К ГуптаАджай К Гупта є співзасновником і генеральним директором HSR.health, фірми, яка руйнує та інновує аналітику ризиків для здоров’я за допомогою геопросторових технологій і методів штучного інтелекту для прогнозування поширення та тяжкості захворювання. І надає цю інформацію промисловості, урядам і сектору охорони здоров’я, щоб вони могли передбачати, пом’якшувати та використовувати майбутні ризики. Поза роботою ви можете побачити Аджая, який лопає барабанні перетинки за мікрофоном, співаючи улюблені поп-музики з U2, Стінга, Джорджа Майкла чи Imagine Dragons.

Жан Феліпе ТеотоніоЖан Феліпе Теотоніо Жан Феліпе, цілеспрямований лікар і пристрасний експерт з питань якості медичної допомоги та епідеміології інфекційних захворювань, очолює групу громадської охорони здоров’я HSR.health. Він працює над спільною метою покращення громадського здоров’я шляхом зменшення глобального тягаря хвороб, використовуючи підходи GeoAI для розробки рішень для найбільших проблем охорони здоров’я нашого часу. Крім роботи, його захоплення включають читання науково-фантастичних книг, піші прогулянки, англійську прем’єр-лігу та гру на бас-гітарі.

Павло А Церковний двірПавло А Церковний двір, технічний директор і головний геопросторовий інженер HSR.health, використовує свої широкі технічні навички та досвід, щоб побудувати основну інфраструктуру фірми, а також її запатентовану власну платформу GeoMD. Крім того, він і наукова команда впроваджують геопросторову аналітику та методи AI/ML у всі індекси ризику для здоров’я, які створює HSR.health. Поза роботою Пол є діджеєм-самоучкою і любить сніг.

Янош ВошицЯнош Вошиц є старшим архітектором рішень в AWS, який спеціалізується на геопросторовому ШІ/ML. Маючи понад 15 років досвіду, він підтримує клієнтів у всьому світі у використанні штучного інтелекту та машинного навчання для інноваційних рішень, які використовують геопросторові дані. Його досвід охоплює машинне навчання, розробку даних і масштабовані розподілені системи, доповнений сильним досвідом розробки програмного забезпечення та галузевим досвідом у складних областях, таких як автономне водіння.

Еммет НельсонЕммет Нельсон є менеджером з роботи з клієнтами в AWS, який підтримує клієнтів некомерційних дослідницьких організацій у сферах охорони здоров’я та біологічних наук, наук про Землю/довкілля та освіти. Його основна увага — розробка варіантів використання в аналітиці, штучному інтелекті та ML, високопродуктивних обчисленнях (HPC), геноміці та медичній візуалізації. Еммет приєднався до AWS у 2020 році та живе в Остіні, штат Техас.

spot_img

Остання розвідка

spot_img