Generatiivne andmeluure

Amazon Bedrocki teadmistebaasid toetavad nüüd metaandmete filtreerimist, et parandada otsingu täpsust | Amazoni veebiteenused

kuupäev:

At AWS re: leiutada 2023. aastal teatasime selle üldisest saadavusest Amazon Bedrocki teadmistebaasid. Amazon Bedrocki teadmistebaasidega saate vundamendimudeleid (FM-id) turvaliselt ühendada Amazonase aluspõhi teie ettevõtte andmetele, kasutades täielikult hallatud otsingu laiendatud genereerimise (RAG) mudelit.

RAG-põhiste rakenduste puhul sõltub FM-idest genereeritud vastuste täpsus mudelile pakutavast kontekstist. Kontekste hangitakse kasutaja päringute alusel vektorpoodidest. Hiljuti välja antud Amazon Bedrocki teadmistebaaside funktsioonis hübriidotsing, saate semantilise otsingu kombineerida märksõnaotsinguga. Kuid paljudes olukordades peate võib-olla hankima kindlaksmääratud aja jooksul loodud või teatud kategooriatega märgistatud dokumendid. Otsingutulemuste täpsustamiseks saate otsingu täpsuse parandamiseks filtreerida dokumentide metaandmete põhjal, mis omakorda toob kaasa asjakohasemad FM-i põlvkonnad, mis on kooskõlas teie huvidega.

Selles postituses käsitleme uut kohandatud metaandmete filtreerimise funktsiooni Knowledge Bases for Amazon Bedrockis, mida saate kasutada otsingutulemuste parandamiseks, eelfiltreerides oma otsingud vektorpoodidest.

Metaandmete filtreerimise ülevaade

Enne metaandmete filtreerimise vabastamist tagastatakse kõik semantiliselt asjakohased tükid kuni eelseadistatud maksimumini kontekstina, mida FM saaks vastuse genereerimiseks kasutada. Nüüd saate metaandmete filtrite abil hankida mitte ainult semantiliselt asjakohaseid tükke, vaid ka nende asjakohaste padrunite täpselt määratletud alamhulka, mis põhineb rakendatud metaandmefiltritel ja seotud väärtustel.

Selle funktsiooni abil saate nüüd anda iga teadmistebaasi dokumendi jaoks kohandatud metaandmete faili (igaüks kuni 10 KB). Saate oma otsingutele rakendada filtreid, andes vektorisalvestile käsu eelfiltreerida dokumendi metaandmete põhjal ja seejärel otsida asjakohaseid dokumente. Nii on teil kontroll allalaaditud dokumentide üle, eriti kui teie päringud on mitmetähenduslikud. Näiteks võite kasutada erinevate kontekstide jaoks sarnaste terminitega juriidilisi dokumente või erinevatel aastatel välja antud filme, mille süžee on sarnane. Lisaks saavutate otsitavate tükkide arvu vähendamisega lisaks täpsuse paranemisele ka jõudluse eeliseid, nagu CPU tsüklite vähenemine ja päringute kulud vektormälu kohta.

Metaandmete filtreerimise funktsiooni kasutamiseks peate esitama lähteandmefailide kõrval metaandmefailid, millel on sama nimi kui lähteandmefailil ja .metadata.json järelliide. Metaandmed võivad olla string, arv või tõeväärtus. Järgmine on näide metaandmete faili sisust.

{
    "metadataAttributes" : { 
        "tag" : "project EVE",
        "year" :  2016,
        "team": "ninjas"
    }
}

Amazon Bedrocki teadmistebaaside metaandmete filtreerimise funktsioon on saadaval AWS-i regioonides USA idaosa (N. Virginia) ja USA lääneosa (Oregon).

Järgmised on levinud metaandmete filtreerimise juhtumid.

  • Dokumenteerige tarkvarafirma vestlusbot – See võimaldab kasutajatel leida tooteteavet ja tõrkeotsingu juhendeid. Näiteks operatsioonisüsteemi või rakenduse versiooni filtrid võivad aidata vältida vananenud või ebaoluliste dokumentide toomist.
  • Organisatsiooni rakenduse vestluspõhine otsing – See võimaldab kasutajatel otsida dokumente, kanbane, koosolekute salvestamise ärakirju ja muid varasid. Kasutades töörühmade, äriüksuste või projekti ID-de metaandmete filtreid, saate vestluskogemust isikupärastada ja koostööd parandada. Näiteks "Mis on projekti Sphinx olek ja riskid", kus kasutajad saavad filtreerida dokumente konkreetse projekti või allikatüübi (nt meili- või koosolekudokumendid) jaoks.
  • Tarkvaraarendajate intelligentne otsing – See võimaldab arendajatel otsida teavet konkreetse versiooni kohta. Väljalaske versiooni, dokumendi tüübi (nt kood, API viide või probleem) filtrid võivad aidata asjakohaseid dokumente täpselt tuvastada.

Lahenduse ülevaade

Järgmistes jaotistes demonstreerime, kuidas koostada andmestik teadmistebaasina kasutamiseks ja seejärel teha päringuid metaandmete filtreerimisega. Saate päringuid teha kasutades kas AWS-i juhtimiskonsool või SDK.

Valmistage ette andmestik Amazon Bedrocki teadmistebaaside jaoks

Selle postituse jaoks kasutame a näidisandmekogum väljamõeldud videomängude kohta, et illustreerida, kuidas Amazon Bedrocki teabebaaside abil metaandmeid alla neelata ja hankida. Kui soovite oma AWS-i kontol teksti jälgida, laadige fail alla.

Kui soovite lisada metaandmeid olemasolevas teadmistebaasi dokumentidele, looge metaandmete failid eeldatava failinime ja skeemiga, seejärel jätkake andmete sünkroonimiseks teadmistebaasiga, et alustada järkjärgulist sisestust.

Meie näidisandmekomplektis on iga mängu dokument eraldi CSV-fail (näiteks s3://$bucket_name/video_game/$game_id.csv) järgmiste veergudega:

title, description, genres, year, publisher, score

Iga mängu metaandmetel on järelliide .metadata.json (näiteks, s3://$bucket_name/video_game/$game_id.csv.metadata.json) järgmise skeemiga:

{
  "metadataAttributes": {
    "id": number, 
    "genres": string,
    "year": number,
    "publisher": string,
    "score": number
  }
}

Looge Amazon Bedrocki jaoks teadmistebaas

Juhised uue teadmistebaasi loomiseks vt Loo teadmistebaas. Selle näite puhul kasutame järgmisi sätteid:

  • Kohta Seadistage andmeallikas leht, all Tükeldamise strateegiavalige Ei mingit tükkimist, kuna olete dokumendid juba eelmises etapis eeltöötlenud.
  • aasta Manustatud mudel Valige jaotises Titan G1 manused – tekst.
  • aasta Vektori andmebaas Valige jaotises Looge kiiresti uus vektorpood. Metaandmete filtreerimise funktsioon on saadaval kõigis toetatud vektorpoodides.

Sünkroonige andmestik teadmistebaasiga

Pärast teadmistebaasi loomist on teie andme- ja metaandmefailid asukohas Amazoni lihtne salvestusteenus (Amazon S3) ämbriga, saate alustada järkjärgulist allaneelamist. Juhiseid vt Sünkroonige, et sisestada oma andmeallikad teadmistebaasi.

Päring metaandmete filtreerimisega Amazon Bedrocki konsoolis

Amazon Bedrocki konsooli metaandmete filtreerimisvalikute kasutamiseks toimige järgmiselt.

  1. Amazon Bedrocki konsoolil valige Teadmiste alused navigeerimispaanil.
  2. Valige loodud teadmistebaas.
  3. Vali Testi teadmistebaasi.
  4. Vali Konfiguratsioonid ikooni, seejärel laiendage Filtrid.
  5. Sisestage tingimus, kasutades vormingut: klahv = väärtus (näiteks žanrid = strateegia) ja vajutage sisene.
  6. Võtme, väärtuse või operaatori muutmiseks valige tingimus.
  7. Jätkake ülejäänud tingimustega (näiteks (žanrid = strateegia JA aasta >= 2023) VÕI (hinnang >= 9))
  8. Kui olete lõpetanud, sisestage oma päring sõnumikasti ja seejärel valige jooks.

Selle postituse jaoks sisestame päringu "Laheda graafikaga strateegiamäng, mis on välja antud pärast 2023. aastat".

Päring metaandmete filtreerimisega, kasutades SDK-d

SDK kasutamiseks looge esmalt selle jaoks klient Amazon Bedrocki agendid käitusaeg:

import boto3

bedrock_agent_runtime = boto3.client(
    service_name = "bedrock-agent-runtime"
)

Seejärel konstrueerige filter (allpool on mõned näited):

# genres = Strategy
single_filter= {
    "equals": {
        "key": "genres",
        "value": "Strategy"
    }
}

# genres = Strategy AND year >= 2023
one_group_filter= {
    "andAll": [
        {
            "equals": {
                "key": "genres",
                "value": "Strategy"
            }
        },
        {
            "GreaterThanOrEquals": {
                "key": "year",
                "value": 2023
            }
        }
    ]
}

# (genres = Strategy AND year >=2023) OR score >= 9
two_group_filter = {
    "orAll": [
        {
            "andAll": [
                {
                    "equals": {
                        "key": "genres",
                        "value": "Strategy"
                    }
                },
                {
                    "GreaterThanOrEquals": {
                        "key": "year",
                        "value": 2023
                    }
                }
            ]
        },
        {
            "GreaterThanOrEquals": {
                "key": "score",
                "value": "9"
            }
        }
    ]
}

Viige filter kohale retrievalConfiguration Euroopa Retrieval API or Too ja loo API-d:

retrievalConfiguration={
        "vectorSearchConfiguration": {
            "filter": metadata_filter
        }
    }

Järgmises tabelis on loetletud mõned vastused erinevate metaandmete filtreerimistingimustega.

Query Metaandmete filtreerimine Välja otsitud dokumendid Kommentaarid
Laheda graafikaga strateegiamäng, mis ilmus pärast 2023. aastat maha

* Viikingisaaga: The Sea Raider, aasta:2023, žanrid: Strateegia

* Keskaegne loss: piiramine ja vallutamine, aasta:2022, žanrid: Strateegia
* Fantasy Kingdoms: Chronicles of Eldoria, aasta:2023, žanrid: strateegia

* Küberneetiline revolutsioon: Masinate tõus, aasta:2022, žanrid: Strateegia
* Steampunk Chronicles: Clockwork Empires, aasta:2021, žanrid: Linnaehitus

Tingimusele vastavad 2/5 mängu (žanrid = strateegia ja aasta >= 2023)
On * Viikingisaaga: The Sea Raider, aasta:2023, žanrid: Strateegia
* Fantasy Kingdoms: Chronicles of Eldoria, aasta:2023, žanrid: strateegia
Tingimusele vastavad 2/2 mängu (žanrid = strateegia ja aasta >= 2023)

Lisaks kohandatud metaandmetele saate filtreerida ka S3-eesliiteid kasutades (mis on sisseehitatud metaandmed, nii et te ei pea metaandmete faile esitama). Näiteks kui korraldate mängudokumendid avaldaja kaupa eesliideteks (näiteks s3://$bucket_name/video_game/$publisher/$game_id.csv), saate filtreerida konkreetse väljaandja järgi (näiteks neo_tokyo_games), kasutades järgmist süntaksit:

publisher_filter = {
    "startsWith": {
                    "key": "x-amz-bedrock-kb-source-uri",
                    "value": "s3://$bucket_name/video_game/neo_tokyo_games/"
                }
}

Koristage

Ressursside puhastamiseks toimige järgmiselt.

  1. Kustutage teadmistebaas:
    1. Amazon Bedrocki konsoolil valige Teadmiste alused all Orkestreerimine navigeerimispaanil.
    2. Valige loodud teadmistebaas.
    3. Pange tähele AWS-i identiteedi- ja juurdepääsuhaldus (IAM) teenuserolli nimi Teadmistebaasi ülevaade sektsiooni.
    4. aasta Vektori andmebaas jaotises võtke teadmiseks kogumik ARN.
    5. Vali kustutamaja seejärel kinnitamiseks sisestage delete.
  2. Kustutage vektorite andmebaas:
    1. Kohta Amazon OpenSearchi teenus konsool, vali Kollektsioonid all Serverita navigeerimispaanil.
    2. Sisestage otsinguribale salvestatud kogu ARN.
    3. Vali kollektsioon ja vali kustutama.
    4. Sisestage kinnitusviipale kinnitus ja seejärel valige kustutama.
  3. IAM-i teenuserolli kustutamine:
    1. Valige IAM-konsoolil rollid navigeerimispaanil.
    2. Otsige üles varem märgitud rolli nimi.
    3. Valige roll ja valige kustutama.
    4. Sisestage kinnitusviibale rolli nimi ja kustutage roll.
  4. Näidisandmestiku kustutamine:
    1. Navigeerige Amazon S3 konsoolis kasutatud S3 ämbrisse.
    2. Valige eesliide ja failid ning seejärel valige kustutama.
    3. Kustutamiseks sisestage kinnitusviibale jäädavalt kustutamine.

Järeldus

Selles postituses käsitlesime Amazon Bedrocki teabebaaside metaandmete filtreerimise funktsiooni. Õppisite, kuidas lisada dokumentidele kohandatud metaandmeid ja kasutada neid filtritena dokumentide toomisel ja päringute tegemisel Amazon Bedrocki konsooli ja SDK abil. See aitab parandada konteksti täpsust, muutes päringuvastused veelgi asjakohasemaks, vähendades samas vektorandmebaasi päringute tegemise kulusid.

Lisaressursside saamiseks vaadake järgmist.


Autoritest

Corvus Lee on Londonis asuv GenAI Labsi lahenduste vanemarhitekt. Ta on kirglik selliste prototüüpide kujundamise ja arendamise vastu, mis kasutavad klientide probleemide lahendamiseks generatiivset tehisintellekti. Samuti hoiab ta end kursis generatiivse AI ja otsingutehnikate viimaste arengutega, rakendades neid reaalsetes stsenaariumides.

Ahmed Ewis on AWS GenAI Labsi vanemlahenduste arhitekt, kes aitab klientidel luua generatiivseid tehisintellekti prototüüpe äriprobleemide lahendamiseks. Kui ta klientidega koostööd ei tee, naudib ta lastega mängimist ja süüa teha.

Chris Pecora on Amazon Web Servicesi generatiivne tehisintellekti andmeteadlane. Ta on kirglik uuenduslike toodete ja lahenduste loomise vastu, keskendudes samal ajal ka klientidest kinnisideeks olevale teadusele. Kui ta eksperimente ei tee ja GenAI uusimate arengutega kursis ei ole, meeldib talle oma lastega aega veeta.

spot_img

Uusim intelligentsus

spot_img