생성 데이터 인텔리전스

Amazon Bedrock 및 Amazon Neptune을 사용하여 구조화되지 않은 금융 데이터에서 숨겨진 연결을 찾아보세요 | 아마존 웹 서비스

시간

자산 관리에서 포트폴리오 관리자는 위험과 기회를 식별하고 투자 결정을 안내하기 위해 투자 영역에 있는 회사를 면밀히 모니터링해야 합니다. 수익 보고서나 신용 등급 하락과 같은 직접적인 이벤트를 추적하는 것은 간단합니다. 회사 이름이 포함된 뉴스를 관리자에게 알리도록 알림을 설정할 수 있습니다. 그러나 공급업체, 고객, 파트너 또는 회사 생태계의 기타 주체에서 발생하는 이벤트로 인해 발생하는 2차 및 3차 영향을 감지하는 것은 어렵습니다.

예를 들어, 주요 공급업체의 공급망 중단은 다운스트림 제조업체에 부정적인 영향을 미칠 가능성이 높습니다. 또는 주요 고객의 최고 고객 상실로 인해 공급업체에 수요 위험이 발생합니다. 이러한 사건은 영향을 받은 회사를 직접적으로 소개하는 헤드라인을 장식하지 못하는 경우가 많지만 여전히 주의를 기울여야 하는 중요한 사건입니다. 이 게시물에서는 지식 그래프와 생성 인공지능(AI) 실시간 뉴스와 관계 맵을 상호 참조하여 이러한 위험을 표면화합니다.

광범위하게 여기에는 두 가지 단계가 수반됩니다. 첫째, 회사(고객, 공급업체, 이사) 간의 복잡한 관계를 지식 그래프로 구축합니다. 둘째, 이 그래프 데이터베이스를 생성 AI와 함께 사용하여 뉴스 이벤트의 2차 및 3차 영향을 감지합니다. 예를 들어, 이 솔루션은 부품 공급업체의 지연으로 인해 직접 참조되는 것은 없지만 포트폴리오 내 다운스트림 자동차 제조업체의 생산이 중단될 수 있다는 점을 강조할 수 있습니다.

AWS를 사용하면 서버리스, 확장 가능, 완전한 이벤트 중심 아키텍처에 이 솔루션을 배포할 수 있습니다. 이 게시물은 그래프 지식 표현 및 자연어 처리에 매우 적합한 두 가지 주요 AWS 서비스를 기반으로 구축된 개념 증명을 보여줍니다. 아마존 해왕성아마존 기반암. Neptune은 빠르고 안정적이며 완벽하게 관리되는 그래프 데이터베이스 서비스로, 고도로 연결된 데이터 세트로 작동하는 애플리케이션을 간단하게 구축하고 실행할 수 있습니다. Amazon Bedrock은 AI21 Labs, Anthropic, Cohere, Meta, Stability AI 및 Amazon과 같은 주요 AI 기업의 고성능 기반 모델(FM)을 단일 API를 통해 선택할 수 있는 완전관리형 서비스입니다. 보안, 개인정보 보호, 책임 있는 AI를 갖춘 생성적 AI 애플리케이션을 구축하는 기능입니다.

전반적으로 이 프로토타입은 서로 다른 점을 연결하여 신호를 파생하는 지식 그래프와 생성 AI를 통해 가능한 기술을 보여줍니다. 투자 전문가가 얻을 수 있는 이점은 소음을 피하면서 신호에 가까운 개발 상황을 파악할 수 있는 능력입니다.

지식 그래프 구축

이 솔루션의 첫 번째 단계는 지식 그래프를 구축하는 것입니다. 지식 그래프에 대한 가치 있지만 종종 간과되는 데이터 소스는 회사 연례 보고서입니다. 기업의 공식 출판물은 공개되기 전에 철저한 조사를 거치기 때문에 여기에 포함된 정보는 정확하고 신뢰할 수 있습니다. 그러나 연간 보고서는 기계가 아닌 사람이 읽을 수 있도록 구조화되지 않은 형식으로 작성됩니다. 잠재력을 발휘하려면 거기에 포함된 풍부한 사실과 관계를 체계적으로 추출하고 구조화하는 방법이 필요합니다.

Amazon Bedrock과 같은 생성적 AI 서비스를 사용하면 이제 이 프로세스를 자동화할 수 있습니다. 연간 보고서를 가져와서 처리 파이프라인을 트리거하여 보고서를 수집하고, 보고서를 더 작은 단위로 나누고, 자연어 이해를 적용하여 핵심 엔터티와 관계를 끌어낼 수 있습니다.

예를 들어, "[회사 A]는 [회사 B]로부터 1,800대의 전기 밴을 주문하여 유럽 전기 배송 차량을 확장했습니다"라는 문장을 통해 Amazon Bedrock은 다음을 식별할 수 있습니다.

  • [A사]를 고객으로
  • [B사] 공급업체
  • [A사]와 [B사]의 공급업체 관계
  • “전기배달밴 공급업체”의 관계 내용

구조화되지 않은 문서에서 이러한 구조화된 데이터를 추출하려면 LLM(대형 언어 모델)에 신중하게 제작된 프롬프트를 제공해야 합니다. 그러면 LLM이 텍스트를 분석하여 회사, 사람과 같은 엔터티는 물론 고객, 공급업체 등과 같은 관계를 끌어낼 수 있습니다. 프롬프트에는 찾아야 할 사항과 데이터를 반환할 구조에 대한 명확한 지침이 포함되어 있습니다. 전체 연례 보고서에서 이 프로세스를 반복하면 관련 엔터티와 관계를 추출하여 풍부한 지식 그래프를 구성할 수 있습니다.

그러나 추출된 정보를 지식 그래프에 커밋하기 전에 먼저 엔터티를 명확하게 해야 합니다. 예를 들어 지식 그래프에는 이미 다른 '[회사 A]' 개체가 있을 수 있지만 동일한 이름을 가진 다른 조직을 나타낼 수도 있습니다. Amazon Bedrock은 비즈니스 중점 영역, 산업, 수익 창출 산업 등의 속성과 다른 엔터티와의 관계를 추론하고 비교하여 두 엔터티가 실제로 구별되는지 확인할 수 있습니다. 이는 관련되지 않은 회사를 단일 엔터티로 부정확하게 병합하는 것을 방지합니다.

명확성이 완료된 후에는 Neptune 지식 그래프에 새로운 엔터티와 관계를 안정적으로 추가하여 연간 보고서에서 추출한 사실로 이를 강화할 수 있습니다. 시간이 지남에 따라 신뢰할 수 있는 데이터를 수집하고 더욱 신뢰할 수 있는 데이터 소스를 통합하면 그래프 쿼리 및 분석을 통해 통찰력을 드러내는 데 도움이 되는 포괄적인 지식 그래프를 구축하는 데 도움이 됩니다.

생성적 AI를 통해 구현된 이 자동화를 통해 수천 개의 연간 보고서를 처리할 수 있으며, 엄청나게 높은 수동 작업으로 인해 활용되지 않을 지식 그래프 큐레이션을 위한 귀중한 자산을 확보할 수 있습니다.

다음 스크린샷은 Neptune 그래프 데이터베이스에서 가능한 시각적 탐색의 예를 보여줍니다. 그래프 탐색기 도구입니다.

뉴스 기사 처리

솔루션의 다음 단계는 포트폴리오 관리자의 뉴스 피드를 자동으로 강화하고 관심 및 투자와 관련된 기사를 강조하는 것입니다. 뉴스피드의 경우 포트폴리오 관리자는 다음을 통해 제3자 뉴스 제공업체를 구독할 수 있습니다. AWS 데이터 교환 또는 자신이 선택한 다른 뉴스 API.

뉴스 기사가 시스템에 입력되면 수집 파이프라인이 호출되어 콘텐츠를 처리합니다. 연례 보고서 처리와 유사한 기술을 사용하여 Amazon Bedrock은 뉴스 기사에서 엔터티, 속성 및 관계를 추출하는 데 사용됩니다. 그런 다음 이를 지식 그래프와 명확하게 구분하여 지식 그래프에서 해당 엔터티를 식별합니다.

지식 그래프에는 기업과 사람 간의 연결이 포함되어 있으며, 기사 엔터티를 기존 노드에 연결하면 포트폴리오 관리자가 투자했거나 관심이 있는 기업의 두 홉 내에 주제가 있는지 확인할 수 있습니다. 이러한 연결을 찾는 것은 기사는 포트폴리오 관리자와 관련이 있을 수 있으며 기본 데이터가 지식 그래프로 표시되므로 시각화하여 포트폴리오 관리자가 이 컨텍스트가 왜, 어떻게 관련되는지 이해할 수 있습니다. 포트폴리오에 대한 연결을 식별하는 것 외에도 Amazon Bedrock을 사용하여 참조된 엔터티에 대한 감정 분석을 수행할 수도 있습니다.

최종 출력은 포트폴리오 관리자의 관심 및 투자 분야에 영향을 미칠 가능성이 있는 기사를 표시하는 풍부한 뉴스 피드입니다.

솔루션 개요

솔루션의 전체 아키텍처는 다음 다이어그램과 같습니다.

워크플로는 다음 단계로 구성됩니다.

  1. 사용자는 공식 보고서(PDF 형식)를 다음 사이트에 업로드합니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 보고서는 지식 그래프(뉴스 및 타블로이드와 달리)에 부정확한 데이터가 포함되는 것을 최소화하기 위해 공식적으로 게시된 보고서여야 합니다.
  2. S3 이벤트 알림은 AWS 람다 S3 버킷과 파일 이름을 아마존 단순 대기열 서비스 (Amazon SQS) 대기열. FIFO(선입선출) 대기열은 보고서 수집 프로세스가 순차적으로 수행되도록 하여 지식 그래프에 중복 데이터가 도입될 가능성을 줄입니다.
  3. An 아마존 이벤트 브리지 시간 기반 이벤트는 1분마다 실행되어 실행을 시작합니다. AWS 단계 함수 상태 머신을 비동기적으로.
  4. Step Functions 상태 시스템은 주요 정보를 추출하고 지식 그래프에 삽입하여 업로드된 문서를 처리하는 일련의 작업을 실행합니다.
    1. Amazon SQS로부터 대기열 메시지를 수신합니다.
    2. Amazon S3에서 PDF 보고서 파일을 다운로드하고 처리를 위해 여러 개의 작은 텍스트 청크(약 1,000단어)로 분할한 다음 텍스트 청크를 아마존 DynamoDB.
    3. Amazon Bedrock에서 Anthropic의 Claude v3 Sonnet을 사용하여 처음 몇 개의 텍스트 청크를 처리하여 관련 속성(예: 산업)과 함께 보고서에서 참조하는 주요 엔터티를 결정합니다.
    4. DynamoDB에서 텍스트 청크를 검색하고 각 텍스트 청크에 대해 Lambda 함수를 호출하여 Amazon Bedrock을 사용하여 엔터티(예: 회사 또는 사람)와 주요 엔터티에 대한 관계(고객, 공급업체, 파트너, 경쟁사 또는 이사)를 추출합니다. .
    5. 추출된 모든 정보를 통합합니다.
    6. Amazon Bedrock을 사용하여 소음과 관련 없는 엔터티(예: "소비자"와 같은 일반적인 용어)를 필터링합니다.
    7. Amazon Bedrock을 사용하면 지식 그래프에서 유사한 개체 목록에 대해 추출된 정보를 사용하여 추론하여 모호성을 제거할 수 있습니다. 엔터티가 없으면 삽입합니다. 그렇지 않으면 지식 그래프에 이미 존재하는 엔터티를 사용하세요. 추출된 관계를 모두 삽입합니다.
    8. SQS 대기열 메시지와 S3 파일을 삭제하여 정리합니다.
  5. 사용자는 엔터티, 감정, 연결 경로 정보가 추가된 뉴스 기사를 보기 위해 React 기반 웹 애플리케이션에 접속합니다.
  6. 사용자는 웹 애플리케이션을 사용하여 모니터링할 연결 경로의 홉 수(기본값 N=2)를 지정합니다.
  7. 사용자는 웹 애플리케이션을 사용하여 추적할 엔터티 목록을 지정합니다.
  8. 허구의 뉴스를 생성하기 위해 사용자는 다음을 선택합니다. 샘플 뉴스 생성 뉴스 수집 프로세스에 입력할 무작위 콘텐츠가 포함된 10개의 샘플 금융 뉴스 기사를 생성합니다. 콘텐츠는 Amazon Bedrock을 사용하여 생성되며 순전히 허구입니다.
  9. 실제 뉴스를 다운로드하려면 사용자가 선택합니다. 최신 뉴스 다운로드 오늘 일어나는 주요 뉴스를 다운로드하세요(NewsAPI.org 제공).
  10. 뉴스 파일(TXT 형식)은 S3 버킷에 업로드됩니다. 8단계와 9단계에서는 뉴스를 S3 버킷에 자동으로 업로드하지만 AWS Data Exchange 또는 타사 뉴스 제공자와 같은 선호하는 뉴스 제공자에 대한 통합을 구축하여 뉴스 기사를 S3 버킷에 파일로 드롭할 수도 있습니다. 뉴스 데이터 파일 콘텐츠의 형식은 다음과 같아야 합니다. <date>{dd mmm yyyy}</date><title>{title}</title><text>{news content}</text>.
  11. S3 이벤트 알림은 S3 버킷 또는 파일 이름을 Amazon SQS(표준)로 전송하며, 이는 여러 Lambda 함수를 호출하여 뉴스 데이터를 병렬로 처리합니다.
    1. Amazon Bedrock을 사용하여 뉴스에 언급된 엔터티와 관련 정보, 관계 및 언급된 엔터티의 감정을 추출합니다.
    2. 지식 그래프를 확인하고 Amazon Bedrock을 사용하여 뉴스와 지식 그래프 내에서 사용 가능한 정보를 사용하여 해당 엔터티를 식별하는 추론을 통해 명확성을 수행합니다.
    3. 엔터티를 찾은 후 다음으로 표시된 엔터티에 연결되는 연결 경로를 검색하여 반환합니다. INTERESTED=YES N=2 홉 내에 있는 지식 그래프에서.
  12. 웹 애플리케이션은 1초마다 자동으로 새로 고쳐져 처리된 최신 뉴스 세트를 가져와 웹 애플리케이션에 표시합니다.

프로토타입 배포

프로토타입 솔루션을 배포하고 직접 실험을 시작할 수 있습니다. 프로토타입은 다음에서 구할 수 있습니다. GitHub의 다음에 대한 세부정보가 포함되어 있습니다.

  • 배포 전제 조건
  • 배포 단계
  • 정리 단계

요약

이 게시물에서는 포트폴리오 관리자가 추적하는 회사를 직접 참조하지 않고도 뉴스 이벤트에서 2차 및 3차 위험을 감지하는 데 도움이 되는 개념 증명 솔루션을 시연했습니다. 복잡한 회사 관계에 대한 지식 그래프와 생성 AI를 사용한 실시간 뉴스 분석을 결합함으로써 공급업체 문제로 인한 생산 지연과 같은 다운스트림 영향을 강조할 수 있습니다.

비록 프로토타입에 불과하지만 이 솔루션은 점을 연결하고 잡음에서 신호를 도출하는 지식 그래프와 언어 모델의 가능성을 보여줍니다. 이러한 기술은 관계 매핑 및 추론을 통해 위험을 더 빠르게 밝혀 투자 전문가에게 도움을 줄 수 있습니다. 전반적으로 이는 투자 분석 및 의사 결정을 강화하기 위한 탐색을 보장하는 그래프 데이터베이스와 AI의 유망한 응용 프로그램입니다.

금융 서비스의 생성적 AI에 대한 이 사례가 귀하의 비즈니스에 관심이 있거나 비슷한 아이디어가 있는 경우 AWS 계정 관리자에게 문의하시면 기꺼이 더 자세히 알아보겠습니다.


저자에 관하여

황 산 AWS의 수석 솔루션 아키텍트이며 싱가포르에 거주하고 있습니다. 그는 주요 금융 기관과 협력하여 클라우드에서 안전하고 확장 가능하며 가용성이 높은 솔루션을 설계하고 구축합니다. 업무 외에 Xan은 대부분의 여가 시간을 가족과 함께 보내고 3살짜리 딸의 상사가 됩니다. Xan은 다음에서 찾을 수 있습니다. 링크드인.

spot_img

최신 인텔리전스

spot_img