생성 데이터 인텔리전스

AWS AI 서비스 및 LLM을 사용하여 오디오 및 텍스트 채팅 조정 | 아마존 웹 서비스

시간

온라인 게임 및 소셜 커뮤니티는 사용자가 의사소통할 수 있도록 음성 및 문자 채팅 기능을 제공합니다. 음성 및 문자 채팅은 종종 친근한 농담을 지원하지만 증오심 표현, 사이버 괴롭힘, 괴롭힘, 사기 등의 문제로 이어질 수도 있습니다. 오늘날 많은 회사에서는 유해한 콘텐츠를 검토하기 위해 중재자에게만 의존하고 있습니다. 그러나 채팅에서 위반 사항을 확인하는 것은 시간이 많이 걸리고 오류가 발생하기 쉬우며 확장이 어렵습니다.

이 게시물에서는 다음을 포함한 다양한 AWS 서비스를 사용하여 오디오 및 텍스트 채팅을 조정할 수 있는 솔루션을 소개합니다. 아마존 전사, 아마존 이해, 아마존 기반암아마존 오픈서치 서비스.

소셜 플랫폼은 시작하기 쉬운 기성 조정 솔루션을 추구하지만 다양한 정책을 관리하기 위해서는 사용자 정의도 필요합니다. 지연 시간과 비용도 고려해야 할 중요한 요소입니다. 생성 AI를 사용하여 LLM(대형 언어 모델)으로 독성 분류를 조정함으로써 단순성, 대기 시간, 비용 및 유연성의 균형을 유지하여 다양한 요구 사항을 충족하는 솔루션을 제공합니다.

이 게시물의 샘플 코드는 GitHub 저장소.

오디오 채팅 조정 작업 흐름

오디오 채팅 조정 워크플로는 사용자가 게임 플랫폼의 다른 사용자에게 욕설, 증오심 표현, 괴롭힘 등의 정책 위반을 신고함으로써 시작될 수 있습니다. 이는 오디오 조정에 대한 수동적 접근 방식을 나타냅니다. 시스템은 즉각적인 분석 없이 모든 오디오 대화를 녹음합니다. 보고서가 수신되면 워크플로는 관련 오디오 파일을 검색하고 분석 프로세스를 시작합니다. 그런 다음 중재자는 보고된 대화를 검토하고 내용을 조사하여 플랫폼 정책을 위반하는지 확인합니다.

워크플로 다이어그램

또는 워크플로가 사전에 트리거될 수 있습니다. 예를 들어 소셜 오디오 채팅방에서 시스템은 모든 대화를 녹음하고 분석을 적용할 수 있습니다.

오디오 조정 작업 흐름

수동적 접근 방식과 사전 접근 방식 모두 오디오 분석을 위해 다음 파이프라인을 트리거할 수 있습니다.

오디오 조정 작업 흐름에는 다음 단계가 포함됩니다.

  • 작업 흐름은 오디오 파일을 수신하고 이를 컴퓨터에 저장하는 것으로 시작됩니다. 아마존 단순 스토리지 서비스 (Amazon S3) Amazon Transcribe가 액세스할 버킷입니다.
  • 아마존 트랜스크라이브 StartTranscriptionJob API는 다음을 사용하여 호출됩니다. 독성 감지 활성화되었습니다. Amazon Transcribe는 오디오를 텍스트로 변환하여 독성 분석에 대한 추가 정보를 제공합니다. 독성 분석에 대한 자세한 내용은 다음을 참조하세요. Amazon Transcribe 독성 감지를 사용하여 음성 대화에서 유해한 언어에 플래그를 지정합니다..
  • 독성 분석이 특정 임계값(예: 50%)을 초과하는 독성 점수를 반환하는 경우 다음을 사용할 수 있습니다. Amazon Bedrock에 대한 기술 자료 LLM을 사용하여 사용자 정의된 정책과 비교하여 메시지를 평가합니다.
  • 중재자는 유해하고 정책을 위반한 것으로 간주되는 대화 세그먼트를 강조하는 자세한 오디오 조정 보고서를 받아 정보에 입각한 결정을 내릴 수 있습니다.

다음 스크린샷은 오디오 세그먼트에 대한 독성 분석을 표시하는 샘플 애플리케이션을 보여줍니다. 여기에는 원본 전사본, Amazon Transcribe 독성 분석 결과, Amazon Bedrock Anthropic Claude V2 모델을 통해 Amazon Bedrock 지식 기반을 사용하여 수행된 분석이 포함됩니다.

LLM 분석은 위반 결과(Y 또는 N)를 제공하고 정책 위반에 관한 모델 결정의 근거를 설명합니다. 또한 지식 기반에는 평가에 사용되는 참조 정책 문서가 포함되어 조정자에게 추가 컨텍스트를 제공합니다.

샘플 앱 스크린샷

Amazon Transcribe 독성 감지

Amazon Transcribe는 개발자가 음성을 텍스트로 변환하는 기능을 애플리케이션에 쉽게 추가할 수 있게 해주는 자동 음성 인식(ASR) 서비스입니다. 오디오 조정 워크플로에서는 오디오 및 텍스트 기반 단서를 사용하여 성희롱, 증오심 표현, 위협을 포함한 7가지 범주에 걸쳐 음성 기반 유해 콘텐츠를 식별하고 분류하는 기계 학습(ML) 기반 기능인 Amazon Transcribe ToxicityDetect를 사용합니다. , 학대, 욕설, 모욕 및 노골적인 언어. 독성 감지는 텍스트를 분석하는 것 외에도 톤, 높낮이와 같은 음성 단서를 사용하여 음성의 유해한 의도를 식별합니다.

오디오 조정 작업 흐름은 독성 분석이 설정된 임계값을 초과하는 경우에만 LLM의 정책 평가를 활성화합니다. 이 접근 방식은 LLM을 선택적으로 적용하고 트래픽의 상당 부분을 필터링하여 대기 시간을 줄이고 비용을 최적화합니다.

LLM 프롬프트 엔지니어링을 사용하여 맞춤형 정책 수용

Amazon Transcribe 및 Amazon Comprehend의 사전 훈련된 독성 탐지 모델은 오디오 및 텍스트 형식의 사용자 생성 콘텐츠를 조정하기 위해 소셜 플랫폼에서 일반적으로 사용되는 광범위한 독성 분류 체계를 제공합니다. 이러한 사전 학습된 모델은 짧은 대기 시간으로 문제를 효율적으로 감지하지만, 사전 학습된 모델만으로는 달성할 수 없는 특정 회사 또는 비즈니스 도메인 정책에 대한 위반을 감지하는 솔루션이 필요할 수 있습니다.

또한 다음과 같은 상황별 대화에서 위반 사항을 감지합니다. 아이 성적 손질 대화에는 사용자의 나이, 성별, 대화 기록 등 채팅 메시지와 외부 컨텍스트를 고려하는 맞춤형 솔루션이 필요합니다. LLM은 이러한 요구 사항을 확장하는 데 필요한 유연성을 제공할 수 있습니다.

Amazon Bedrock은 선도적인 AI 기업의 고성능 기초 모델(FM)을 선택할 수 있는 완전관리형 서비스입니다. 이러한 솔루션은 Amazon Bedrock의 Anthropic Claude v2를 사용하여 다음 코드에 설명된 대로 유연한 프롬프트 템플릿을 사용하여 오디오 전사 및 문자 채팅 메시지를 조정합니다.

Human: You are a Trust & Safety expert. Your job is to review user chat message and decide if it violate the policy.
You will find the chat message in <message> tag, and find the policy in the <policy> tag. You can find additional rules in the <rule> tag to assist your decision. 

<policy>{policy}</policy>
<message>{message}</message>
<rule>{rule}</rule>

Does the chat message violate the policy? Please consider and provide your analysis in the <analysis> tag, breaking down each rule in the rule section, and keep and analysis within 100 words. Respond in the <answer> tag with either 'Y' or 'N'. 'Y' indicates that the message violates the policy, while 'N' means the content is safe and does not violate the policy. 

Assistant:

템플릿에는 정책 설명, 채팅 메시지 및 중재가 필요한 추가 규칙에 대한 자리 표시자가 포함되어 있습니다. Anthropic Claude V2 모델은 메시지가 정책을 위반한다고 생각하는 이유를 설명하는 분석과 함께 지시된 형식(Y 또는 N)으로 응답을 제공합니다. 이 접근 방식을 사용하면 유연한 조정 범주를 정의하고 정책을 인간의 언어로 명확하게 표현할 수 있습니다.

사내 분류 모델을 교육하는 기존 방법에는 데이터 주석, 교육, 테스트, 모델 배포 등의 번거로운 프로세스가 포함되어 데이터 과학자 및 ML 엔지니어의 전문 지식이 필요합니다. 대조적으로 LLM은 높은 수준의 유연성을 제공합니다. 비즈니스 사용자는 인간 언어로 프롬프트를 수정하여 ML 모델 교육의 효율성을 높이고 반복 주기를 줄일 수 있습니다.

Amazon Bedrock 지식 기반

프롬프트 엔지니어링은 정책을 사용자 정의하는 데 효율적이지만 각 메시지에 대한 LLM 프롬프트에 긴 정책과 규칙을 직접 삽입하면 대기 시간이 발생하고 비용이 증가할 수 있습니다. 이 문제를 해결하기 위해 우리는 Amazon Bedrock 지식 베이스를 관리형 RAG(Retrieval Augmented Generation) 시스템으로 사용합니다. 이를 통해 정책 문서를 유연하게 관리할 수 있으므로 워크플로가 각 입력 메시지에 대해 관련 정책 세그먼트만 검색할 수 있습니다. 이렇게 하면 분석을 위해 LLM으로 전송되는 토큰 수가 최소화됩니다.

당신은을 사용할 수 있습니다 AWS 관리 콘솔 정책 문서를 S3 버킷에 업로드한 다음 효율적인 검색을 위해 문서를 벡터 데이터베이스에 인덱싱합니다. 다음은 Amazon S3에서 문서를 검색하고, 텍스트를 청크로 분할하고, Amazon Bedrock Titan 텍스트 임베딩 모델 텍스트 청크를 벡터로 변환한 다음 벡터 데이터베이스에 저장합니다.

RAG 인덱싱 작업 흐름

이 솔루션에서는 다음을 사용합니다. 아마존 오픈서치 서비스 벡터 저장소로. 오픈 검색 Apache 2.0 라이센스에 따라 라이센스가 부여된 검색, 분석, 보안 모니터링 및 관찰 가능성 애플리케이션을 위한 확장 가능하고 유연하며 확장 가능한 오픈 소스 소프트웨어 제품군입니다. OpenSearch 서비스는 AWS 클라우드에서 OpenSearch를 간편하게 배포, 확장 및 운영할 수 있게 해주는 완전관리형 서비스입니다.

OpenSearch Service에서 문서가 인덱싱된 후 오디오 및 텍스트 조정 워크플로는 채팅 메시지를 보내고 사용자 지정된 정책 평가를 위해 다음 쿼리 흐름을 트리거합니다.

RAG 추론

프로세스는 시작 워크플로우와 유사합니다. 먼저, Amazon Bedrock Titan Text Embedding API를 사용하여 텍스트 메시지를 텍스트 임베딩으로 변환합니다. 그런 다음 이러한 임베딩은 다음을 수행하는 데 사용됩니다. 벡터 검색 이미 문서 삽입으로 채워진 OpenSearch 서비스 데이터베이스에 대해. 데이터베이스는 입력 텍스트 메시지와 관련하여 일치 점수가 가장 높은 정책 청크를 반환합니다. 그런 다음 평가를 위해 Anthropic Claude V2로 전송되는 입력 채팅 메시지와 정책 세그먼트를 모두 포함하는 프롬프트를 구성합니다. LLM 모델은 프롬프트 지침에 따라 분석 결과를 반환합니다.

Amazon Bedrock 기술 자료의 정책 문서를 사용하여 새 인스턴스를 생성하는 방법에 대한 자세한 지침은 다음을 참조하십시오. Knowledge Bases는 이제 Amazon Bedrock에서 완전관리형 RAG 경험을 제공합니다..

문자 채팅 조정 작업 흐름

텍스트 채팅 조정 워크플로는 오디오 조정과 유사한 패턴을 따르지만 텍스트 조정에 맞게 조정된 Amazon Comprehend 독성 분석을 사용합니다. 샘플 앱은 CSV 또는 TXT 형식의 대량 텍스트 파일을 업로드하기 위한 인터페이스를 지원하고 빠른 테스트를 위한 단일 메시지 인터페이스를 제공합니다. 다음 다이어그램은 워크플로를 보여줍니다.

텍스트 조정 작업 흐름

텍스트 조정 작업 흐름에는 다음 단계가 포함됩니다.

  • 사용자가 S3 버킷에 텍스트 파일을 업로드합니다.
  • Amazon Comprehend 독성 분석이 문자 메시지에 적용됩니다.
  • 독성 분석이 특정 임계값(예: 50%)을 초과하는 독성 점수를 반환하는 경우 Amazon Bedrock 지식 기반을 사용하여 Anthropic Claude V2 LLM을 사용하는 사용자 지정 정책에 대해 메시지를 평가합니다.
  • 정책 평가 보고서가 인간 조정자에게 전송됩니다.

Amazon Comprehend 독성 분석

텍스트 조정 워크플로에서는 Amazon Comprehend 독성 분석을 사용하여 문자 메시지의 독성 수준을 평가합니다. Amazon Comprehend는 ML을 사용하여 텍스트에서 귀중한 통찰력과 연결성을 찾아내는 자연어 처리(NLP) 서비스입니다. Amazon Comprehend 독성 탐지 API는 독성 가능성을 나타내는 0~1 범위의 텍스트 콘텐츠에 전체 독성 점수를 할당합니다. 또한 텍스트를 다음 범주로 분류하고 각 범주에 대한 신뢰도 점수를 제공합니다. hate_speech, 그래픽, harrassement_or_abuse, 성적, violence_or_threat, 모욕, 욕설.

이 텍스트 조정 워크플로에서 Amazon Comprehend 독성 분석은 수신 문자 메시지에 독성 콘텐츠가 포함되어 있는지 식별하는 데 중요한 역할을 합니다. 오디오 중재 작업 흐름과 유사하게 여기에는 독성 분석이 사전 정의된 임계값을 초과하는 점수를 반환하는 경우에만 다운스트림 LLM 정책 평가를 활성화하는 조건이 포함되어 있습니다. 이러한 최적화는 LLM 분석과 관련된 전체 대기 시간과 비용을 줄이는 데 도움이 됩니다.

요약

이 게시물에서는 Amazon Transcribe, Amazon Comprehend, Amazon Bedrock 및 OpenSearch Service를 포함한 AWS 서비스를 사용하는 오디오 및 텍스트 채팅 조정 솔루션을 소개했습니다. 이러한 솔루션은 독성 분석을 위해 사전 훈련된 모델을 사용하고 생성적 AI LLM으로 조정되어 정확성, 대기 시간 및 비용 측면에서 최적의 균형을 달성합니다. 또한 고유한 정책을 유연하게 정의할 수 있는 권한도 부여합니다.

다음 지침에 따라 샘플 앱을 체험해 볼 수 있습니다. GitHub 레포.


저자,

저자 장라나장라나 콘텐츠 조정, 컴퓨터 비전, 자연어 처리 및 생성 AI를 위한 AI 및 ML을 전문으로 하는 AWS WWSO AI 서비스 팀의 선임 솔루션 아키텍트입니다. 그녀는 전문 지식을 바탕으로 AWS AI/ML 솔루션을 홍보하고 고객이 소셜 미디어, 게임, 전자 상거래, 미디어, 광고 및 마케팅을 포함한 다양한 산업에서 비즈니스 솔루션을 혁신하도록 지원하는 데 전념하고 있습니다.

spot_img

최신 인텔리전스

spot_img