Class Central is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Amazon Web Services

Build a Serverless Text-to-Speech Application with Amazon Polly (한국어)

Amazon Web Services and Amazon via AWS Skill Builder

Overview

실습 개요

음성 합성은 대개 쉽지 않은 작업입니다. 애플리케이션이 문장의 각 글자를 읽어서 출력되는 내용이 항상 올바르다고 가정할 수는 없기 때문입니다. 텍스트를 음성으로 변환하는 애플리케이션에서 흔히 발생하는 몇 가지 문제는 다음과 같습니다.

  • 철자는 같지만 발음은 다른 단어: I live in Las Vegas의 live와 This presentation broadcasts live from Las Vegas의 live는 다르게 발음됩니다.
  • 텍스트 정규화: 약어, 두문자어 및 단위를 정확하게 구별하기가 어렵습니다. 가령 St.Street의 약어인지 아니면 Saint의 약어인지를 확인하기가 쉽지 않을 수 있습니다.
  • 복잡한 매핑이 사용되는 언어에서 텍스트를 음소로 변환: 가령 영어에서는 tough, through, though가 음소로 정확하게 변환되지 않을 수 있습니다. 이 예에서는 서로 다른 단어의 비슷한 부분이 단어와 문맥에 따라 각기 다르게 발음될 수 있습니다.
  • 외국어(déjà vu), 고유 명사(François Hollande), 속어(ASAP, LOL)

Amazon Polly에서 제공하는 음성 합성 기능을 활용하면 이러한 문제를 해결하여, 해석 문제 해결이 아닌 텍스트를 음성으로 변환하는 애플리케이션 구축 작업만 중점적으로 진행할 수 있습니다.

Amazon Polly는 텍스트를 생생한 음성으로 변환하는 서비스입니다. Amazon Polly를 사용하면 자연스럽게 말하는 애플리케이션을 만들 수 있으므로 음성 지원 제품이라는 전혀 새로운 카테고리를 구축할 수 있습니다. Amazon Polly는 고급 딥 러닝 기술을 사용하여 실제 사람 목소리처럼 음성을 합성하는 Amazon AI 서비스입니다. Amazon Polly에는 20개 이상의 언어로 수십 개의 생생한 음성이 포함되어 있으므로 여러 국가에서 원하는 음성을 선택하여 음성 지원 애플리케이션을 개발할 수 있습니다.

또한, 양방향 대화를 실시간으로 지원하는 데 필요한 일관성 있게 빠른 응답 시간을 구현합니다. Polly의 오디오 파일을 캐싱 및 저장하여 오프라인에서 재생하거나 재배포할 수 있습니다. 즉, 변환하여 저장하는 파일은 사용자가 소유합니다. 음성 사용 시 텍스트를 음성으로 변환하는 작업에는 추가 요금이 부과되지 않습니다. Polly는 사용하기도 쉽습니다. 음성으로 변환할 텍스트를 Amazon Polly API로 전송하기만 하면 Amazon Polly가 애플리케이션으로 오디오 스트림을 즉시 반환하기 때문에 애플리케이션에서 직접 재생하거나, MP3 같은 표준 오디오 파일 형식으로 저장할 수 있습니다.

이 실습에서는 Amazon Polly를 사용하여 텍스트를 음성으로 변환하는 기본적인 서버리스 애플리케이션을 생성합니다. 이 애플리케이션에 포함된 단순한 사용자 인터페이스에서는 여러 언어로 된 텍스트를 수신한 다음 웹 브라우저에서 재생 가능한 오디오 파일로 변환합니다. 이 실습에서는 블로그 게시물을 사용하지만 실제로는 어떤 텍스트 유형이든 사용 가능합니다. 예를 들어 이 애플리케이션을 사용해 식사 준비를 할 때 요리법을 읽거나, 자동차나 자전거를 운전할 때 뉴스 기사나 책을 읽을 수 있습니다.

목표

이 실습을 마치면 다음을 수행할 수 있습니다.

  • 데이터를 저장할 Amazon DynamoDB 테이블 생성
  • Amazon API Gateway RESTful API 생성
  • API Gateway를 통해 트리거되는 AWS Lambda 함수 생성
  • AWS Lambda 함수와 Amazon Simple Notification Service(SNS) 연결
  • Amazon Polly를 사용하여 다양한 언어와 목소리로 음성 합성

아이콘 키

이 실습에서는 다양한 유형의 지침 및 참고 사항에 대한 주의를 환기하기 위해 다양한 아이콘이 사용됩니다. 각 아이콘의 목적은 다음과 같습니다.

  • 명령: 실행해야 하는 명령입니다.
  • 예상 출력: 명령 또는 편집된 파일의 출력을 확인하는 데 사용할 수 있는 샘플 출력입니다.
  • 참고: 힌트, 팁 또는 중요한 가이드입니다.
  • 주의: 특별한 관심이 필요한 중요한 정보입니다(놓쳤다고 해도 장비 또는 데이터에 문제가 발생할 정도로 중요하지는 않지만 특정 단계를 반복해야 할 수 있음).
  • 경고: 철회할 수 없으며 명령 또는 프로세스의 실패에 영향을 줄 수 있는 작업입니다(설정 후 변경할 수 없는 구성에 대한 경고 포함).
  • 태스크 완료: 실습의 결론 또는 요점입니다.

Reviews

Start your review of Build a Serverless Text-to-Speech Application with Amazon Polly (한국어)

Never Stop Learning.

Get personalized course recommendations, track subjects and courses with reminders, and more.

Someone learning on their laptop while sitting on the floor.