본문 바로가기

비즈니스 사례

OpenAI, 고도화된 음성 모드 출시 시작

728x90
반응형
SMALL
ChatGPT Plus 구독자 대상, 실시간 대화와 감정 인식 기능 제공

OpenAI가 2024년 7월 30일, ChatGPT Plus 구독자 일부를 대상으로 고도화된 음성 모드의 알파 버전을 출시하기 시작했다. 이 새로운 기능은 GPT-4o 모델을 기반으로 하여, 하이퍼 리얼리틱 오디오 응답과 실시간 대화를 제공한다.

기존 음성 모드와 달리, GPT-4o는 음성 인식과 텍스트 변환 작업을 원활하게 처리하여 지연 시간을 크게 줄였다. OpenAI는 2024년 가을까지 모든 Plus 사용자에게 이 기능을 점진적으로 제공할 계획이다.

고도화된 음성 모드는 실시간 대화와 최소한의 지연 시간으로 사용자가 중간에 말을 끊을 수 있는 자연스러운 상호작용을 제공한다. 시스템은 슬픔, 흥분, 노래 등 다양한 감정 톤을 감지하고 이에 반응할 수 있다. 오용을 방지하고 개인정보를 보호하기 위해, OpenAI는 Juniper, Breeze, Cove, Ember의 네 가지 사전 설정된 음성만을 사용하도록 제한했다. 이 음성들은 유료 성우와의 협력을 통해 제작되었으며, 초기 데모에서 논란이 되었던 'Sky' 음성을 대체하였다.

 

안전한 배포를 위해 OpenAI는 고도화된 음성 모드를 45개 언어로 100명 이상의 외부 레드 팀원들과 함께 테스트했다. 또한, 폭력적이거나 저작권이 있는 콘텐츠 생성을 방지하기 위한 필터를 구축했다. OpenAI는 사용을 면밀히 모니터링하고 점진적으로 접근성을 확대할 계획이다. 일부 Plus 구독자는 이미 초대를 받았으며, 회사는 2024년 가을까지 모든 Plus 사용자에게 기능을 제공할 예정이다.

고도화된 음성 모드의 개발은 2024년 5월 데모 당시 배우 스칼렛 요한슨의 목소리와 유사한 음성으로 인해 논란이 되었다. 이는 법적 조치로 이어졌고, 'Sky' 음성은 이후 제거되었다.

앞으로 OpenAI는 비디오 및 화면 공유 기능을 추가할 계획이며, 이는 봄 업데이트에서 시연되었지만 현재 알파 버전에는 포함되지 않았다. 회사는 8월 초에 안전 노력에 대한 보고서를 발표할 예정이며, 여러 언어로 외부 레드 팀원들과 함께 광범위한 테스트를 거쳤음을 상세히 설명할 것이다.


글/최한길 기자

반응형
LIST