Excel & IT Info

아이엑셀러 닷컴, 엑셀러TV

IT Info

오픈AI가 새로 발표한 GPT-4o에 대해 알아야 할 모든 것

권현욱(엑셀러) 2024. 5. 15. 14:45
반응형

들어가기 전에

오픈AI(OpenAI)는 지난 13일(현지시간) 새로운 거대언어모델(LLM)인 'GPT-4o'를 공개했습니다. GPT-4o는 모든 사용자에게 무료로 제공되며, 다중 모드(멀티 모달)가 강화된 점이 가장 눈에 띕니다.

 

이번 발표는 구글의 연례 개발자 콘퍼런스인 'I/O'가 열리기 하루 전에 전격 진행되었습니다. 생성형 AI의 주도권을 쥐기 위한 치열한 기싸움이 느껴집니다. GPT-4o의 주요 특징과 사용 방법, 활용 분야 등에 대해 소개합니다.

권현욱(엑셀러) | 아이엑셀러 닷컴 대표 · Microsoft Excel MVP · Excel 솔루션 프로바이더 · 작가

GPT-4o 개요

오픈AI는 5월 13일(현지시간) 새로운 GPT 버전을 공개했습니다. 'GPT-4o'로 명명된 이 버전은 GPT-4 및 GPT-4 Turbo를 기반으로 한 대규모 업데이트입니다. GPT-4o 모든 사람이 무료로 사용할 수 있고(단, 기능에 차이는 존재), 더 빠르고, 저렴하게 운영할 수 있으며, 이전보다 더 나은 결과를 제공합니다.

GPT-4o의 'o'는 '옴니(omni)'를 뜻하며 다중 모드 입력에 중점을 둡니다. 음성, 비디오, 이미지를 처리할 수 있으며 영어 이외의 언어 지원도 크게 향상된다고 합니다.

 

GPT-4o 주요 특징

OpenAI의 CTO 미라 무라티(Mira Murati)는 'Spring Update' 행사에서 GPT-4o를 공개했는데, AI 상호 작용의 발전으로 음성 통신에서 실시간 응답성과 감정 인식을 제공한다고 설명했습니다. 실제로 마이크를 사용하여 패널들과 함께 GPT-4o와 대화하는 것을 시연하기도 했습니다.

 

이미지: OpenAI

 

GPT-4o의 주요 특징은 다음과 같습니다.

  • 다중 모드 입력 및 출력: 텍스트, 이미지, 음성을 포함한 다양한 모드의 입력을 받아들이고 처리하며, 텍스트, 이미지, 음성을 포함한 다양한 모드의 출력을 생성합니다.
  • 향상된 속도 및 저렴한 비용: GPT-4 Turbo보다 2배 빠르고 50% 저렴하며, API를 통한 사용 시 더 높은 속도 제한을 제공합니다.
  • 다국어 지원: 영어 이외의 다양한 언어에 대한 이해와 처리 능력이 크게 향상되었습니다. GPT-4o는 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원합니다.
  • 실시간 음성 응답: 232밀리초 이내에 음성 입력에 응답할 수 있으며, 평균 응답 시간은 320밀리초로 대화 상황에서 인간의 응답 시간과 유사합니다.
  • 감정 인식 및 반응: 사용자의 감정을 인식하고 다양한 감정적 어조로 응답할 수 있습니다.
  • GPT Store: 사용자가 다양한 맞춤형 챗봇을 탐색하고 사용할 수 있는 플랫폼입니다.
  • 파일 업로드 및 검색: 파일과 사진을 업로드하여 요약 및 분석을 수행하고, ChatGPT 내에서 웹 검색 기능을 사용할 수 있습니다.

 

가장 큰 개선은 다중 모드 사용과 관련된 것입니다. 시각과 음성이 통합되어 사용자와 적극적으로 대화할 수 있습니다. 특히 이 중에서도 음성을 통한 다중 모드 플랫폼 역할을 강조하는 느낌을 받았습니다.

 

이제 사용자는 사용자 감정의 뉘앙스를 감지하고 다양한 감정적 어조로 응답할 수 있는 모델을 통해, 보다 동적인 방식으로 챗GPT와 상호 작용할 수 있으며, 실시간으로 응답을 중단하고 수신할 수 있습니다.

 

GPT-4o는 232밀리초 이내에 오디오 입력에 응답할 수 있으며 평균 응답 시간은 320밀리초입니다. 이것은 인간이 대화할 때의 실제 응답 시간과 비슷한 수준입니다. 분명 지금까지의 AI 음성 챗봇과는 다른 사실적인 대화였습니다.

 

영상: OpenAI

 

GPT-4o, GPT-4 그리고 GPT-4 터보

GPT-4o는 모든 사람에게 GPT-4 수준의 인텔리전스를 제공합니다. 이것은 챗GPT 무료 사용자도 GPT-3.5에 대한 업그레이드를 받게 되며 향후 몇 주에 걸쳐 진행될 듯 합니다. 기존 모델에 비해 훨씬 빠르고 모든 기능이 향상되었으며 기본적으로 모든 용도로 사용할 수 있습니다. 이전에 GPT-4 Turbo는 OpenAI의 API를 통해서나 사용자가 스위치를 전환하여 활성화할 수 있는 Microsoft Copilot을 통해서만 액세스할 수 있었습니다.

컨텍스트 측면에서 GPT-4o는 GPT-4 및 GPT-3.5보다 훨씬 더 큰 컨텍스트 창의 이점도 제공합니다. 참고로 GPT-4 Turbo의 컨텍스트 창은 128K 토큰이며 최대 응답 토큰 길이는 4,096입니다. OpenAI는 GPT-4o가 API에 포함될 것이라고 언급했으며, 거기에서 숫자 측면에서 가장 큰 개선 사항을 언급했습니다. GPT-4o는 GPT-4 Turbo에 비해 2배 빠르고, 50% 저렴하며, 속도 제한이 5배 더 높습니다.

OpenAI는 GPT-4 Turbo의 성능과 일치하면서 훨씬 더 빠르면서도 영어가 아닌 언어에서 대폭 개선되었다고 합니다. 해당 언어에는 한국어, 러시아어, 중국어, 아랍어 등이 포함됩니다.

 

GPT-4o 사용 방법

지금까지 오픈AI가 그래왔듯, GPT-4o도 단계적으로 적용이 확대될 것으로 보입니다. GPT-4o를 시험해 보고 싶다면 잠시 기다려야 할 수 있습니다. 모든 사용자는 향후 몇 주에 걸쳐 이를 얻을 수 있으며, 유료 고객은 메모리, 맞춤형 GPT 등과 같은 다른 모든 이점을 계속 누릴 수 있습니다. OpenAI는 구체적인 날짜나 기한을 제시하지 않았는데, 이는 아마도 지역별로 단계적으로 출시된다는 의미인 듯 합니다.

 

참고로 필자는 ChatGPT Plus를 사용하고 있습니다. 이 글을 쓰는 시점에서 챗GPT 사이트 상단에 있는 드롭다운을 클릭하면 하위 목록에 [GPT-4o]가 나타나고, 이것을 선택하면 해당 버전을 사용할 수 있습니다.

 

이미지: 아이엑셀러 닷컴



무료 사용자는 GPT-4o를 얼마나 사용할 수 있는지에 제한이 있으며(예: Plus 사용자에게는 최대 5배 더 높은 메시지 제한을 제공), 가장 많은 사용자가 몰리는 시기에는 GPT-3.5로 돌아갑니다. 무료 사용자는 데이터 분석이나 파일 업로드, GPT 탬색하기 같은 도구들도 사용이 제한됩니다.

 

GPT-4o 모델 평가

오픈AI는 기술적으로는 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다고 설명했습니다.

무라티 CTO는 “모델 3개가 함께 작동하면 많은 지연 시간이 발생하고 경험의 몰입도가 떨어진다... 하지만 오디오, 텍스트, 영상 전반에 걸쳐 추론하는 하나의 모델이 있으면 모든 대기 시간을 줄이고 사람이 하는 것처럼 챗GPT와 빠르게 상호 작용할 수 있다... 상호작용과 사용 편의성 측면에서 큰 도약을 이룬 것은 이번이 처음”이라고 강조했습니다.

오픈AI 사이트에 공개된 벤치마크에서도 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준은 물론, 다국어와 오디오, 비전 기능에서 새로운 최고 수준을 달성했다고 발표했습니다. 벤치마크와 관련된 자세한 사항은 [여기]를 참고하세요.

 

이미지: OpenAI

 

GPT-4o와의 대화를 영화 "HER"에 비유하는 국내외 기사를 많이 볼 수 있습니다. 실제로 오픈AI CEO 샘 올트먼은 신제품 공개 행사가 끝난 후 자신의 X(옛 트위터)에 ‘her’라는 글을 게시하기도 했습니다.

 

이미지: X

 

조선경제는 테크업계 관계자를 인용하며, “AI가 누구보다도 훌륭한 친구, 비서, 선생님이 되는 시대가 현실화된 것으로, 앞으로는 영화 ‘허(HER)’에서 나온 것처럼 AI와 사랑에 빠지는 일도 가능해질 것"이라고도 했습니다(조선경제, 24/05/15).

 

마치며

오픈AI는 무료 버전의 챗GPT3.5를 사용하는 사용자를 포함한 모든 사용자에게 GPT-4o를 사용할 수 있도록 했습니다. 오픈AI는 앞으로 몇 주에 걸쳐 사용자에게 GPT-4o를 공개할 계획입니다. 또한 GPT-4o는 향후 애플의 시리(Siri)에 통합하는 데에도 사용될 것으로 보입니다.

GPT-4o의 텍스트 및 이미지 기능은 5/13(월)부터 챗GPT를 통해 무료로 제공됩니다. 실시간 대화가 가능한 새로운 음성 모드는 향후 몇 주 내에 챗GPT Plus 사용자를 대상으로 우선 적용될 예정이라고 합니다. Plus 사용자는 무료 이용자보다 5배 많은 질문을 할 수 있습니다. Plus 플랜에서는 현재 3시간 80회의 GPT-4o 사용량이 제공되며, 무료 플랜의 사용 가능 횟수는 아직 공개되지 않았습니다.

 

구글의 주요 컨퍼런스인 Google I/O 하루 전에 GPT-4o를 발표한 것은 다분히 전략적인 것 같습니다. AI 경쟁에서 영향력을 강화하기 위한 빅테크들의 경쟁은 앞으로 더욱 치열해질 것으로 보입니다.

Excel과 VBA의 모든 것 아이엑셀러 닷컴 · 강사들이 숨겨 놓고 보는 엑셀러TV

반응형