Excel & IT Info

아이엑셀러 닷컴, 엑셀러TV

IT Info

OpenAI의 o1 모델에 대해 꼭 알아야 할 사항 정리

권현욱(엑셀러) 2024. 9. 16. 10:06
반응형

들어가기 전에

오픈AI는 지난 9월 12일(현지시간) 복잡한 추론과 미묘한 이해를 위해 설계된 새로운 언어 모델인 'o1'을 출시했습니다. o1은 물리학, 생물학, 화학 등의 분야에서 특히 뛰어나서 박사 수준의 정확도를 능가했다는 소식도 들립니다. OpenAI o1의 두 가지 종류인 o1-mini와 o1-preview에 대해 소개합니다.

권현욱(엑셀러) | 아이엑셀러 닷컴 대표 · Microsoft Excel MVP · Excel 솔루션 프로바이더 · 작가

이미지: 아이엑셀러 닷컴


오픈AI의 새 모델, o1 개요

오픈AI가 이번에 새롭게 출시한 o1의 가장 큰 특징은 '생각의 사슬'(chain-of-thought)이라는 논증(reasoning) 기능입니다. 오픈AI에 따르면, "대규모 강화학습 알고리즘은 훈련 과정에서 생각의 사슬을 사용해 모델을 생산적으로 사고하는 방법을 가르"치며, "더 많은 강화학습과 더 많은 사고 시간에 따라 o1의 성능이 지속해서 향상되는 것을 확인했다"고 합니다.

 

트랜스포머 알고리즘이 적용된 생성형 AI는 사전 학습된 내용을 바탕으로 질문과 가장 연관성이 높은 단어를 추론해서 내놓습니다. 사실 여부를 따지기보다 연관성을 찾기 때문에 사실이 아닌 내용을 내놓는 '환각 현상'(hallucination)이 나타날 수 밖에 없는 건 그래서입니다.

 

한국경제신문 기사(2024/9/14일자) 중에 GPT-4o와 GPT-o1 모델에 다음 내용을 각각 질문하고 답변 차이를 비교한 것이 있었습니다. 직접 테스트해 보았습니다.

[질문] "직우상 얻떤 번역깃돋 일끌 슈 없쥐많 한국인듦은 쉽게 앗랍볼 수 있는 한끌의 암혼화 방펍잇 잇땨. 몹음과 짜움위 따양한 편환우로 읨미는 윳이함년설 푯먼적읍롬 다륵케 포위계 많둔는 빵씩잎타"

 

위 질문을 GPT-4o는 입력하자마자 일고의 망설임도 없이 다음과 같은 결과가 나타났습니다.

 

이미지: 아이엑셀러 닷컴

 

같은 프롬프트를 o1-preview 모델에 입력해 보았습니다. "생각 중 ㅡ 디코딩하기 ㅡ 복호화 ㅡ 해결책 찾기" 등의 과정을 거치며, 정말 사람처럼 생각하는 듯 하더니 10여 초가 지난 후, 다음과 같은 답변을 내놓았습니다.

 

이미지: 아이엑셀러 닷컴

 

정확한 답변이었습니다. 앞으로 AI 기술이 좀 더 발전하면 단순히 답변을 하는 'AI 도우미' 수준을 넘어 'AI 에이전트'가 될 수 있을 것 같습니다. 일반인공지능(AGI) 개발도 더 이상 영화에서나 볼 수 있는 일은 아닐 듯 합니다.

 

※ 아래 내용은 geeky-gadgets 기사를 참고하였습니다.

 

o1-preview에 대하여

o1-preview는 o1의 기본 모델입니다. 코딩, 수학, STEM(Science, Technology, Engineering, Mathematics) 관련 문제 해결과 같은 복잡한 작업에 탁월하도록 설계되었으며, 고급 AI 기능의 잠재력을 보여줍니다. 연쇄 추론을 사용하여 어려운 문제에 단계별로 접근하여 보다 정확하고 사려 깊은 답변을 제공합니다(앞의 예에서 볼 수 있듯이). 경쟁 프로그래밍 및 학업 문제 해결과 같은 고난이도 환경에 초점을 맞춘 o1-preview는 AI의 활용 범위를 넓히고 있습니다.

 

성능 및 추론 기능

o1-preview의 가장 흥미로운 기능 중 하나는 복잡한 문제를 추론(reasoning)할 수 있다는 점입니다. 표면적인 수준의 빠른 응답을 제공했던 이전 모델과 달리, o1-Preview는 문제 해결에 보다 계산적인 접근 방식을 취합니다. 강화 학습과 고급 사전 학습을 통해 이 모델은 다단계 작업을 논리적 순서로 분류하여 각 솔루션을 신중하게 고려할 수 있습니다.


이러한 연쇄적 추론 덕분에 o1-preview는 논리적 진행이 중요한 영역에서 탁월한 성능을 발휘할 수 있습니다. 특히 국제 수학 올림피아드(IMO) 및 고급 국제 수학 시험(AIME)과 같은 벤치마크 시험에서 뛰어난 성능을 보였습니다. 이러한 테스트에서 o1-preview는 이전 모델을 능가하는 성능을 발휘하여 STEM 분야의 인간 전문가와 비슷한 수준의 정확도를 달성했습니다.

 

STEM 문제 해결

o1-preview는 코딩 능력 외에도 STEM 분야에서 엄격한 테스트를 거쳤습니다. 이 모델은 수학적 문제 해결과 과학적 추론에서 특히 강점을 보였습니다. GPQA 및 MATH-500과 같은 학술 벤치마크에서 이전 모델을 지속적으로 능가하며 복잡한 물리학, 생물학, 화학 문제에 대한 정확한 솔루션을 제공했습니다.


o1-preview가 사용하는 연쇄 추론은 솔루션의 각 단계를 체계적으로 처리할 수 있기 때문에 이러한 유형의 문제를 해결하는 데 특히 효과적입니다. 데이터가 많은 계산을 처리하든 복잡한 과학 공식을 처리하든 이 모델은 정확성과 정밀성을 보장하므로 연구자와 학생 모두에게 없어서는 안 될 도구입니다.

 

안전 및 정렬

안전은 o1-preview 모델의 핵심 기능입니다. 향상된 추론 기능을 통해 이 모델은 상황에 따라 OpenAI의 안전 규칙을 적용하여 안전 프로토콜에 더 잘 부합할 수 있습니다. 윤리적 고려 사항을 추론하는 기능이 향상되어 이전 버전보다 더 효과적으로 유해하거나 안전하지 않은 콘텐츠의 생성을 방지할 수 있습니다.


OpenAI는 모델의 신뢰성을 보장하기 위해 외부 레드팀과 프론티어 위험 평가를 포함한 엄격한 안전 조치를 구현했습니다. 또한 위험한 조언을 생성하거나 탈옥 기술의 희생양이 될 위험을 완화하는 안전 분류기 및 차단 목록도 포함되어 있습니다. OpenAI의 대비 프레임워크에 따르면 o1-preview의 전체 위험 등급은 '중간'으로, 다양한 애플리케이션에 배포하기에 안전하며 강력한 안전장치를 보장합니다.

 

미래를 위한 포괄적인 AI

o1-preview는 AI 추론과 문제 해결의 새로운 지평을 열었습니다. 연쇄 추론으로 복잡한 작업을 세분화할 수 있는 능력은 개발자, 연구자, STEM 분야에서 일하는 학생들에게 이상적인 도구입니다. 뛰어난 코딩 과제부터 고급 수학 문제 해결까지, 이 모델의 다재다능함과 정확성은 타의 추종을 불허합니다.


강력한 안전 프로토콜을 갖춘 o1-preview는 또한 윤리적 AI의 새로운 기준을 제시합니다. 안전 규칙을 추론하고 유해한 콘텐츠를 피하는 능력은 전문적인 환경에 매우 적합합니다. 개발자, 학자, 호기심 많은 사용자 모두에게 이 모델은 AI 지원 작업의 새로운 가능성을 열어줄 수 있습니다.

 

o1-mini에 대하여

비용 효율성 및 성능

o1-preview와 같은 대규모 모델의 높은 계산 비용 없이 강력한 추론 기능을 필요로 하는 사용자에게 비용 효율적인 옵션을 제공하는 o1-mini가 출시되었습니다. 이 모델은 o1-preview보다 80% 저렴하기 때문에 예산 제약과 STEM 분야의 정확한 문제 해결의 필요성 사이에서 균형을 유지하고자 하는 개발자, 팀 및 조직에게 매력적인 옵션입니다.

더 작은 아키텍처에도 불구하고 o1-mini는 AIME 및 Codeforces와 같은 주요 벤치마크에서 o1-preview와 거의 동일한 성능을 발휘합니다. 예를 들어, AIME 수학 경시대회에서 o1-mini는 70%의 점수를 획득하여 o1의 74%를 근소하게 뒤쫓고 있습니다. 이러한 성적은 미국 고등학생 상위 500명 안에 드는 것으로, 복잡한 다단계 문제를 효율적으로 해결할 수 있음을 입증합니다.

 

코딩 및 수학 전문성

코딩은 o1-mini가 빛을 발하는 분야로, Codeforces에서 1650점을 획득하여 o1의 1673점과 비슷한 Elo 등급을 받았습니다. 이는 플랫폼에서 상위 14%의 프로그래머에 속하는 것으로, 경쟁이 치열한 코딩 작업을 위한 강력한 도구입니다.

코딩 과제, 디버깅, 알고리즘 문제 해결과 같이 추론이 필요한 작업의 경우 o1-mini는 경쟁력 있는 결과를 제공합니다. Python 및 JavaScript부터 C++ 및 Java와 같은 보다 전문적인 언어에 이르기까지 광범위한 프로그래밍 언어를 지원합니다. 이러한 다용도성 덕분에 o1-mini는 웹 개발, 머신러닝, 사이버 보안 등 다양한 개발 프로젝트에 적합합니다.

수학은 이 모델이 탁월한 또 다른 영역입니다. MATH-500과 같은 벤치마크에서 o1-mini는 복잡한 방정식과 단어 문제를 일관되게 풀며 전체 o1 모델에 가까운 성능을 보였습니다. 따라서 집중적인 수학적 추론이 필요한 분야의 교육자, 학생, 전문가에게 유용한 도구입니다.

 

안전 기능 및 견고함

o1-mini는 대형 버전과 마찬가지로 잠재적 위험을 완화하기 위한 안전 메커니즘이 내장되어 있습니다. 여기에는 모델이 응답의 맥락에서 안전 정책을 추론할 수 있도록 하는 향상된 정렬 기술이 포함됩니다. 이 기능은 모델이 유해한 콘텐츠 생성을 피하고 민감하거나 잠재적으로 안전하지 않은 쿼리에 적절하게 응답할 수 있도록 도와줍니다.

OpenAI의 평가에 따르면, o1-mini는 GPT-4o와 같은 이전 모델에 비해 탈옥 견고성이 59% 향상된 것으로 나타났습니다. 따라서 고위험 환경에서 훨씬 더 탄력적으로 작동하여 높은 성능을 유지하면서 윤리 기준을 준수할 수 있습니다. 배포 전에 o1-mini는 외부 레드팀과 OpenAI의 준비 프레임워크 준수를 포함한 엄격한 테스트를 거쳤습니다. 이를 통해 모델이 공개 릴리스에 필요한 안전 임계값을 충족했는지 확인했습니다.

 

한계와 향후 개발

o1-mini는 STEM 관련 작업에서 뛰어난 능력을 발휘하지만 한계를 보이는 영역도 있습니다. 역사, 문학 또는 일반 상식과 같은 비 STEM 분야의 사실적 지식은 GPT-4o나 o1-preview와 같은 대규모 모델만큼 발전하지 못했습니다. 따라서 이 모델은 일반적인 세계 지식에 대한 깊은 이해가 필요하거나 창의적인 글쓰기나 역사 분석과 같이 언어가 많이 사용되는 작업에는 적합하지 않습니다.

하지만 광범위한 지식에 대한 효율성과 추론에 초점을 맞춘 모델 설계를 고려하면 이러한 한계는 예상되는 것입니다. OpenAI는 향후 업데이트를 통해 o1-mini의 기능을 다른 영역으로 확장하여 더욱 다재다능한 도구로 만들겠다고 밝혔습니다. 또한 다양한 양식에 걸쳐 모델의 기능을 향상시켜 적용 범위를 더욱 넓힐 계획도 있습니다. 기술적 문제 해결에 대한 모델의 기존 역량과 이러한 잠재적 개선 사항이 결합되어 o1-mini는 계속해서 진화하고 다양한 사용자에게 경쟁력 있는 선택이 될 것으로 예상됩니다.

 

STEM을 위한 실용적이고 효율적인 AI

o1-mini는 성능, 경제성, 안전성의 인상적인 조화를 제공합니다. 코딩과 수학에서 추론이 많이 필요한 작업에 최적화된 이 제품은 o1-preview와 같은 대규모 모델의 높은 계산 오버헤드 없이 AI의 강력한 성능을 필요로 하는 사람들에게 비용 효율적인 대안을 제시합니다. 경쟁 코딩부터 학업 과제까지, o1-mini는 빠르고 정확한 결과를 제공하는 데 탁월합니다.

강력한 안전 프로토콜과 합리적인 가격을 갖춘 o1-mini는 기술 워크플로우에 AI를 통합하려는 개발자, 학생 및 조직에 이상적입니다. 비 STEM 분야에서는 한계가 있을 수 있지만, 추론과 기술적 정확성에서 강점을 지닌 이 모델은 전문 작업에 없어서는 안 될 도구입니다. 향후 업데이트를 통해 기능이 지속적으로 개선됨에 따라 o1-mini는 AI 환경에서 필수적인 역할을 하게 될 것입니다.

 

마치며

어떤 모델을 선택할 지는 해당 작업의 구체적인 요구 사항과 복잡성에 따라 달라집니다. 일반적인 언어 작업과 간단한 질의 응답은 GPT-4o 모델이 나을 수 있습니다. 반면, 심층적인 이해와 추론, STEM 영역과 관련된 지식이 필요한 경우 o1이 유능합니다. o1-mini와 o1-preview에 대한 자세한 내용은 공식 OpenAI 웹사이트를 참조하세요.

반응형