인간과 달리 챗봇은 텍스트를 문장이나 단어 단위로 처리하지 않습니다. 대신 '토큰(token)' 단위로 인간 언어를 디코딩(decoding)하고 출력합니다. 챗GPT 토큰의 작동 방식, 필요한 이유, 채팅 경험에 미치는 영향 등에 대해 소개합니다.
※ 이 글은 아래 기사 내용을 토대로 작성되었습니다만, 필자의 개인 의견이나 추가 자료들이 다수 포함되어 있습니다.
- 원문: What are ChatGPT tokens, and how do they work?
- URL: https://www.androidauthority.com/what-is-chatgpt-token-3409924/
챗GPT 토큰이란 무엇인가요?
토큰은 ChatGPT 텍스트 응답의 기본 구성 요소를 나타냅니다. 단어 수를 기준으로 텍스트를 그룹화하는 경향이 있지만 GPT 언어 모델은 같은 방식으로 작동하지 않습니다. 대신 예측 가능한 문자 조합을 찾아 그룹화하여 토큰을 형성합니다.
ChatGPT 토큰은 추상적인 개념처럼 보일 수 있으므로 예를 들어서 어떻게 작동하는지 이해해 보겠습니다. '공기'라는 단어는 일상 언어에서 자주 사용되는 단어입니다. 모델은 훈련 데이터를 스캔하는 동안 이 문제를 여러 번 발견했을 가능성이 높습니다. 이 두 가지 요소 모두 “공기”가 단일 토큰을 형성한다는 것을 의미합니다.
그러나 “airline”과 같이 더 길고 상대적으로 덜 일반적인 단어를 사용하면 언어 모델은 “air”와 “line”을 두 개의 독립적인 토큰으로 처리합니다.
토큰은 대부분의 챗봇 사용자에게 중요하지 않지만 ChatGPT의 글자 수 제한을 결정하는 역할을 합니다. 뿐만 아니라 언어 모델에는 메모리에 보유할 수 있는 토큰 수에도 제한이 있습니다. 따라서 대화 초기에 ChatGPT에 사실을 알리면 결국 수천 개의 토큰을 처리한 후에 해당 사실을 잊어버리게 됩니다. 이는 언어 모델의 "컨텍스트 창(context window)"으로 알려져 있습니다.
챗GPT에서 토큰을 계산하는 방식
영어 사전의 일반적인 단어는 단일 토큰에 해당할 가능성이 더 높습니다. 그러나 복잡한 단어는 동일한 방식으로 처리되지 않으며 실제로 한 번에 여러 토큰으로 구성될 수 있습니다. 다음은 특정 텍스트에 대한 토큰 수를 계산하는 방법을 보여주는 표입니다.
구분 | 토큰 수 | 예 |
4자 미만의 단어 | 1 | Air, third, this, text |
길거나 덜 일반적인 단어 | 1 ~ 3 | Commotion, airline, understand |
구두점 및 숫자 | 1 | . , ! / 3 9 |
공간 | 1 | |
이모티콘 | 1 ~ 3 | 🖼️ |
위의 표는 대략적인 지침 역할을 하지만 특정 단어나 문구에 얼마나 많은 토큰이 포함될지 예측하는 것이 항상 가능한 것은 아닙니다. 예를 들어 숫자를 생각해 보세요. "123" 및 "333"과 같은 공통 그룹은 하나의 토큰에만 해당됩니다. 그러나 더 긴 숫자 시퀀스는 여러 토큰으로 분할됩니다.
ChatGPT를 만든 OpenAI는 100개의 토큰이 대략 75단어와 같다고 말합니다. 그러나 단어 길이와 토큰 수 간의 상관 관계는 영어 단어에만 적용됩니다. 외국어로 된 단어, 특히 덜 일반적인 단어는 더 많은 토큰을 차지합니다. 예를 들어, 베트남어 텍스트 "Bãi đậu xe ở đâu?"의 17개 문자는 다음과 같습니다. 놀랍게도 13개의 토큰에 해당합니다.
특정 텍스트에 몇 개의 토큰이 있는지 확인하려면 OpenAI의 무료 Tokenizer 도구를 확인하세요. 주어진 텍스트에서 다양한 토큰을 강조 표시합니다.
챗GPT의 토큰 한도
ChatGPT의 토큰 제한은 사용하는 모델과 챗봇을 사용하는지 또는 프로그래밍 방식으로 모델과 상호 작용하는지 여부에 따라 다릅니다. 후자는 프로그래머이고 자신의 앱 내에서 GPT 모델을 구현하는 경우에만 적용됩니다. 이러한 종류의 API 사용자라면 4,096에서 128,000 사이의 토큰 제한을 예상하세요. GPT-4 Turbo 와 같은 최신 모델은 한도가 더 높지만 쿼리당 사용 비용도 더 많이 듭니다.
프로그래머가 아닌 경우 웹사이트나 앱을 통해 간단히 챗봇과 상호작용할 수 있습니다. 이 경우 많은 사용자가 ChatGPT의 토큰 한도가 4,096으로 고정되어 있다고 보고했습니다. 그러나 OpenAI는 실제 한도를 공개적으로 밝히지 않았으므로 이는 예고 없이 변경될 수 있습니다. 최신 GPT-4 언어 모델에 대한 액세스 권한을 부여하는 ChatGPT Plus를 사용하더라도 토큰 한도는 변하지 않습니다.
ChatGPT 토큰의 가치는 얼마입니까?
한도와 마찬가지로 ChatGPT 토큰당 비용은 선택한 모델에 따라 다릅니다. 예상대로 최신 모델은 2022년 말에 출시된 마지막 세대 GPT-3.5보다 훨씬 더 비쌉니다. 마찬가지로, OpenAI는 종종 계산 비용을 줄이고 생성되는 각 토큰의 가격을 낮추는 사소한 언어 모델 업데이트를 출시합니다. 이 면책 조항을 제외하고, 모델별로 ChatGPT 토큰에 대해 지불해야 하는 금액은 다음과 같습니다.
- GPT-3.5 터보: 무료 버전의 ChatGPT에 여전히 사용되고 있는 가장 오래된 모델로서, 가장 저렴한 옵션 중 하나입니다. 개발자는 입력 토큰 1,000개당 $0.0010, 출력 토큰 1,000개당 $0.0020을 지불합니다.
- GPT-4: ChatGPT 직후인 2023년 초에 출시된 GPT-4 언어 모델은 더 높은 품질의 응답을 제공합니다. 또한 8,096개의 토큰 한도와 32,000개의 토큰 한도의 두 가지 종류로 제공됩니다. 전자는 입력 토큰 1,000개당 0.03달러, 후자는 출력 토큰 1,000개당 0.06달러의 비용이 듭니다.
- GPT-4 터보: 최신 언어 모델임에도 불구하고 GPT-4 Turbo는 GPT-4보다 훨씬 더 계산 효율이 높은 것을 목표로 합니다. 그렇기 때문에 입력 토큰 1,000개당 0.01달러, 출력 토큰 1,000개당 0.03달러의 비용이 듭니다. 여전히 GPT-3.5 터보보다 훨씬 높지만, 향상된 논리적 능력으로 인해 일부 사용자에게는 가치가 있을 수 있습니다.
ChatGPT 토큰을 구매하는 방법은 무엇입니까?
ChatGPT 사용자라면 토큰을 다룰 필요가 없습니다. 그러나 개발자와 실험을 원하는 사람들은 기본 언어 모델과 직접 상호작용할 수도 있습니다.
OpenAI 플레이그라운드는 ChatGPT와 유사한 인터페이스를 제공하지만, 무료로 사용할 수는 없습니다. 사용자가 주고받는 모든 메시지는 이전 섹션에서 설명한 비용에 따라 결제 수단으로 청구됩니다. 비용이 많이 들 수 있지만, 현재로서는 임의의 토큰 제한 없이 본격적인 언어 모델과 상호 작용할 수 있는 유일한 방법입니다.
자주 묻는 질문
ChatGPT에서 1000개의 토큰은 얼마나 많은 텍스트인가요?
OpenAI에 따르면 1,000개의 토큰은 대략 750단어의 텍스트에 해당합니다. 그러나 이 수치는 언어 및 텍스트 복잡성에 따라 변동될 수 있습니다.
ChatGPT에는 시간당 제한이 있나요?
ChatGPT에는 속도 제한이라고 하는 시간당 메시지 수에 대한 제한이 있습니다. 시간당 정확한 한도는 수요에 따라 결정됩니다. ChatGPT Plus를 사용하는 유료 사용자는 GPT-3.5 및 GPT-4 모델 모두에 대해 더 높은 한도를 갖습니다.
ChatGPT API 비용은 얼마입니까?
ChatGPT API의 비용은 출력 토큰 1,000개당 $0.0020에서 $0.06까지 다양합니다. 궁극적으로 선택한 언어 모델에 따라 다릅니다. GPT-4는 GPT-3.5보다 훨씬 더 비쌉니다.
'IT Info' 카테고리의 다른 글
Gmail 필터로 받은 편지함 쉽게 정리하는 방법 (6) | 2024.03.04 |
---|---|
8가지 PowerPoint 실수와 이를 피하는 방법 (8) | 2024.03.04 |
최고의 Microsoft PowerPoint 템플릿 (13) | 2024.03.03 |
DALL-E를 사용하여 챗GPT에서 AI 이미지 생성하는 방법 (7) | 2024.03.02 |
최고의 Microsoft Word 템플릿 (9) | 2024.03.02 |