Excel & IT Info

아이엑셀러 닷컴, 엑셀러TV

IT Info

코딩을 위한 최고의 AI, 그리고 비추천 AI

권현욱(엑셀러) 2025. 4. 6. 16:53
반응형

들어가기 전에

생성형 AI는 다양한 영역에서 활용되고 있으며 프로그래밍에 있어서도 마찬가지입니다. 특히 오픈AI의 챗GPT가 출시된 이후, 놀랄만한 발전을 보여주고 있습니다. 그러나 모든 생성형 AI가 추천할 만한 것은 아니므로 상황에 맞는 것을 선별하는 것이 중요합니다. 2025년 현재, 코딩과 관련하여 주요 챗봇의 성과를 비교한 내용을 소개합니다.

권현욱(엑셀러) | 아이엑셀러 닷컴 대표 · Microsoft MVP · 엑셀 솔루션 프로바이더 · 작가

이미지: 아이엑셀러 닷컴


이 글은 아래 기사 내용을 토대로 작성되었습니다만, 필자의 개인 의견이나 추가 자료들이 다수 포함되어 있습니다.

  • 원문: The best AI for coding in 2025 (and what not to use - including DeepSeek R1)
  • URL: https://www.zdnet.com/article/the-best-ai-for-coding-in-2025-and-what-not-to-use-including-deepseek-r1/


※ 본문 내용은 필자 개인의 견해이며 아이엑셀러 닷컴 공식 의견과 일치하지 않을 수도 있습니다.

 

주요 챗봇 성과 비교

필자가 추천하는 챗봇은 두 가지가 있지만 한 달에 20달러의 비용이 듭니다. 동일한 챗봇의 무료 버전은 비용을 지불하지 않고도 충분히 사용할 수 있을 정도로 성능이 뛰어납니다. 하지만 나머지는 무료이든 유료이든 그다지 훌륭하지 않습니다. 성능이 향상될 때까지는 이러한 챗봇으로 프로그래밍 프로젝트에 위험을 감수하거나 사용을 권장하지 않을 것입니다.

 

이미지: zdnet

 

각 챗봇의 성능을 비교하는 것부터 시작해 보겠습니다.

 

1. 챗GPT 플러스

GPT-4와 GPT-4o가 있는  ChatGPT Plus는 필자의 모든 테스트를 통과했습니다. 필자가 가장 좋아하는 기능 중 하나는 전용 앱을 사용할 수 있다는 것입니다. 웹 프로그래밍을 테스트할 때 브라우저를 한 가지로 설정하고, IDE를 열고, ChatGPT Mac 앱을  별도의 화면에서 실행합니다.

 

또한, 마우스 버튼을 누르면 나타나는 Logitech의 Prompt Builder를 사용하면 업그레이드된 GPT-4o를 사용해 OpenAI 계정에 연결할 수 있어 간단한 엄지 손가락 탭으로 프롬프트를 실행할 수 있어 매우 편리합니다.

개인적으로 싫어했던 유일한 점은 GPT-4o 테스트 중 하나가 이중 선택형 답변으로 나왔고, 그 답변 중 하나가 틀렸다는 것입니다. 그래도 간단한 테스트를 통해 어떤 답변이 통할지 확인했지만 그 문제는 약간 성가셨습니다. GPT-4에서는 그런 문제가 없었기 때문에 지금은 ChatGPT에서 코딩할 때 사용하는 LLM 설정입니다.

 

장점:

  • 모든 테스트 통과
  • 견고한 코딩 결과
  • Mac 앱

 

단점:

  • 환각 현상(hallucinations)
  • 아직 Windows 앱이 없음
  • 가끔씩 비협조적

 

기타 세부 정보:

  • 가격: $20/월
  • LLM: GPT-4o, GPT-4, GPT-3.5
  • 데스크톱 브라우저 인터페이스: Yes
  • 전용 Mac 앱: Yes
  • 전용 Windows 앱: No
  • 다중 인증: Yes
  • 통과된 테스트: 4개 중 4개

 

2. 퍼플렉시티 프로

코딩을 위한 최고의 전반적인 AI 챗봇으로 퍼플렉시티 프로(Perplexity Pro)를  선정하는 것을 진지하게 고려했지만 한 가지 실패로 인해 1위 자리를 놓쳤습니다. 바로 로그인 방법입니다. Perplexity는 사용자 이름/비밀번호 또는 패스키를 사용하지 않으며 다중 요소 인증이 없습니다. 이 도구가 하는 일은 로그인 PIN을 이메일로 보내는 것뿐입니다.

 

또한 이 AI는 ChatGPT가 Mac에서 하는 것처럼 별도의 데스크톱 앱이 없습니다. Perplexity를 다른 도구와 차별화하는 점은 여러 LLM을 실행할 수 있다는 것입니다. 주어진 세션에 대해 LLM을 설정할 수는 없지만 설정으로 이동하여 활성 모델을 쉽게 선택할 수 있습니다.

 

프로그래밍의 경우 모든 테스트를 통과한 GPT-4o를 사용하는 것이 좋습니다. 하지만 다른 LLM에서 코드를 교차 확인하는 것도 흥미로울 수 있습니다. 예를 들어, GPT-4o로 정규식 코드를 작성하는 경우 다른 LLM으로 전환하여 생성된 코드에 대해 해당 LLM이 어떻게 생각하는지 살펴볼 수 있습니다.

아래에서 살펴보겠지만 대부분의 LLM은 신뢰할 수 없으므로 결과를 그대로 받아들이지 마세요. 하지만 결과를 사용하여 원본 코드에서 더 많은 것을 확인할 수 있습니다. 일종의 AI 기반 코드 리뷰와 비슷합니다.

장점:

  • 여러 LLM
  • 검색 기준 표시됨
  • Good Sourcing

 

단점:

  • 이메일 전용 로그인
  • 데스크톱 앱 없음

 

기타 세부 정보:

가격: $20/월

  • LLM: GPT-4o, 클로드 3.5 소네트, 소나 라지, 클로드 3 오퍼스, 라마 3.1 405B
  • 데스크톱 브라우저 인터페이스: Yes
  • 전용 Mac 앱: No
  • 전용 Windows 앱: No
  • 다단계 인증: No
  • 테스트 통과: 4개 중 4개

 

3. 그록

솔직히 말해서 그록(Grok)은 필자를 놀라게 했습니다. 이전에 트위터로 알려진 소셜 네트워크에 붙어 있는 LLM에 큰 기대를 걸지 않았습니다. 하지만 이제 X는 Elon Musk가 소유하고 있고, Musk의 회사 중 두 곳인 Tesla와 SpaceX는 엄청난 AI 역량을 보유하고 있습니다.

Grok에 Tesla와 SpaceX의 AI DNA가 얼마나 들어갔는지는 확실하지 않지만, 아마도 더 많은 작업이 있을 것으로 예상할 수 있습니다. 현재로서는 추천 목록에 포함된 OpenAI LLM이 아닌 LLM 중에서는 Grok이 유일합니다.

Grok은 한 가지 실수를 저질렀지만 조금 더 포괄적인 프롬프트를 통해 쉽게 수정할 수 있는 비교적 사소한 실수였습니다. 네, 테스트에서 불합격했습니다. 하지만 다른 테스트는 통과했고, 심지어 통과한 테스트에서도 거의 완벽하게 수행함으로써 경쟁자로서의 자리를 차지했습니다.

 

장점:

  • ChatGPT와 다른 LLM
  • 좋은 설명
  • 무료 액세스

 

단점:

  • 브라우저 모드에서만 사용 가능
  • 무료 액세스는 일시적일 수 있음

 

기타 세부 정보:

  • 가격: 무료 (현재)
  • LLM: Grok-1
  • 데스크톱 브라우저 인터페이스: Yes
  • 전용 Mac 앱: No
  • 전용 Windows 앱: No
  • 다단계 인증: Yes
  • 테스트 통과: 4개 중 3개

 

4. 챗GPT Free

ChatGPT는 누구나 무료로 사용할 수 있습니다. 플러스 버전과 무료 버전 모두 모든 프로그래밍 테스트를 통과한 GPT-4o를 지원하지만, 무료 앱을 사용할 때는 제한이 있습니다.

OpenAI는 무료 ChatGPT 사용자를 마치 저렴한 좌석에 앉은 것처럼 취급합니다. 트래픽이 많거나 서버가 바쁠 경우, 무료 버전의 ChatGPT는 무료 사용자에게만 GPT-3.5를 제공합니다. 이 도구는 특정 횟수의 쿼리만 허용한 후 다운그레이드하거나 사용자를 종료합니다.

가끔 종료되는 것만 감수한다면 ChatGPT는 훌륭한 도구입니다. 심지어 GPT-3.5는 다른 모든 챗봇보다 테스트에서 더 나은 성적을 거두었으며, 실패한 테스트는 호주의 한 프로그래머가 만든 상당히 잘 알려지지 않은 프로그래밍 도구에 대한 것이었습니다. 예산이 중요하고 지원이 중단될 때까지 기다릴 수 있다면 ChatGPT를 무료로 사용하세요.

 

장점:

  • 무료
  • 대부분의 테스트 통과

 

단점:

  • 프롬프트 스로틀링(throttling)
  • 작업 중 도중에 끊길 수 있음

 

기타 세부 정보:

  • 가격: 무료
  • LLM: GPT-4o, GPT-3.5
  • 데스크톱 브라우저 인터페이스: Yes
  • 전용 Mac 앱: Yes
  • 전용 Windows 앱: No
  • 다단계 인증: Yes
  • 테스트 통과: GPT-3.5 모드에서 4개 중 3개 통과

 

5. 퍼플렉시티 Free

연구 관점에서 보면, 다른 AI보다 Perplexity를 더 선호하는 경우가 많습니다. Perplexity가 연구 질문에 대해 더 완전한 출처를 제공하고, 출처를 인용하고, 답변을 정리하고, 추가 검색을 위한 질문을 제공하는 방식이 마음에 들기 때문입니다. 따라서 프로그래밍을 하면서 다른 연구도 하고 있다면 Perplexity의 무료 버전을 고려해 보세요.

 

장점:

  • 무료
  • 대부분의 테스트 통과
  • 다양한 연구 도구

 

단점:

  • GPT-3.5로 제한됨
  • 스로틀 프롬프트 결과

 

기타 세부 정보:

  • 가격: 무료
  • LLM: GPT-3.5
  • 데스크톱 브라우저 인터페이스: Yes
  • 전용 Mac 앱: No
  • 전용 Windows 앱: No
  • 다단계 인증: No
  • 테스트 통과: 4개 중 3개

 

6. 딥시크 V3

모든 전문가들이 열광하는 중국의 새로운 추론 챗봇은 딥시크 R1(DeepSeek R1)이지만, 현재 진정한 강자는 DeepSeek V3입니다. 이 챗봇은 거의 모든 코딩 테스트를 통과했으며, 지금은 거의 단종된 ChatGPT 3.5도 잘 수행했습니다.

DeepSeek V3의 약점은 다소 모호한 프로그래밍 환경에 대한 지식이었습니다. 그럼에도 불구하고 구글의 Gemini, 마이크로소프트의 Copilot, 메타의 Meta AI를 제친 것은 그 자체만으로도 대단한 성과입니다.

 

장점:

  • 무료
  • 오픈 소스
  • 효율적인 리소스 활용

 

단점:

  • 취약한 일반 지식
  • 소규모 생태계
  • 제한된 통합

 

기타 세부 정보:

  • 가격: 챗봇은 무료, API는 유료
  • LLM: DeepSeek MoE
  • 데스크톱 브라우저 인터페이스: Yes
  • 전용 Mac 앱: No
  • 전용 Windows 앱: No
  • 다단계 인증: No
  • 테스트 통과: 4개 중 3개

 

프로그래밍 지원을 위해 피해야 할 챗봇

14개의 LLM을 테스트한 결과 7개가 대부분의 테스트를 통과했습니다. 프로그래밍에 적합하다고 소개된 몇 가지를 포함한 다른 챗봇은 각각 테스트 중 하나만 통과했고, Microsoft의 코파일럿은 하나도 통과하지 못했습니다.


딥시크 R1

이미지: zdnet

 

DeepSeek V3와 달리, 고급 추론 버전인 DeepSeek R1은 프로그래밍 테스트에서 추론 능력을 보여주지 못했습니다. 새로운 실패 영역이 기본 AI(문자열 함수 테스트의 정규 표현식 코드)에도 그렇게 어렵지 않은 영역이라는 점이 이상했습니다.

 

하지만 그것이 우리가 이러한 실제 세계 테스트를 실행하는 이유입니다. AI가 환각을 보거나 그냥 실패할 곳은 결코 명확하지 않으며, DeepSeek R1이 ChatGPT에서 왕관을 빼앗아간다는 모든 과장된 소문을 믿기 전에 몇 가지 프로그래밍 테스트를 실행해 보세요. 지금까지 저는 크게 줄어든 리소스 활용도와 제품의 오픈 소스 특성에 감명을 받았지만, 코딩 품질 출력은 일관되지 않았습니다.

 

깃허브 코파일럿

이미지: zdnet

 

GitHub의 Copilot은 VS Code와 아주 매끄럽게 통합됩니다. 특히 컨텍스트에서 작업할 때 코딩 도움말을 요청하는 것을 매우 빠르고 생산적으로 만들어줍니다. 그래서 작성하는 코드가 종종 매우 잘못될 수 있다는 것이 매우 실망스럽습니다.

 

양심적으로 VS Code용 GitHub Copilot 확장 프로그램을 사용하라고 추천할 수 없습니다. 충분한 테스트 없이 코드 블록을 삽입하려는 유혹이 너무 클까 봐 걱정되고, GitHub Copilot에서 생성된 코드는 프로덕션에 사용할 준비가 되지 않았습니다. 내년에 다시 시도해 보세요.

 

메타 AI

이미지: zdnet

 

메타 AI는 Facebook의 범용 AI입니다. 위에서 볼 수 있듯이 네 가지 테스트 중 세 가지 테스트에서 실패했습니다.

AI는 멋진 사용자 인터페이스를 생성했지만 기능은 전혀 없었습니다. 그리고 성가신 버그도 찾아냈는데, 이는 상당히 심각한 문제였습니다. 버그를 찾는 데 필요한 특정 지식을 고려할 때, 간단한 정규식 문제에서 버그를 발견한 것이 놀라웠습니다.

 

메타 코드 라마

이미지: zdnet

 

Meta Code Llama 는 Facebook의 AI로, 코딩 지원을 위해 특별히 설계되었습니다. 서버에 다운로드하여 설치할 수 있습니다. Hugging Face AI 인스턴스에서 실행하여 테스트했습니다.

 

이상하게도 메타 AI와 메타 코드 라마 모두 4개의 테스트 중 3개의 문제에서 정답을 맞혔지만, 서로 다른 문제에서 정답을 맞혔습니다. 인공지능이 같은 답을 두 번이나 맞힐 수는 없지만 이 결과는 놀라웠습니다. 시간이 지남에 따라 이러한 결과가 달라질지 지켜보겠습니다.

 

클로드 3.5 소네트

이미지: zdnet

 

Anthropic은 Claude AI 챗봇 의 3.5 Sonnet 버전 이 프로그래밍에 이상적이라고 주장합니다. 한 가지 테스트를 제외하고 모두 실패한 후에는 그렇게 확신할 수 없습니다.

 

프로그래밍에 사용하지 않는다면 Claude가 ChatGPT 무료 버전보다 더 나은 선택일 수 있습니다.

Gemini Advanced

이미지: zdnet

 

Gemini Advanced는 Google의 20달러짜리 프로 버전인 Gemini 챗봇입니다. 필자는 이 도구가 4점 만점에 1점 이상을 받을 것으로 예상했습니다. 흥미롭게도 GPT-4/4o를 제외한 모든 AI가 실패한 한 가지 테스트, 즉 호주의 한 프로그래머가 만든 상당히 모호한 프로그래밍 언어에 대한 지식 테스트를 통과했습니다.

그렇다면 그 언어를 알고 있다면 왜 기본적인 정규식이나 다른 프로그래밍 1학년 학생들의 문제를 처리할 수 없었을까요?

 

마이크로소프트 코파일럿

이미지: zdnet

 

“개발자! 개발자! 개발자!"를 모토로 하는 회사라면 프로그래밍 테스트에서 더 잘하는 AI를 개발할 것이라고 생각할 수 있습니다. Microsoft는 세계 최고의 코딩 도구를 생산하고 있습니다. 하지만 코파일럿은 형편없었습니다.

한 가지 긍정적인 점은 Microsoft는 항상 실수로부터 배운다는 것입니다. 나중에 다시 확인해서 이 결과가 개선되는지 확인해 보겠습니다.

 

마치며

테스트 결과는 놀라웠습니다. 특히 마이크로소프트와 구글의 막대한 투자를 감안하면 더욱 그렇습니다. 다만 이 분야는 엄청나게 빠른 속도로 개선되고 있으므로 앞으로 어떻게 개선될 지 지켜볼 필요가 있습니다.