Grok 4 AI 트레이딩 대회 1위 — 승률 81%가 5위인 이유와 AI 투자 에이전트 운영자의 솔직한 고백
투자 분석
Grok 4가 두 개의 실시간 AI 주식 트레이딩 대회에서 연달아 1위를 차지했습니다. 머스크는 “GPU 비용 뽑는 법을 알겠다”고 농담했고, X에서는 7,600개의 좋아요가 쏟아졌습니다. 하지만 AI 투자 에이전트 ‘알렙(Aleph)’을 직접 운영하는 입장에서 말하자면 — 대회 1위와 실전 트레이딩 사이에는 아무도 말하지 않는 거대한 틈이 있습니다.
1AI가 월스트리트를 두 번 이겼다
2026년 3월, X(트위터)에서 가장 뜨거운 금융 뉴스는 AI가 사람 없이 주식을 사고팔아 돈을 벌었다는 소식이었습니다. 그것도 한 번이 아니라 두 번, 서로 다른 대회에서.
🏆 대회 ① — Rallies AI Arena (실전 매매)
Rallies.ai가 주최한 ‘AI Arena’는 8개 최신 AI 모델에 각각 $100,000(약 1억 3천만 원)의 실제 자금을 지급하고, 미국 주식 시장에서 자율 매매를 시킨 대회입니다. 인간 개입 없음. 안전장치 없음. 실제 시장가로 체결되는 진짜 돈입니다.
2025년 12월 30일 시작된 이 대회에서, xAI의 Grok 4가 1위를 차지했습니다:
| 순위 | 모델 | 계좌 잔액 | 수익률 | 승률 | 샤프 비율 |
|---|---|---|---|---|---|
| 🥇 | Grok 4 | $105,765 | +5.8% | 66.7% | 0.283 |
| 🥈 | DeepSeek V3 | $104,515 | +4.5% | 75.0% | 0.235 |
| 🥉 | Claude Sonnet 4.5 | $103,172 | +3.2% | 57.1% | 0.124 |
| 4 | GPT 5.1 | $102,541 | +2.5% | 66.7% | 0.126 |
| 5 | Opus 4.5 | $101,749 | +1.7% | 81.8% | 0.098 |
| 6 | Gemini 2.5 Pro | $99,855 | -0.1% | 57.1% | -0.002 |
| 7 | GPT 5.2 | $99,480 | -0.5% | 60.0% | -0.049 |
| 8 | Qwen 3 | $84,184 | -15.8% | 0.0% | -0.431 |
출처: Rallies.ai AI Arena 리더보드, https://rallies.ai/

🏆 대회 ② — Alpha Arena Season 1.5 (nof1.ai)
AI 연구소 nof1.ai가 주최한 Alpha Arena Season 1.5는 2025년 11월 20일부터 12월 3일까지 약 2주간 진행되었습니다. 각 모델에 $10,000씩 지급하고 미국 주식을 매매하게 한 대회입니다. 여기서는 “미스터리 모델”로 참가한 Grok-4.20이 우승했습니다.
더 놀라운 것은 세부 결과입니다. Grok-4.20은 4가지 경쟁 모드에 동시 참가했는데, Top 7 중 4자리를 독식했습니다:
| 순위 | 모델 | 경쟁 모드 | 총 자산 | 수익률 |
|---|---|---|---|---|
| 🥇 | Grok-4.20 | Situational Awareness | $16,171 | +61.7% |
| 🥈 | DeepSeek V3.1 | Monk Mode | $12,890 | +28.9% |
| 🥉 | GPT-5.1 | Max Leverage | $11,868 | +18.7% |
| 4 | Grok-4.20 | New Baseline | $11,815 | +18.2% |
| 5 | Grok-4.20 | Max Leverage | $10,684 | +6.8% |
| 6 | Gemini-3-Pro | Monk Mode | $10,503 | +5.0% |
| 7 | Grok-4.20 | Monk Mode | $10,389 | +3.9% |
출처: nof1.ai Alpha Arena Season 1.5, https://nof1.ai/; ForkLog, forklog.com

“Ok, I think I see a way to pay for all those GPUs.”
— 일론 머스크, X 리포스트 (출처: Benzinga)
머스크의 농담은 반만 농담입니다. AI 모델이 실제 시장에서, 실제 돈으로 수익을 낸다는 것은 더 이상 논문 속 가설이 아닙니다. 하지만 — 여기서부터가 진짜 이야기입니다.
261.7% vs 5.8% — 같은 Grok, 다른 세계
두 대회의 결과를 나란히 놓으면, “AI 트레이딩”이라는 말이 얼마나 복잡한 현실을 담고 있는지 드러납니다.
같은 “Grok”이라는 이름을 달고 있지만, 결과는 천국과 지옥입니다:
| 항목 | Rallies AI Arena | Alpha Arena Season 1.5 |
|---|---|---|
| 주최 | Rallies.ai | nof1.ai |
| 기간 | 2025.12.30 ~ 현재 (3개월+) | 2025.11.20 ~ 12.3 (2주) |
| 초기 자본 | $100,000 | $10,000 |
| 매매 방식 | 미국 실물 주식, 실시장 체결 | 미국 주식 토큰 (trade.xyz) |
| 우승 수익률 | +5.8% (Grok 4) | +61.7% (Grok-4.20 Situational) |
| 공통 2위 | DeepSeek V3 (+4.5%) | DeepSeek V3.1 (+28.9%) |
| 최악 성적 | Qwen 3 (-15.8%) | Qwens-MAX (손실) |
이 비교가 알려주는 핵심은 세 가지입니다:
단기 폭발력 ≠ 장기 안정성
Alpha Arena에서 2주 만에 +61.7%를 기록한 Grok-4.20이, 3개월짜리 Rallies에서는 +5.8%에 머물렀습니다(모델 버전 차이를 감안하더라도). 사실 Rallies에서 Grok 4는 1월에 +8.2%까지 올랐다가 3월에 +5.8%로 하락했습니다. AI도 수익을 지키는 것은 어렵습니다.
“어떤 AI”보다 “어떤 설정”이 중요
Alpha Arena에서 Grok-4.20의 Situational Awareness 모드는 +61.7%를 냈지만, 같은 Grok-4.20의 Monk Mode는 +3.9%에 불과했습니다. 16배 차이. 별도 대회에서 Grok 4(일반)는 -53.4%로 꼴찌를 했습니다. “Grok이 좋다”가 아니라 “어떤 버전의, 어떤 전략 설정이 좋은가”가 정확한 질문입니다.
대회 환경 ≠ 실전 시장
Alpha Arena는 2주, $10K, 토큰 거래. Rallies는 3개월+, $100K, 실제 시장가 체결(슬리피지·호가 스프레드 반영). 대회 환경이 유리할수록 수익률은 부풀려지고, 실전에 가까울수록 현실적 수치가 나옵니다.
3승률 81.8%인데 왜 5위일까 — 리더보드의 불편한 진실
Rallies 리더보드에서 가장 의외의 데이터를 뽑으라면, Opus 4.5의 승률 81.8%입니다. 10번 중 8번 이상 이기는 모델이 왜 5위에 머물렀을까요?
답은 포지션 사이징(position sizing)에 있습니다. 승률은 “몇 번 이겼느냐”이고, 수익률은 “이길 때 얼마나 크게 이기고, 질 때 얼마나 적게 지느냐”입니다.
- Opus 4.5: 자주 이기지만, 소심하게 이김 → 이익은 작고, 드문 손실이 이익을 깎음
- Grok 4: 3번 중 1번 지지만, 확신 있는 포지션에 크게 베팅 → 이길 때의 수익이 손실을 압도
- GPT 5.2: 승률 60%인데도 손실 → 질 때 크게 지는 전형적 “코리안 개미” 패턴
⚠️ 투자자를 위한 교훈
이건 AI 트레이딩만의 문제가 아닙니다. 인간 투자자도 마찬가지입니다. “승률 높은 전략”에 집착하면 오히려 수익이 줄어들 수 있습니다. 중요한 것은 기대수익(Expected Value) = 승률 × 평균 이익 – 패률 × 평균 손실입니다. 승률이 낮아도 이길 때 크게 이기는 전략(트렌드 팔로잉, 모멘텀 투자)이 장기적으로 우수한 경우가 많습니다.
그리고 Qwen 3의 참극은 정반대 교훈을 줍니다. 승률 0.0%, 수익률 -15.8%, 손실 $15,816. $100,000 중 $15,816을 날린 이 모델은 “AI에 돈을 맡기면 자동으로 번다”는 환상을 일격에 깨뜨립니다. 잘못된 모델 선택은 인간보다 더 빠르게, 더 체계적으로 돈을 잃습니다.
4차트 너머의 세계 — AI 트레이딩이 진짜 어려운 이유
대회 결과가 인상적인 건 사실입니다. 하지만 이것을 “AI가 주식 투자를 정복했다”로 해석하면 위험합니다. AI 투자 에이전트를 직접 개발하고 운영하는 입장에서, 대회와 현실 사이의 다섯 가지 구조적 장벽을 이야기하겠습니다.
① 캔들차트와 지표만으로는 부족하다
RSI, MACD, 볼린저 밴드… 기술적 분석의 고전적 도구들은 본질적으로 후행 지표(lagging indicator)입니다. 이미 일어난 가격 움직임을 수학적으로 정리한 것이지, 앞으로 일어날 일을 예측하는 것이 아닙니다.
진짜 알파(α) — 시장 평균을 이기는 초과 수익 — 는 “고급 정보”에서 나옵니다:
- 실적 서프라이즈: 실적 발표 전 공급망 데이터, 위성 이미지, 신용카드 지출 패턴
- 규제 변화: SEC 판결, 반독점 조사, 수출 규제 (예: 반도체 대중 규제)
- 지정학적 이벤트: 최근 이란-미국 군사 긴장 고조 국면 같은 돌발 변수
- 센티먼트: 소셜미디어 감성, 옵션 플로우, 내부자 매매 패턴
이러한 정보를 실시간으로, 정확하게, 대량으로 수집하는 것 자체가 엄청난 기술적·재무적 도전입니다. 프리미엄 뉴스 API 비용, 데이터 전처리 파이프라인 구축, 노이즈 필터링… 대회에서는 “동일한 입력(identical inputs)”이 주어지지만, 현실에서는 정보 수집 능력 자체가 경쟁 우위입니다.
② 리스크를 “숫자”로 만드는 것의 어려움
투자 시뮬레이션의 핵심은 리스크를 수치화하는 것입니다. 하지만 어떻게?
- 기대수익률: 과거 10년 평균? 20년 평균? 어떤 기간을 선택하느냐에 따라 결과가 180도 달라집니다
- 변동성: 역사적 변동성? 내재 변동성(implied volatility)? GARCH 모델?
- 상관관계: 자산 간 상관관계는 위기 시 급변합니다 (2008년, 2020년 사례)
- 블랙스완 확률: “일어나지 않을 것 같은 일”에 어떤 확률을 부여할 것인가?
이 모든 가정(assumptions)이 시뮬레이션의 입력값이 되고, 가정을 어떻게 설정하느냐에 따라 10년 후 자산이 2배가 될 수도, 반토막이 날 수도 있습니다. Alpha Arena에서 Grok-4.20 Situational이 +61.7%를 냈지만 같은 모델의 Monk Mode는 +3.9%를 낸 것처럼 — 모델의 “리스크 파라미터 설정”이 수익률의 90%를 결정합니다.
③ 과거 데이터의 함정
AI 모델은 과거 데이터로 학습합니다. 그런데 과거 데이터에는 두 가지 근본적 문제가 있습니다:
⚠️ 데이터 품질의 함정
- 생존자 편향(Survivorship Bias): 상장폐지된 종목은 데이터에서 빠집니다. 살아남은 종목만으로 백테스트하면 수익률이 과대평가됩니다.
- 학습하지 못한 시장 조건: 저인플레이션 시대에 학습한 AI는 인플레이션 급등기에 어떻게 반응할까요? 팬데믹이나 전쟁 같은 전례 없는 이벤트에는 구조적으로 취약합니다.
영국 BrokerChooser 조사에 따르면, 현재 영국 인구의 약 22%가 AI를 주식 예측에 활용하고 있으며, 밀레니얼 세대의 17%는 인간 자문사보다 AI를 선호합니다. 하지만 BrokerChooser의 수석 애널리스트 Adam Nasli는 이렇게 경고합니다:
“AI 알고리즘은 과거 데이터와 패턴에 기반한 일반적 가이드를 제공하지만, 실시간 시장 변동성, 지정학적 이벤트, 또는 개인의 재무 상황·리스크 내성·장기 목표를 완전히 반영할 수 없습니다.”
— Adam Nasli, BrokerChooser 수석 애널리스트 (출처: Computer Weekly, 2026.2.17)
④ Wharton의 경고 — AI 봇이 스스로 담합한다
2025년 Wharton School(펜실베이니아대 경영대학원)의 연구가 업계에 충격을 주었습니다. 연구진이 단순한 AI 트레이딩 봇들을 시뮬레이션 환경에 넣었더니, 봇들이 자발적으로 가격 담합 카르텔을 형성하기 시작한 것입니다. 경쟁하도록 설계했는데, 스스로 담합한 겁니다.
영국 중앙은행(Bank of England) 관계자도 AI 트레이딩 봇이 “위험한 집단 행동(herd behavior)”을 유발할 수 있다며, 의무적 긴급 정지 장치(kill switch) 도입을 주장했습니다.
출처: Wharton School 연구(2025), Medium, medium.com
⑤ 규제의 벽
AI가 주식을 매매하더라도, 법적 책임은 사라지지 않습니다. 오히려 강화됩니다:
- 미국 FINRA Rule 3110 / SEC Market Access Rule: 알고리즘 매매에 대한 인간 감독 의무
- 유럽 MiFID II: 50마이크로초 단위 타임스탬프 기록, 오작동 시 즉시 모든 주문 취소 능력 필수
- SEC: 모든 거래 결정에 대한 변경 불가능한 감사 로그(audit log) 보관 의무
- 시장 조작 금지: AI든 인간이든 스푸핑(spoofing), 내부자 거래 등 동일 적용
알고리즘 트레이딩 시장 자체는 성장하고 있습니다. Forbes/Dell에 따르면 2024년 고빈도 트레이딩(HFT) 매출은 $104억, 2030년까지 $160억으로 성장 전망입니다. 하지만 이 시장의 주인공은 수십억 달러 인프라를 갖춘 헤지펀드이지, 개인 투자자가 아닙니다.
5알렙의 7개 에이전트와 현실의 벽 — AI Agent 운영자의 솔직한 고백
여기서 잠시 1인칭으로 전환하겠습니다. 저는 ‘알렙(Aleph)’이라는 AI 투자 에이전트를 직접 개발하고 운영하고 있습니다. 궁극적인 꿈은 실시간 자동 매매입니다. 하지만 정직하게 말씀드리면 — 아직 갈 길이 멉니다.
알렙의 구조: 7개 전문 서브 에이전트
알렙은 하나의 거대한 AI가 아닙니다. 7개의 전문 서브 에이전트가 협업하는 팀 구조입니다:
Market Scanner
시장 전체를 스캔하여 이상 신호, 거래량 급증, 가격 이탈 등을 감지합니다.
Technical Analyst
차트 패턴, 기술적 지표, 가격 추세를 분석합니다.
Geopolitical Analyst
지정학적 리스크, 국제 관계 변화, 제재/규제 동향을 추적합니다.
Macro Analyst
거시경제 지표(금리, 인플레이션, GDP, 고용)를 분석하고 경기 사이클을 판단합니다.
Risk Manager
포트폴리오 리스크를 수치화하고, 손절 기준과 헤지 전략을 설정합니다.
Portfolio Advisor
자산 배분, 리밸런싱, 종목 선정을 종합적으로 설계합니다.
Content Editor
분석 결과를 투자자가 이해할 수 있는 콘텐츠로 편집합니다.
이 구조는 Rallies AI Arena에서 Grok 4가 단독으로 트레이딩한 것과 비교하면 이론적으로 더 정교합니다. 각 에이전트가 자기 전문 영역에 집중하고, 결론을 종합하니까요. 하지만 이론과 현실 사이에는 벽이 있습니다.
운영하면서 마주한 현실의 벽들
⚠️ “실시간”이라 불리는 데이터의 진실
알렙의 일부 MCP(Model Context Protocol)는 실시간 정보를 가져오지 못해서, 1~2시간 전 데이터로 분석할 때가 있었습니다. 주식 시장에서 1~2시간은 영원과 같습니다. 장중 급변 이벤트(FOMC 발표, 실적 서프라이즈, 지정학 뉴스)에 대한 반응이 늦어지면, 분석이 아무리 정교해도 의미가 없습니다.
⚠️ 블랙스완 앞에서 무력한 AI
지정학 리스크는 “과거 데이터로 만든 지수(GPR, VIX 등)” 또는 “과거 이벤트 충격의 통계” 형태로 모델에 들어갑니다. 그래서 알렙은 과거와 유사한 리스크에는 꽤 잘 반응합니다. 하지만 전례 없는 이벤트(진짜 블랙스완)에는 구조적으로 취약합니다.
최근 이란-미국 군사 긴장 고조 국면에서, 알렙의 예측값은 실제 시장 반응과 크게 어긋났습니다. GPR 지수에 반영되지 않은 새로운 유형의 충돌이었기 때문입니다. 이건 알렙만의 문제가 아닙니다. 모든 데이터 기반 모델의 구조적 한계입니다.
Alpha Arena에서 Grok-4.20의 ‘Situational Awareness’ 모드가 압도적 1위를 한 것도 같은 맥락입니다. 이 모드는 경쟁자의 실적과 순위를 실시간 추적합니다 — 즉, 차트와 수치 너머의 “상황 인식”을 추가한 것이 결정적 차이를 만들었습니다. 결국 AI 트레이딩의 핵심은 “더 좋은 알고리즘”이 아니라 “더 좋은 정보”와 “더 넓은 시야”입니다.
알렙의 꿈 — 실시간 트레이딩까지의 로드맵
그렇다면 알렙은 언제 실시간 자동 매매를 할 수 있을까요? 정직한 로드맵은 이렇습니다:
| 단계 | 목표 | 현재 상태 |
|---|---|---|
| 1단계 | 데이터 파이프라인 구축 (뉴스, 실적, 매크로, 센티먼트) | 🟡 진행 중 — 일부 MCP 데이터 지연 이슈 해결 중 |
| 2단계 | 백테스팅 프레임워크 고도화 (생존자 편향 제거, 트랜잭션 비용 반영) | 🟡 설계 단계 |
| 3단계 | 페이퍼 트레이딩 (가상 자금으로 실시간 검증) | ⚪ 예정 |
| 4단계 | 소액 실전 트레이딩 (kill switch + 일일 손실 제한) | ⚪ 예정 |
| 5단계 | 규제 확인 (한국 알고리즘 매매 규정, API 트레이딩 허가) | 🔴 미착수 |
이 로드맵을 보면 아시겠지만, “AI가 알아서 돈 벌어주는 세상”은 아직 먼 미래입니다. 하지만 저는 이 과정 자체가 가치 있다고 믿습니다. AI 에이전트를 만들면서 배우는 시장 분석 프레임워크, 리스크 관리 체계, 데이터 파이프라인 설계 — 이 모든 경험이 알렙 블로그를 통해 40·50대 투자자 여러분과 공유하는 인사이트의 품질을 높여주기 때문입니다.
640·50대 투자자에게 — AI는 “도구”이지 “신탁”이 아니다
Grok 4의 대회 1위 소식에 혹해서 “나도 AI 봇에 돈을 맡기자”고 생각하셨다면, 잠시 멈추세요. 리더보드 데이터가 알려주는 현실은 명확합니다:
그렇다면 AI를 어떻게 활용해야 할까요?
AI = 분석 보조 도구로 활용
AI는 “의사결정을 대신하는 것”이 아니라 “의사결정을 돕는 것”으로 활용하세요. 뉴스 요약, 실적 분석, 포트폴리오 리밸런싱 알림 등 — 정보 처리 속도에서 AI의 장점을 살리되, 최종 결정은 사람이.
“Grok이 1위니까 Grok 따라 사자” ❌
Grok 4가 Rallies에서 1위를 한 건 특정 시장 조건, 특정 기간, 특정 설정의 결과입니다. 1월에 +8.2%였던 수익률이 3월에 +5.8%로 하락한 것처럼, 과거 성과는 미래 수익을 보장하지 않습니다. 이 말, 들어보셨죠? AI에도 똑같이 적용됩니다.
자동 매매보다 자동 적립이 먼저
AI 트레이딩 봇에 전재산을 맡기는 것은 2026년 현재 시기상조입니다. 대신 매달 일정액을 인덱스 ETF(예: S&P 500, 코스피 200)에 자동 적립하는 것이 검증된 전략입니다. 래리 핑크의 말처럼 “시장 타이밍보다 시장에 머무르는 것”이 중요합니다.
AI 투자 도구를 테스트하고 싶다면: 총 자산의 5~10% 이하로 “실험 계좌”를 만들어 소액으로 시작하세요. Rallies AI Arena처럼 여러 모델의 성과를 관찰하면서, 어떤 접근법이 자신의 투자 스타일에 맞는지 학습하는 과정 자체가 가장 값진 투자입니다. 절대 “올인”하지 마세요.
결론 —
Grok 4가 AI 트레이딩 대회에서 1위를 한 것은 사실입니다. AI가 실제 시장에서 돈을 벌 수 있다는 것은 더 이상 이론이 아닙니다. 하지만 같은 Grok 브랜드도 버전에 따라 +61.7%와 -53.4%로 갈리고, 승률 81.8%인 모델이 수익률 5위에 머물며, 3개월 동안 수익률이 +8.2%에서 +5.8%로 하락합니다.
AI 투자 에이전트 알렙을 운영하면서 깨달은 것은, “AI 트레이딩”은 기술의 문제가 아니라 “정보의 질 × 리스크 수치화 × 시장 조건 적응력”의 문제라는 것입니다. 1~2시간 지연된 데이터, 전례 없는 지정학 이벤트 앞에서의 무력함, 과거 데이터의 구조적 한계 — 이 모든 것이 “차트를 넘어서는 세계”입니다.
결국 AI 시대의 투자 전략은 “AI에 돈을 맡기는 것”이 아니라 “AI를 도구로 활용하면서, 인간의 판단력을 더 날카롭게 만드는 것”입니다. 알렙도, 이 블로그도 그 여정 위에 있습니다.
⚠️ 투자 유의사항 (법적 고지)
본 글은 정보 제공 및 교육 목적으로 작성되었으며, 특정 금융상품의 매수·매도를 권유하는 것이 아닙니다. 모든 투자 결정은 독자 본인의 판단과 책임 하에 이루어져야 하며, 투자 손실 발생 시 본 블로그 운영자는 어떠한 법적 책임도 지지 않습니다. AI 트레이딩 대회 결과는 특정 조건에서의 과거 성과이며, 미래 수익을 보장하지 않습니다. AI 자동 매매는 원금 손실 위험이 있으며, 투자 전 반드시 금융 전문가와 상담하시기 바랍니다.






