GPT-5.5 release benchmarks and pricing overview

GPT-5.5, Another Drop in 6 Weeks — OpenAI’s Relentless Model Cadence

🔥 NEW RELEASE AI · LLM OpenAI

GPT-5.5, 6주 만에 또 나왔다

GPT-5.5, Another Drop in Just 6 Weeks

📅 2026-04-24 ⏱ 12 min read 🏷 AI, LLM, OpenAI

BREAKING

또 나왔다, 진짜로

Yes, they really did it again

2026년 4월 23일, OpenAI가 GPT-5.5를 공개했습니다. GPT-5.4가 나온 지 겨우 6주. “연간 모델 사이클”이라는 말은 이제 완전히 옛말이 되었습니다. 프론티어 AI 모델(Frontier AI Model)이 이제 소프트웨어 패치처럼 굴러나오는 시대입니다.

이번 모델은 GPT-4.5 이후 처음으로 완전히 새로 훈련된 기반 모델(Fully Retrained Base Model)이라는 점에서 의미가 큽니다. 단순 미세 조정이 아니라, 아키텍처 수준에서 새로 만든 것입니다. Plus, Pro, Business, Enterprise 유료 구독자 대상으로 ChatGPT와 Codex에서 즉시 사용 가능하며, 무료 사용자는 제외됩니다.

OpenAI released GPT-5.5 on April 23, 2026 — just six weeks after GPT-5.4. It’s the first fully retrained base model since GPT-4.5, rolling out to all paid ChatGPT and Codex subscribers.

KEY NUMBERS

핵심 수치 한눈에 보기

The numbers that matter

🧠

82.7%

Terminal-Bench 2.0
에이전틱 코딩 최고 점수

📊

84.9%

GDPval
44개 직업군 지식 노동

💰

$5 / $30

API 가격 (입력/출력)
per 1M tokens

📏

컨텍스트 윈도우
진짜로 끝까지 쓸 수 있는

👥

900M+

ChatGPT 주간 활성 사용자

💳

50M+

ChatGPT 유료 구독자

👨‍💻

Codex 주간 활성 개발자

🏢

비즈니스 유료 사용자

TIMELINE

GPT-5 시리즈, 숨 가쁜 출시 행진

The GPT-5 series release cadence

GPT-5 시리즈는 2025년 8월 첫 출시 이후 약 8개월 만에 5번째 버전까지 도달했습니다. 과거 GPT-4에서 GPT-5까지 약 28개월이 걸렸던 것과 비교하면, 업데이트 주기가 극적으로 단축되었습니다.

2025년 8월 7일

GPT-5 출시

400K 컨텍스트 윈도우, 멀티모달 네이티브 아키텍처 도입

2025년 11월

GPT-5.1 출시

적응형 추론(Adaptive Reasoning) 도입, 캐싱으로 비용 절감

2025년 12월

GPT-5.2 / 5.2-Codex 출시

컴팩션(Compaction) 기능, 사이버보안 세이프가드 첫 도입

2026년 3월 5일

GPT-5.4 출시

1M 컨텍스트 윈도우, Codex·GPT 라인 통합

2026년 4월 23일

GPT-5.5 출시 🆕

완전 재훈련 기반 모델, 에이전틱 코딩·컴퓨터 사용·딥 리서치 강화

From GPT-5 (Aug 2025) to GPT-5.5 (Apr 2026) — five major iterations in eight months. The annual model cycle is dead; this is continuous deployment at frontier scale.

CAPABILITIES

5대 핵심 역량

Five core capabilities that define GPT-5.5

OpenAI는 GPT-5.5가 “덜 안내받고도 더 많이 해내는” 모델이라고 설명합니다. Greg Brockman 사장은 “이 모델의 진짜 특별한 점은 훨씬 적은 가이던스로 훨씬 많은 일을 할 수 있다는 것”이라고 강조했습니다. 구체적으로 다음 5가지 영역에서 두각을 나타냅니다.

📊

데이터 분석

정형·비정형 데이터를 스스로 분석하고 구조화된 인사이트 도출

💻

코드 작성 & 디버깅

시니어 엔지니어급 판단력으로 코드를 작성·리팩토링·디버깅

🖥️

소프트웨어 직접 조작

이메일·스프레드시트·캘린더 등 실제 앱을 자율적으로 조작

🔍

온라인 리서치

웹을 탐색하며 정보를 수집·교차검증·종합하는 딥 리서치

📄

문서·스프레드시트 생성

보고서, 분석 자료, 스프레드시트를 자율적으로 생성

핵심은 “에이전틱(Agentic)” 패러다임입니다. 이전 모델들이 단일 프롬프트에 반응하는 수준이었다면, GPT-5.5는 목표를 이해하고, 스스로 단계를 설계하고, 도구를 활용하고, 자기 작업을 검증하면서 완료될 때까지 계속 진행합니다.

The shift is from responsive to agentic: GPT-5.5 understands goals, plans steps, uses tools, checks its own work, and keeps going until the task is done — with minimal human direction.

BENCHMARKS

벤치마크 심층 분석

How GPT-5.5 stacks up against the competition

GPT-5.5는 에이전틱 코딩(Agentic Coding) 벤치마크에서 특히 강한 모습을 보여줍니다. Terminal-Bench 2.0에서 82.7%로 최고 기록을 세웠으며, 이는 복잡한 커맨드라인 워크플로우를 계획하고 도구를 반복적으로 사용하는 능력을 측정하는 벤치마크입니다.

Terminal-Bench 2.0 점수 비교

Agentic coding benchmark — complex command-line workflows

GPT-5.5

82.7%

Claude Opus 4.7

69.4%

Gemini 3.1 Pro

68.5%

코딩만이 아닙니다. GDPval은 44개 직업군에 걸쳐 에이전트가 실제 지식 노동을 수행하는 능력을 측정하는데, GPT-5.5는 84.9%를 기록했습니다. 컴퓨터 사용 능력을 측정하는 OSWorld-Verified에서는 78.7%로, Anthropic의 Opus 4.7(78.0%)을 근소하게 앞섰습니다. OpenAI 메인라인 모델이 컴퓨터 사용 벤치마크에서 Anthropic을 앞선 것은 이번이 처음입니다.

주요 벤치마크 종합 비교

Key benchmark comparison across frontier models

벤치마크	GPT-5.5	GPT-5.4	Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	—	69.4%	68.5%
GDPval (지식 노동)	84.9%	—	—	—
OSWorld-Verified	78.7%	—	78.0%	—
Tau2-bench Telecom	98.0%	—	—	—
Expert-SWE (20h)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	—	—	—
FinanceAgent	60.0%	—	—	—

특히 주목할 점은 Expert-SWE입니다. 이 벤치마크는 인간 전문가 기준 완료까지 20시간이 걸리는 장기 코딩 작업을 평가합니다. GPT-5.5가 73.1%를 기록하며 GPT-5.4(68.5%)를 넘었고, OpenAI가 “하루 이상 걸리는 코딩 평가” 수치를 공개한 것도 이번이 처음입니다.

GPT-5.5 leads agentic coding at 82.7% on Terminal-Bench 2.0 and scores 73.1% on Expert-SWE (20-hour coding tasks). It’s also the first OpenAI model to match Anthropic on computer use benchmarks.

LONG CONTEXT

1M 토큰, 진짜로 끝까지 쓸 수 있는

A million-token context window that actually works

GPT-5.4도 기술적으로는 롱 컨텍스트를 지원했지만, 약 128K 토큰을 넘어가면 성능이 급격히 떨어졌습니다. GPT-5.5는 128K, 256K, 그리고 1M 토큰 전체에서 안정적인 성능을 유지합니다. MRCR 니들 테스트(Needle-in-a-Haystack) 결과, 대규모 텍스트 속에서도 정보를 정확하게 찾아내고 추론할 수 있음이 확인되었습니다.

이는 실질적으로 전체 코드베이스, 수시간 분량의 회의록, 긴 계약서를 한 번에 처리할 수 있다는 뜻입니다. Codex에서는 400K 토큰 윈도우로 운영됩니다.

💡 왜 중요한가?

컨텍스트 윈도우는 숫자만 크면 되는 게 아닙니다. 핵심은 “끝까지 실제로 쓸 수 있느냐”입니다. GPT-5.5는 긴 맥락의 끝부분에서도 성능 저하 없이 추론 가능한 첫 번째 OpenAI 모델입니다.

PRICING

가격: 2배 비싸졌지만, 진짜 비싼 걸까?

Twice the price per token, but fewer tokens per task

API 기준으로 GPT-5.5는 입력 $5, 출력 $30 per 1M 토큰입니다. GPT-5.4의 $2.50/$15.00과 비교하면 토큰당 가격이 정확히 2배입니다. Pro 버전은 입력 $30, 출력 $180으로 더 비쌉니다.

API 가격 비교

API pricing comparison — per 1M tokens (USD)

모델	입력 (Input)	출력 (Output)	비고
GPT-5.5NEW	$5.00	$30.00	API 출시 “very soon”
GPT-5.5 ProNEW	$30.00	$180.00	고난이도 작업용
GPT-5.4	$2.50	$15.00	현재 API 제공 중
GPT-5.4 Pro	$30.00	$180.00	동일 가격

하지만 OpenAI의 주장은 이렇습니다: GPT-5.5는 동일 작업을 완료하는 데 훨씬 적은 토큰을 사용합니다. Sam Altman은 X(구 트위터)에서 “토큰 효율성 향상이 토큰당 가격 인상을 상쇄한다”고 주장했습니다. 실제로 Codex에서 같은 작업을 수행할 때 GPT-5.4보다 적은 토큰으로 완료하며, 특히 짧은 프롬프트와 타이트한 출력의 경우 실질 비용 차이는 거의 없다는 분석도 있습니다.

Token-for-token, GPT-5.5 costs 2× more than GPT-5.4. But OpenAI argues that 40% fewer output tokens per task offset the price hike, making the net cost roughly flat for most Codex workflows.

STRATEGY

“슈퍼앱”이라는 거대한 그림

The super app vision — ChatGPT, Codex, and Atlas in one

GPT-5.5는 단순한 모델 업그레이드가 아닙니다. OpenAI가 구상하는 슈퍼앱(Super App) 전략의 핵심 엔진입니다. Greg Brockman과 Sam Altman은 ChatGPT, Codex(코딩 에이전트), Atlas(AI 브라우저)를 하나의 통합 데스크톱 앱으로 합치는 비전을 공유해왔습니다.

💬

ChatGPT

대화·분석·추론

➕

👨‍💻

Codex

코딩 에이전트

➕

🌐

Atlas

AI 브라우저

→

🚀

Super App

하나의 에이전트 경험

이 “슈퍼앱” 개념은 사실 OpenAI만의 것이 아닙니다. Elon Musk 역시 X를 슈퍼앱으로 만들겠다고 공언해왔죠. 하지만 OpenAI는 AI 네이티브 슈퍼앱이라는 점에서 차별화됩니다. 이미 ChatGPT 월간 웹 방문과 모바일 세션이 차순위 AI 앱의 6배에 달하고, 총 AI 사용 시간은 나머지 전체 합계의 4배입니다.

현재 월 매출은 20억 달러에 달하며, 엔터프라이즈 매출이 전체의 40% 이상을 차지합니다. OpenAI는 2026년 말까지 엔터프라이즈와 소비자 매출의 비율을 1:1로 맞추겠다는 목표를 세웠습니다.

GPT-5.5 powers OpenAI’s “super app” vision — unifying ChatGPT, Codex, and the Atlas browser agent into a single AI-native workspace, aimed at both consumers and enterprise.

SAFETY

사이버보안 등급: “High” — API가 늦는 이유

Cybersecurity classification and why the API is delayed

이번 출시에서 가장 눈에 띄는 변화 중 하나는 안전 분류입니다. OpenAI는 자체 준비성 프레임워크(Preparedness Framework) 기준으로 GPT-5.5를 생물/화학 및 사이버보안 역량 모두 “High”로 분류했습니다. 이전 GPT-5.2에서 사이버 전용 세이프가드를 처음 도입한 이래, 5.3, 5.4를 거치며 계속 강화해온 결과입니다.

⚠️ “High”이지만 “Critical”은 아닌 이유

Critical 등급은 “인간 개입 없이 모든 심각도의 제로데이(Zero-Day) 취약점을 다수의 강화된 실제 시스템에서 식별·개발할 수 있는” 수준입니다. GPT-5.5는 테스트에서 표준 구성의 강화된 소프트웨어 프로젝트에 대해 치명적 심각도 익스플로잇을 생성하지 못했기 때문에 Critical에는 해당하지 않습니다.

이것이 바로 API 출시가 지연되는 이유입니다. High 등급 모델을 API 규모로 서빙하려면 추가적인 세이프가드가 필요하며, OpenAI는 현재 이 작업을 진행 중입니다. 일반 사용자에게는 사이버 관련 요청에 대해 더 엄격한 분류기가 적용되고, 반복적 오용에 대한 보호 장치도 추가되었습니다.

한편 OpenAI는 검증된 방어적 사이버보안 전문가와 조직을 위한 초대 전용 신뢰 접근(Trusted Access) 파일럿도 운영 중입니다. 접근성과 안전 사이의 균형을 맞추려는 시도입니다.

GPT-5.5 is classified as “High” (but below Critical) in both cybersecurity and bio/chem capabilities under OpenAI’s Preparedness Framework. This classification is why the API launch is delayed — serving a High-classified model at scale requires additional safeguards.

SCIENCE

수학 증명도 해냈다: 램지 수 이야기

A new proof about Ramsey numbers, verified in Lean

벤치마크 밖의 이야기도 있습니다. GPT-5.5의 내부 버전이 커스텀 하네스와 함께 램지 수(Ramsey Number)에 관한 새로운 증명을 발견했습니다. 램지 수는 조합론(Combinatorics)의 핵심 대상으로, “네트워크가 얼마나 커야 특정 패턴이 반드시 나타나는가”를 묻는 문제입니다. 이 분야의 결과는 드물고 기술적으로 난해한데, GPT-5.5가 발견한 증명은 비대각 램지 수(Off-Diagonal Ramsey Number)에 대한 오랜 점근적 사실을 다루며, Lean으로 검증까지 완료되었습니다.

이는 단순히 “시험 잘 보는 AI”를 넘어, 실제 과학 연구에 기여하는 공동 연구자(Co-Scientist)로서의 가능성을 보여주는 사례입니다.

COMPETITION

치열한 3파전: OpenAI vs Anthropic vs Google

The three-way frontier race intensifies

GPT-5.5 출시의 배경에는 치열한 경쟁이 있습니다. 불과 1주일 전인 4월 16일, Anthropic이 Claude Opus 4.7을 공개하며 여러 서드파티 벤치마크에서 1위를 차지했습니다. 그리고 그 전에는 Claude Mythos Preview라는 사이버보안 특화 모델도 발표했죠. Google의 Gemini 3.1 Pro 역시 ARC-AGI-1에서 선두를 달리며 대규모 컨텍스트 가격 경쟁력으로 승부하고 있습니다.

🟢 OpenAI

GPT-5.5

Terminal-Bench 2.0 82.7%
OSWorld-Verified 78.7%
Expert-SWE (20h) 73.1%
컨텍스트 윈도우 1M
슈퍼앱 전략 통합 진행 중

🟠 Anthropic

Claude Opus 4.7

Terminal-Bench 2.0 69.4%
OSWorld-Verified 78.0%
SWE-Bench Verified 87.6%
컨텍스트 윈도우 200K
Claude Code 터미널 에이전트

현재 프론티어 모델 선택은 “어느 회사가 더 좋은가”가 아니라 “어떤 작업에 어떤 모델이 맞는가”로 빠르게 전환되고 있습니다. GPT-5.5는 에이전틱 코딩과 컴퓨터 사용에서 강세, Claude Opus 4.7은 SWE-Bench Pro와 자율 리팩토링에서 강세, Gemini 3.1 Pro는 ARC-AGI와 대규모 컨텍스트 가성비에서 강세를 보이고 있습니다.

🔮 Anthropic도 가만있지 않았다

이번 달에만 Anthropic은 Claude Opus 4.7(4/16), Claude Design — Figma 스타일의 프롬프트-투-프로토타입 도구(4/17), Claude Mythos Preview(사이버보안 특화)를 연달아 출시했습니다. AI 경쟁이 “연간” 단위에서 “주간” 단위로 바뀌고 있다는 말이 과장이 아닙니다.

The frontier model market is now task-shaped, not vendor-shaped. GPT-5.5 leads on agentic coding and computer use; Claude Opus 4.7 on SWE-Bench and autonomous refactoring; Gemini 3.1 Pro on ARC-AGI and large-context cost.

FEEDBACK

현장 반응: 기대와 우려 사이

Early tester reactions — promise and caveats

약 200명의 신뢰된 얼리 액세스 파트너로부터 피드백을 수집한 OpenAI는 긍정적 반응을 강조합니다. 얼리 테스터들은 GPT-5.5가 시스템 아키텍처와 장애 지점을 더 잘 이해하고, 수정이 어디에 필요한지 식별하며, 코드베이스 전체에 걸친 다운스트림 영향까지 예측할 수 있다고 평가했습니다.

“진짜로 특별한 점은 훨씬 적은 가이던스로 훨씬 많은 일을 할 수 있다는 것이다.”

— Greg Brockman, OpenAI 사장

하지만 우려의 목소리도 있습니다. 코드 리뷰 플랫폼 CodeRabbit의 테스트에 따르면, GPT-5.5는 프롬프트가 잘못 구성되었거나 개념이 약한 경우 지시를 지나치게 문자 그대로 따르는 경향이 있었습니다. 경험 많은 협업자라면 멈추고 확인하거나 전제 자체에 의문을 제기했을 상황에서, 모델은 주어진 요청을 그대로 실행하는 모습을 보였습니다.

💬 Hacker News 반응

Codex CLI에 GPT-5.5가 등장한 후 Hacker News에서는 회의적 시각도 나타났습니다. 빠른 출시 주기에 대해 “이 시점에서는 찻잎점이나 보는 게 낫겠다”는 반응이 나올 정도로, 벤치마크만으로는 실제 가치를 판단하기 어렵다는 의견도 적지 않습니다.

OUTLOOK

남은 질문들

What we’re still watching

GPT-5.5는 인상적인 모델이지만, 몇 가지 열린 질문이 남아 있습니다.

첫째, API는 언제? OpenAI는 “very soon”이라고만 했습니다. High 등급 사이버보안 분류 때문에 추가 안전 작업이 필요한데, 구체적 일정은 아직 없습니다. API 기반으로 프로덕트를 구축하는 팀들에게는 불확실성이 남아 있습니다.

둘째, 토큰 효율성의 실체는? OpenAI의 “동일 작업에 더 적은 토큰” 주장은 Codex 워크플로우 기준입니다. 범용 API 사용에서도 동일한 효율성 이점이 적용되는지는 더 많은 실사용 데이터가 나와야 검증 가능합니다.

셋째, GPT-6는? Manifold Markets의 예측 시장에 따르면 GPT-6는 2026년 중 출시 가능성이 점쳐지고 있습니다. Sam Altman은 GPT-4→5 간격(28개월)보다 짧을 것이라 시사한 바 있습니다. 현재의 “거의 매달 새 모델” 패턴이 어디까지 지속될 수 있을지도 관전 포인트입니다.

넷째, “슈퍼앱”은 진짜 되나? ChatGPT + Codex + Atlas 통합은 매력적인 비전이지만, WeChat이나 KakaoTalk처럼 이질적인 기능을 하나의 앱에 녹여내는 것이 AI 맥락에서도 통할지는 미지수입니다.

Key open questions: API launch timing, real-world token efficiency beyond Codex, the GPT-6 timeline, and whether the super app vision will translate into a coherent product experience.

WRAP-UP

6주마다 바뀌는 세계

A world that changes every six weeks

GPT-5.5의 출시가 말해주는 가장 중요한 메시지는 모델 자체의 성능이 아닐 수 있습니다. 프론티어 AI의 릴리즈 주기가 소프트웨어 패치 수준으로 단축되었다는 사실 자체가 가장 큰 뉴스입니다. 6주 전에 최신이었던 모델이 이미 이전 세대가 되었습니다.

이 속도는 AI 위에 제품을 쌓는 모든 팀에게 도전이자 기회입니다. 어떤 모델을 선택하느냐보다, 모델이 바뀌어도 흔들리지 않는 아키텍처를 갖추고 있느냐가 더 중요한 시대가 되고 있습니다.

다음 6주 뒤에는 또 무엇이 나올까요?

GPT-5.5, 6주 만에 또 나왔다 | GPT-5.5, Another Drop in Just 6 Weeks