2026年3月4日 (周三)
Google이 Gemini 3.1 Flash-Lite를 공개하며 $0.25/1M 입력 토큰 가격과 2.5x TTFA(첫 토큰 응답 시간) 개선을 내세워 ‘고성능 저비용’ 경쟁을 다시 끌어올렸습니다. OpenAI는 GPT‑5.3 Instant에서 환각을 최대 26.8% 낮추고 과도한 거부·도덕적 설교 톤을 줄이겠다고 밝혔고, Anthropic은 Claude Code에 음성 명령(/voice) 모드를 5% 사용자부터 롤아웃하며 코딩 어시스턴트 UX를 바꾸는 움직임을 보였습니다.
Google이 Gemini 3.1 Flash-Lite를 공개하며 $0.25/1M 입력 토큰 가격과 2.5x TTFA(첫 토큰 응답 시간) 개선을 내세워 ‘고성능 저비용’ 경쟁을 다시 끌어올렸습니다. OpenAI는 GPT‑5.3 Instant에서 환각을 최대 26.8% 낮추고 과도한 거부·도덕적 설교 톤을 줄이겠다고 밝혔고, Anthropic은 Claude Code에 음성 명령(/voice) 모드를 5% 사용자부터 롤아웃하며 코딩 어시스턴트 UX를 바꾸는 움직임을 보였습니다.
Google Gemini 3.1 Flash-Lite 공개 — $0.25/1M 입력 토큰, Elo 1432·GPQA 86.9%
Google이 Gemini 3.1 Flash-Lite를 Gemini API(AI Studio)와 Vertex AI에 ‘preview’로 출시했습니다. 가격은 입력 $0.25/1M 토큰, 출력 $1.50/1M 토큰이며, 2.5 Flash 대비 TTFA가 2.5배 빨라지고 출력 속도는 45% 증가했다고 밝혔습니다. Arena.ai Leaderboard Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8%를 제시했습니다.
대규모 트래픽(번역·모더레이션·UI 생성)에서 비용/지연시간이 곧 제품 경쟁력이 되면서, 모델 선택 기준이 ‘최고 성능’에서 ‘단가·지연·안정성’으로 더 빠르게 이동하고 있습니다. Flash-Lite의 공격적 가격은 고빈도 워크로드를 운영하는 SaaS/플랫폼의 마진 구조와 API 생태계의 가격 하한선을 재설정할 수 있습니다.
- 01 가격: 입력 $0.25/1M, 출력 $1.50/1M 토큰 — 고빈도 워크로드 겨냥
- 02 속도: 2.5 Flash 대비 TTFA 2.5x 개선, 출력 속도 +45%
- 03 품질 지표: Arena.ai Elo 1432, GPQA Diamond 86.9%, MMMU Pro 76.8%
- 04 배포: Gemini API(AI Studio) + Vertex AI preview — 개발자/엔터프라이즈 동시 공략
AI 서비스 운영자: 대량 번역·분류·모더레이션에 Flash-Lite PoC — 토큰 단가/지연시간 KPI로 벤더 비교
개발자: ‘thinking levels’ 설정을 태스크별로 분리 — 고빈도는 낮게, 복잡 태스크는 높게
B2B 제품팀: 온디바이스/클라우드 하이브리드 설계 시 ‘클라우드 비용 상한’ 재산정
리스크: preview 모델의 스펙 변동·쿼터/요금 정책 변화 — 프로덕션 롤아웃 전 SLO·fallback 준비
OpenAI GPT‑5.3 Instant 업데이트 — 웹 사용 시 환각 26.8%↓, 6/3에 GPT‑5.2 은퇴
OpenAI가 ChatGPT의 ‘가장 많이 쓰이는 모델’인 GPT‑5.3 Instant 업데이트를 공개했습니다. 웹을 사용할 때 환각(hallucination)률이 26.8%, 내부 지식만 사용할 때 19.7% 감소했다고 밝혔고, 사용자 피드백 기반 평가에서도 웹 사용 시 22.5%, 비웹 9.6% 감소를 제시했습니다. GPT‑5.2 Instant는 유료 사용자의 Legacy Models에서 3개월 제공 후 2026년 6월 3일 은퇴 예정이며, API에서는 ‘gpt-5.3-chat-latest’로 제공된다고 했습니다.
‘벤치마크 점수’보다 사용자가 체감하는 거부·톤·웹 컨텍스트 품질이 경쟁 요소로 부상하고 있습니다. 환각 감소 수치를 전면에 내세운 업데이트는, LLM을 업무(의료·법·금융) 영역에 넣으려는 팀에게 ‘오류 비용’을 낮추는 방향의 신호이며, 모델 교체 주기(레거시 3개월)도 더 짧아지고 있음을 보여줍니다.
- 01 환각 감소: 웹 사용 시 -26.8%, 비웹 -19.7% (내부 평가)
- 02 사용자 플래그 기반 평가: 웹 -22.5%, 비웹 -9.6%
- 03 정책/톤: 불필요한 거부 감소, 과도한 도덕적 프리앰블 축소
- 04 로드맵: GPT‑5.2 Instant는 2026-06-03 은퇴, API ‘gpt-5.3-chat-latest’ 제공
프로덕트 오너: 모델 업데이트 주기(3개월) 기준으로 ‘회귀 테스트’ 자동화 파이프라인 구축
개발자: 웹 기반 답변 품질이 중요한 기능은 ‘근거 링크 + 요약’ 템플릿으로 환각 리스크 완화
리스크/컴플라이언스: 고위험 도메인은 업데이트마다 안전성·정확도 재검증 — 버전 고정 옵션 검토
운영: 거부/안전 필터 변화에 따른 UX 변동을 모니터링 — 민감 주제 CS 대응 가이드 준비
Anthropic Claude Code ‘Voice Mode’ 롤아웃 — /voice, 5% 사용자부터… 런레이트 $2.5B 언급
TechCrunch에 따르면 Anthropic이 Claude Code에 음성 명령 기반 Voice Mode를 도입했습니다. /voice로 토글한 뒤 ‘refactor the authentication middleware’ 같은 음성 지시를 내리는 방식이며, 발표 시점에 약 5% 사용자에게 먼저 제공되고 수주 내 확대 예정이라고 전했습니다. 기사에는 Claude Code의 런레이트 매출이 $2.5B를 넘었고 2026년 초 대비 2배 이상 성장했다는 Anthropic의 2월 언급도 포함됐습니다.
코딩 어시스턴트 경쟁은 ‘모델’뿐 아니라 입력 방식(키보드→음성)과 워크플로우 통합에서 차별화가 나고 있습니다. 음성은 IDE 안팎(이동 중, 페어 프로그래밍, 리뷰)에서 ‘핸즈프리’ 작업을 가능하게 해 사용 시간을 늘릴 수 있지만, 프라이버시·오작동·명령 주입 같은 안전 이슈도 함께 커집니다.
- 01 롤아웃: 초기 약 5% 사용자 대상, 수주 내 확대 계획
- 02 사용 방법: /voice 토글 후 음성으로 코딩 작업 지시
- 03 비즈니스 지표(기사 인용): Claude Code 런레이트 매출 $2.5B+
- 04 성장: 2026년 초 대비 ‘더블링’ 및 WAU 증가 언급(기사 인용)
개발팀 리드: 코드베이스 ‘음성 지시’ PoC — 리팩터링/테스트 생성 등 반복 작업에서 생산성 측정
보안 담당: 음성 명령 기반 실행에서 권한/확인 단계 추가 — 위험 명령은 ‘재확인 프롬프트’ 필수
개발자: 이동 중 설계·리뷰 질문을 음성으로 던지고, 실제 적용은 PR 단위로 검증
리스크: 오디오 로그/전송 정책과 데이터 보관 기간 확인 — 민감 코드/키워드 차단 규칙 설정
ChatGPT ‘cringe’ 톤을 줄인 GPT‑5.3 Instant 발표
TechCrunch가 GPT‑5.3 Instant 업데이트의 핵심을 ‘불필요한 거부 감소’와 ‘대화 흐름 개선’으로 정리했습니다. 사용자 피드백 기반 톤 조정이 제품 경쟁력으로 부상하고 있습니다.
Google Pixel March 업데이트 — Gemini가 장보기·호출 등 ‘작업 수행’ 확대
The Verge는 Pixel 업데이트로 Gemini가 주문·예약 같은 에이전트형 작업을 수행하도록 확장된 점을 조명했습니다. 모바일 OS 레벨에서 ‘행동 가능한 AI’ 경쟁이 본격화되고 있습니다.
GPT‑5.3 Instant System Card 공개
OpenAI가 GPT‑5.3 Instant의 안전성·평가 내용을 system card로 공개했습니다. 제품 업데이트와 함께 문서 기반 투명성을 강화하는 흐름입니다.
EmCoop — embodied LLM agent 협력 프레임워크/벤치마크(arXiv)
다중 embodied agent가 동적 환경에서 협력하는 과정을 분석하기 위한 프레임워크와 벤치마크를 제안합니다. 로보틱스·물리적 AI에서 ‘협력’이 핵심 과제로 부상하고 있습니다.
DeepResearch-9K — 딥리서치 에이전트용 대규모 데이터셋(arXiv)
웹 탐색·검색·질문응답을 수행하는 딥리서치 에이전트를 위한 9K 규모의 도전적 데이터셋을 제안합니다. 에이전트 학습/평가의 ‘현실 난도’ 반영이 목적입니다.