Windsurf는 소프트웨어 개발 속도를 99% 향상시키는 것을 목표로, 단순한 코드 작성을 넘어 소프트웨어 엔지니어링 전 과정을 지원하는 첫 번째 AI 모델군 ‘SWE-1’을 출시했습니다.
이 모델군은 코드 생성 뿐 아니라 터미널 작업, 외부 지식 접근, 제품 테스트, 사용자 피드백 분석 등 실제 개발자가 수행하는 다양한 작업을 폭넓게 지원하도록 설계되었습니다.
SWE-1 모델군은 다음과 같은 세 가지 모델로 구성됩니다.
SWE-1
Claude 3.5 Sonnet 수준의 도구 호출 능력을 지녔으며, 더 낮은 비용으로 제공됩니다.
SWE-1-lite
Cascade Base를 대체하는 고품질 중형 모델로, 모든 사용자에게 무제한으로 제공됩니다.
SWE-1-mini
빠르고 가벼운 모델로, Windsurf Tab의 자동 제안 기능을 구동합니다.
핵심 기술: Flow-Aware 시스템과 Shared Timeline
SWE-1은 단순한 모델 구조나 하이퍼파라미터 튜닝의 산물이 아닙니다. Windsurf는 자사 에디터의 실사용 데이터를 바탕으로, 사용자와 AI의 상호작용을 시간 흐름에 따라 구조화한 ‘Shared Timeline’이라는 전례 없는 개념을 도입했습니다.
Shared Timeline은 사용자의 작업 이력과 AI 반응을 시간순으로 연결한 정보 흐름 구조로, 다음의 7가지 데이터를 포함합니다.
- 텍스트 에디터 내 코드 편집 기록
- 터미널 출력
- 프런트엔드 컴포넌트 및 오류 정보
- 인식된 터미널 명령
- 클립보드 복사 내용
- Cascade 대화 내용
- IDE 내 사용자 검색 기록
이러한 타임라인을 실시간으로 인식하고 반응하는 능력이 바로 Flow-Aware 기술입니다.
이 기술을 통해 모델이 실수하거나 놓친 작업에 대해 사용자가 개입해 수정하고, 그 상태에서 다시 이어서 작업할 수 있는 자연스럽고 끊김 없는 협업이 가능해집니다.
기존의 AI 코딩 모델들은 단순히 코드 자동 완성이나 작성에 집중되어 있었지만, 실제 개발 업무는 코드 작성 외에도 테스트, 터미널 작업, 지식 탐색, 사용자 피드백 분석 등 여러 복합적인 과정을 포함합니다.
SWE-1은 이러한 현실을 반영하여, 코드 한 줄의 완성도뿐만 아니라 미완성 상태와 다양한 작업의 흐름 전체를 인식·지원할 수 있도록 설계되었습니다.
즉, 소프트웨어 엔지니어링 전체를 아우르는 AI 모델이라는 점에서 기존 모델과 차별화됩니다.
다른 모델과의 비교: SWE-1 성능 평가
1. 대화형 SWE 과제 평가
Windsurf는 SWE-1의 성능을 아래의 4가지 평가 지표를 기준으로 기존 주요 모델들과 비교했습니다.

Cascade 세션 도중 미완성된 작업 상태에서 시작해, 다음 사용자 요청에 대한 반응을 평가합니다.
유용성, 효율성, 정확성, 편집 품질 등을 0~10점 척도로 측정합니다. SWE-1은 대화형 SWE 과제 평가에서 Frontier 모델들과 어깨를 나란히 하며, Mid-sized 모델 중에서는 SWE-1 Lite가 가장 우수한 성능을 보였습니다.
2. 엔드 투 엔드 SWE 과제 평가

엔드 투 엔드 SWE 과제 평가는 대화 시작부터 주어진 문제를 모델이 사용자 개입 없이 얼마나 잘 해결하는지 평가합니다. 유닛 테스트 통과율과 심사자 평가 점수를 기준으로 하며, 점수가 높을수록 사용자가 별도의 피드백이나 수동 개입 없이도 신뢰하고 자동화를 맡길 수 있는 수준임을 뜻합니다. SWE-1은 Claude Sonnet 시리즈와 비슷한 성적을 기록해 자율적 문제 해결 능력을 입증했습니다.
3. 사용자 기여 라인 수

실제 사용자가 SWE-1이 작성한 코드 중 수용하고 저장한 코드 라인의 평균 수를 측정합니다.
이 수치는 모델이 얼마나 실질적으로 도움을 주는지와, 사용자가 반복적으로 모델을 신뢰하고 활용하는지를 보여줍니다.
SWE-1은 하루 평균 기여 라인 수에서 Claude Sonnet 3.7 다음으로 많은 코드를 생산해, 실제 개발 현장에서 높은 활용도와 신뢰도를 입증했습니다.
4. Cascade 기여율 평가

SWE-1이 편집에 참여한 파일에서 최종 반영된 코드 중 얼마나 많은 부분이 모델의 제안에서 비롯되었는지를 측정합니다.
SWE-1이 전체 모델 중 Cascade 기여율이 가장 높아, 실제 개발 현장에서의 영향력이 크다는 점을 입증합니다.
마무리
SWE-1은 Claude, Deepseek, Qwen 등 대표 AI 모델들과 비교해 실제 개발 현장에서의 연속성, 자율성, 기여도 측면에서 업계 선두권에 근접한 성과를 보였습니다.
특히 단순 코드 생성 능력을 넘어, 사용자의 작업 흐름을 깊이 이해하고 능동적으로 협업하는 ‘실전형 AI’라는 점에서 기존 모델과 차별화됩니다.
SWE-1은 이제 막 시작 단계에 있으며, 앞으로도 지속적으로 진화해 나갈 예정입니다. 슬렉슨은 이 변화의 최전선에서 Windsurf의 국내 파트너사로서 SWE 개선 사항에 대한 소식을 계속 전해드리겠습니다.
Referenced from: