Insights

2025년 AI는 무엇을 남겼는가: 추론, 온디바이스, 에이전트 이후의 과제

December 5, 2025

min Read

핵심 요약 [TL;DR] :

AI 코딩의 생산성은 모델 성능보다 컨텍스트 엔지니어링 전략에 의해 좌우됩니다.
단순 대화형 AI를 넘어, 실제 작업을 수행하는 Agentic 구조가 개발 효율의 핵심입니다.
CodeCenter는 모델·IDE·도구를 통합해 개발 프로세스 전반을 자동화하는 플랫폼입니다.
설계–구현–테스트를 구조화할수록 AI의 추론 오류가 줄며 안정적인 결과물이 확보됩니다.
즉흥적 개발 대비 계획 기반 개발은 시간·토큰·완성도에서 모두 우수한 성과를 보였습니다.
AI는 개발자를 대체하는 것이 아니라, 개발 흐름을 함께 수행하도록 만드는 방식이 생산성을 결정합니다.

2025년은 AI 기술이 여러 방향에서 한꺼번에 진화를 이루며, 다시 한 번 변화의 흐름을 확인하게 만든 해였습니다. 추론 모델의 고도화, 온디바이스 AI의 등장, 그리고 코딩 에이전트의 본격적인 활용이 개발 방식에도 큰 영향을 주기 시작했습니다. 동시에 클라우드 기반 구조의 한계로 인해 보안망 · Air Gap 환경에서는 적용이 어려운 문제도 드러났고, 이를 보완하기 위한 내부망용 AI 도구들이 등장했습니다. 이러한 흐름을 중심으로 올해의 AI 여정을 차근차근 되짚어보려 합니다.

| 추론 모델 경쟁의 심화

1. Open AI의 추론모델

2024년 이후 고도화된 추론 모델(o1 → o3 → o4 → GPT-5)의 등장은 코딩 에이전트의 성능과 활용 방식을 크게 변화시켰습니다. 초기의 자동완성 수준을 넘어 에이전트가 스스로 검토하고 판단하며 코드를 제안할 수 있게 되면서, 개발 과정 전체에 개입할 수 있는 기반이 마련된 것입니다. 특히 reasoning 기반 모델은 단순히 한 줄의 코드를 생성하는 것을 넘어서, 문제를 이해하고 해결 전략을 세운 뒤 코드를 작성하는 방식으로 동작해 개발 생산성 향상에 직접적인 영향을 미쳤습니다.

모델 성능 비교 그래프를 보면 차이를 더 직관적으로 확인할 수 있습니다.

o4는 ‘mini’ 모델임에도 불구하고 o3와 견줄 수준의 성능을 보여주었다는 점이 흥미롭습니다.

AI 경쟁사들 역시 이 흐름을 놓치지 않았습니다.

2. Google의 사고 모드(Gemini)

2025년 3월 26일 2.5 Pro모델 프리뷰 공개와 함께 추가되었습니다. 특징으론 한 번에 100만~200만토큰을 처리할 수 있는 능력을 가지고 있으며, 코딩 및 복잡한 수학 문제 해결에 최적화 되어있습니다. Google은 해당 단계부터 AI가 스스로 계획을 세우고 도구를 사용하는 ‘에이전트’ 기능이 실생활 수준으로 올라왔다고 평가하였습니다.

이 이후부터 Deep Reserch 기능이 활성화됐고, 하나의 연구 소재를 제공하면 웹 서치, Gemini 본 모델 등을 참고하여 보고서 형태로 작성이 가능해졌습니다. 이후 2025년 11월, Gemini 3.0이 출시되어 기존 GPT의 장점이었던 GPT의 추론 능력을 추월하는 기행까지 보였습니다.

이로써 OpenAI의 o 시리즈·GPT-5와 Google Gemini 계열이 나란히 ‘추론형·에이전트형 AI’ 경쟁을 주도하게 되었고, 사용자는 어떤 회사의 모델을 쓰느냐보다 자신의 워크플로에 얼마나 잘 맞추어 쓸 수 있는지를 더 중요하게 바라보게 되었습니다.

3. Perplexity의 연구 기반 모델

Perplexity는 단일 LLM만으로 답변을 생성하는 방식이 아니라, 여러 정보 출처를 검색하고 취합한 뒤 마지막 단계에서 LLM으로 정리하는 ‘답변 엔진’ 방식을 사용합니다.

사용자는 질문의 성격에 따라 ‘연구’ 기능을 켜거나 끌 수 있으며, 연구 기능이 활성화된 경우 Perplexity는 질문을 해석한 뒤 필요한 정보 범위를 스스로 판단하고 여러 단계의 검색 절차를 수행합니다.

이 과정에서 Perplexity는 한 번의 검색으로 끝나는 것이 아니라, 관련성이 있다고 판단되는 방향으로 연쇄적으로 검색을 이어가며 서로 다른 출처의 내용을 비교합니다. 이렇게 모아진 자료는 신뢰도, 최신성, 내용의 일관성 등을 기준으로 정리되고, 마지막으로 LLM이 전체 내용을 구성해 사용자에게 제공합니다.

이 구조 덕분에 Perplexity는 특정 모델의 지식 범위에 묶이지 않고 웹의 최신 정보를 기반으로 답변을 만들 수 있으며, 참고한 출처를 함께 제시해 응답의 근거를 명확히 확인할 수 있다는 특징을 갖습니다..

이처럼 다양한 접근 방식의 코딩 에이전트가 등장하면서, 개발 과정은 단순한 자동화가 아닌 “추론 + 사고 + 실행”이 결합된 협업 구조로 빠르게 재편되고 있습니다. 앞으로의 코딩 에이전트는 명령을 수행하는 도구를 넘어, 설계 단계부터 구현 과정까지 함께 판단하고 제안하는 형태의 역할로 확장될 것으로 예상됩니다.

| 온디바이스 생성형 AI의 등장

삼성전자는 지난해 갤럭시 S24·S25 시리즈에 세계 최초로 온디바이스 생성형 AI인 ‘Galaxy AI’를 탑재했습니다. 이를 통해 스마트폰 하나만으로 코드 생성, 이미지 편집, 실시간 통역 등 다양한 기능을 바로 수행할 수 있는 환경이 마련되었습니다.

이후 삼성은 스마트폰뿐 아니라 자사 전자제품으로도 Galaxy AI 적용 범위를 확대하며 온디바이스 AI 활용도를 넓혀가고 있습니다. 이 흐름 속에서 Google도 픽셀 시리즈에 서버를 거치지 않는 ‘Gemini 2.5 Nano’를 탑재하며 경쟁에 참여했고, 온디바이스 AI는 주요 제조사들이 집중하는 핵심 기술로 자리 잡았습니다.

비교적 늦게 시장에 합류한 Apple은 ‘Apple Intelligence’를 공개하며 생태계 기반의 온디바이스 AI 전략을 강화하고 있습니다. Apple Intelligence는 기본 기능 면에서 Galaxy AI나 Gemini와 크게 다르지 않지만, iPad·Mac 등 다양한 Apple 기기와 연동되어 Apple 생태계를 사용하는 이용자에게는 높은 연속성을 제공합니다. 다만 Apple Intelligence는 아직 일부 기능이 제한적이며, 자체 모델만으로 모든 기능을 구현하기보다는 ChatGPT를 활용해 일부 AI 기능을 제공하는 방식이 병행되고 있습니다.

| 달라지는 개발 문화 – “개발은 AI가, 판단은 사람이”

앞으로는 사람이 직접 코드 전체를 작성하는 비율이 점점 줄어들 것으로 보입니다.
과거에는 Stack Overflow에서 일일이 해답을 찾아가며 개발하던 시절이 있었지만, LLM의 등장은 그 이전과 이후를 명확히 가르는 혁신이었습니다.

2023년에 한국리서치에서 진행된 ‘AI 도입에 대한 대중 인식 조사’에서도

81%가 호기심,
77%가 기대감,
70~80%가 긍정적 평가

라는 결과가 나왔습니다.

3년이 지난 지금은 그 수치가 더 올랐을 가능성이 높습니다. 찬성과 반대 의견의 의미가 흐려질 정도로, AI는 이미 멈출 수 없는 기술 흐름이 되었기 때문입니다.
그러나 중요한 점은 AI가 코드를 작성할 수는 있지만, 무엇을 만들고 왜 만드는지는 반드시 사람이 결정해야 한다는 것입니다.

이 원칙을 잊지 않는다면, AI는 개발자와 기업 모두에게 훨씬 더 도움이 되는 방향으로 발전할 것입니다.

| 코딩 에이전트가 바꾼 개발 생산성

개발자들에게 반복적이고 비생산적인 코드 작업은 오랫동안 부담이었습니다. 그러나 최근 흐름은 단순한 코드를 작성하는 것이 아니라, AI와 코드를 ‘협업’하는 방식으로 변화하고 있습니다. 에이전트 기반 개발 방식이 본격적으로 자리 잡기 시작한 것 입니다.

코딩 에이전트를 기본 모드로 바꾼 조직에서는 Merge된 PR 수가 약 39% 증가하였습니다. PR 병합 수가 늘어난 반면 PR 되돌리기(PR revert) 비율에는 유의미한 변화가 없었고, 버그 수정률은 오히려 약간 감소했습니다. 또한, 평균 수정한 코드의 라인 수나 파일 수 같은 “PR 당 작업량” 지표는 크게 바뀌지 않았습니다. 이 결과는 실제로 “속도↑ + 품질 유지 또는 개선”이 가능했다는 것을 의미합니다.

| 에이전트 사용 행태 — 누가, 어떻게 활용했나

사용자 요청(프롬프트) 중 약 61%는 “코드 구현(implement code)”을 위한 것이었습니다. 흥미로운 점은, 경험 많은 개발자일수록 에이전트가 제안한 코드를 받아들이는 경향이 높았습니다.

경험이 표준편차 단위로 많아질수록, 에이전트 수용율이 경력 연수가 표준편차 1 증가할 때 마다 수락률이 평균 대비 약 6% 증가하였습니다. 또한, 이런 숙련된 개발자일수록 코드를 작성하기 전에 먼저 계획을 세우는 비율이 높았고, 에이전트를 보다 효율적으로 활용했습니다..

즉, 에이전트는 단순 “코드 자동완성 도구”를 넘어, 개발 프로세스의 일부 — 특히 설계·초기 구현 단계에서 효과적으로 기능했다는 뜻입니다..

개발 생산성이 증가됨에 따라 그에 따르는 여러 문제점들도 발생했습니다.
AI 서비스의 대부분이 클라우드 기반으로 제공되면서, 내부망이나 보안망(특히 Air Gap 환경)을 사용하는 기업들은 이를 도입하기 어려운 상황에 놓였습니다. 이러한 환경에서는 외부 네트워크로의 접속이 기본적으로 제한되거나 금지되어 있어, 클라우드 기반 AI 기술을 그대로 활용하는 것이 사실상 불가능합니다.

금융, 국방, 반도체 등 국가 핵심 기술을 다루는 기업은 데이터가 외부로 유출될 가능성을 매우 엄격하게 관리해야 하기 때문에, 클라우드 방식의 코딩 에이전트는 실질적인 선택지가 되지 못했습니다.

| Air Gap 환경을 위한 해답 — CodeCenter

SLEXN에서 개발한 CodeCenter는 내부 서버에서 직접 동작하는 구조로 설계되어, 외부 네트워크와 완전히 분리된 보안망에서도 활용할 수 있다는 점이 가장 큰 특징입니다.

많은 기업들이 보안 정책 때문에 클라우드 기반 AI 서비스를 도입하지 못하는 상황에서, CodeCenter는 내부 환경에서 자체적으로 LLM을 실행할 수 있는 드문 대안으로 기능합니다. 외부 서비스에 접속할 수 없는 Air Gap 환경에서도 기본적인 코드 생성, 간단한 코드 수정, 반복적인 패턴의 코드 작성 등 개발 과정의 일부를 보조하는 역할을 수행할 수 있습니다.

CodeCenter는 외부 클라우드에 의존하지 않고도 일정 수준의 개발 효율성을 확보할 수 있는 도구라는 점에서 충분한 가치를 갖습니다. 조직의 보안 요구사항을 충족하면서도 반복적인 업무 부담을 줄이고, 내부 시스템을 점진적으로 이해하게 함으로써 업무 흐름에 실질적인 도움을 제공합니다.

완벽한 AI 엔진이라기보다는, 제한된 환경에서도 함께 작업할 수 있는 보조 도구에 가깝지만, 바로 그 점이 Air Gap 환경을 가진 기업들에게는 중요한 경쟁력이 됩니다.

| 마무리

2025년 한 해 동안 AI는 추론 모델의 고도화, 온디바이스 AI의 확산, 코딩 에이전트의 실사용 증가 등 뚜렷한 변화를 통해 개발 방식 자체를 다시 정의했습니다. 속도와 효율은 높아졌지만, 모든 조직이 그 혜택을 동일하게 누릴 수 있는 것은 아니었으며, 특히 보안망 · Air Gap 환경에서는 새로운 제약이 드러났습니다. 이 과정에서 내부망 기반의 대안 도구들이 등장하며 기술 격차를 좁히기 위한 움직임도 본격화되었습니다.

결국 중요한 과제는 ‘기술이 어디까지 발전했는가’가 아니라, ‘각 환경에 맞는 방식으로 어떻게 안전하고 책임 있게 활용할 것인가’라는 점입니다. 이러한 흐름을 기반으로, 앞으로의 AI는 단순한 성능 경쟁을 넘어 실질적 활용성과 조직별 적합성을 중심으로 발전해 나갈 것으로 보입니다.