Insights

AI 메시지 검색 한계와 성능: Rocket.Chat 1.2M 데이터 테스트 분석

May 12, 2026

min Read

대규모 조직에서 메시징 플랫폼은 단순한 커뮤니케이션 도구를 넘어, 운영과 의사결정을 지탱하는 핵심 인프라로 기능합니다. 그러나 데이터가 축적될수록 정보는 계속 쌓이지만, 실제로 필요한 순간에 정확하게 찾아내는 일은 점점 더 어려워집니다.

특히 수십만, 수백만 건 이상의 메시지가 누적된 환경에서는 동일한 이슈에 대한 논의가 여러 채널과 시점에 분산되어 존재하게 되며, 이로 인해 중요한 맥락이 단절되거나 의사결정에 필요한 정보가 누락되는 상황이 발생합니다.

이러한 문제를 해결하기 위해 Rocket.Chat은 의미 기반 AI 검색인 Intelligent Search를 제시하고 있으며, 실제 운영 환경에 가까운 조건에서 약 120만 건의 메시지를 기반으로 성능을 검증하였습니다.

이번 블로그에서는 대규모 메시지 환경에서 AI 검색이 어떻게 동작하는지, 그리고 스케일 확장에 따라 어떤 성능 변화가 발생하는지를 중심으로 살펴봅니다.

Intelligent Search: 키워드 검색의 한계와 의미 기반 검색 구조

전통적인 키워드 기반 검색은 사용자가 이미 무엇을 찾고 있는지 명확히 알고 있을 때 효과적으로 작동합니다. 입력한 단어와 일치하는 결과를 찾는 방식이기 때문에, 표현이 조금만 달라져도 원하는 정보를 찾지 못하는 경우가 발생합니다.

예를 들어 VPN outage라는 키워드를 입력했을 때, 실제 대화에서처럼 “터널이 끊겼다”와 같이 표현되었다면 검색 결과에 나타나지 않습니다. 자연어 기반 커뮤니케이션 환경에서는 동일한 의미가 다양한 표현으로 나타나기 때문에, 단순 문자열 매칭 방식은 구조적인 한계를 가질 수밖에 없습니다.

이러한 문제를 해결하기 위해 Rocket.Chat은 의미 기반 AI 검색인 Intelligent Search를 제시합니다. 해당 방식은 키워드가 아니라 사용자의 의도와 맥락을 중심으로 관련 정보를 탐색하는 구조를 기반으로 합니다.

이 과정은 다음과 같은 방식으로 동작합니다

① 벡터 임베딩

모든 메시지는 수치화된 벡터 형태로 변환되며, 의미적으로 유사한 콘텐츠는 벡터 공간상에서 서로 가까운 위치에 배치됩니다. 표현 방식이 다르더라도 동일한 의미를 가진 메시지들을 연결할 수 있습니다.

② 의도 매칭

서로 다른 문장 구조를 가지더라도 동일한 상황을 설명하는 메시지들은 유사한 위치에 매핑되며, 사용자의 자연어 질의에 대해 의미적으로 일치하는 결과를 반환합니다.

③ Retrieval 기반 구조

스케일 확장이 가져오는 과제

검색 성능은 단순히 알고리즘의 정교함만으로 결정되지 않습니다. 데이터 규모가 증가할수록 검색 공간이 확장되며, 유사한 후보가 많아지는 구조적 문제가 발생합니다.

이를 검증하기 위해 Rocket.Chat은 1,198,202개의 메시지로 구성된 대규모 데이터셋을 기반으로 벤치마크를 수행하였습니다. 해당 데이터는 실제 메시지 환경과 유사한 비정형 대화 데이터를 포함하고 있으며, 다양한 도메인을 아우르는 현실적인 테스트 조건을 반영하고 있습니다.

또한 1,395건의 질의를 기반으로 검색 품질을 평가하였으며, 재현 가능한 형태로 데이터셋을 공개하여 검증의 투명성을 확보하였습니다. 모델은 경량 임베딩 모델을 사용하여 과도한 성능 최적화보다는 실제 환경에서의 기준선을 측정하는 데 중점을 두었습니다.

1.2M 메시지 환경에서의 성능

대규모 환경에서도 시스템의 운영 안정성은 일관되게 유지되었습니다.

응답 시간은 95 Percentile 기준으로 낮은 밀리초 수준을 유지하였으며, 장애 또한 거의 발생하지 않는 수준으로 관리되었습니다. 또한 트래픽이 급증하는 상황에서도 배치 처리와 백프레셔 메커니즘을 통해 성능 저하 없이 안정적으로 대응하는 모습을 보였습니다.

이러한 결과는 단순한 검색 정확도 이상의 의미를 가집니다. 메시징 플랫폼은 조직의 핵심 커뮤니케이션 인프라이기 때문에, 새로운 기능 도입이 시스템 안정성에 영향을 미치지 않는 것이 매우 중요합니다.

검색 품질 측면에서는 데이터 규모에 따른 변화가 확인되었습니다.

약 38만 개 문서 환경에서는 MRR 0.72 수준으로, 대부분의 경우 관련 결과가 상위에 노출되는 성능을 보였습니다. 반면 약 120만 개 문서 환경에서는 MRR이 0.56 수준으로 감소하였으며, 정답을 찾지 못하는 문제가 아니라 결과의 우선순위가 일부 낮아지는 형태로 나타났습니다.

데이터 규모가 증가할수록 더 많은 후보가 경쟁하게 되는 구조를 고려하면, 이러한 변화는 자연스러운 결과로 해석할 수 있습니다.

핵심 시사점

이번 결과에서 주목할 수 있는 시사점은 다음과 같습니다.

첫째, 데이터 기반 검증의 중요성입니다.
AI 기능은 제한된 데모 환경이 아닌 실제 규모의 데이터에서 검증되어야 합니다. 특히 엔터프라이즈 환경에서는 재현 가능한 벤치마크와 투명한 결과 공개가 중요한 평가 기준이 됩니다.

둘째, 운영 안정성의 확보입니다.
검색 정확도뿐 아니라 시스템 전반의 성능과 안정성을 유지하는 것이 필수적입니다. 낮은 지연 시간과 안정적인 에러율은 실제 서비스 적용 가능성을 판단하는 핵심 요소입니다.

셋째, 지속적인 개선 가능성입니다.
이번 결과는 최종 성과가 아니라 기준선에 해당합니다. 향후 더 고도화된 임베딩 모델, 하이브리드 검색 구조, 리랭킹 기법 등을 통해 성능 개선이 이루어질 수 있으며, 이를 평가할 수 있는 기반이 마련되었다는 점에서 의미가 있습니다.

마무리

대규모 메시지 환경에서의 검색 문제는 단순 기능 개선만으로 해결되지 않습니다. 의미 기반 검색, 대용량 데이터 처리, 그리고 시스템 안정성까지 종합적으로 고려된 접근이 필요합니다.

Rocket.Chat의 이번 실험은 AI 기반 검색이 실제 운영 환경에서 어떻게 동작하는지를 구체적인 수치로 보여준 사례입니다. 특히 백만 건 이상의 데이터 환경에서도 안정성을 유지하면서 의미 기반 검색을 수행했다는 점에서, 향후 엔터프라이즈 메시징 플랫폼의 기술적 방향성을 가늠할 수 있는 중요한 기준으로 볼 수 있습니다.