- 맞춤형 LLM을 사용하면 비용을 절감하고, 민감한 데이터를 보호하며, 특정 작업에 대한 성능을 높일 수 있어 비즈니스에 최적화된 전략적 도구가 됩니다.
- LLM의 크기는 품질과 비용 모두에 영향을 주므로, GPT-4와 같은 대형 모델을 쓸지, 더 작고 빠른 모델을 쓸지 결정하기 전에 응답 속도, 정확성, 예산을 균형 있게 고려해야 합니다.
- RAG, 파인튜닝, n-샷 러닝, 프롬프트 엔지니어링과 같은 기술은 LLM의 동작을 맞춤화하는 데 필수적인 도구이며, 각각 비용, 복잡성, 유지관리 측면에서 장단점이 있습니다.
LLM은 AI 솔루션 구축 방식을 변화시키고 있습니다. 더 새롭고 뛰어난 기성 모델들이 계속 출시되고 있습니다.
많이 받는 질문 중 하나는, 왜 기성 솔루션 대신 맞춤형 LLM을 선택해야 하느냐는 것입니다.
AI 에이전트나 AI 챗봇을 구축하는 등 AI 프로젝트를 진행 중이라면, 맞춤형 대형 언어 모델(LLM) 사용을 고려할 수 있습니다.
LLM 에이전트에 맞춤형 LLM을 사용하는 데에는 여러 이유가 있으며, 선택할 수 있는 옵션도 다양합니다. 이 글에서는 AI 프로젝트에서 LLM을 맞춤화하는 다양한 방법을 안내합니다.
맞춤형 LLM을 사용하는 이유는 무엇인가요?
맞춤형 LLM을 사용하는 데에는 여러 가지 이유가 있습니다:
- 비즈니스에 중요한 특정 작업에 집중해 비용을 줄이거나, 지연 시간을 최소화하고 싶을 때
- 모든 데이터를 비공개로 유지하거나, 회사 내부의 LLM을 사용하고 싶을 때
- 특정 작업에 대한 답변 품질을 높이고 싶을 때
이유가 무엇이든, LLM을 맞춤화하면 정확성, 속도, 비용을 비즈니스 요구에 맞게 최적화할 수 있습니다.
LLM 선택하기
LLM은 AI 프로젝트에 영향을 주는 두 가지 특성이 있습니다: 크기(파라미터 수)와 응답 품질입니다.
파라미터는 뇌의 뉴런과 비슷하다고 생각할 수 있습니다. 뇌가 크면 똑똑할 가능성이 높지만, 항상 그런 것은 아닙니다. 그리고 뇌의 일부는 시각처럼 특정 작업에 최적화될 수 있습니다.
AI 프로젝트에서는 크기가 보통 응답 속도에 영향을 주고, 비용에도 큰 영향을 미칩니다. 지연 시간이 짧아야 하는 프로젝트는 보통 더 작은 모델을 사용하지만, 그만큼 응답 품질이 떨어질 수 있습니다.
모델을 선택할 때 고려할 점
모델을 선택할 때 답해야 할 좋은 질문 목록입니다:
- 클라우드 기반 LLM을 사용할 수 있나요, 아니면 직접 호스팅해야 하나요?
- 응답 속도가 얼마나 빨라야 하나요?
- 응답의 정확도가 어느 정도여야 하나요?
- 내 프로젝트가 얼마나 많은 비용을 절감하거나 수익을 창출할 수 있을까요? 그렇다면, 어느 정도 가격 이하로 책정되어야 할까요?
- 응답의 길이는 얼마나 되어야 하는가?
일반적으로, 강력한 모델의 속도를 높이거나 비용을 줄이기는 어렵고, 덜 정확한 모델의 품질을 높이기는 더 쉽습니다.
하지만 강력한 모델로 시작하면 바로 사용할 수 있고, 프로젝트 요구를 충족한다면 추가적인 엔지니어링이 덜 필요하며(유지관리도 더 쉽습니다), 빠르게 시작할 수 있습니다.
RAG, 파인튜닝, N-샷 러닝, 프롬프트 엔지니어링 중 선택하기
LLM 응답 품질을 높이는 다섯 가지 일반적인 개념이 있습니다:
- 사전 학습된 모델에서 시작하기
- RAG
- 파인튜닝
- N-샷 프롬프트
- 프롬프트 엔지니어링
이들은 맞춤형 모델에만 해당되는 것은 아니지만, 서로 보완적으로 작동하므로 항상 고려해야 합니다.
모델에서 시작하기
가장 먼저 해야 할 일은 시작할 모델을 고르는 것입니다. 다양한 모델을 비교하는 리더보드가 온라인에 많이 있습니다.
예를 들어:
- Hugging Face는 오픈소스 모델 리더보드를 운영합니다.
- Vellum은 더 인기 있는 모델용 리더보드를 제공합니다.
회사에 자체 모델이 있다면 예산과 데이터 보호를 위해 사용하는 것이 좋습니다. 직접 모델을 호스팅해야 한다면 오픈소스 모델을 고려해보세요.

파인튜닝
파인튜닝은 모델에 예시를 제공해 특정 작업을 잘 수행하도록 학습시키는 과정입니다. 예를 들어, 제품에 대해 잘 설명하도록 하고 싶다면, 회사의 우수한 영업 통화 예시를 여러 개 제공할 수 있습니다.
모델이 오픈소스라면, 팀이 파인튜닝을 할 충분한 엔지니어링 역량이 있는지 자문해보세요.
모델이 클로즈드 소스이고 서비스 형태(GPT-4, Claude 등)라면, 보통 엔지니어가 API를 통해 맞춤형 모델을 파인튜닝할 수 있습니다. 이 경우 비용이 크게 증가하지만, 유지관리는 거의 필요하지 않습니다.
하지만 많은 경우, 파인튜닝이 모델 최적화의 첫 단계는 아닙니다.
파인튜닝이 적합한 예시는 정적인 지식에 대한 지식 챗봇을 만드는 경우입니다. 질문과 답변 예시를 제공하면, 나중에 별도의 검색 없이 답변할 수 있습니다. 하지만 실시간 정보에는 실용적이지 않습니다.
검색 기반 생성(Retrieval-augmented generation)
RAG는 우리가 ChatGPT에서 흔히 하는, 텍스트를 붙여넣고 질문하는 방식에 붙인 멋진 이름입니다.
예를 들어, 특정 상품이 이커머스 사이트에 재고가 있는지 묻고, 챗봇이 제품 카탈로그에서 정보를 찾아 답변하는 경우(인터넷 전체가 아닌)입니다.
개발 속도와 실시간 정보 제공 측면에서 RAG는 필수입니다.
RAG가 모델 선택에 직접적인 영향을 주는 경우는 드물지만, 정보를 조회하고 답변하는 LLM API 엔드포인트를 만들어 별도의 LLM처럼 사용할 수도 있습니다.
지식 기반 챗봇에 RAG를 사용하면, 모델을 파인튜닝하고 최신 상태로 유지할 필요가 없어 관리가 더 쉽고, 비용도 줄일 수 있습니다.
N-샷 러닝
응답 품질을 빠르게 개선하는 가장 쉬운 방법은 한 번의 LLM API 호출에 예시를 제공하는 것입니다.
예시 없이(제로샷) 답변을 요청하는 것이 우리가 ChatGPT를 주로 사용하는 방식입니다. 예시 하나(원샷)만 추가해도 응답 품질이 크게 향상되는 경우가 많습니다.
예시가 두 개 이상이면 n-샷이라고 합니다. n-샷은 파인튜닝과 달리 모델 자체를 바꾸지 않습니다. 질문할 때마다 예시를 함께 제공하는 방식입니다.
하지만 이 전략은 과도하게 사용할 수 없습니다. LLM에는 최대 컨텍스트 크기가 있고, 메시지 크기에 따라 요금이 부과됩니다. 파인튜닝을 하면 n-샷 예시가 필요 없어질 수 있지만, 더 많은 시간이 필요합니다.
기타 프롬프트 엔지니어링 기법
Chain-of-thought처럼, 답을 내기 전에 모델이 생각 과정을 드러내도록 하는 프롬프트 엔지니어링 기법도 있습니다.
이런 방식은 답변의 품질을 높이지만, 답변 길이와 비용, 속도 측면에서 단점이 있습니다.
추천 방법
프로젝트마다 요구사항이 다르지만, 효과적인 접근법을 제안합니다.
속도와 품질의 균형이 좋은 기성 모델(GPT-4o Mini 등)로 시작하는 것이 좋습니다. 응답 품질, 속도, 비용, 컨텍스트 윈도우 요구사항을 확인하고, 개선이 필요한 부분을 결정하세요.
그 다음, 좁은 용도에 맞춰 간단한 프롬프트 엔지니어링을 시도하고, RAG를 적용한 뒤, 마지막으로 파인튜닝을 해보세요. 이 과정을 거치면 모든 모델의 성능이 향상되므로, 어떤 방법을 쓸지 결정하는 것이 쉽지 않을 수 있습니다.
프라이버시 고려사항
이상적으로는 모든 LLM이 100% 직접 통제되고, 외부에 노출되지 않는 것이 가장 좋습니다.
하지만 실제로는 그렇지 않은 경우가 많으며, 그럴 만한 이유도 있습니다.
첫 번째 이유는, 맞춤형 모델을 직접 호스팅하고 유지관리하려면 많은 엔지니어링이 필요하고, 비용도 많이 든다는 점입니다. 호스팅 모델에 장애가 발생하면 비즈니스 지표에 영향을 주므로, 배포 환경이 매우 견고해야 합니다.
또 다른 이유는, OpenAI, Google, Anthropic 등 업계 선두 기업들이 더 새롭고 뛰어나며 저렴한 모델을 계속 출시하고 있어, 파인튜닝 작업이 금방 무의미해질 수 있다는 점입니다. 이는 ChatGPT 3.5 출시 이후 계속된 현상입니다.
만약 매우 민감한 데이터를 다루는 경우라면, 모델을 직접 사용하고 용도에 맞게 최적화하는 것이 타당합니다. GDPR이 중요한 경우, GDPR을 준수하는 기성 모델도 많이 있습니다.
LLM을 선택한 후 구축하기
LLM을 선택했다면, 이제 AI 프로젝트를 어떻게 구축하고 유지할지 고민할 차례입니다. 예시로, 제가 가장 익숙한 프로젝트 유형인 AI 에이전트 또는 AI 챗봇을 들어 설명하겠습니다.
프로젝트 범위를 정하기 위해 다음 질문에 답해볼 수 있습니다:
- 내 AI 에이전트가 어디에서 동작하길 원하는가? (Slack, WhatsApp, 웹사이트 위젯 등)
- 어떤 지식을 갖추어야 하며, 그 지식은 어디에 있는가?
- 지식 답변 외에 어떤 추가 기능이 필요할까?
- 비즈니스 내에서 어떤 일이 발생할 때 자동으로 활성화되어야 하나요?
엔지니어링 부담을 줄여 비용 절감하기
예산을 효율적으로 관리하는 것은 프로젝트 실현에 매우 중요합니다. 그 방법 중 하나는 요구사항을 분리해 엔지니어링 시간을 줄이는 것입니다.
요즘은 Flutterflow, Shopify 같은 로우코드 솔루션을 사용할 수 있어, 제품 관리자 등 비전문가도 활용할 수 있습니다. 챗봇도 예외는 아니며, 일부 AI 자동화 플랫폼에서는 자체 LLM을 사용할 수도 있습니다.
엔지니어에게는 LLM 호스팅과 자동화 플랫폼 설정에 집중하도록 지시할 수 있습니다. 그러면 비즈니스 분석가, 제품 관리자 등은 비즈니스 요구에 맞는 AI 에이전트를 직접 구축할 수 있습니다.
추가 기능이 필요할 때, 이런 플랫폼들은 보통 엔지니어가 코드를 추가할 수 있는 방법을 제공합니다. 이렇게 하면 맞춤형 모델의 장점은 유지하면서도, 유연성, 속도, 비용 효율성을 모두 얻을 수 있습니다.
엔지니어링 팀에 비즈니스 문제를 해결할 자유를 제공하기
반면, 때로는 비즈니스 문제 자체가 매우 해결하기 어려울 수 있습니다.
예를 들어, 완전히 네트워크가 분리된 LLM 애플리케이션, 온디바이스 앱, 또는 챗봇에 단순 데이터 동기화 이상의 고급 기능이 필요한 프로젝트 등이 있습니다.
이런 경우에는 엔지니어가 가장 익숙한 도구를 자유롭게 사용할 수 있도록 하는 것이 합리적입니다. 보통은 직접 코드를 작성하고, 이해관계자들은 프로젝트 관리 역할만 맡게 됩니다.
LLM 맞춤화 전략적 고려사항
AI 프로젝트에 맞춤형 LLM을 선택하는 것은 단순히 최고의 모델을 고르는 것이 아니라, 목표에 맞는 전략적 결정을 내리는 일입니다.
맞춤형 모델은 유연성과 통제력, 특정 작업에 최적화할 수 있는 가능성을 제공하지만, 그만큼 복잡성도 높아집니다. 처음에는 범용 모델을 사용해보고, 프롬프트 엔지니어링을 실험하며 점진적으로 개선해 나가세요.
항상 기억하세요. 올바른 모델은 단순히 기술 스택에 맞는 것이 아니라, 비즈니스 요구에 부합해야 합니다.
강력한 플랫폼으로 맞춤화하기
AI 프로젝트를 한 단계 더 발전시키고 싶으신가요?
Botpress는 완전히 확장 가능하고 유연한 AI 에이전트 플랫폼입니다. 저희 스택을 통해 개발자는 어떤 용도의 챗봇이나 AI 에이전트도 구축할 수 있습니다.
우리는 Botpress Academy라는 교육 플랫폼과, 자세한 YouTube 채널도 운영하고 있습니다. Discord에는 2만 명이 넘는 챗봇 빌더가 있어 언제든 도움을 받을 수 있습니다.
지금 바로 시작하세요. 무료입니다.
자주 묻는 질문
1. 내 비즈니스에 맞춤형 LLM을 도입할 때 투자 대비 효과(ROI)는 어떻게 평가하나요?
맞춤형 LLM 도입의 ROI를 평가하려면, 인프라, 개발 시간, 파인튜닝, 호스팅 등 총 비용을 인건비 절감, 전환율 상승 등 측정 가능한 이익과 비교해야 합니다.
2. 맞춤형 LLM의 효과를 측정하려면 어떤 KPI를 추적해야 하나요?
응답 정확도(정밀도/재현율 또는 작업 완료율), 지연 시간(평균 응답 시간), 사용자 만족도(CSAT/NPS), 자체 해결률, 상호작용당 비용 등의 KPI를 추적해야 합니다. 이 지표들은 모델의 기술적 성능과 비즈니스 성과에 미치는 영향을 보여줍니다.
3. 맞춤형 LLM 솔루션의 장기 유지보수 비용은 어떻게 산정할 수 있나요?
장기 유지보수 비용을 산정할 때는 인프라(클라우드 컴퓨팅, 저장소), 엔지니어링 업데이트, 재학습 또는 파인튜닝 주기, 모니터링 도구, 규제 변화 대응 비용을 포함해야 합니다. 비즈니스 데이터가 빠르게 변한다면, 재학습 및 검증에 더 많은 비용이 들 수 있습니다.
4. 내 산업이나 도메인에 맞는 LLM을 어떻게 벤치마킹할 수 있나요?
대표적이고 도메인 특화된 프롬프트로 여러 LLM을 테스트하고, 정확성, 명확성, 어조, 작업 적합성 측면에서 성능을 비교하세요. 내부 데이터셋을 사용하거나, 금융 분야는 FinancialQA, 의료 분야는 MedQA 등 오픈소스 산업 벤치마크를 활용할 수 있습니다.
5. 사용자 데이터를 다루는 경우, 맞춤형 LLM이 충족해야 할 컴플라이언스 기준은 무엇인가요?
사용자 데이터를 다루는 경우, 맞춤형 LLM은 GDPR(유럽 데이터 보호), SOC 2 Type II(운영 보안), HIPAA(의료 데이터 처리 시) 등 기준을 충족해야 합니다. LLM 제공업체는 역할 기반 접근 제어, 전송 및 저장 시 데이터 암호화, 감사 로그, 데이터 보관 및 삭제 정책 등 기능을 제공해야 합니다.





.webp)
