생성형 AI 추론 및 학습 가속 인프라 전문 기업 프렌들리AI(대표 전병곤)이 생성 AI 추론 및 학습 플랫폼 ‘프렌들리 스위트(Friendli Suite)’의 서비스 영역을 확장한다고 밝혔다.
2024년 프렌들리 대규모 클라우드 기반 추론 서비스, 파인튜닝 출시를 시작으로, 2025년에는 기존 서비스 영역을 넘어 AI 에이전트를 만들고 운영하는 서비스를 출시할 계획이다.
전병곤 프렌들리AI 대표는 “2024년에는 라마, 큐원과 같은 오픈소스 모델을 맞춤화하고 비용 효율적인 가속 추론이 가능한 생성형 AI 인프라에 집중했다. 전반적으로 생성형 AI 서비스 시장이 스케일링 하고 있다.
2024년 초기 작은 규모의 서비스를 운영하던 고객들이 2025년 초에는 매우 큰 규모의 서비스를 프렌들리AI를 통해 제공하고 있어서 기쁘다”며 “2025년은 북미를 중심으로AI가 자체적으로 판단하고 실행하는 AI 에이전트 워크플로우가 메인 스트림으로 들어올 것으로 생각하고 이에 따라 AI 에이전트 지원에도 힘쓰고 있다”고 설명했다.
2021년 서울대학교 교원 창업 기업으로 설립된 프렌들리AI는 세계 최고 인재들과 함께 생성형 AI 추론 가속화 기술을 개발해왔다.
특히, 프렌들리AI의 AI 모델 추론 솔루션인 Friendli Inference는 Artificial Analysis벤치마크에서 GPU 기반 모델 API 제공사 중 최고 속도와 높은 모델 품질을 기록했고, 한 달에 조단위의 토큰을 처리하는 고객 서비스에서도 안정적인 성능을 입증했다.
생성형 AI 서비스는 비싼 GPU 자원을 많이 필요로 하고 또한 트래픽 변동에 따라 성능을 만족하며 운영을 최적화하는 것이 더 어려운데, 프렌들리AI는 타사 대비 최대 10배의 응답 속도 향상과 최대 90%에 달하는 GPU 비용 절감 효과를 통해 국내외 다양한 고객사의 성공적인 서비스 운영을 지원하고 있다.
프렌들리AI는 자체 개발한 글로벌 인프라 서비스를 바탕으로 자동으로 생성형 AI 배포·운영·학습을 지원하는 ‘프렌들리 데디케이트 엔드포인트(Friendli Dedicated Endpoints)’를 지원한다. 프렌들리 데디케이트 엔드포인트는 Friendli Inference 엔진에 기반하여 고객의 모델을 가속화 하여 서비스하고, 변동 트래픽 대응 자동화, 매우 높은 가용성, 매우 낮은 처리 시간으로 고객의 생성형 AI를 효율적으로 지원한다. 고객은 처리한 만큼 비용을 지불하는 방식과 안정적으로 자원을 예약해서 사용하는 방식으로 해당 서비스를 사용할 수 있다. 또한 프렌들리AI는 고객의 정보 및 보안 준수 요건 때문에 자체 환경에서 운영해야 하는 고객을 위해 도커 컨테이너 형태로 Friendli Inference 엔진을 쓸 수 있는 ‘프렌들리 컨테이너(Friendli Container)’도 제공한다.
프렌들리AI의 뛰어난 기술력과 안정적인 서비스는 북미와 국내 시장에서 헬스케어, 통신, 가전, 글쓰기, 소셜, 영상 등 다양한 산업 분야에서 고객사의 혁신을 도와 주고 있다. 실제로 국내 기업 중 통신사 점유율 1위 SKT의 AI 서비스, 국내 10대 이용자 모바일 앱 사용량 10위의 ‘제타’ 등의 서비스, LG AI 연구원의 EXAONE 3.5, 업스테이지의 솔라 프로 등의 AI 모델이 프렌들리AI와의 협력을 통해 응답 속도 향상, 운영 비용 최적화, 운영 자동화 등의 성과를 거두고 있다.
프렌들리AI는 올해 AI 에이전트 서비스로 제품을 지속적으로 확장하고 있다. 지난해 10월에는 고객 데이터셋을 활용해 오픈소스 모델을 학습할 수 있는 서비스인 프렌들리 파인튜닝(Friendli Fine-Tuning)을 정식 출시했으며, 현재 검색, 외부 API 호출 등 에이전트를 만들기 위해 필수적인 툴 사용 (또는 함수 호출)을 제공하고 있다.
프렌들리의 작은 모델에서의 툴 사용이 다른 API 제공사에서 큰 모델로 툴 사용을 하는 것보다 더 잘 되는 것으로 알려져 있다. 또한, 다양한 고객의 요구를 충족하기 위해 거대언어모델(LLM)뿐만 아니라 비전언어모델(VLM), 이미지 생성 모델 등으로 지원 범위를 확장했고 앞으로도 모델 지원 범위를 계속 넓혀 나가려고 한다.
또한 2025년 상반기에 고객의 클라우드 GPU 환경에서 프렌들리 데디케이트 엔드포인트를 구동할 수 있도록 지원하는 BYOC(Bring Your Own Cloud) 서비스를 공개할 계획이다.
전병곤 대표는 “생성형 AI 개발 및 운영에 있어 추론 가속화와 효율적인 인프라 관리는 필수적인 요소이지만, 서비스의 품질과 속도를 동시에 해결하는 솔루션은 매우 드물다”라며, “프렌들리AI는 세계 최고 기술력을 바탕으로, 고객의 핵심적인 어려움을 해결하고 차별화된 가치를 제공해 AI 혁신을 가속화하는 데 기여할 것”이라고 강조했다.
댓글 0