AI 최적화(Beta)

AI 최적화(Beta)

AI 적정 스펙 추천 탭

개요 : 최근 AI 사용량이 증가함에 따라 AI 최적화에 대한 니즈가 늘고 있기 때문에, AI 사용량 기반으로 적절한 설정을 추천해주는 기능입니다.

2025-09-22에 신규 오픈 된 기능입니다

  • Azure Open AI 최적화 기능이며, 향후 AWS, GCP AI 기능도 추가될 예정입니다.

1. RightSizing 화면

1.1 전체 화면

image-20250925-045946.png
  1. 탭 요약 정보

    1. Up : 추천에 따른 비용 증가가 있는 자원 수

    2. Down : 추천에 따른 비용 감소가 있는 자원 수

  2. Full Summary

    1. 모든 추천 정보를 요약해서 보여줍니다

  3. 추천 타입 별 요약 정보 카드

    1. 추천 타입 별 절감 금액과 개수를 보여줍니다

    2. 추천 방식

      1. 3-1. 모델 최신화

        1. EOS 또는 Legacy 모델을 최신 GA 버전으로 교체하세요.

        2. 모델에 따라 비용이 증가하거나 절감될 수 있습니다.

      2. 3-2. 버전 최신화

        1. 모델 버전을 최신화 하세요.

        2. LLM이 최신 데이터를 사용할 수 있습니다.

        3. 비용 절감 효과가 있을 수 있습니다.

      3. 3-3. 모델 타입 최적화

        1. Azure 전용으로 추천합니다.

        2. Standard 타입에서 Provisioned 또는 Batch로 전환하세요.

        3. Provisioned

          1. PTU를 사전에 확보하여 사용하세요.

          2. 사용량 기반으로 필요한 PTU 수를 추천합니다.

          3. CloudXper는 1개월 단위 예약 구매 비용으로 계산합니다.

          4. 많은 토큰 사용 시에만 비용 절감 효과가 있습니다.

          5. 측정 기간의 Standard 사용 비용과 Provisioned 사용 비용을 비교하여, Provisioned 사용 비용이 적다면 Provisioned로 추천합니다.

          6. 중요: 사용 패턴과 목적에 맞게 구매하세요.

        4. Batch

          1. 실시간이 아닌 24시간 이내 응답합니다.

          2. Standard 대비 최대 1/2 비용 절감 효과가 있습니다.

          3. 중요: 실시간이 아니므로 사용 패턴과 목적에 맞게 변경하세요.

      4. 3-4. 모델 위치 최적화

        1. Azure 전용으로 추천합니다.

        2. Datazone/Regional에서 Global로 전환하세요.

        3. 최대 1/2까지 비용 절감 가능합니다.

        4. 중요: 요청이 어느 Region으로 전달될지 예측하기 어려우므로 목적과 보안을 고려 후 변경하세요.

      5. 3-5. 캐시 사용 고려

        1. 입력 프롬프트가 캐시에 적중하면 최대 1/2 비용 절감 효과가 있습니다.

        2. CloudXper는 캐시 사용률 20% 가정으로 비용을 계산합니다.

        3. 캐시 적중 가능성이 높게 프롬프트를 튜닝하세요.

      6. 3-6. 정상

        1. 추천 기준에 해당하지 않으면 정상 상태입니다

      7. 3-7. 데이터 없음

        1. 3일 이상 성능 지표 미수집 시 데이터 없음으로 추천합니다.

        2. 14일 이상 요청이 없으면 데이터 없음 - 종료(Termination)로 추천합니다.

  4. 조회 조건

    1. 추천 타입 별 요약 정보 카드와 동기화 됩니다.

    2. 선택된 추천 타입 만 Search Result에서 조회 됩니다.

  5. Search Result

    1. 전체 자원에 대한 추천 정보를 보여줍니다

    2. 각 자원 별 추천 우선 순위가 1순위인 추천 타입만 보여줍니다

    3. 주요컬럼

      1. 5-1 : Recommendation, Detail, Savings($)

        1. 추천 타입과 추천 상세 내용을 표시합니다

        2. Savings :

          1. 현재 비용과 추천 타입으로 변경했을 때 비용 차이

          2. 비용 계산은 From, To 기간 동안 사용량을 기준으로 계산합니다

      2. 5-2 : Request, Input Token, Output Token

        1. From, To 기간 동안의 사용량을 합산하여 보여줍니다

      3. 5-3 : Cache Match Rate(Avg)

        1. From, To 기간 동안의 캐시 적중률 평균을 보여줍니다

        2. 평균치를 사용했기 때문에 실제 캐시 적중률과 상이할 수 있습니다.

      4. 5-4 : From, To

        1. 사용량을 집계하는 기간입니다.

        2. 최대 3개월

1.2 Optimization Planner 화면 : Row 클릭 시 슬라이드됨

image-20250925-051639.png
  1. 현재 자원 정보

  2. 추천 우선 순위에 따른 추천 타입

    1. 추천 우선순위

      1. 삭제 추천 (14일 이상 리퀘스트 없을 시)

      2. 모델 최신화 

      3. 버전 최신화 

      4. 모델 타입 최적화 (Provisioned 추천) 

      5. 모델 위치 최적화 (Global 추천) 

      6. 캐시 사용 고려 (20%)

      7. 모델 타입 최적화 (Batch 추천) 

      8. 정상