[ChatGPT, Fine-Tuning] 데이터 셋 크기에 따른 Fine-Tuning 비용 추정

기준일2023-11-09
적용모델GPT-3.5-turbo
가격(price)$0.0080 per 1,000 tokens for training
가정(Assume)GPT 모델에서는 대략적으로 1 토큰이 평균 4바이트(약 4 문자) or 0.75 단어
Example 당 평균 500토큰(대략 375단어 또는 약 2,000자에 해당)
A4 용지 한 페이지에 약 500단어 또는 약 2,000자가 들어간다고 가정
Dataset SizeNumber of ExamplesTokens
(Approx.)
Words
(Approx.)
Characters
(Approx.)
Pages (Approx.)File Size (Approx.)Recommended EpochsTraining Cost Range
Small500 – 5,000250,000 – 2,500,000187,500 – 1,875,0001,000,000 – 10,000,000375 – 3,750~1MB – 10MB5-3$6.00 – $100.00
Medium5,000 – 50,0002,500,000 – 25,000,0001,875,000 – 18,750,00010,000,000 – 100,000,0003,750 – 37,50010MB – 100MB4-2$40.00 – $800.00
Large50,000 – 1,000,00025,000,000 – 500,000,00018,750,000 – 375,000,000100,000,000 – 2,000,000,00037,500 – 750,000100MB – 2GB3-1$400.00 – $12,000.00
※ Example : fine-tuning 과정에서 사용되는 개별 데이터 포인트를 의미합니다. 이러한 데이터 포인트는 일반적으로 입력(prompt)과 해 출력(response)의 쌍으로 구성됩니다. 각 쌍은 모델이 특정 작업을 수행하는 방법을 학습하는 데 사용됩니다.
입력: 사용자의 질문이나 명령
출력: 모델이 생성해야 하는 적절한 답변이나 반응
※ GPT 모델에서는 대략적으로 1 토큰이 평균 4바이트(약 4 문자)로 추정, 1M = 250,000 token
비용 = (토큰 당 기본 비용) × (입력 파일의 토큰 수) × (훈련된 에포크 수)
https://openai.com/pricing
비용예시) https://openai.com/pricing 참조
model : gpt-3.5-turbo
훈련단계 : 1 token 당 비용 = $0.0080 / 1k token
epoch : 일반적으로 1 ~ 5 회 (데이터가 작어면 epoch수를 크게 , 데이터가 크면 epoch수를 작게)
여기서는 3회라고 할 경우

훈련단계 비용 : 100,000 token * ($0.0080 / 1,000 token) * 3= $0.80 * 3 = $2.40

fine-tuning된 모델을 사용하는 경우
입력 비용 : 1,000 token 당 $0.0030
출력 비용: 1,000 token 당 $0.0060

Fine-Tuning –

기존에 학습되어 있는 모델을 기반으로 내가 사용하려는 목적에 알맞도록 변형하여 이미 학습된 weights(가중치)에 학습을 업데이트하는 것입니다.
※ 주의사항 : 파인 튜닝은 특정 애플리케이션에 대해 텍스트 생성 모델을 개선할 수 있지만, 시간과 노력의 신중한 투자가 필요합니다. 좋은 결과를 얻기 위해 먼저 프롬프트 엔지니어링, 프롬프트 체이닝(복잡한 작업을 여러 프롬프트로 나누기), 함수 호출 등을 시도하는 것이 좋습니다.

댓글 달기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다