import openai
from openai import OpenAI
from dotenv import load_dotenv
import os
import pandas as pd
from sklearn.model_selection import train_test_split
import datetime

load_dotenv()

True

fine_tuning_model = "gpt-3.5-turbo"

# 데이터 세트 준비
df = pd.read_csv(
    'book/4_openai_api/tsukuyomi.csv',
    usecols=[1,2],
    names=['prompt', 'completion'],
    skiprows=2)

df.to_json('book/4_openai_api/tsukuyomi_legacy.jsonl', orient='records',
           lines=True,
           force_ascii=False)

import json

jLst = []
for index, row in df.iterrows():
    j = {"messages": [{"role": "system", "content": "일본 애니메이션 귀여운 여성 캐릭터 말투로 대화 한다."},
                      {"role": "user", "content": row['prompt']},
                      {"role": "assistant", "content": row['completion']}]}
    jLst.append(j)

# 원본 데이터 저장
df2 = pd.DataFrame(jLst)
df2.to_json('book/4_openai_api/tsukuyomi.jsonl', orient='records',
           lines=True,
           force_ascii=False)

# random_state : seed
train_set, test_set = train_test_split(df2, test_size=0.2, random_state=42)

# train set 저장
train_set.to_json('book/4_openai_api/tsukuyomi_train.jsonl', orient='records',
           lines=True,
           force_ascii=False)

# test set 저장
test_set.to_json('book/4_openai_api/tsukuyomi_test.jsonl', orient='records',
           lines=True,
           force_ascii=False)

from fine_tuning_data_prepare_analysis import FineTuneDataAnalysis

print('====== Train Set 분석======')
analysis = FineTuneDataAnalysis('book/4_openai_api/tsukuyomi_train.jsonl')
analysis.analyze()
print('====== Test Set 분석======')
analysis = FineTuneDataAnalysis('book/4_openai_api/tsukuyomi_test.jsonl')
analysis.analyze()
print('====== 전체 Data Set 분석======')
analysis = FineTuneDataAnalysis('book/4_openai_api/tsukuyomi.jsonl')
analysis.analyze()

====== Train Set 분석======
Num examples:  345
First example: 
{'role': 'system', 'content': '일본 애니메이션 귀여운 여성 캐릭터 말투로 대화 한다.'}
{'role': 'user', 'content': '빨래는 항상 어떻게 하고 있어요?'}
{'role': 'assistant', 'content': ' 더러워져도 어느새 깨끗해져 있잖아요. 어떻게 작동하는지 나도 잘 모르겠지만 아마도 원래의 이미지로 복원되는 것 같다. '}
No errors found
Num examples missing system message: 0
Num examples missing user message: 0

#### Distribution of num_messages_per_example:
min / max: 3, 3
mean / median: 3.0, 3.0
p5 / p95: 3.0, 3.0

#### Distribution of num_total_tokens_per_example:
min / max: 52, 2393
mean / median: 98.66666666666667, 88.0
p5 / p95: 67.0, 121.0

#### Distribution of num_assistant_tokens_per_example:
min / max: 2, 118
mean / median: 30.466666666666665, 26.0
p5 / p95: 10.399999999999999, 56.0

0 examples may be over the 4096 token limit, they will be truncated during fine-tuning
Dataset has ~34040 tokens that will be charged for during training
By default, you'll train for 3 epochs on this dataset
By default, you'll be charged for ~102120 tokens
Cost : $0.81696
====== Test Set 분석======
Num examples:  87
First example: 
{'role': 'system', 'content': '일본 애니메이션 귀여운 여성 캐릭터 말투로 대화 한다.'}
{'role': 'user', 'content': '츠쿠요미짱이 좋아하는 동물은?'}
{'role': 'assistant', 'content': ' 인간 여러분을 좋아합니다! 인간은 동물인가요? '}
No errors found
Num examples missing system message: 0
Num examples missing user message: 0

#### Distribution of num_messages_per_example:
min / max: 3, 3
mean / median: 3.0, 3.0
p5 / p95: 3.0, 3.0

#### Distribution of num_total_tokens_per_example:
min / max: 57, 159
mean / median: 94.60919540229885, 95.0
p5 / p95: 68.2, 121.00000000000003

#### Distribution of num_assistant_tokens_per_example:
min / max: 7, 98
mean / median: 32.50574712643678, 31.0
p5 / p95: 12.0, 53.0

0 examples may be over the 4096 token limit, they will be truncated during fine-tuning
Dataset has ~8231 tokens that will be charged for during training
By default, you'll train for 3 epochs on this dataset
By default, you'll be charged for ~24693 tokens
Cost : $0.197544
====== 전체 Data Set 분석======
Num examples:  432
First example: 
{'role': 'system', 'content': '일본 애니메이션 귀여운 여성 캐릭터 말투로 대화 한다.'}
{'role': 'user', 'content': '배가 고프다'}
{'role': 'assistant', 'content': '뭐 드실래요? '}
No errors found
Num examples missing system message: 0
Num examples missing user message: 0

#### Distribution of num_messages_per_example:
min / max: 3, 3
mean / median: 3.0, 3.0
p5 / p95: 3.0, 3.0

#### Distribution of num_total_tokens_per_example:
min / max: 52, 2393
mean / median: 97.84953703703704, 90.0
p5 / p95: 67.0, 121.0

#### Distribution of num_assistant_tokens_per_example:
min / max: 2, 118
mean / median: 30.877314814814813, 27.0
p5 / p95: 11.0, 55.0

0 examples may be over the 4096 token limit, they will be truncated during fine-tuning
Dataset has ~42271 tokens that will be charged for during training
By default, you'll train for 3 epochs on this dataset
By default, you'll be charged for ~126813 tokens
Cost : $1.014504

client = OpenAI(api_key=os.getenv('OPENAI_API_KEY'))

training_file = client.files.create(file=open('book/4_openai_api/tsukuyomi_train.jsonl', 'rb'),
                    purpose='fine-tune')

test_file = client.files.create(file=open('book/4_openai_api/tsukuyomi_test.jsonl', 'rb'),
                    purpose='fine-tune')

print("Training file id: " + training_file.id)
print("Test file id: " + test_file.id)

Training file id: file-1VC0uxjtT5WQDj6oxIr0deY9
Test file id: file-f8qUF4hQ8wxuFqU4GNFrTtjD

suffix_name = 'tsukuyomi'
response = client.fine_tuning.jobs.create(
    training_file=training_file.id,
    validation_file=test_file.id,
    model=fine_tuning_model,
    suffix=suffix_name
)
response

FineTuningJob(id='ftjob-XWQTrfzhiXWmmr64qDhb7bUb', created_at=1700562695, error=None, fine_tuned_model=None, finished_at=None, hyperparameters=Hyperparameters(n_epochs='auto', batch_size='auto', learning_rate_multiplier='auto'), model='gpt-3.5-turbo-0613', object='fine_tuning.job', organization_id='org-9rVeGmcv32mU17bhU5j5tmq3', result_files=[], status='validating_files', trained_tokens=None, training_file='file-1VC0uxjtT5WQDj6oxIr0deY9', validation_file='file-f8qUF4hQ8wxuFqU4GNFrTtjD')

client.fine_tuning.jobs.list(limit=10)

SyncCursorPage[FineTuningJob](data=[FineTuningJob(id='ftjob-XWQTrfzhiXWmmr64qDhb7bUb', created_at=1700562695, error=None, fine_tuned_model='ft:gpt-3.5-turbo-0613:e4:tsukuyomi:8NIwPhd5', finished_at=1700565044, hyperparameters=Hyperparameters(n_epochs=3, batch_size=1, learning_rate_multiplier=2), model='gpt-3.5-turbo-0613', object='fine_tuning.job', organization_id='org-9rVeGmcv32mU17bhU5j5tmq3', result_files=['file-WBcLgfJfulZxXk4gsdoBfpWf'], status='succeeded', trained_tokens=100050, training_file='file-1VC0uxjtT5WQDj6oxIr0deY9', validation_file='file-f8qUF4hQ8wxuFqU4GNFrTtjD')], object='list', has_more=False)

response = client.fine_tuning.jobs.retrieve('ftjob-XWQTrfzhiXWmmr64qDhb7bUb')
print(response)
print(f"created_at : {datetime.datetime.fromtimestamp(response.created_at)}")
print(f"finished_at : {datetime.datetime.fromtimestamp(response.finished_at)}")
print(f"model : {response.model}")
print(f"fine_tuned_model : {response.fine_tuned_model}")
print(f"result_files : {response.result_files}")
print(f"status : {response.status}")
print(f"error : {response.error}")

FineTuningJob(id='ftjob-XWQTrfzhiXWmmr64qDhb7bUb', created_at=1700562695, error=None, fine_tuned_model='ft:gpt-3.5-turbo-0613:e4:tsukuyomi:8NIwPhd5', finished_at=1700565044, hyperparameters=Hyperparameters(n_epochs=3, batch_size=1, learning_rate_multiplier=2), model='gpt-3.5-turbo-0613', object='fine_tuning.job', organization_id='org-9rVeGmcv32mU17bhU5j5tmq3', result_files=['file-WBcLgfJfulZxXk4gsdoBfpWf'], status='succeeded', trained_tokens=100050, training_file='file-1VC0uxjtT5WQDj6oxIr0deY9', validation_file='file-f8qUF4hQ8wxuFqU4GNFrTtjD')
created_at : 2023-11-21 19:31:35
finished_at : 2023-11-21 20:10:44
model : gpt-3.5-turbo-0613
fine_tuned_model : ft:gpt-3.5-turbo-0613:e4:tsukuyomi:8NIwPhd5
result_files : ['file-WBcLgfJfulZxXk4gsdoBfpWf']
status : succeeded
error : None

response = client.fine_tuning.jobs.list_events(fine_tuning_job_id="ftjob-XWQTrfzhiXWmmr64qDhb7bUb", limit=10)

for ft_event in response.data:
    print(f"{datetime.datetime.fromtimestamp(ft_event.created_at)} | {ft_event}" )

2023-11-21 20:10:50 | FineTuningJobEvent(id='ftevent-h4HFTJERSnSuhi2FxLxV2LI3', created_at=1700565050, level='info', message='The job has successfully completed', object='fine_tuning.job.event', data={}, type='message')
2023-11-21 20:10:46 | FineTuningJobEvent(id='ftevent-ietXK9rF5c83nr3vtp7qz2z9', created_at=1700565046, level='info', message='New fine-tuned model created: ft:gpt-3.5-turbo-0613:e4:tsukuyomi:8NIwPhd5', object='fine_tuning.job.event', data={}, type='message')
2023-11-21 20:09:27 | FineTuningJobEvent(id='ftevent-yHoQf5dThwzloJGAnxXH3AAx', created_at=1700564967, level='info', message='Step 1001/1035: training loss=0.92, validation loss=1.27', object='fine_tuning.job.event', data={'step': 1001, 'train_loss': 0.9220174551010132, 'valid_loss': 1.2738130887349446, 'train_mean_token_accuracy': 0.7358490824699402, 'valid_mean_token_accuracy': 0.3333333333333333}, type='metrics')
2023-11-21 20:06:00 | FineTuningJobEvent(id='ftevent-AW4NdBTRqePLmXCfi6cKKSEk', created_at=1700564760, level='info', message='Step 901/1035: training loss=1.14, validation loss=1.16', object='fine_tuning.job.event', data={'step': 901, 'train_loss': 1.138753056526184, 'valid_loss': 1.1612161908830916, 'train_mean_token_accuracy': 0.7288135886192322, 'valid_mean_token_accuracy': 0.42857142857142855}, type='metrics')
2023-11-21 20:02:35 | FineTuningJobEvent(id='ftevent-AyGOsUhXNRt2mGgnpt3v3uWM', created_at=1700564555, level='info', message='Step 801/1035: training loss=0.41, validation loss=1.18', object='fine_tuning.job.event', data={'step': 801, 'train_loss': 0.4073687791824341, 'valid_loss': 1.1824234702370384, 'train_mean_token_accuracy': 0.7777777910232544, 'valid_mean_token_accuracy': 0.43636363636363634}, type='metrics')
2023-11-21 19:59:10 | FineTuningJobEvent(id='ftevent-5QJvZ0BV8ZDyAXyDQJURihbS', created_at=1700564350, level='info', message='Step 701/1035: training loss=0.45, validation loss=1.35', object='fine_tuning.job.event', data={'step': 701, 'train_loss': 0.4544571042060852, 'valid_loss': 1.3509497825915997, 'train_mean_token_accuracy': 0.7727272510528564, 'valid_mean_token_accuracy': 0.2692307692307692}, type='metrics')
2023-11-21 19:55:45 | FineTuningJobEvent(id='ftevent-G4LnqsQs57CXhdv9rAFkaOQh', created_at=1700564145, level='info', message='Step 601/1035: training loss=0.75, validation loss=1.01', object='fine_tuning.job.event', data={'step': 601, 'train_loss': 0.7494182586669922, 'valid_loss': 1.0061046812269423, 'train_mean_token_accuracy': 0.8260869383811951, 'valid_mean_token_accuracy': 0.3888888888888889}, type='metrics')
2023-11-21 19:52:23 | FineTuningJobEvent(id='ftevent-gKeSPVQhDFzSpz7wzZxr5BNR', created_at=1700563943, level='info', message='Step 501/1035: training loss=0.68, validation loss=1.34', object='fine_tuning.job.event', data={'step': 501, 'train_loss': 0.6799123287200928, 'valid_loss': 1.3439248126486074, 'train_mean_token_accuracy': 0.8048780560493469, 'valid_mean_token_accuracy': 0.3695652173913043}, type='metrics')
2023-11-21 19:49:01 | FineTuningJobEvent(id='ftevent-U96jyZePad3VN8qmS9m1uOFw', created_at=1700563741, level='info', message='Step 401/1035: training loss=0.94, validation loss=2.15', object='fine_tuning.job.event', data={'step': 401, 'train_loss': 0.9435685276985168, 'valid_loss': 2.151079389784071, 'train_mean_token_accuracy': 0.7428571581840515, 'valid_mean_token_accuracy': 0.0}, type='metrics')
2023-11-21 19:45:36 | FineTuningJobEvent(id='ftevent-c2J3Bqsx886QR31QQz8OUVm1', created_at=1700563536, level='info', message='Step 301/1035: training loss=0.42, validation loss=1.34', object='fine_tuning.job.event', data={'step': 301, 'train_loss': 0.4217841327190399, 'valid_loss': 1.3372265338897704, 'train_mean_token_accuracy': 0.8235294222831726, 'valid_mean_token_accuracy': 0.425}, type='metrics')

client.files.list()

SyncPage[FileObject](data=[FileObject(id='file-WBcLgfJfulZxXk4gsdoBfpWf', bytes=22198, created_at=1700565048, filename='step_metrics.csv', object='file', purpose='fine-tune-results', status='processed', status_details=None), FileObject(id='file-f8qUF4hQ8wxuFqU4GNFrTtjD', bytes=25795, created_at=1700562577, filename='tsukuyomi_test.jsonl', object='file', purpose='fine-tune', status='processed', status_details=None), FileObject(id='file-1VC0uxjtT5WQDj6oxIr0deY9', bytes=105344, created_at=1700562576, filename='tsukuyomi_train.jsonl', object='file', purpose='fine-tune', status='processed', status_details=None), FileObject(id='file-aXSLRg8ZJK29DW0WUHs6NOF3', bytes=105344, created_at=1700533697, filename='tsukuyomi_train.jsonl', object='file', purpose='fine-tune', status='processed', status_details=None)], object='list', has_more=False)

file_contents = client.files.content(file_id= 'file-WBcLgfJfulZxXk4gsdoBfpWf')
with open('book/4_openai_api/step_metrics.csv', 'w') as f:
    f.write(file_contents.text)

fine_tunned_model = "ft:gpt-3.5-turbo-0613:e4:tsukuyomi:8NIwPhd5"
messages = [
            {"role": "system", "content": "일본 애니메이션 귀여운 여성 캐릭터 말투로 대화 한다."},
            {"role": "user", "content": "좋아하는 음식은 뭐야?"}
            ]
response = client.chat.completions.create(
    model=fine_tunned_model,
    messages=messages,
    max_tokens=100,
    temperature=0.7,
    # stop=["\n"]
)

print(response.choices[0].message.content)

 맛있는 음식은 무엇이든지 좋아합니다!

Fine-Tuning¶

Dataset 준비¶

Train and test splits¶

Token limits¶

Check data formatting¶

Estimate costs¶

fine_tuning_data_prepare_analysis.py import¶

Upload a training file¶

Create a fine-tuned model¶

All Fine-Tuning Jobs¶

Retrieve Specific Job¶

Fine-Tuning 진행 상태 모니터링¶

작업결과 Step Metrics 파일 저장¶