chaiml-ssnew-v5-dpo-lr5_20359

developer_uid: chai_backend_admin

submission_id: chaiml-ssnew-v5-dpo-lr5_20359_v1

model_name: chaiml-ssnew-v5-dpo-lr5_20359_v1

model_group: ChaiML/ssnew-v5-dpo-lr5e

status: torndown

timestamp: 2025-12-30T03:56:50+00:00

num_battles: 11637

num_wins: 5903

celo_rating: 1298.39

family_friendly_score: 0.47040000000000004

family_friendly_standard_error: 0.007058666162951752

submission_type: basic

model_repo: ChaiML/ssnew-v5-dpo-lr5e6b01-lora-W4A16-G128-AutoRound

model_architecture: MistralForCausalLM

model_num_parameters: 24096691200.0

best_of: 8

max_input_tokens: 2048

max_output_tokens: 64

reward_model: default

display_name: chaiml-ssnew-v5-dpo-lr5_20359_v1

is_internal_developer: True

language_model: ChaiML/ssnew-v5-dpo-lr5e6b01-lora-W4A16-G128-AutoRound

model_size: 24B

ranking_group: single

us_pacific_date: 2025-12-26

win_ratio: 0.5072613216464724

generation_params: {'temperature': 1.0, 'top_p': 1.0, 'min_p': 0.0, 'top_k': 80, 'presence_penalty': 0.0, 'frequency_penalty': 0.0, 'stopping_words': ['</s>', '####', '\n', 'You:'], 'max_input_tokens': 2048, 'best_of': 8, 'max_output_tokens': 64}

formatter: {'memory_template': "{bot_name}'s persona: {memory}", 'prompt_template': '', 'bot_template': '{bot_name}: {message}\n', 'user_template': 'You: {message}\n', 'response_template': '####\n{bot_name}:', 'truncate_by_message': True}

Resubmit model

Shutdown handler not registered because Python interpreter is not running in the main thread
run pipeline %s
run pipeline stage %s
Running pipeline stage VLLMTemplater
Pipeline stage VLLMTemplater completed in 0.14s
run pipeline stage %s
Running pipeline stage VLLMDeployer
Creating inference service chaiml-ssnew-v5-dpo-lr5-20359-v1
Waiting for inference service chaiml-ssnew-v5-dpo-lr5-20359-v1 to be ready
Inference service chaiml-ssnew-v5-dpo-lr5-20359-v1 ready after 140.59305500984192s
Pipeline stage VLLMDeployer completed in 141.10s
run pipeline stage %s
Running pipeline stage StressChecker
Received healthy response to inference request in 1.0333950519561768s
Received healthy response to inference request in 1.0803613662719727s
Received healthy response to inference request in 1.0083847045898438s
Received healthy response to inference request in 0.8961513042449951s
Received healthy response to inference request in 1.1392614841461182s
Received healthy response to inference request in 0.9750633239746094s
Received healthy response to inference request in 1.1523582935333252s
Received healthy response to inference request in 1.1748046875s
Received healthy response to inference request in 0.9275789260864258s
Received healthy response to inference request in 1.1463308334350586s
Received healthy response to inference request in 0.9306907653808594s
Received healthy response to inference request in 1.0021681785583496s
Received healthy response to inference request in 0.9428210258483887s
Received healthy response to inference request in 1.1332218647003174s
Received healthy response to inference request in 0.9367897510528564s
Received healthy response to inference request in 0.9462037086486816s
Received healthy response to inference request in 1.1432020664215088s
Received healthy response to inference request in 0.9972319602966309s
Received healthy response to inference request in 0.9865002632141113s
Received healthy response to inference request in 1.0051331520080566s
Received healthy response to inference request in 0.9524450302124023s
Received healthy response to inference request in 0.9318358898162842s
Received healthy response to inference request in 0.9159815311431885s
Received healthy response to inference request in 0.913078784942627s
Received healthy response to inference request in 0.981201171875s
Received healthy response to inference request in 1.1714725494384766s
Received healthy response to inference request in 1.082047700881958s
Received healthy response to inference request in 1.1149156093597412s
Received healthy response to inference request in 1.0699641704559326s
Received healthy response to inference request in 0.9297904968261719s
30 requests
0 failed requests
5th percentile: 0.9143850207328796
10th percentile: 0.9264191865921021
20th percentile: 0.9316068649291992
30th percentile: 0.9451889038085938
40th percentile: 0.9787460327148437
50th percentile: 0.9997000694274902
60th percentile: 1.0183888435363768
70th percentile: 1.0808672666549684
80th percentile: 1.1344297885894776
90th percentile: 1.1469335794448852
95th percentile: 1.1628711342811584
99th percentile: 1.1738383674621582
mean time: 1.020679521560669
Pipeline stage StressChecker completed in 33.48s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyTriggerPipeline
run_pipeline:run_in_cloud %s
starting trigger_guanaco_pipeline args=%s
triggered trigger_guanaco_pipeline args=%s
Pipeline stage OfflineFamilyFriendlyTriggerPipeline completed in 0.59s
Shutdown handler de-registered
chaiml-ssnew-v5-dpo-lr5_20359_v1 status is now deployed due to DeploymentManager action
Shutdown handler registered
run pipeline %s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyScorer
Evaluating %s Family Friendly Score with %s threads
%s, retrying in %s seconds...
Evaluating %s Family Friendly Score with %s threads
Generating Leaderboard row for %s
Generated Leaderboard row for %s
Pipeline stage OfflineFamilyFriendlyScorer completed in 4051.25s
Shutdown handler de-registered
chaiml-ssnew-v5-dpo-lr5_20359_v1 status is now torndown due to DeploymentManager action