chaiml-ssnew-v5-dpo-lr_24415

developer_uid: chai_backend_admin

submission_id: chaiml-ssnew-v5-dpo-lr_24415_v20

model_name: chaiml-ssnew-v5-dpo-lr_24415_v20

model_group: ChaiML/ssnew-v5-dpo-lr5e

status: torndown

timestamp: 2025-12-30T04:21:21+00:00

num_battles: 9535

num_wins: 4816

celo_rating: 1297.07

family_friendly_score: 0.473

family_friendly_standard_error: 0.00706075066830716

submission_type: basic

model_repo: ChaiML/ssnew-v5-dpo-lr5e6b01-lora

model_architecture: MistralForCausalLM

model_num_parameters: 24096691200.0

best_of: 8

max_input_tokens: 2048

max_output_tokens: 64

reward_model: default

display_name: chaiml-ssnew-v5-dpo-lr_24415_v20

ineligible_reason: num_battles<10000

is_internal_developer: True

language_model: ChaiML/ssnew-v5-dpo-lr5e6b01-lora

model_size: 24B

ranking_group: single

us_pacific_date: 2025-12-26

win_ratio: 0.5050865233350813

generation_params: {'temperature': 1.0, 'top_p': 1.0, 'min_p': 0.0, 'top_k': 80, 'presence_penalty': 0.0, 'frequency_penalty': 0.0, 'stopping_words': ['####', '</s>', 'You:', '\n'], 'max_input_tokens': 2048, 'best_of': 8, 'max_output_tokens': 64}

formatter: {'memory_template': "{bot_name}'s persona: {memory}", 'prompt_template': '', 'bot_template': '{bot_name}: {message}\n', 'user_template': 'You: {message}\n', 'response_template': '####\n{bot_name}:', 'truncate_by_message': True}

Resubmit model

Shutdown handler not registered because Python interpreter is not running in the main thread
run pipeline %s
run pipeline stage %s
Running pipeline stage VLLMTemplater
Pipeline stage VLLMTemplater completed in 0.15s
run pipeline stage %s
Running pipeline stage VLLMDeployer
Creating inference service chaiml-ssnew-v5-dpo-lr-24415-v20
Waiting for inference service chaiml-ssnew-v5-dpo-lr-24415-v20 to be ready
Inference service chaiml-ssnew-v5-dpo-lr-24415-v20 ready after 140.60283517837524s
Pipeline stage VLLMDeployer completed in 141.11s
run pipeline stage %s
Running pipeline stage StressChecker
Received healthy response to inference request in 2.291151285171509s
Received healthy response to inference request in 2.264915943145752s
Received healthy response to inference request in 2.2967400550842285s
Received healthy response to inference request in 2.181257963180542s
Received healthy response to inference request in 2.235960006713867s
Received healthy response to inference request in 2.150634288787842s
Received healthy response to inference request in 2.3820228576660156s
Received healthy response to inference request in 2.2007172107696533s
Received healthy response to inference request in 2.4886670112609863s
Received healthy response to inference request in 2.189046621322632s
Received healthy response to inference request in 2.2092695236206055s
Received healthy response to inference request in 2.4295899868011475s
Received healthy response to inference request in 2.1586544513702393s
Received healthy response to inference request in 2.1788363456726074s
Received healthy response to inference request in 2.257964611053467s
Received healthy response to inference request in 2.1615097522735596s
Received healthy response to inference request in 2.4754698276519775s
Received healthy response to inference request in 2.193084716796875s
Received healthy response to inference request in 2.1667282581329346s
Received healthy response to inference request in 2.281625986099243s
Received healthy response to inference request in 2.335628032684326s
Received healthy response to inference request in 2.1594667434692383s
Received healthy response to inference request in 2.183023452758789s
Received healthy response to inference request in 2.2050106525421143s
Received healthy response to inference request in 2.3103880882263184s
Received healthy response to inference request in 2.2433536052703857s
Received healthy response to inference request in 2.177133798599243s
Received healthy response to inference request in 2.3254315853118896s
Received healthy response to inference request in 2.2253572940826416s
Received healthy response to inference request in 2.168877601623535s
30 requests
0 failed requests
5th percentile: 2.159019982814789
10th percentile: 2.1613054513931274
20th percentile: 2.1754825592041014
30th percentile: 2.182493805885315
40th percentile: 2.197664213180542
50th percentile: 2.2173134088516235
60th percentile: 2.249198007583618
70th percentile: 2.2844835758209228
80th percentile: 2.3133967876434327
90th percentile: 2.3867795705795287
95th percentile: 2.454823899269104
99th percentile: 2.484839828014374
mean time: 2.2509172519048053
Pipeline stage StressChecker completed in 69.79s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyTriggerPipeline
run_pipeline:run_in_cloud %s
starting trigger_guanaco_pipeline args=%s
triggered trigger_guanaco_pipeline args=%s
Pipeline stage OfflineFamilyFriendlyTriggerPipeline completed in 0.92s
Shutdown handler de-registered
chaiml-ssnew-v5-dpo-lr_24415_v20 status is now deployed due to DeploymentManager action
Shutdown handler registered
run pipeline %s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyScorer
Evaluating %s Family Friendly Score with %s threads
%s, retrying in %s seconds...
Evaluating %s Family Friendly Score with %s threads
Generating Leaderboard row for %s
Generated Leaderboard row for %s
Pipeline stage OfflineFamilyFriendlyScorer completed in 5107.96s
Shutdown handler de-registered
chaiml-ssnew-v5-dpo-lr_24415_v20 status is now torndown due to DeploymentManager action