chaiml-02f4-69d4-linear_76375

developer_uid: richhx

submission_id: chaiml-02f4-69d4-linear_76375_v5

model_name: chaiml-02f4-69d4-linear_76375_v5

model_group: ChaiML/02f4-69d4-linear-

status: torndown

timestamp: 2026-02-07T20:58:44+00:00

num_battles: 7078

num_wins: 3693

celo_rating: 1301.54

family_friendly_score: 0.4938

family_friendly_standard_error: 0.007070524167273598

submission_type: basic

model_repo: ChaiML/02f4-69d4-linear-w01-W4A16-G128-AutoRound

model_architecture: MistralForCausalLM

model_num_parameters: 24096691200.0

best_of: 8

max_input_tokens: 1024

max_output_tokens: 64

reward_model: default

display_name: chaiml-02f4-69d4-linear_76375_v5

ineligible_reason: model is not deployable

is_internal_developer: True

language_model: ChaiML/02f4-69d4-linear-w01-W4A16-G128-AutoRound

model_size: 24B

ranking_group: single

us_pacific_date: 2026-01-07

win_ratio: 0.521757558632382

generation_params: {'temperature': 0.7, 'top_p': 0.95, 'min_p': 0.025, 'top_k': 80, 'presence_penalty': 0.4, 'frequency_penalty': 0.4, 'stopping_words': ['\n'], 'max_input_tokens': 1024, 'best_of': 8, 'max_output_tokens': 64}

formatter: {'memory_template': '<|im_start|>system\n{memory}<|im_end|>\n', 'prompt_template': '', 'bot_template': '<|im_start|>assistant\n{bot_name}: {message}<|im_end|>\n', 'user_template': '<|im_start|>user\n{user_name}: {message}<|im_end|>\n', 'response_template': '<|im_start|>assistant\n{bot_name}:', 'truncate_by_message': True}

Resubmit model

Shutdown handler not registered because Python interpreter is not running in the main thread
run pipeline %s
run pipeline stage %s
Running pipeline stage VLLMTemplater
Pipeline stage VLLMTemplater completed in 0.14s
run pipeline stage %s
Running pipeline stage VLLMDeployer
Creating inference service chaiml-02f4-69d4-linear-76375-v5
Waiting for inference service chaiml-02f4-69d4-linear-76375-v5 to be ready
Inference service chaiml-02f4-69d4-linear-76375-v5 ready after 150.90121841430664s
Pipeline stage VLLMDeployer completed in 151.45s
run pipeline stage %s
Running pipeline stage StressChecker
Received healthy response to inference request in 1.502661943435669s
Received healthy response to inference request in 1.0397255420684814s
Received healthy response to inference request in 0.9844334125518799s
Received healthy response to inference request in 1.169295310974121s
Received healthy response to inference request in 1.4369869232177734s
Received healthy response to inference request in 1.2239632606506348s
Received healthy response to inference request in 1.065833568572998s
Received healthy response to inference request in 1.1080663204193115s
Received healthy response to inference request in 1.1268501281738281s
Received healthy response to inference request in 0.9342210292816162s
Received healthy response to inference request in 1.3587563037872314s
Received healthy response to inference request in 1.0663824081420898s
Received healthy response to inference request in 1.104156494140625s
Received healthy response to inference request in 0.9778015613555908s
Received healthy response to inference request in 0.9710853099822998s
Received healthy response to inference request in 1.0148851871490479s
Received healthy response to inference request in 0.9707751274108887s
Received healthy response to inference request in 1.063049554824829s
Received healthy response to inference request in 1.0865919589996338s
Received healthy response to inference request in 1.028639793395996s
Received healthy response to inference request in 0.9997453689575195s
Received healthy response to inference request in 1.1123137474060059s
Received healthy response to inference request in 1.454629898071289s
Received healthy response to inference request in 1.3060059547424316s
Received healthy response to inference request in 0.9571971893310547s
Received healthy response to inference request in 1.0473015308380127s
Received healthy response to inference request in 1.3421316146850586s
Received healthy response to inference request in 0.9882900714874268s
Received healthy response to inference request in 1.2176027297973633s
Received healthy response to inference request in 1.1832890510559082s
30 requests
0 failed requests
5th percentile: 0.96330726146698
10th percentile: 0.9710542917251587
20th percentile: 0.9875187397003173
30th percentile: 1.0245134115219117
40th percentile: 1.0567503452301026
50th percentile: 1.0764871835708618
60th percentile: 1.1097652912139893
70th percentile: 1.1734934329986573
80th percentile: 1.2403717994689945
90th percentile: 1.3665793657302858
95th percentile: 1.446690559387207
99th percentile: 1.488732650279999
mean time: 1.128088943163554
Pipeline stage StressChecker completed in 36.56s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyTriggerPipeline
run_pipeline:run_in_cloud %s
starting trigger_guanaco_pipeline args=%s
triggered trigger_guanaco_pipeline args=%s
Pipeline stage OfflineFamilyFriendlyTriggerPipeline completed in 0.66s
Shutdown handler de-registered
chaiml-02f4-69d4-linear_76375_v5 status is now deployed due to DeploymentManager action
Shutdown handler registered
run pipeline %s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyScorer
Evaluating %s Family Friendly Score with %s threads
Generating Leaderboard row for %s
Generated Leaderboard row for %s
Pipeline stage OfflineFamilyFriendlyScorer completed in 2045.15s
Shutdown handler de-registered
chaiml-02f4-69d4-linear_76375_v5 status is now protected due to ABTestQueueItem
chaiml-02f4-69d4-linear_76375_v5 status is now inactive due to ABTestQueueItem
chaiml-02f4-69d4-linear_76375_v5 status is now torndown due to DeploymentManager action