chaiml-4d70-fd43-linear-_8511

developer_uid: chai_backend_admin

submission_id: chaiml-4d70-fd43-linear-_8511_v1

model_name: chaiml-4d70-fd43-linear-_8511_v1

model_group: ChaiML/4d70-fd43-linear-

status: torndown

timestamp: 2025-12-30T03:11:31+00:00

num_battles: 6777

num_wins: 3435

celo_rating: 1303.51

family_friendly_score: 0.494

family_friendly_standard_error: 0.007070558676653493

submission_type: basic

model_repo: ChaiML/4d70-fd43-linear-w01-W4A16-G128-AutoRound

model_architecture: MistralForCausalLM

model_num_parameters: 12772070400.0

best_of: 8

max_input_tokens: 1800

max_output_tokens: 74

reward_model: default

display_name: chaiml-4d70-fd43-linear-_8511_v1

ineligible_reason: max_output_tokens!=64

is_internal_developer: True

language_model: ChaiML/4d70-fd43-linear-w01-W4A16-G128-AutoRound

model_size: 13B

ranking_group: single

us_pacific_date: 2025-12-26

win_ratio: 0.5068614431164232

generation_params: {'temperature': 0.85, 'top_p': 1.0, 'min_p': 0.05, 'top_k': 80, 'presence_penalty': 0.08, 'frequency_penalty': 0.08, 'stopping_words': ['</s>', '\n', '###', '<|im_end|>', '<|im_start|>'], 'max_input_tokens': 1800, 'best_of': 8, 'max_output_tokens': 74}

formatter: {'memory_template': '', 'prompt_template': '', 'bot_template': '{bot_name}: {message}\n', 'user_template': '{user_name}: {message}\n', 'response_template': '{bot_name}:', 'truncate_by_message': True}

Resubmit model

Shutdown handler not registered because Python interpreter is not running in the main thread
run pipeline %s
run pipeline stage %s
Running pipeline stage VLLMTemplater
Pipeline stage VLLMTemplater completed in 0.17s
run pipeline stage %s
Running pipeline stage VLLMDeployer
Creating inference service chaiml-4d70-fd43-linear-8511-v1
Waiting for inference service chaiml-4d70-fd43-linear-8511-v1 to be ready
Inference service chaiml-4d70-fd43-linear-8511-v1 ready after 150.7112581729889s
Pipeline stage VLLMDeployer completed in 151.20s
run pipeline stage %s
Running pipeline stage StressChecker
Received healthy response to inference request in 0.9089453220367432s
Received healthy response to inference request in 0.9521958827972412s
Received healthy response to inference request in 0.7779433727264404s
Received healthy response to inference request in 0.7943172454833984s
Received healthy response to inference request in 0.7855563163757324s
Received healthy response to inference request in 0.8643040657043457s
Received healthy response to inference request in 0.788663387298584s
Received healthy response to inference request in 1.1168076992034912s
Received healthy response to inference request in 0.7950046062469482s
Received healthy response to inference request in 0.7902867794036865s
Received healthy response to inference request in 0.8169136047363281s
Received healthy response to inference request in 1.026338815689087s
Received healthy response to inference request in 0.7819998264312744s
Received healthy response to inference request in 0.8216860294342041s
Received healthy response to inference request in 6.016195058822632s
Received healthy response to inference request in 0.8196094036102295s
Received healthy response to inference request in 0.7711172103881836s
Received healthy response to inference request in 0.7663013935089111s
Received healthy response to inference request in 0.7856333255767822s
Received healthy response to inference request in 0.8991780281066895s
Received healthy response to inference request in 0.8998148441314697s
Received healthy response to inference request in 0.8100814819335938s
Received healthy response to inference request in 0.799694299697876s
Received healthy response to inference request in 1.0005559921264648s
Received healthy response to inference request in 0.7917263507843018s
Received healthy response to inference request in 0.9121420383453369s
Received healthy response to inference request in 0.8694419860839844s
Received healthy response to inference request in 1.044863224029541s
Received healthy response to inference request in 0.8025715351104736s
Received healthy response to inference request in 0.7832975387573242s
30 requests
0 failed requests
5th percentile: 0.7741889834403992
10th percentile: 0.781594181060791
20th percentile: 0.7856179237365722
30th percentile: 0.7912944793701172
40th percentile: 0.7978184223175049
50th percentile: 0.8134975433349609
60th percentile: 0.8387332439422607
70th percentile: 0.8993690729141235
80th percentile: 0.9201528072357179
90th percentile: 1.0281912565231324
95th percentile: 1.0844326853752133
99th percentile: 4.595372724533085
mean time: 1.0264395554860433
Pipeline stage StressChecker completed in 33.11s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyTriggerPipeline
run_pipeline:run_in_cloud %s
starting trigger_guanaco_pipeline args=%s
triggered trigger_guanaco_pipeline args=%s
Pipeline stage OfflineFamilyFriendlyTriggerPipeline completed in 0.65s
Shutdown handler de-registered
chaiml-4d70-fd43-linear-_8511_v1 status is now deployed due to DeploymentManager action
Shutdown handler registered
run pipeline %s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyScorer
Evaluating %s Family Friendly Score with %s threads
%s, retrying in %s seconds...
Evaluating %s Family Friendly Score with %s threads
Generating Leaderboard row for %s
Generated Leaderboard row for %s
Pipeline stage OfflineFamilyFriendlyScorer completed in 2901.77s
Shutdown handler de-registered
chaiml-4d70-fd43-linear-_8511_v1 status is now torndown due to DeploymentManager action