chaiml-ca18-c13f-linear-w01

developer_uid: richhx

submission_id: chaiml-ca18-c13f-linear-w01_v36

model_name: chaiml-ca18-c13f-linear-w01_v36

model_group: ChaiML/ca18-c13f-linear-

status: torndown

timestamp: 2026-02-07T20:58:45+00:00

num_battles: 6785

num_wins: 3316

celo_rating: 1290.07

family_friendly_score: 0.5232

family_friendly_standard_error: 0.007063451847361883

submission_type: basic

model_repo: ChaiML/ca18-c13f-linear-w01

model_architecture: MistralForCausalLM

model_num_parameters: 12772070400.0

best_of: 7

max_input_tokens: 1280

max_output_tokens: 60

reward_model: default

display_name: chaiml-ca18-c13f-linear-w01_v36

ineligible_reason: model is not deployable

is_internal_developer: True

language_model: ChaiML/ca18-c13f-linear-w01

model_size: 13B

ranking_group: single

us_pacific_date: 2026-01-07

win_ratio: 0.4887251289609433

generation_params: {'temperature': 1.0, 'top_p': 0.95, 'min_p': 0.05, 'top_k': 60, 'presence_penalty': 0.15, 'frequency_penalty': 0.15, 'stopping_words': ['</s>', 'You:', '\n', '###'], 'max_input_tokens': 1280, 'best_of': 7, 'max_output_tokens': 60}

formatter: {'memory_template': '', 'prompt_template': '', 'bot_template': '{bot_name}: {message}\n', 'user_template': '{user_name}: {message}\n', 'response_template': '{bot_name}:', 'truncate_by_message': True}

Resubmit model

Shutdown handler not registered because Python interpreter is not running in the main thread
run pipeline %s
run pipeline stage %s
Running pipeline stage VLLMTemplater
Pipeline stage VLLMTemplater completed in 0.14s
run pipeline stage %s
Running pipeline stage VLLMDeployer
Creating inference service chaiml-ca18-c13f-linear-w01-v36
Waiting for inference service chaiml-ca18-c13f-linear-w01-v36 to be ready
Inference service chaiml-ca18-c13f-linear-w01-v36 ready after 151.23567152023315s
Pipeline stage VLLMDeployer completed in 152.18s
run pipeline stage %s
Running pipeline stage StressChecker
Received healthy response to inference request in 1.250392198562622s
Received healthy response to inference request in 1.6140611171722412s
Received healthy response to inference request in 1.4001152515411377s
Received healthy response to inference request in 1.2014987468719482s
Received healthy response to inference request in 1.2452566623687744s
Received healthy response to inference request in 1.2646665573120117s
Received healthy response to inference request in 1.2401859760284424s
Received healthy response to inference request in 1.4644789695739746s
Received healthy response to inference request in 1.348142147064209s
Received healthy response to inference request in 1.7142953872680664s
Received healthy response to inference request in 1.3646116256713867s
Received healthy response to inference request in 1.2437865734100342s
Received healthy response to inference request in 1.536388635635376s
Received healthy response to inference request in 1.6030175685882568s
Received healthy response to inference request in 1.423724889755249s
Received healthy response to inference request in 1.433166265487671s
Received healthy response to inference request in 1.282979965209961s
Received healthy response to inference request in 1.2977981567382812s
Received healthy response to inference request in 1.827772855758667s
Received healthy response to inference request in 1.4237568378448486s
Received healthy response to inference request in 1.3716120719909668s
Received healthy response to inference request in 1.4457838535308838s
Received healthy response to inference request in 1.5680553913116455s
Received healthy response to inference request in 1.3169918060302734s
Received healthy response to inference request in 1.3404324054718018s
Received healthy response to inference request in 1.376817226409912s
Received healthy response to inference request in 1.3219795227050781s
Received healthy response to inference request in 1.2412171363830566s
Received healthy response to inference request in 1.4209644794464111s
Received healthy response to inference request in 1.3314485549926758s
30 requests
0 failed requests
5th percentile: 1.2406499981880188
10th percentile: 1.2435296297073364
20th percentile: 1.2618116855621337
30th percentile: 1.3112337112426757
40th percentile: 1.3368388652801513
50th percentile: 1.3681118488311768
60th percentile: 1.4084549427032471
70th percentile: 1.4265796661376953
80th percentile: 1.4788609027862551
90th percentile: 1.6041219234466553
95th percentile: 1.6691899657249447
99th percentile: 1.794864389896393
mean time: 1.3971799612045288
Pipeline stage StressChecker completed in 44.75s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyTriggerPipeline
run_pipeline:run_in_cloud %s
starting trigger_guanaco_pipeline args=%s
triggered trigger_guanaco_pipeline args=%s
Pipeline stage OfflineFamilyFriendlyTriggerPipeline completed in 0.60s
Shutdown handler de-registered
chaiml-ca18-c13f-linear-w01_v36 status is now deployed due to DeploymentManager action
Shutdown handler registered
run pipeline %s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyScorer
Evaluating %s Family Friendly Score with %s threads
Generating Leaderboard row for %s
Generated Leaderboard row for %s
Pipeline stage OfflineFamilyFriendlyScorer completed in 2296.71s
Shutdown handler de-registered
chaiml-ca18-c13f-linear-w01_v36 status is now protected due to ABTestQueueItem
chaiml-ca18-c13f-linear-w01_v36 status is now inactive due to ABTestQueueItem
chaiml-ca18-c13f-linear-w01_v36 status is now torndown due to DeploymentManager action