chaiml-llama31-mer-v2-_44570

developer_uid: chai_backend_admin

submission_id: chaiml-llama31-mer-v2-_44570_v58

model_name: chaiml-llama31-mer-v2-_44570_v58

model_group: ChaiML/llama31-mer-v2-tr

status: torndown

timestamp: 2026-01-26T20:48:12+00:00

num_battles: 18554

num_wins: 9338

celo_rating: 9999.0

family_friendly_score: 0.5227999999999999

family_friendly_standard_error: 0.007063712338423756

submission_type: basic

model_repo: ChaiML/llama31-mer-v2-try1-new8m-filterv3-full-512seq-bestep-572

model_architecture: LlamaForSequenceClassification

model_num_parameters: 8030261248.0

best_of: 1

max_input_tokens: 512

max_output_tokens: 1

reward_model: default

display_name: chaiml-llama31-mer-v2-_44570_v58

ineligible_reason: max_output_tokens!=64

is_internal_developer: True

language_model: ChaiML/llama31-mer-v2-try1-new8m-filterv3-full-512seq-bestep-572

model_size: 8B

ranking_group: single

us_pacific_date: 2026-01-05

win_ratio: 0.5032877007653336

generation_params: {'temperature': 1.0, 'top_p': 1.0, 'min_p': 0.0, 'top_k': 40, 'presence_penalty': 0.0, 'frequency_penalty': 0.0, 'stopping_words': ['\n'], 'max_input_tokens': 512, 'best_of': 1, 'max_output_tokens': 1}

formatter: {'memory_template': '', 'prompt_template': '', 'bot_template': '{bot_name}: {message}\n', 'user_template': '{user_name}: {message}\n', 'response_template': '', 'truncate_by_message': True}

Resubmit model

Shutdown handler not registered because Python interpreter is not running in the main thread
run pipeline %s
run pipeline stage %s
Running pipeline stage VLLMTemplater
Pipeline stage VLLMTemplater completed in 0.30s
run pipeline stage %s
Running pipeline stage VLLMDeployer
Creating inference service chaiml-llama31-mer-v2-44570-v58
Waiting for inference service chaiml-llama31-mer-v2-44570-v58 to be ready
Inference service chaiml-llama31-mer-v2-44570-v58 ready after 142.4915373325348s
Pipeline stage VLLMDeployer completed in 143.68s
run pipeline stage %s
Running pipeline stage StressChecker
Received healthy response to inference request in 4.72205376625061s
Received healthy response to inference request in 4.621188402175903s
Received healthy response to inference request in 3.7163350582122803s
Received healthy response to inference request in 4.153836488723755s
Received healthy response to inference request in 2.3589985370635986s
5 requests
0 failed requests
5th percentile: 2.630465841293335
10th percentile: 2.9019331455230715
20th percentile: 3.444867753982544
30th percentile: 3.8038353443145754
40th percentile: 3.978835916519165
50th percentile: 4.153836488723755
60th percentile: 4.340777254104614
70th percentile: 4.527718019485474
80th percentile: 4.641361474990845
90th percentile: 4.6817076206207275
95th percentile: 4.701880693435669
99th percentile: 4.718019151687622
mean time: 3.9144824504852296
Pipeline stage StressChecker completed in 21.66s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyTriggerPipeline
run_pipeline:run_in_cloud %s
starting trigger_guanaco_pipeline args=%s
triggered trigger_guanaco_pipeline args=%s
Pipeline stage OfflineFamilyFriendlyTriggerPipeline completed in 1.25s
Shutdown handler de-registered
chaiml-llama31-mer-v2-_44570_v58 status is now deployed due to DeploymentManager action
Shutdown handler registered
run pipeline %s
run pipeline stage %s
Running pipeline stage OfflineFamilyFriendlyScorer
Evaluating %s Family Friendly Score with %s threads
Generating Leaderboard row for %s
Generated Leaderboard row for %s
Pipeline stage OfflineFamilyFriendlyScorer completed in 3175.89s
Shutdown handler de-registered
chaiml-llama31-mer-v2-_44570_v58 status is now torndown due to DeploymentManager action