agent-skills/research/llm-model-comparison/references/model-benchmarks-2026-05.md

# Model Benchmark Data — May 2026

## Chinese LLM Benchmark (non-linear ReLE)
Source: github.com/jeinlee1991/chinese-llm-benchmark

### 通用能力 (General Capability)
| 排名 | 模型 | 准确率 | 耗时 | 花费/千次(元) |
|------|------|--------|------|---------------|
| 28 | MiniMax-M2.7 | 65.1% | 110s | 42.7 |
| 35 | MiMo-V2.5-Pro | ~71.4%* | 56s | 64.3 |

*MiMo-V2.5-Pro 数据来自单独评测文章，排名从第35位跃升至第7位。

### 中文指令遵从
| 排名 | 模型 | 准确率 | 耗时 |
|------|------|--------|------|
| 30 | MiniMax-M2.7 | 42.9% | 51s |

### BFCL-V3 (Function Calling)
| 排名 | 模型 | 准确率 |
|------|------|--------|
| 2 | MiniMax-M2.7 | 76.5% |
| 12 | MiniMax-M2.5 | 70.5% |

## MiMo-V2.5-Pro Key Metrics
Source: 小米官方 + Artificial Analysis

- GDPVal-AA (Elo): 1581 — 全球开源模型第一
- ClawEval: 63.8
- τ³-Bench: 72.9
- SWE-bench Pro: 接近 Claude Opus 4.6 / GPT-5.4 水平
- Token 效率: 较 Kimi 提升 42%
- 参数: 1T (Pro), 310B (标准版)
- 上下文: 1M tokens
- 协议: MIT (完全开源)
- Coding 能力: 较上代提升 8.8% (53.1% → 61.9%)

## MiniMax M2.7 Key Metrics
Source: MiniMax 官方

- SWE-bench Pro: 56.22%
- 自我进化: 通过 Agent Harness 参与自身训练，30-50% 研发工作量可由模型承担
- 核心定位: Agent 旗舰模型
- 状态: 闭源商用 API
- 港股表现: 股价 886 港元/股 (2026年2月)

## Arcee Trinity Large Key Metrics
Source: Arcee AI 官方 + 技术报告

- 参数: 400B 总参数，13B 激活/token (MoE)
- 架构: AFMoE (Attention-First Mixture-of-Experts)
- 专家数: 128 experts, 8 active per token
- 上下文: 131K tokens
- 生成速度: 200+ tokens/s
- 响应延迟: sub-3s
- 协议: Apache 2.0 (完全开源，可商用)
- 性能: 与 Llama 4 Maverick 400B、GLM-4.5 相当
- 训练方: Arcee AI + Prime Intellect + DatologyAI
- 定位: 美国企业发布的最大开源模型之一

## Quick Reference: Model Tier List (May 2026)

### Tier 1 — 顶级闭源
- GPT-5.4 / GPT-5.5 (OpenAI)
- Claude Opus 4.6 (Anthropic)
- Gemini 3.1 Pro (Google)

### Tier 1.5 — 准顶级 / 开源最强
- MiMo-V2.5-Pro (小米) — 开源第一梯队
- Kimi-K2-Thinking (月之暗面)
- GLM-5.1 (智谱AI)

### Tier 2 — 强劲商用
- MiniMax M2.7 — 中文顶级，Agent 强
- Qwen3.5-Plus (阿里)
- DeepSeek V4-Pro

### Tier 2.5 — 优秀开源
- Trinity Large (Arcee) — 400B MoE，英文优化
- Qwen3.5-27B / Qwen3.6-35B
- GLM-4.7 (智谱AI)

### Tier 3 — 高效/轻量
- Trinity Mini (26B, 3B active)
- Gemini 3.1 Flash Lite
- Qwen3.5-Flash