```

feat(iOS): 更新MNN后端模型配置优化性能将MNN主模型从Qwen3.5-4B(~2.64GiB)降级为Qwen3.5-2B(~1.1GiB)，因为4B版本实测运行过慢，影响用户体验。iPhone17+/SME2设备使用2B模型，保留MLX 兜底方案用于模拟器和备用场景，确保AI推理性能和存储效率的平衡。 ```
2026-06-09 22:20:07 +08:00
parent ca5a3fa38b
commit b79ae54b7b
40 changed files with 1327 additions and 452 deletions
--- a/康康/AI/LLMSession.swift
+++ b/康康/AI/LLMSession.swift
@@ -45,10 +45,16 @@ actor LLMSession {
            let task = Task {
                do {
                    try await Self.withDeviceOverride {
+                        // 低温:本 App 文本任务多为"直答/JSON 抽取",高温随机性会经常吐成非 JSON。
+                        // 0.3 + topP 0.85 让输出更确定、JSON 更稳(与 MNN set_config 降温对齐)。
+                        // repetitionPenalty:低温 + 无惩罚时,长文本(如「关键指标」列表)会逐行复读
+                        // 进入死循环;1.1 的重复惩罚 + 64 token 上下文窗口掐断复读(与 MNN penalty 对齐)。
                        let parameters = GenerateParameters(
                            maxTokens: maxTokens,
-                            temperature: Float(0.6),
-                            topP: Float(0.9)
+                            temperature: Float(0.3),
+                            topP: Float(0.85),
+                            repetitionPenalty: Float(1.1),
+                            repetitionContextSize: 64
                        )

                        try await container.perform { (context: ModelContext) in