feat(AI): 双后端路由 MNN/MLX,AIRuntime 按引擎分发(Phase 3 核心)

- InferenceEngine:引擎枚举(.mnn 默认 / .mlx 兜底)+ UserDefaults 持久化 + 可用性/SME2 运行时探测(经 MNNLLMBridge) - MNNBackend:actor 封装 MNNLLMBridge 文本流式生成,detached 线程跑同步 response、按 UTF-8 边界 yield TokenChunk,串行化交给 AIRuntime 闸门 - AIRuntime:prepare/generate 按引擎分发;.mnn 且模型就绪→MNN,否则回退 MLX (过渡期 App 始终可用);prepareVL/单模型常驻时互卸 MNN↔MLX 释放内存公有 API 不变,各 Service 零改动模拟器 BUILD SUCCEEDED,0 error。引擎切换 UI + SME2 指示留待 Phase 5。 Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-08 18:58:27 +08:00
parent afc6a79dd7
commit f6c0ba7077
3 changed files with 205 additions and 1 deletions
--- a/康康/AI/AIRuntime.swift
+++ b/康康/AI/AIRuntime.swift
@@ -32,6 +32,15 @@ actor AIRuntime {
    private var llmSession: LLMSession?
    private var vlSession: VLSession?
    // MARK: - MNN 后端(CPU/SME2,挑战赛考核路径)
    // 文本生成在 .mnn 引擎下走 MNN;VL(图→文)暂仍走 MLX(MNN VL 需 OMNI 构建)。
    private let mnn = MNNBackend()
    private(set) var mnnStatus: Status = .notReady
    /// MNN 模型目录(下载/旁路导入到 Models/Qwen3.5-2B-MNN)。
    nonisolated static var mnnModelFolder: URL {
        ModelStore.shared.rootURL.appendingPathComponent("Qwen3.5-2B-MNN", isDirectory: true)
    }
    // MARK: - 串行推理闸门(§3.1 OOM 防护的真正落地)
    //
    // actor 只串行化「方法入口」,但 generate() 同步返回流、真正解码在内部 Task;
@@ -78,8 +87,19 @@ actor AIRuntime {
        #endif
    }
-    /// 加载模型。首次调用会真正加载,后续幂等。
+    /// 加载文本模型。首次调用会真正加载,后续幂等。
    /// 按当前引擎路由:.mnn → MNN(CPU/SME2);.mlx → 现有 MLX(GPU)。
    func prepare() async throws {
        // 选了 MNN 且模型已就绪才走 MNN;否则(选 MLX,或 MNN 模型尚未下载)回退 MLX,
        // 保证过渡期 App 始终可用。引擎指示器(Phase 5)展示实际生效后端。
        let mnnReady = FileManager.default.fileExists(
            atPath: Self.mnnModelFolder.appendingPathComponent("config.json").path)
        if InferenceEngine.current == .mnn, mnnReady {
            try await prepareMNN()
            return
        }
        // 走 MLX:先卸 MNN 释放内存(单模型常驻策略)。
        await unloadMNN()
        // 已有其他调用方在加载时,轮询等其结束再判定结果。
        // 不能像旧实现那样裸 return:那会让调用方误以为已 ready,随后 generate 的
        // `guard status == .ready` 失败 → 用户撞上「假错误屏」(模型其实正常加载中)。
@@ -119,9 +139,52 @@ actor AIRuntime {
        }
    }
    /// 加载 MNN 文本模型。幂等。单模型常驻:载入前卸掉 MLX 的 LLM/VL 释放内存。
    private func prepareMNN() async throws {
        while mnnStatus == .loading {
            try await Task.sleep(nanoseconds: 80_000_000)
        }
        if mnnStatus == .ready { return }
        let folder = Self.mnnModelFolder
        let config = folder.appendingPathComponent("config.json").path
        guard FileManager.default.fileExists(atPath: config) else {
            mnnStatus = .error("MNN 模型未就绪")
            throw AIRuntimeError.notReady
        }
        await acquireGate()
        defer { releaseGate() }
        if mnnStatus == .ready { return }
        // 单模型常驻:卸 MLX LLM/VL,避免与 MNN 模型叠加占内存。
        unloadLLM()
        unloadVL()
        mnnStatus = .loading
        do {
            try await mnn.load(folderURL: folder)
            mnnStatus = .ready
        } catch {
            mnnStatus = .error("\(error)")
            throw AIRuntimeError.modelLoadFailed("\(error)")
        }
    }
    /// 卸载 MNN,释放桥与权重。幂等。
    private func unloadMNN() async {
        guard mnnStatus != .notReady else { return }
        await mnn.unload()
        mnnStatus = .notReady
        MLX.Memory.clearCache()
    }
    /// 流式生成。调用前应先 await prepare()。
    /// 注意:返回流是同步创建的,但跨 actor 调用 LLMSession 需要 await。
    func generate(prompt: String, maxTokens: Int = 256) -> AsyncThrowingStream<TokenChunk, Error> {
        if InferenceEngine.current == .mnn, mnnStatus == .ready {
            return mnnGenerate(prompt: prompt, maxTokens: maxTokens)
        }
        // 在 actor 隔离上下文中捕获快照,Task 内不再访问 self.status / self.llmSession
        let snapshotStatus = status
        let snapshotSession = llmSession
@@ -159,6 +222,33 @@ actor AIRuntime {
        }
    }
    /// MNN(CPU/SME2)文本流式生成。结构与 MLX 分支一致:进闸门、串行解码、记录速率。
    private func mnnGenerate(prompt: String, maxTokens: Int) -> AsyncThrowingStream<TokenChunk, Error> {
        let ready = (mnnStatus == .ready)
        return AsyncThrowingStream { continuation in
            let task = Task {
                guard ready else {
                    continuation.finish(throwing: AIRuntimeError.notReady)
                    return
                }
                await self.acquireGate()
                do {
                    let stream = await self.mnn.generate(prompt: prompt, maxTokens: maxTokens)
                    for try await chunk in stream {
                        try Task.checkCancellation()
                        self.recordRate(chunk.decodeRate)
                        continuation.yield(chunk)
                    }
                    continuation.finish()
                } catch {
                    continuation.finish(throwing: AIRuntimeError.inferenceFailed("\(error)"))
                }
                self.releaseGate()
            }
            continuation.onTermination = { _ in task.cancel() }
        }
    }
    private func recordRate(_ rate: Double) {
        if rate > 0 { lastDecodeRate = rate }
    }
@@ -186,6 +276,7 @@ actor AIRuntime {
        // OOM 闸门(§3.1):加载 VL(~3GB)前先卸 LLM(~1GB),否则两者常驻叠加冲过内存上限被 jetsam 杀。
        unloadLLM()
        await unloadMNN()
        vlStatus = .loading
        do {
--- a/康康/AI/InferenceEngine.swift
+++ b/康康/AI/InferenceEngine.swift
@@ -0,0 +1,41 @@
 import Foundation
 /// 端侧推理引擎选择。
 /// - mnn:Qwen + MNN + SME2(CPU),挑战赛考核路径,真机默认。
 /// - mlx:Qwen + MLX(Metal GPU),兜底 / 对照。模拟器只有它可用。
 nonisolated enum InferenceEngine: String, CaseIterable, Sendable {
    case mnn
    case mlx
    var displayName: String {
        switch self {
        case .mnn: return "MNN · CPU/SME2"
        case .mlx: return "MLX · GPU"
        }
    }
    /// 本构建/设备是否可用。MNN 仅 device 切片有真实内核,模拟器回退 MLX。
    var isAvailable: Bool {
        switch self {
        case .mlx: return true
        case .mnn: return MNNLLMBridge.isAvailable()
        }
    }
    // MARK: - 持久化(UserDefaults,跨 actor 安全)
    private static let key = "kk.inferenceEngine"
    /// 当前选择。无效/不可用时回退到 .mlx(保证总有可用引擎)。真机默认 .mnn。
    static var current: InferenceEngine {
        get {
            let raw = UserDefaults.standard.string(forKey: key)
            let chosen = raw.flatMap(InferenceEngine.init(rawValue:)) ?? .mnn
            return chosen.isAvailable ? chosen : .mlx
        }
        set { UserDefaults.standard.set(newValue.rawValue, forKey: key) }
    }
    /// 运行时探测:CPU 是否支持 SME2(A19/iPhone17+)。用于 UI 展示加速状态。
    static var cpuSupportsSME2: Bool { MNNLLMBridge.cpuSupportsSME2() }
 }
--- a/康康/AI/MNNBackend.swift
+++ b/康康/AI/MNNBackend.swift
@@ -0,0 +1,72 @@
 import Foundation
 /// MNN(CPU / SME2)推理后端,封装 `MNNLLMBridge` 的文本流式生成。
 /// 与 `LLMSession`/`VLSession` 同款 actor 隔离;跨调用的串行化由上游 `AIRuntime` 闸门保证。
 ///
 /// VL(图→文)需 MNN OMNI 构建(OpenCV 解码图像),当前文本构建不支持;`analyze` 抛错,
 /// 上层在 VL 路径回退 MLX(见 `AIRuntime`)。
 actor MNNBackend {
    private var bridge: MNNLLMBridge?
    var isLoaded: Bool { bridge?.isLoaded ?? false }
    /// 从 MNN 模型目录加载(目录含 MNN llm 的 config.json + llm.mnn + 权重 + tokenizer)。
    func load(folderURL: URL) throws {
        let configPath = folderURL.appendingPathComponent("config.json").path
        guard FileManager.default.fileExists(atPath: configPath) else {
            throw AIRuntimeError.notReady
        }
        guard let b = MNNLLMBridge(configPath: configPath) else {
            throw AIRuntimeError.modelLoadFailed("MNN createLLM/load 失败")
        }
        bridge = b
    }
    func unload() { bridge = nil }
    /// 文本流式生成。`bridge.generateText` 同步阻塞、逐段回调,放在 detached 线程跑,
    /// 把每段文本 yield 成 `TokenChunk`(含即时 tok/s)。流被取消时调用 `bridge.cancel()`。
    func generate(prompt: String, maxTokens: Int) -> AsyncThrowingStream<TokenChunk, Error> {
        guard let bridge else {
            return AsyncThrowingStream { $0.finish(throwing: AIRuntimeError.notReady) }
        }
        let box = MNNUncheckedBox(bridge)
        return AsyncThrowingStream { continuation in
            let meter = MNNRateMeter()
            let task = Task.detached(priority: .userInitiated) {
                _ = box.value.generateText(prompt, maxTokens: Int32(maxTokens)) { piece in
                    let rate = meter.tick()
                    continuation.yield(TokenChunk(text: piece, decodeRate: rate))
                }
                continuation.finish()
            }
            continuation.onTermination = { _ in
                box.value.cancel()
                task.cancel()
            }
        }
    }
    /// 图→文(VL)。当前 MNN 文本构建未含 OMNI,直接抛错让上层回退 MLX VL。
    func analyze(imageURLs: [URL], prompt: String, maxTokens: Int) throws -> String {
        throw AIRuntimeError.inferenceFailed("MNN 当前构建不支持 VL(需 OMNI)")
    }
 }
 /// 把非 Sendable 的 ObjC 桥对象安全带过 detached 边界。
 /// 安全性来自 `AIRuntime` 闸门:同一时刻只有一个生成在跑,桥不会被并发访问。
 private nonisolated struct MNNUncheckedBox<T>: @unchecked Sendable {
    let value: T
    init(_ value: T) { self.value = value }
 }
 /// 即时解码速率计:回调在单线程串行调用,内部计数无竞争。
 private nonisolated final class MNNRateMeter: @unchecked Sendable {
    private let start = Date()
    private var produced = 0
    func tick() -> Double {
        produced += 1
        let elapsed = Date().timeIntervalSince(start)
        return elapsed > 0 ? Double(produced) / elapsed : 0
    }
 }