比格熊博客 - 软件更新日志

我的问题以及GEMINI给我的答案

我是大熊 2026-03-24

win10和mac兼容系比较好的客户端架构有哪些，最好能基于web视图技术，因为对CSS和HTML结构比较熟悉，但是也需要一些其他的高级语言处理逻辑，操作文件，加载本地大模型之类的，你有什么比较成熟稳定的技术方案吗？

既然你对 HTML/CSS 非常熟悉，同时又有处理复杂逻辑、文件系统操作以及加载本地大模型 (LLM) 这种高负载需求，目前的跨平台客户端架构主要集中在以下三个“黄金方案”上。

针对你的需求，我按照性能、成熟度和技术栈匹配度进行了排序：

1. Tauri (首选推荐：极致性能与轻量化)

Tauri 是目前增长最快、最受开发者青睐的方案。它将 UI 交给系统原生的 WebView（Win10 用 Edge/WebView2，Mac 用 WebKit），而后台逻辑则交给 Rust。

为什么适合你：
- Web 前端： 你可以用任何喜欢的 Web 框架（React, Vue, 或纯 HTML/CSS）构建 UI。
- 本地大模型： Rust 是目前处理本地 AI 推理最理想的语言之一。你可以直接调用 llama-cpp-rs 或 candle 等 Rust 库，效率远高于 Node.js。
- 安全性与体积： 它的安装包极小（通常只有几 MB），且由于 Rust 的特性，内存安全管理非常出色。
挑战： 你需要学习一点 Rust 语法来编写后端逻辑（操作文件、调用模型）。

2. Electron (最成熟：生态之王)

Electron 是 VS Code、Discord 和 Slack 的底层架构。它将 Chromium 浏览器和 Node.js 打包在一起。

为什么适合你：
- 上手难度最低： 前端 UI 和后端逻辑（Node.js）全部使用 JavaScript/TypeScript。
- 生态极其丰富： 对于加载大模型，你可以直接使用 node-llama-cpp 或者 onnxruntime-node 等成熟的 NPM 包。
- 文件操作： Node.js 的 fs 模块处理本地文件非常简单直观。
挑战： 资源占用大（内存怪兽）。由于它自带了一个完整的 Chromium，加载本地大模型时，GPU/内存压力会比 Tauri 大得多。

3. Wails (平衡之选：Go 语言后端)

如果觉得 Rust 太难，又觉得 Electron 太重，Wails 是一个绝佳的中间地带。它使用 Go 语言作为后端。

为什么适合你：
- Go 语言逻辑： Go 的语法比 Rust 简单得多，且处理并发和系统 API（文件操作）非常高效。
- 轻量： 和 Tauri 一样，它使用系统原生的 WebView，不打包 Chromium。
- 模型支持： 通过 Go 的 CGO 调用 llama.cpp 的 C++ 接口非常成熟。
挑战： 在三者中，Wails 的社区插件生态相对较小。

技术方案对比表

针对“加载本地大模型”的深度建议

无论你选择哪种架构，加载大模型（如 Llama 3 或 Qwen）通常有两条路径：

侧边进程 (Sidecar) 模式： 不要在 Electron/Tauri 的主进程里直接运行推理。可以打包一个编译好的 llama.cpp 二进制文件作为“侧边服务”，你的 Web 视图通过本地端口（如 localhost:11434）与其通信。这是目前最稳定、解耦最好的方式。
WebGPU (未来趋势)： 如果你希望完全在 Web 视图内处理，可以关注 WebLLM 项目。它利用 WebGPU 接口，让 HTML 页面直接调用显卡进行推理，不需要编写复杂的后端 C++/Rust 代码，直接在 JS 里写逻辑。

如果你希望现在就开始一个稳定且高性能的项目，我建议： 先尝试 Tauri。虽然 Rust 有学习成本，但它处理文件和本地模型的能力是目前跨平台方案的天花板。

您是否需要我为您整理一份基于 Tauri 运行本地 LLM 的基础项目结构示例？

阅读全文

云端更新记录0324

我是大熊 2026-03-24

### 状态

- 创建时间: 2026-03-23

- 完成时间: 2026-03-23

- 数据库脚本: `update-mysql/update0323-user-sfx-behavior.sql`

---

## 2026-03-24 客户端下载历史功能修复

### 问题描述

客户端下载音效后，历史记录列表显示异常，部分功能返回错误。

### 修复内容

#### 1. 下载历史列表查询条件不一致

**问题**: `findUserDownloadHistory` 有 `download_count > 0` 条件，但 `countUserDownloadHistory` 没有，导致 list 和 total 数量不匹配。

**修复**: 移除 `download_count > 0` 条件，两边统一只过滤 `deleted = 0`。

#### 2. downloadJSON 未记录下载历史

**问题**: `ClientSfxController.downloadJSON()` 获取下载链接时未调用 `behaviorLogService.recordBehavior()`。

**修复**: 

- 恢复 `BehaviorLogService` 注入（之前被注释）

- 在返回下载链接前调用 `recordBehavior()` 记录下载行为

#### 3. downloadProxy 未从 URL 参数获取 token

**问题**: `downloadjson` 返回的 URL 没有带 token，客户端请求时无法识别用户。

**修复**:

- URL 添加 token 参数: `&token=xxx`

- `downloadProxy` 支持 `tokenParam` 参数

#### 4. PageViewInterceptor 无法识别客户端用户

**问题**: 拦截器只从 Spring Security 上下文获取用户，客户端 API 使用自定义 token 解析，导致 `user=null`。

**修复**: `getCurrentUserId()` 增加从请求头/参数解析 token 的逻辑。

#### 5. upsertUserSfxBehavior 未重置 deleted 字段

**问题**: 用户删除历史后重新下载同一音效，`ON DUPLICATE KEY UPDATE` 未重置 `deleted=0`，导致记录仍然不显示。

**修复**: UPDATE 语句添加 `deleted = 0`。

#### 6. Map.of() 不支持 null 值

**问题**: 取消置顶时 `pinnedTime=null`，`Map.of("pinned", pinned, "pinnedTime", null)` 抛出 NPE，返回 500。

**修复**: 改用 `HashMap` 代替 `Map.of()`。

---

### 修改文件

| 文件 | 修改内容 |

|------|----------|

| `UserBehaviorMapper.java` | 移除 download_count 条件，UPDATE 添加 deleted=0 |

| `ClientSfxController.java` | 恢复 BehaviorLogService 注入，添加记录调用，URL 带 token |

| `ClientUserResourceController.java` | Map.of() 改 HashMap |

| `PageViewInterceptor.java` | 增加 token 解析逻辑 |

---

### 状态

- 修复时间: 2026-03-24

阅读全文

## 最近更新新版本即将发布 ###

我是大熊 2026-03-23

## 最近更新

### 2026-03-23: Mine 模块（我的下载）正式发布

**功能概述**：用户下载记录管理模块，支持音效试听、批量操作、本地文件管理

**核心功能**：

1. 下载记录列表展示（分页、两列布局）

2. 音频波形图试听播放（鼠标悬停自动播放、点击跳转进度）

3. 置顶/取消置顶下载记录

4. 1-5星评分功能

5. 删除记录（同时删除本地缓存文件）

6. 批量操作：全选、反选、批量删除、清空所有

7. 打开本地缓存目录

8. 添加到 DaVinci Resolve 媒体池

**新增文件**：

- `modules/mine/index.html` - 容器结构

- `modules/mine/renderer.js` - 核心逻辑（约1100行）

- `modules/mine/styles.css` - 样式文件

**修改文件**：

- `main.js` - 新增 `shell:openFolder` 和 `shell:deleteLocalFile` IPC handler

- `preload.js` - 暴露 `window.shellAPI.openFolder()` 和 `window.shellAPI.deleteLocalFile()`

- `config.json` - 新增 4 个接口端点配置

- `index.html` - 侧边栏"我的"菜单项指向 mine 模块

- `network_client.js` - 添加调试日志、支持 code: 200 成功状态

**API 接口**（云端 ClientUserResourceController）：

- `GET /user/downloads` - 下载记录列表（page, size 参数）

- `POST /user/downloads/pin` - 置顶/取消置顶（sfxId, pinned 参数）

- `POST /user/downloads/delete` - 删除记录（sfxId 参数）

- `POST /user/downloads/rate` - 评分（sfxId, rating 参数）

**关键实现**：

- 波形图绘制：使用 Canvas API，支持进度显示

- 播放控制：HTML5 Audio API，支持悬停播放、点击跳转

- 多选功能：使用 Set 存储选中状态，支持点击名称切换选中

- 批量删除：遍历选中项，先删除本地文件再删除后端记录

- 清空所有：分页遍历删除，避免内存溢出

- 失效记录标记：后端返回 `isValid: false` 标记已删除的音效

**UI 布局**：

- 顶部工具栏：左侧统计信息，右侧操作按钮

- 两列卡片布局：名称、波形图、评分、操作按钮

- 底部分页：居中显示

- Toast 提示：替代 alert 弹窗

### 2025-03-14: v1.2.4 版本发布 - 代码清理

**变更内容**：

1. 移除 Rough Cut（粗剪）模块 - 整个 `modules/rough_cut/` 目录

2. 清理 10000+ 行废弃代码

阅读全文

把整个库的音效名称用AI清洗了一遍

我是大熊 2026-03-21

现在的名称应该既有主题又不啰嗦

这样的搜索命中率会高一些

花了3天时间

阅读全文

搜索短暂不可访问

我是大熊 2026-03-20

如果你遇到搜索短暂不可访问，不用急。

这可能是在批量添加音效内容，稍微等等就会恢复！

阅读全文

正在更新音效管理后台

我是大熊 2026-03-20

不断更新云端后台系统是为了更高效的补充和管理音效数据...

功能好用资源不足

也是花架子

阅读全文

每天跟AI对话的内容比跟真人的还多

我是大熊 2026-03-19

这正常嘛？？？

阅读全文

音频分类工具开发记录

我是大熊 2026-03-19

## 2026-03-19: 修复音频加载除零错误 + 输入目录缓存功能

### 问题 1: 音频加载除零错误

后台日志出现 `加载失败: division by zero`，某些音频文件加载时采样率为 0 或 None。

### 解决方案 1

在音频加载时添加采样率有效性检查：

**修改的文件:**

- `python/api_server.py:1299` - `load_audio_file()` 添加 `sr` 检查

- `python/utils/sync_json_db.py:482` - 添加 `sr` 检查并优雅降级

- `python/main.py:431` - `preprocess_audio()` 添加 `sample_rate` 检查

**代码示例:**

```python

if sr == 0 or sr is None:

    return None, 0, 0, "无效的采样率(0)"

```

### 问题 2: 输入目录无法缓存

用户希望输入目录在退出程序后自动保存，下次打开时自动恢复。

### 解决方案 2

实现输入目录本地缓存功能：

**修改的文件:**

- `tauri/src/stores/app.js:72` - 更新 `saveConfig()` 支持同时保存输入/输出目录

- `tauri/src/views/Batch.vue`:

  - `addInputDir()` - 添加目录后自动保存

  - `removeInputDir()` - 删除目录后自动保存

  - `clearInputDirs()` - 清空目录后自动保存

  - `appendInputDir()` - 运行时追加目录后自动保存

  - `selectOutputDir()` - 选择输出目录时同时保存输入目录

  - `onMounted()` - 启动时自动加载缓存的输入目录

**Bug 修复:**

1. `appendInputDir()` 运行时追加目录未保存缓存

2. 空输出目录会覆盖已有配置

---

## 2026-03-18: 移除Ollama依赖，优化文件名和标签生成

### 问题

1. 本地无Ollama服务，但代码依赖Ollama API调用

2. `filename` 字段被LLM输出污染（如"根据提供的信息..."、"翻译结果如下..."等）

3. 文件名和标签中出现禁用词（未分类、素材、音效等无意义词汇）

### 解决方案

1. **统一使用本地GGUF模型** (qwen2.5-7b-instruct)

   - 移除所有Ollama API调用

   - 使用 `llama-cpp-python` 直接加载本地模型

2. **禁用词过滤（双重机制）**

   - LLM Prompt中明确禁止输出禁用词

   - 代码强制过滤作为保底

3. **文件名生成优化**

   - 最大长度50字符

   - 结尾清理中文标点

   - 优先级：LLM生成 → tags_cn组合 → model_keywords → 分类名

4. **禁用词列表**

   ```python

   FORBIDDEN_WORDS = {

       "未分类", "其他", "人工审核", "素材", "音效", "声音", "音频",

       "专业", "通用", "未知", "待处理", "待审核", "综合",

       "unknown", "other", "uncategorized", "misc", "audio", "sound", "effect", "sfx"

}

```

### 修改的文件

- `python/main.py`: 移除Ollama参数，改用本地LLM，新增 `_filter_forbidden_tags`

- `python/classifier_v2.py`: 新增禁用词常量，重构 `_optimize_filename_with_llm`，新增验证函数

- `python/utils/tag_generator.py`: `generate_tags_with_ollama` 改为 `generate_tags_with_local_llm`

- `python/config.py`: 注释掉Ollama配置

### 关键代码位置

- `classifier_v2.py:35-50`: 禁用词和污染词常量

- `classifier_v2.py:560-680`: LLM文件名生成和验证

- `classifier_v2.py:682-760`: 文件名生成主逻辑

- `main.py:1235-1347`: 标签生成（使用本地LLM）

## 2026-03-16: 修复大量文件扫描进度卡住问题

### 问题

点击"开始分类"时，如果目录文件数量很大（如10万+），扫描阶段会卡住不动，界面长时间显示"正在扫描文件..."但没有进度更新。

### 原因

原代码在扫描每个音频文件时都调用 `is_valid_audio_file()` 打开文件读取文件头来验证有效性，这个IO操作很慢，导致：

1. 扫描速度极慢（每秒只能处理几十个文件）

2. 进度更新间隔太大（每500个才更新一次）

3. 用户无法看到实时进度

### 解决方案

将扫描分为两阶段：

1. **快速收集阶段**（status: scanning）

   - 只检查文件扩展名，不打开文件

   - 每1000个文件更新一次进度

   - 速度：每秒可处理数千个文件

2. **验证阶段**（status: scanning）

   - 检查文件有效性（大小、文件头魔数）

   - 每200个文件更新一次进度

   - 显示有效文件数量

### 修改的文件

- `python/api_server.py`: 优化文件扫描逻辑，分两阶段处理

- `tauri/src/views/Batch.vue`: 前端支持扫描阶段显示进度

### 关键代码位置

- `api_server.py:1344-1397`: 文件扫描和验证逻辑

- `Batch.vue:36-76`: 扫描阶段的UI显示

- `Batch.vue:215-225`: 进度百分比计算

阅读全文

1TB+ ComfyUI本地大模型打包下载

我是大熊 2026-03-17

这里的文件只包含模型不包含任何程序文件

所以下载后直接覆盖到的ComfyUI模型目录就可以了

自从去年下半年到现在所有我下载的模型都在这里了

## 目录

1. [基础模型 (Checkpoints)](#1-基础模型-checkpoints)

2. [扩散模型 (Diffusion Models)](#2-扩散模型-diffusion-models)

3. [LoRA 模型](#3-lora-模型)

4. [ControlNet 模型](#4-controlnet-模型)

5. [VAE 模型](#5-vae-模型)

6. [CLIP 和文本编码器](#6-clip-和文本编码器)

7. [CLIP Vision 模型](#7-clip-vision-模型)

8. [超分模型 (Upscale Models)](#8-超分模型-upscale-models)

9. [VAE Approx 模型](#9-vae-approx-模型)

10. [音频编码器](#10-音频编码器)

11. [风格模型](#11-风格模型)

12. [GLIGEN 模型](#12-gligen-模型)

13. [XLabs 模型](#13-xlabs-模型)

14. [FlashVSR 模型](#14-flashvsr-模型)

15. [UNet 模型](#15-unet-模型)

16. [模型补丁 (Model Patches)](#16-模型补丁-model-patches)

17. [根目录模型](#17-根目录模型)

18. [模型配合关系汇总](#18-模型配合关系汇总)

---

## 1. 基础模型 (Checkpoints)

基础模型是图像生成的核心模型，包含完整的U-Net、VAE和文本编码器。

|---------|------|---------|-------------|

---

## 2. 扩散模型 (Diffusion Models)

分离式扩散模型，通常需要配合特定的文本编码器和VAE使用。

|---------|------|---------|-------------|

---

## 3. LoRA 模型

LoRA（Low-Rank Adaptation）用于微调基础模型的风格或添加新概念。

| 模型名称 | 适用基础模型 | 主要用途 |

|---------|-------------|---------|

| `Loraeyes_V1.safetensors` | SD 1.5 | 眼睛细节优化LoRA |

| `blindbox_v1_mix.safetensors` | SD 1.5 | 盲盒/手办风格LoRA |

| `MoXinV1.safetensors` | SD 1.5 | 墨心/中国画风格LoRA |

| `dmd2_sdxl_4step_lora.safetensors` | SDXL | DMD2 4步快速生成LoRA |

| `ltxv-13b-0.9.7-distilled-lora128.safetensors` | LTX-Video | LTXV 蒸馏LoRA，加速生成 |

| `Hyper-FLUX.1-dev-8steps-lora.safetensors` | FLUX.1 Dev | HyperSD 8步快速生成LoRA |

| `Hyper-FLUX.1-dev-16steps-lora.safetensors` | FLUX.1 Dev | HyperSD 16步生成LoRA |

| `Wan21_CausVid_14B_T2V_lora_rank32.safetensors` | Wan 2.1 14B | CausVid 因果视频生成LoRA |

| `Wan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensors` | Wan 2.1 1.3B | CausVid 双向因果视频生成LoRA（小模型版） |

| `lightx2v_T2V_14B_cfg_step_distill_v2_lora_rank64_bf16.safetensors` | Wan 2.1 14B T2V | LightX2V CFG蒸馏LoRA，加速文生视频 |

| `lightx2v_I2V_14B_480p_cfg_step_distill_rank64_bf16.safetensors` | Wan 2.1 14B I2V | LightX2V CFG蒸馏LoRA，加速图生视频 |

| `ltx-2-19b-distilled-lora-384.safetensors` | LTX-2 19B | LTX-2 蒸馏LoRA |

| `ltx-2-19b-lora-camera-control-dolly-left.safetensors` | LTX-2 19B | LTX-2 相机控制LoRA（左移） |

| `Qwen-Image-Lightning-4steps-V1.0.safetensors` / `Qwen-Image-Lightning-8steps-V1.0.safetensors` | Qwen Image | Qwen图像闪电快速生成LoRA |

| `Qwen-Image-Edit-2509-Lightning-4steps-V1.0-bf16.safetensors` / `Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors` | Qwen Image Edit | Qwen图像编辑闪电LoRA |

| `Qwen-Edit-2509-Multiple-angles.safetensors` | Qwen Image | Qwen多角度编辑LoRA |

| `uso-flux1-dit-lora-v1.safetensors` | FLUX.1 | USO-FLUX DiT LoRA |

| `wan2.2_t2v_lightx2v_4steps_lora_v1.1_high_noise.safetensors` / `wan2.2_t2v_lightx2v_4steps_lora_v1.1_low_noise.safetensors` | Wan 2.2 T2V | Wan 2.2 LightX2V 4步LoRA（高/低噪声版） |

| `wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors` / `wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors` | Wan 2.2 I2V | Wan 2.2 LightX2V 4步LoRA（高/低噪声版） |

| `removal_timestep_alpha-2-1740.safetensors` | Wan/FLUX | 时间步移除LoRA |

| `wan_alpha_2.1_rgba_lora.safetensors` | Wan 2.1 | Wan Alpha通道LoRA，支持RGBA生成 |

| `WanAnimate_relight_lorc_fp16.safetensors` | Wan | Wan动画重新打光LoRA |

| `ltx2-squish.safetensors` | LTX-Video | LTX视频压缩/变形效果LoRA |

| `ltx-2.3-22b-distilled-lora-384.safetensors` | LTX-2.3 22B | LTX-2.3 22B蒸馏LoRA，加速生成 |

| `Qwen-Image-Edit-2509-Light-Migration.safetensors` | Qwen Image Edit | Qwen图像编辑光照迁移LoRA |

| `Qwen-Image-Edit-2509-Lightning-8steps-V1.0-bf16.safetensors` | Qwen Image Edit | Qwen图像编辑闪电8步LoRA |

| `FireRed-Image-Edit-1.0-Lightning-8steps-v1.0.safetensors` | FireRed Image Edit | FireRed图像编辑闪电8步LoRA |

| `gemma-3-12b-it-abliterated_lora_rank64_bf16.safetensors` | Gemma 3 12B | Gemma 3 指令模型LoRA（rank64） |

| `WanAnimate_relight_lora_fp16.safetensors` | Wan | Wan动画重新打光LoRA（FP16版） |

---

## 4. ControlNet 模型

ControlNet 用于控制图像生成过程，基于各种条件输入。

|---------|-------------|---------|---------|

---

## 5. VAE 模型

VAE（变分自编码器）用于在像素空间和潜在空间之间转换图像。

| 模型名称 | 适用基础模型 | 主要用途 |

|---------|-------------|---------|

| `vae-ft-mse-840000-ema-pruned.safetensors` | SD 1.5 / SDXL | 标准VAE（840k步训练，EMA剪枝版） |

| `ae.safetensors` | FLUX 系列 | FLUX 官方VAE |

| `flux2-vae.safetensors` | FLUX.2 | FLUX.2 VAE |

| `wan_2.1_vae.safetensors` | Wan 2.1 | 万相视频VAE |

| `wan2.2_vae.safetensors` | Wan 2.2 | 万相2.2视频VAE |

| `wan_alpha_2.1_vae_rgb_channel.safetensors` / `wan_alpha_2.1_vae_alpha_channel.safetensors` | Wan Alpha | 万相Alpha通道VAE（RGB+Alpha分离） |

| `qwen_image_vae.safetensors` | Qwen Image | 通义千问图像VAE |

| `vaeFtMse840000EmaPruned_vaeFtMse840k.safetensors` | SD 1.5 | 另一种命名格式的VAE |

---

## 6. CLIP 和文本编码器

CLIP和文本编码器用于将文本提示转换为模型可理解的嵌入向量。

|---------|------|-------------|---------|

---

## 7. CLIP Vision 模型

CLIP Vision 用于处理图像输入，实现图生图、风格迁移等功能。

| 模型名称 | 主要用途 | 需配合的模型 |

|---------|---------|-------------|

| `clip_vision_g.safetensors` | CLIP Vision Large | IP-Adapter、图像反推、风格迁移 |

| `clip_vision_h.safetensors` | CLIP Vision Huge | 高清图像理解 |

| `sigclip_vision_patch14_384.safetensors` | SigCLIP Vision | SigCLIP 视觉编码器（384x384） |

| `checkpoints/clip_vision_g.safetensors` | 同上 | checkpoints目录副本 |

---

## 8. 超分模型 (Upscale Models)

用于图像放大和细节增强。

|---------|---------|---------|---------|

| `4xFaceUpSharpDAT.pth` | 4x | DAT | 面部专用超分 |

| `latent_upscale_models/ltx-2-spatial-upscaler-x2-1.0.safetensors` | 2x | LTX | LTX-2空间超分 |

| `latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.0.safetensors` | 2x | LTX | LTX-2.3空间超分 v1.0 |

| `latent_upscale_models/ltx-2.3-spatial-upscaler-x2-1.1.safetensors` | 2x | LTX | LTX-2.3空间超分 v1.1（更新版） |

---

## 9. VAE Approx 模型

VAE Approximation 模型用于快速潜在解码预览。

| 模型名称 | 适用基础模型 | 主要用途 |

|---------|-------------|---------|

| `taesd_encoder.safetensors` / `taesd_decoder.safetensors` | SD 1.5 | SD 1.5 快速VAE编解码器 |

| `taesdxl_encoder.safetensors` / `taesdxl_decoder.safetensors` | SDXL | SDXL 快速VAE编解码器 |

| `taesd3_encoder.safetensors` / `taesd3_decoder.safetensors` | SD 3 | SD 3 快速VAE编解码器 |

| `taef1_encoder.safetensors` / `taef1_decoder.safetensors` | FLUX | FLUX 快速VAE编解码器 |

---

## 10. 音频编码器

用于音频处理和语音识别的模型。

| 模型名称 | 主要用途 |

|---------|---------|

| `wav2vec2_large_english_fp16.safetensors` | Wav2Vec 2.0 Large，英语语音识别 |

| `whisper_large_v3_fp16.safetensors` | OpenAI Whisper Large v3，多语言语音识别 |

---

## 11. 风格模型

用于图像风格迁移和处理的模型。

| 模型名称 | 主要用途 | 需配合的模型 |

|---------|---------|-------------|

| `flux1-redux-dev.safetensors` | FLUX Redux 风格迁移 | FLUX 基础模型、CLIP Vision |

---

## 12. GLIGEN 模型

GLIGEN（Grounded Language-Image Generation）用于基于位置的图像生成。

| 模型名称 | 适用基础模型 | 主要用途 |

|---------|-------------|---------|

| `gligen_sd14_textbox_pruned.safetensors` | SD 1.4 | 基于文本框位置的图像生成 |

---

## 13. XLabs 模型

XLabs AI 开发的模型集合。

| 模型名称 | 主要用途 | 需配合的模型 |

|---------|---------|-------------|

| `ipadapters/ip_adapter.safetensors` | IP-Adapter | 图像提示适配器，实现图生图风格迁移 |

---

## 14. FlashVSR 模型

FlashVSR 视频超分辨率模型集合。

| 模型名称 | 主要用途 |

|---------|---------|

| `FlashVSR1_1.safetensors` | FlashVSR 主模型 |

| `LQ_proj_in.safetensors` | 低质量投影输入模型 |

| `Prompt.safetensors` | 提示编码器 |

| `TCDecoder.safetensors` | TC解码器 |

| `Wan2.1_VAE.safetensors` | Wan 2.1 VAE（FlashVSR专用） |

| `Wan2_1-T2V-1_3B_FlashVSR_fp32.safetensors` | Wan 2.1 T2V 1.3B FlashVSR版 |

| `Wan2_1_FlashVSR_LQ_proj_model_bf16.safetensors` | FlashVSR低质量投影模型BF16版 |

---

## 15. UNet 模型

UNet模型用于扩散过程的核心网络结构。

| 模型名称 | 类型 | 主要用途 |

|---------|------|---------|

| `z_image_bf16.safetensors` | Z Image UNet | Z Image 模型UNet网络（BF16精度） |

---

## 16. 模型补丁 (Model Patches)

模型补丁用于修改或增强基础模型的功能。

| 模型名称 | 适用基础模型 | 主要用途 |

|---------|-------------|---------|

| `uso-flux1-projector-v1.safetensors` | FLUX.1 | USO-FLUX投影器，用于图像风格迁移 |

---

## 17. 根目录模型

根目录下存放的独立模型文件。

| 模型名称 | 类型 | 主要用途 |

|---------|------|---------|

| `diffusion_pytorch_model_streaming_dmd.safetensors` | Streaming DMD | 流式扩散模型，用于实时生成 |

---

## 18. 模型配合关系汇总

### 18.1 SD 1.5 系列工作流

```

基础模型 (SD 1.5 checkpoint)

├── 可选: VAE (vae-ft-mse-840000)

├── 可选: LoRA (如 MoXinV1、blindbox)

└── 可选: ControlNet (OpenPose、Canny、Depth、Scribble)

```

### 18.2 SDXL 系列工作流

```

基础模型 (SDXL Base)

├── 可选: SDXL VAE

├── 可选: SDXL LoRA

├── 可选: SDXL ControlNet (Canny、T2I-Adapter)

└── 可选: SDXL Refiner (用于精修)

```

### 18.3 FLUX.1 系列工作流

```

基础模型 (FLUX Dev / Schnell)

├── 必须: CLIP_L (clip_l.safetensors)

├── 必须: T5-XXL (t5xxl_fp16 或 fp8)

├── 必须: FLUX VAE (ae.safetensors)

├── 可选: FLUX LoRA (如 Hyper-FLUX、USO-FLUX)

└── 可选: FLUX Redux (风格迁移)

```

### 18.4 SD 3.5 系列工作流

```

基础模型 (SD 3.5 Large)

├── 必须: CLIP_L (clip_l.safetensors)

├── 必须: CLIP_G (clip_g，如需要)

├── 必须: T5-XXL / UMT5-XXL

└── 可选: SD 3.5 ControlNet

```

### 18.5 Wan 2.1/2.2 视频工作流

```

基础模型 (Wan T2V / I2V / VACE)

├── 必须: Wan VAE (wan_2.1_vae 或 wan2.2_vae)

├── 可选: UMT5-XXL 文本编码器

├── 可选: Wan LoRA (CausVid、LightX2V)

└── 可选: Wan ControlNet

```

### 18.6 HiDream 工作流

```

基础模型 (HiDream I1)

├── 必须: HiDream CLIP组合 (clip_l_hidream + clip_g_hidream)

└── 必须: HiDream VAE

```

### 18.7 Qwen Image 工作流

```

基础模型 (Qwen Image)

├── 必须: Qwen VAE (qwen_image_vae)

├── 必须: Qwen 文本编码器 (qwen_2.5_vl)

└── 可选: Qwen LoRA (Lightning、Edit)

```

### 18.8 LTX Video 工作流

```

基础模型 (LTX-2 19B / LTX-2.3 22B)

├── 必须: LTX VAE

├── 可选: LTX 蒸馏LoRA (加速生成)

├── 可选: LTX 相机控制LoRA

└── 可选: LTX 空间超分模型 (2x放大)

```

---

## 附录：模型目录结构

```

models/

├── audio_encoders/ # 音频编码器 (Wav2Vec, Whisper)

├── checkpoints/ # 基础模型 (SD, SDXL, FLUX, SD3, Wan等)

├── clip/ # CLIP模型

├── clip_vision/ # CLIP Vision模型

├── controlnet/ # ControlNet模型

├── diffusion_models/ # 分离式扩散模型

├── gligen/ # GLIGEN模型

├── latent_upscale_models/ # 潜在空间超分模型

├── loras/ # LoRA微调模型

├── model_patches/ # 模型补丁

├── style_models/ # 风格模型

├── text_encoders/ # 文本编码器 (T5, UMT5等)

├── unet/ # UNet模型

├── vae/ # VAE模型

├── vae_approx/ # 快速VAE近似模型

├── upscale_models/ # 超分模型

├── FlashVSR/ # FlashVSR视频超分

└── xlabs/ # XLabs模型 (IP-Adapter等)

你可以一起下载也可以按需下载：

链接：https://pan.quark.cn/s/64598499e434

阅读全文

更新记录

我是大熊 2026-03-16

| `processWebmTranscode()` 异步返回值无效 | 移除 `@Async` 注解 |

| `deleteSfxByIds()` 未加载标签 | 新增 `findByIdInWithTags()` 方法 |

| `removeTagFromSfx()` 缺少关联清理 | 添加 setSfx(null) 和 setTag(null) |

| `batchUpdate()` 循环内多次 save | 新增私有方法，统一 save |

---

## 2026-03-16 SfxService音效和标签增删改查逻辑修复

### 问题描述

检查SfxService的音效和标签增删查改逻辑，发现以下脏数据风险：

| 优先级 | 问题 | 位置 |

|--------|------|------|

| P0 | decrementUsageCount无边界检查，会产生负数 | TagService.java:172-184 |

| P0 | deleteSfxAllTags未清理中间表SfxTag | SfxService.java:726-741 |

| P1 | batchUpdate循环内标签计数重复递增 | SfxService.java:845-875 |

| P1 | deleteSfxTag索引更新顺序不当 | SfxService.java:700-724 |

| P2 | clearNotApproved未加载标签关联 | SfxService.java:950-972 |

### 修复内容

#### 1. TagService.decrementUsageCount 添加负数检查

```java

if (tagStats.getUsageCount() > 0) {

    tagStats.setUsageCount(tagStats.getUsageCount() - 1);

    tagStatsRepository.save(tagStats);

}

```

#### 2. SfxService.deleteSfxAllTags 添加中间表清理

```java

sfx.getSfxTags().clear();

sfxTagRepository.deleteBySfxId(sfxId);  // 新增

```

#### 3. SfxService.batchUpdate 使用Set收集标签统一递增

```java

Set<String> addedTags = new HashSet<>();

// 循环中添加到Set

addedTags.add(tagName);

// 循环后统一递增

for(String tagName : addedTags) {

    tagService.incrementUsageCount(tag, SfxCategory.SFX);

}

```

#### 4. SfxService.deleteSfxTag 优化索引更新

```java

if (sfx != null) {

    audioEffectService.indexAudioEffect(sfx);

}

invalidateCache();

```

#### 5. SfxRepository 新增 findByStatusNotWithTags

```java

@EntityGraph(attributePaths = {"sfxTags", "sfxTags.tag"})

Page<Sfx> findByStatusNotWithTags(int approvedStatus, Pageable pageable);

```

阅读全文

1 2 3