# 项目综述(bgxiong-ai-story)— 比格熊数字导演工作站
| 项 | 说明 |
|----|------|
| **文档性质** | 面向非技术读者的项目全景:市场背景、产品与技术要点、阶段性成果与方向(中性表述)。 |
| **统计口径** | 工程规模统计截至 **2026-06-09**(v0.1.615),仅统计个人自研源码与内部文档,不含第三方依赖库与自动生成的安装包内容。 |
---
## 1. 定位概览
比格熊数字导演工作站(bgxiong-ai-story)是一套 **AI 驱动的多模态故事与分镜工作台**,产品形态上是 **安装在电脑上的桌面客户端软件**(而非「打开浏览器即用」的纯网页产品)。它把故事结构(项目—剧集—场次—片段/镜头)[^工程命名]、角色与演员资产、分镜故事板,以及文本 / 图像 / 视频 / 语音生成链路放在 **同一套本地工程与同一应用窗口** 里闭环完成,面向影视、短视频、动漫与教育实训等 **前期创意与试制** 场景。
[^工程命名]: 工程代码中对应 `story`(故事根)→ `chapter`(剧集节点)→ `scene`(场次节点)→ `segment`(片段/镜头节点),详见 `项目文档/20260509-SPEC-全仓语义命名权威规范.md` §1 冻结词表。
产品名称「比格熊数字导演工作站」体现其核心理念:**用 AI 将「一句话故事」自动拆解为完整的可视化制作管线**——从故事种子到剧集、场次、镜头、分镜图、视频成片,全链路自动化,大幅降低短视频与动画制作门槛。
云端 AI、开放平台接口在本产品中的角色,更接近 **用户按需接驳的能力插件**:用来完成某次生成或某种模型推理;**工程本体、数据结构、任务编排、设置与日志** 仍以客户端与本地存储为主轴。这与「做一个网站外壳,里面嵌各家网页或只转发接口」有本质区别——前者是 **可离线打开的工程文件型生产力工具**,后者往往离不开会话、Cookie 与远端页面形态,数据和体验的掌控链也更短。
---
## 2. 市场视角
- **需求背景**:多工具并行(文档、表格、浏览器里各家模型页面)容易造成上下文断裂、素材与版本散落;创作方难复盘「用了哪家模型、最终下过怎样指令」。机构使用场景还对 **可控、可追溯** 有刚性要求。
- **产品切入点**:用 **结构化本地工程** 承接创意流程;用户在设置与各界面里 **明确选定** 文本、配图、改图、视频、语音等通道,系统按选择执行,**不做**用户未同意的暗中替换,降低合规与品控风险。
- **典型用户**:独立创作者、小型制作组、内容团队与院校实训等需要在 **可控环境** 下批量试制 AI 辅助前期的群体。
---
## 3. 为什么是桌面客户端
下面几条概括 **客户端路线相对「云端套壳」或「纯浏览器工具」** 的差异;不是说「完全不用云」,而是 **云服务于生成能力,客户端承载创作资产与工业流程**。
- **工程与数据默认在用户自己电脑上**
项目、章节场次关系、分镜结构、任务记录、素材引用等落在 **本地数据库与本地目录**,用户对自己的剧本与物料拥有直观的 **占有感与备份方式**(拷贝文件夹、整机备份、离线归档),而不是默认「全部托管在第三方网页账号背后」。
- **不绑死在浏览器标签页的生命周期**
关闭浏览器、清理站点数据、某家网站改版或下线,通常 **不会**一笔勾销你的「工作台形态」。客户端像普通办公软件一样常驻本机,打开即是同一套界面与同一套工程逻辑。
- **云端是「可选外挂」,不是「唯一脊梁」**
需要文生图、图生图、视频、语音等时再按用户选择去访问各家开放平台;同时支持 **本地装载的大模型**(llama.cpp 文本推理、Whisper 语音识别),弱网、断网或保密环境下仍可浏览与编辑工程结构、跑本地推理,**不把「能上网」当作使用产品的绝对前提**。
- **更深地接入本机能力**
日志与诊断、数据目录配置、可选本地工作流(如 ComfyUI)、大批量读写与路径解析、媒体运行时(FFmpeg 集成)、磁盘清理等,都是 **操作系统级客户端** 天然擅长的领域;这些若仅靠网页沙箱,往往处处受限或体验割裂。
- **复杂界面与大体量交互敢往深了做**
例如大面积无限画布、多标签重度工作台、长列表任务中心——按 **桌面性能预期** 做虚拟渲染与内存策略,而不是在手机浏览器或嵌套网页里「凑合能用」。
- **隐私与对内合规更好叙事**
敏感台词与设定默认留在本机;对外发出的仅是用户在某个按钮上 **明确触发** 的那次生成请求。机构关心「剧情与素材出不出域」时,客户端架构更容易给出清晰边界。
- **产品心智:工具 vs 入口**
「云端套壳」常常是聚合入口,换一个模型页等于换一个站;本产品则在客户端内固定 **同一套菜单、同一套设置与能力映射、同一套任务与日志语义**,长期使用成本低,也更像 **正经的生产软件**。
---
## 4. 产品与系统概要(技术人员可读作架构)
- **形态**:Windows 等环境下的 **桌面应用**,界面为现代 Web 技术(React 19 + TypeScript 5.9)呈现,与 **本机 Rust 后台服务**(Tauri 2)协同工作,数据主要落在本机。
- **数据**:核心资料使用 **本地 SQLite 数据库**(WAL 模式 + r2d2 连接池)持久保存;数据库采用 **40+ 张表** 覆盖故事结构、画布状态、AI 任务、媒体轨道、权限等全领域;数据库、对外接口与界面之间 **字段命名规则统一**(冻结词表 + SSOT 索引),减少「同名不同义」导致的差错。
- **智能能力**:既支持对接 **云端** 图像、视频、语音等开放平台能力(即梦、可灵、通义万相、Seedance、OpenAI 等),也支持 **本地大模型**(llama.cpp 文本推理、Whisper 语音识别),兼顾联网弹性、离线可能以及隐私敏感场景。
- **运维与排障**:关键操作链路会写入 **本地日志**(tracing 分级日志 + 日志保留策略);涉及后台任务时,从「已提交 → 执行过程 → 结束结果」分段留痕,便于出问题后按时间线追查,而不是只靠口头描述。
- **自动化扩展**:同一套故事与素材的领域模型,还提供 **命令行工具**与**离线数据库迁移脚本**,便于以后做批处理、脚本或与外部系统对接。
### 4.1 设计上值得单独说的几点
- **用户选定的模型才生效,禁止暗中换通道**
每一次云端或本地推理,都必须对应用户在当前界面或设置里 **明确选好的服务商与模型**;全局默认值只在「用户尚未选择」时起补充作用。**不允许**对用户没选中的通道自动轮询、悄悄兜底,也不允许例如「参考图失败就无声改成纯文字生图」这类隐蔽替换。这在消费级工具里不常见,但对 **采购合规、成本可归因、结果可复现** 很重要;产品上用统一的模型选择与「记住上次实际使用」的体验,避免多套界面、多套记忆规则打架。
- **最终指令与任务过程可追溯**
在 **真正发出请求之前**,会把下发给所选模型的 **最终文本指令** 记入可检索日志;纳入任务中心的流程则按 **提交 → 进行中更新 → 结束汇总** 留存。多步骤、多模态的长链路事后可以对齐时间线,有利于长期维护与企业环境交付。
- **故事板:最终台词稿单一来源**
数据库、接口与界面之间遵循同一套数据约定;分镜故事板里,**最终送给模型的那段提示** 集中在约定的分段内容里统一维护,而不是在多个地方各存一份、时间一长就对不上。这样导出、备份或多端协作时不容易分叉。
- **演员库可以不绑死在某一个故事上**
「演员」允许作为 **全局可复用资产** 管理,不必先创建某个故事才能建档;跨项目共用肖像与设定时,边界更清晰,后续若做协作或素材库也更容易扩展。
- **设置里的「能力映射」统领全站的模型列表顺序**
文本、配图、改图、视频、语音等能力,按账号区块与模型行的顺序组成清单,再反映到各功能页的模型下拉列表;顺序与是否隐藏由用户在设置里 **保存**,**不跟着**厂商网页或偶然的网络返回顺序飘。多家供应商加多台本地模型混用时,这是 **列表可控、心智稳定** 的关键。
- **自研无限画布:为「很多张图 / 很多卡」做的性能策略**
大面积拖拽、缩放、摆卡片(演员形象墙、场次、分镜浏览、片段画布等)共用一套 **自研画布内核**,**不依赖**额外的重型第三方画布商业包。做法是分层减负:**只重点处理屏幕附近的内容**(外加一圈缓冲,避免边缘闪烁)、**分批加载**避免一口气创建成百上千张卡片卡住界面、对视野外的元素 **减少无谓绘制**,并对视频、大图在 **离开视野后主动降级或收回资源**,避免「划走了还在后台解码占内存」。缩放以指针为中心、手感一致;瀑布流排布与画布核心分开,多处界面复用同一套交互习惯。内部规格文档中对 **数百个节点** 量级写了性能目标(首次打开耗时、拖动流畅度、内存占用上限),属于「先定体验指标再实现」的基础设施思路。
- **统一 AI 端点注册表与调度层**
后端 `open_platform` 模块实现统一端点注册表(39 个源文件),即梦、可灵、通义万相、Seedance、OpenAI 等各家接口各异,但业务管线只需调用统一接口。新增厂商只需注册新端点,业务管线零侵入,可持续升级。支持文生图、图生图、图生视频、文生视频、TTS 语音合成、唇形同步等多种生成能力。
- **通用有向图引擎(GraphCore)**
自研通用图引擎模块,提供有向图的 CRUD、拓扑排序、连通性分析、性能优化等能力,统一支撑分镜故事板、片段画布等多个画布场景的节点连线与关系管理,避免各模块重复造轮子。
- **AI 任务队列与状态机**
内置完整的 AI 任务队列系统(30 个源文件),含状态机、调度器、分发器、14 种任务类型 Handler、持久化层与事件总线。支持任务并发控制、进度心跳、失败重试、配额管理,面向批量生成场景。
- **本地 AI 能力内置**
通过 llama.cpp 集成本地文本推理(含 llama-server 灵活模型加载),通过 Whisper 集成本地语音识别。在离线、保密或低成本场景下,核心 AI 能力不依赖云端。
- **权限系统与配额管理**
内置可插拔权限框架(权限后端、装饰器、审计日志、缓存层),支持用户激活、账号管理、AI 任务日配额控制,面向机构采购与团队使用场景。
- **全链路视频生成管线**
从分镜图到视频成片,支持多家视频模型(即梦、可灵、Seedance、通义万相等)的统一调度,含视频定价、限流、任务生命周期管理、唇形同步(5 种适配器:Hedra、LivePortrait、MuseTalk、Wav2Lip、可灵)、TTS 语音合成、字幕生成等完整管线。
- **ComfyUI 本地工作流深度集成**
不仅是简单调用,而是完整集成:HTTP/WebSocket 双协议客户端、工作流扫描与编译器、占位符注入、自定义工作流支持、图像/视频双管线、设置管理等(27 个源文件),让用户可以用 ComfyUI 自定义本地生图/生视频流程。
- **FFmpeg 媒体运行时**
统一的媒体处理层(12 个源文件),封装 FFmpeg CLI 的定位、参数构建、执行、探测解析,提供媒体能力注册与格式选择,供视频转码、音频提取、字幕合成等全链路使用。
---
## 5. 当前成果(产品与工程)
**功能范围(摘要)**
主要功能页覆盖故事总览、剧集与场次看板、场景与素材管理、分镜故事板与镜头工作台、片段画布(无限画布)、视频片段管理(Clips)、角色与演员、任务中心、帮助学习中心等;设置中提供账号与绑定、**能力与模型映射**、可选本地工作流(如 ComfyUI)、本地模型管理、TTS/视频实验室、诊断与数据存储位置、BUG 报告与日志上云等;界面文案支持中英文。
**研发体量(静态统计,便于理解投入)**
| 类别 | 文件数 | 代码行数(约) |
|------|--------|----------------|
| 后端桌面服务(Rust,src-tauri) | 993 | 18.4 万 |
| 后端核心库(Rust,src) | 24 | 0.19 万 |
| **Rust 合计** | **1017** | **18.6 万** |
| 前端界面组件(TSX) | 466 | 9.7 万 |
| 前端逻辑脚本(TS) | 1497 | 16.6 万 |
| **前端 TS/TSX 合计** | **1963** | **26.3 万** |
| 工具脚本(Python) | 71 | 1.2 万 |
| 工具脚本(PowerShell) | 83 | 0.6 万 |
| **自研程序合计** | **≈ 3134** | **≈ 46.7 万** |
| 内部设计 / 规范 / 记录文档 | ≈ 730 | — |
| 前端测试用例 | — | 1.52 万 |
| Rust 测试用例 | 234 | — |
**技术栈明细**
| 层 | 技术选型 |
|----|----------|
| 桌面壳 | Tauri 2(Rust 进程托管,非 Electron) |
| 前端框架 | React 19.2 + TypeScript 5.9 + Vite 8 |
| 前端测试 | Vitest 4.1 |
| 后端语言 | Rust(edition 2021) |
| 数据库 | SQLite(WAL 模式 + r2d2 连接池) |
| Rust 依赖 | 771 个 crate |
| AI 调度 | 统一端点注册表(open_platform),云端/本地双模式 |
| 本地 AI | llama.cpp(文本推理 + llama-server)+ Whisper(语音识别) |
| 媒体处理 | FFmpeg 集成(视频转码、探测、合成) |
| 图像生成 | 即梦、通义万相、ComfyUI 等 |
| 视频生成 | 即梦、可灵、Seedance、通义万相等 |
| 语音合成 | TTS 管线(多家云端 + 本地) |
| 唇形同步 | 多适配器架构(Hedra、LivePortrait、MuseTalk、Wav2Lip、可灵) |
| 本地工作流 | ComfyUI 完整集成(HTTP/WebSocket、工作流编译器、管线注入) |
| 自动更新 | Tauri Updater(被动安装模式) |
| 权限系统 | 可插拔权限框架 + 日配额管理 + 审计日志 |
| 异步运行时 | Tokio(多线程) |
| HTTP 客户端 | reqwest 0.13(native-tls、HTTP/2、gzip、multipart、stream) |
大量内部文档对应作者在 **数据约定、交互规范、故障排查与版本迁移** 上的持续沉淀,便于长期维护与日后扩展。
---
## 6. 后端核心模块地图
后端(`src-tauri/src`)共 993 个 Rust 源文件,按职责划分为以下核心模块群:
| 模块群 | 关键文件/目录 | 文件数 | 职责 |
|--------|---------------|--------|------|
| **故事管线** | `story_chapter_pipeline`, `chapter_scenes_plan` | — | 故事→剧集→场次的 LLM 级联生成 |
| **分镜引擎** | `storyboard_*`(specs / stage_a / stage_b / merge / rules / render / graph) | — | 分镜生成、导演化语义层、质量门、渲染输出 |
| **故事板合并** | `storyboard_merge/`(prompt_assembler / consistency_context / shot_conditioning_merge / pad_resolve / block_registry) | 8 | 提示词组装、一致性上下文、镜头条件合并 |
| **AI 提示词** | `ai_prompts/`(builtins×25+ / render / types / registry) | 38 | 内置提示词模板库、渲染引擎、类型定义、注册表 |
| **AI 任务队列** | `ai_queue/`(state_machine / scheduler / dispatcher / facade / events / persistence / handlers×14) | 30 | 完整任务队列:状态机、调度、分发、14 种 Handler、持久化 |
| **开放平台** | `open_platform/`(provider / dispatch / gen_error / provider_metadata / tts / jimeng / volc_* / kling_* / dashscope_* / qwen / seedance) | 39 | 统一端点注册表、多厂商适配、错误归一化 |
| **图像生成** | `image_generation`, `commands/image/`(task_lifecycle / video / dialogue / placeholders / commands×8) | 20+ | 生图管线、任务生命周期、视频提交 |
| **视频管线** | `video_task`, `video_task_poller`, `video_param_mapper`, `video_rate_limiter`, `video_pricing`, `segment_video_pipeline`, `video_delivery`, `video_prompt_compiler`, `video_prompt_pipeline` | — | 视频任务调度、轮询、参数映射、限流、定价、提示词编译 |
| **ComfyUI** | `comfyui/`(client / commands / pipeline / workflow / http / settings / analyzer) | 27 | 本地 ComfyUI 完整集成(双协议、编译器、管线) |
| **本地 AI** | `local_ai/`(text_generation / speech_recognition / llama_server / model_manager / types) | 6 | llama.cpp 文本推理、Whisper 语音识别、模型管理 |
| **语音与唇形** | `audio_pipeline`, `stt_pipeline`, `subtitle_pipeline`, `tts`, `lipsync_provider/`(factory / hedra / kling / liveportrait / musetalk / wav2lip) | 7 | TTS、语音识别、字幕、5 种唇形同步适配器 |
| **角色与演员** | `role_nodes`, `role_physique`, `role_portrait_supplement`, `portrait_*`, `visual_asset/`, `role_display_name` | 12+ | 角色管理、体型管线、肖像版本链、场景/道具资产、显示名 |
| **片段画布** | `segment_canvas/`(commands / queries / types / utils / canvas_commands×8 / grouping) | 16 | 无限画布引擎、画布状态持久化、快照、迁移 |
| **Clips 片段** | `clips/`(commands×11 / types / clip_video_meta) | 17 | 视频片段 CRUD、导入、导出、画布、视频绑定 |
| **图引擎** | `graph_core/`(engine / runtime / store / types / perf) | 6 | 通用有向图引擎,支撑分镜与片段画布 |
| **媒体运行时** | `media_runtime/`(ffmpeg_cli / service / registry / selector / capabilities) | 12 | FFmpeg 集成、媒体能力注册、格式探测 |
| **权限与安全** | `permission/`(mod / backends / decorator / integration / db_migrations / example), `authz`, `credential_crypto`, `quota_guard` | 7+ | 可插拔权限框架、授权、凭证加密、配额管理 |
| **数据库** | `db/`(schema / pool / backup / migrations×15+ / model_catalog_repo), `migration/` | 42 | SQLite 迁移(40+ 张表)、连接池、备份、模型目录 |
| **运维** | `log_init`, `disk_cleanup`, `bug_report`, `app_update_*` | — | 日志、磁盘清理、BUG 报告打包上传、自动更新 |
---
## 7. 前端核心模块地图
前端(`ui/src`)共 1963 个 TSX/TS 源文件,按职责划分为以下核心模块群:
| 模块群 | 关键目录 | 职责 |
|--------|----------|------|
| **故事 Tab** | `components/story-tab/` | 故事总览、剧集列表、导出脚本 |
| **剧集 Tab** | `components/chapter-tab/`(panels / sections / modals / hooks) | 剧集看板、场次规划、关键帧、批量生成 |
| **场次 Tab** | `components/scene-tab/` | 场次列表、上下文菜单、加载态 |
| **分镜工作台** | `components/storyboard/`(panels / modals / hooks / history / graph) | 分镜故事板、镜头工作台、AI 提示词版本历史 |
| **片段画布** | `components/segment-canvas/`(graph / domain / transitions) | 无限画布、图推导、撤销重做、瓦片同步 |
| **分镜画布** | `components/storyboard-shot-canvas/`(renderers / overlays / handlers / minimap) | 分镜节点画布、边渲染、缩放控件 |
| **角色 Tab** | `features/character-tab/`(canvas / editor / actor-list / columns / layout / ai / pads) | 角色管理、演员列表、定妆照画布、AI 生成 |
| **角色 Tab** | `features/role-tab/`(canvas / detail / hooks / modals / lightbox / portrait-pads / domain / ai) | 角色详情、肖像灯箱、批量肖像生成 |
| **Clips 片段** | `clips/`(ClipsCanvas / ClipsNodeEditor / ClipsMinimap / ClipsVideoPreview / ClipsImportModal / ClipsExportAllModal) | 片段画布、节点编辑、导入导出、视频预览 |
| **设置 Tab** | `components/settings-tab/` / `components/settings/` | 账号、能力映射、ComfyUI、本地模型、TTS/视频实验室、数据迁移 |
| **帮助模块** | `help-module/` | 学习中心、引导 |
| **认证** | `auth/` | 登录、注册、密码重置、Token 管理 |
| **UI 组件库** | `components/ui-*`(modal / toast / panel / form / icon / list / lightbox / edge-resize-shell / chrome-textarea / misc) | 通用 UI 原子组件 |
| **无限画布内核** | `infinite-canvas/`(InfiniteCanvas / components / hooks / utils / layout / canvas-chrome) | 自研画布引擎:四叉树空间索引、masonry 布局、虚拟化渲染、缩放平移、瓦片边框、持久化 |
| **领域逻辑** | `domain/`(model-surfaces / local-media-upload / audio / imageGenWarnings / multi-view / reference-pad) | 模型选择编解码、上传队列、音频、生成警告、多视角生成、参考面板 |
| **API 层** | `api/`(graphApi / migration / segmentCanvasV2Api / clipFramework) | Tauri IPC 调用封装 |
| **系统** | `system/`(form-control-clipboard / selectable-copy) | 右键复制粘贴、可选复制 |
---
## 8. 数据架构概览
本地 SQLite 数据库采用 **幂等迁移** 策略(`CREATE TABLE IF NOT EXISTS`),当前包含 **40+ 张表**,按领域分组:
| 领域 | 核心表 | 说明 |
|------|--------|------|
| **故事结构** | `stories`, `nodes`, `edges`, `node_chapter_order` | 故事→剧集→场次→片段的层级图 |
| **画布状态** | `segment_canvas_node`, `segment_canvas_edge`, `segment_canvas_layout_state`, `segment_canvas_view_state`, `segment_canvas_snapshot`, `segment_canvas_file_ref`, `segment_canvas_delete_audit`, `segment_canvas_placement_order` | 片段画布全量持久化 |
| **AI 任务** | `ai_tasks`, `ai_queue_tasks`, `ai_queue_task_events` | 任务记录 + 队列持久化 + 事件流 |
| **分镜** | `storyboard_graph_state`, `storyboard_shot_specs`, `storyboard_scene_revision` | 分镜图状态、镜头规格、场次修订 |
| **角色与资产** | `assets`, `scene_assets`, `prop_assets`, `role_portrait_versions`, `portrait_last_generations` | 全局资产、场景/道具资产、肖像版本链 |
| **内容历史** | `node_content_history`, `story_content_history`, `scene_asset_content_history`, `prop_asset_content_history`, `video_workbench_session_history` | 版本回溯、撤销依据 |
| **Clips** | `clips`, `clip_edges`, `clip_framework_index`, `clips_canvas_viewport`, `clips_canvas_tile_pos`, `clips_canvas_placement_order` | 视频片段图、画布视口、排列 |
| **媒体轨道** | `audio_tracks`, `dialogue_tracks`, `lipsync_providers` | 音频轨、对话轨、唇形同步供应商 |
| **模型配置** | `model_official_catalog`, `model_capability_catalog`, `app_user_settings` | 官方模型目录、能力目录、用户设置 |
| **权限** | `user_permissions`, `permission_audit_log`, `user_permissions_cache` | 用户权限、审计日志、缓存 |
| **布局** | `actor_list_layout`, `story_node_list_layout`, `chapter_scene_list_layout`, `scene_asset_list_layout`, `prop_asset_list_layout` | 各列表拖拽排序持久化 |
| **图引擎** | `graph_core_graph` | 通用有向图持久化 |
| **其他** | `user_tier_cloud`, `task_running_wait_tips`, `dialogue_tracks`, `video_workbench_session_history` | 云端用户层级、运行提示、对话轨 |
---
## 9. 近期重点更新(v0.1.530 → v0.1.615)
自 2026-05-30 统计以来,10 天内完成 70+ 次提交,净增约 11 万行自研代码。重点更新包括:
### 9.1 画布架构升级(v0.1.608 → v0.1.615)
- **画布连线 SSOT 统一**(v0.1.608):新增 `canvas-connector` 模块,移除旧 edgeDrag/linkDrag 系统,实现片段画布、分镜画布等多处画布的连线逻辑统一
- **画布删除可逆性与 Ctrl+Z 撤销重做**:完整的撤销重做栈,支持画布节点删除恢复
- **画布连线与输入端口 UI 全仓统一**:破坏性重构,统一所有画布的连线交互与端口样式
- **面板弹出多屏架构**:支持画布面板弹出为独立窗口,实现多屏协作工作流
- **画布缩放工具条全仓统一**:片段画布、分镜画布等多处画布的缩放控件统一为一致的工具条样式
### 9.2 提示词工程治理(v0.1.610)
- **全仓提示词工程 SSOT**:建立五层 UPEA(User Prompt Engineering Architecture)架构,17 条 SSOT 入口
- **视觉样式词表统一**:`visual_style` lexicon 词表 SSOT,negative prompt 统一管理
- **CI 门禁脚本**:`check-prompt-ssot-index.ps1` + `check-visual-style-lexicon.ps1` 接入预发布检查
### 9.3 角色与资产系统增强(v0.1.612)
- **角色卡片 Hover 扇形展开形象照**(v0.1.606):角色列表卡片悬浮时以扇形动画展示关联形象照
- **资产图生图参考图记忆独立模块**:`asset-i2i-pad-memory` 模块,Envelope v4 尾块持久化
- **视觉资产生图全通道解绑故事 ID**:共用资产不再要求绑定故事即可生图
- **角色定妆参考图 Tab 分类名称 Hover 筛选下拉**:参考图选择器增强
### 9.4 工程基建(v0.1.613)
- **字号 SSOT CSS 变量 + TS 引用层 + 门禁脚本**:Y0 基建,统一全仓字号管理
- **跨平台基础架构升级**(desktop X0-X5):PlatformPaths/ProcessExecutor/AiCapabilities trait 抽象,为 iOS/iPad 支持奠基
- **外挂运行时统一目录**:`runtimes/` 目录统一管理 llama.cpp、Whisper 等外挂运行时
- **应用更新静默后台下载与断点续传**:改进更新体验
### 9.5 其他改进
- **分镜号独立列与改号弹框**:分镜列表中分镜号独立展示,支持弹框修改编号
- **视频工作台优化**:能力冲突检测、pad-aware 默认值协调、工作台提示计算、警告横幅
- **模型选择器升级**:生成视频工作台模型选择体验优化
- **全局助手独立窗口**:Chat 后端与 AgentLoop 架构设计
- **全局 Ctrl+S 统一保存功能**:跨模块统一保存快捷键
---
## 10. 未来与演进方向
### 10.1 跨平台架构升级(iOS/iPad 支持)
已启动跨平台基础架构升级,目标是让产品能在 iPad 上运行。核心改造包括:
- **PlatformPaths trait**:抽象文件系统访问,替换 144 个文件的直接 `std::fs` 调用
- **ProcessExecutor trait**:抽象外部进程调用,iOS 上全部走云端降级
- **AiPlatformCapabilities trait**:iOS 禁用本地 AI(llama/TTS/whisper),自动降级到云端
- **配置源抽象**:iOS 无环境变量,改用 bundled config + NSUserDefaults
预估工期 14 周(~3.5 个月),已完 desktop X0-X5 阶段基础架构搭建。
### 10.2 本地 TTS 引擎框架整合
正在构建可扩展的本地 TTS 引擎架构,支持 VoxCPM、IndexTTS 等多种本地语音合成模型:
- **adapter 架构**:统一的 TTS 适配器接口,支持云端/本地双模式
- **对白合成管线**:Phase 5 对白合成与 adapter 架构整合
- **TTS 语音合成工作台**:模型区一致性与可扩展架构
### 10.3 持久化层六边形架构升级
规划将持久化层升级为六边形架构(端口-适配器模式),提升代码可测试性与可维护性:
- **端口抽象**:定义领域层与基础设施层的清晰边界
- **适配器实现**:SQLite、内存、文件系统等多种持久化后端
- **依赖反转**:领域层不依赖具体持久化实现
### 10.4 产品演进
- **分镜与生成一体化**:强化分镜与生成的一体化体验,批量任务、模板与复用
- **更多云端能力接入**:按场景接入更多云端能力与本地模型组合
- **NLE 时间线导出**:NLE 时间线 XML 导出对接专业剪辑软件(Final Cut Pro、DaVinci Resolve、Premiere Pro)
- **全局助手**:Chat 后端与 AgentLoop 架构,提供 AI 辅助创作体验
### 10.5 工程演进
- **四层分层重构**:持续 domain / application / infrastructure / composition 四层分层重构
- **松耦合对接**:与云端素材、协同类产品探索松耦合对接(本地工程仍是权威数据源)
- **全仓颜色主题模块**:统一的深色/浅色主题切换系统
### 10.6 生态演进
- **可信、可选、可审计**:持续面向中文创作者工作流,向可信、可选、可审计的多模态前期工具链演进
- **模板市场**:灯光/风格预设、分镜模板、角色外观包的社区分享
- **云端渲染农场**:大模型推理卸载到云端,桌面端保持低功耗
---
*代码仓库内另行维护更细的技术约束与模块说明(约 730 篇内部文档),供开发与测试使用;本文不展开。*