# 从 0.1 到 0.2,比格熊跨了一大步:直连官方 API、本地化运行、52 万行代码造一台真正的「数字导演机器」
> 版本号从 0.1.613 跳到 0.2.612,不是修了几个 Bug 那么简单。这是一次架构层面的跨越式升级——跨平台地基打好、画布内核重写、六边形架构落地、故事管线深度重构。如果你之前觉得「AI 分镜工具就是调调 API」,这篇文章会让你重新认识这个产品。
---
## 先说人话:0.2 到底升级了什么?
打开比格熊,你可能第一眼看不出太大区别——界面还是那个界面,菜单还是那个菜单。但如果你把 0.1.613 和 0.2.612 的代码放在一起对比,你会发现:**底层几乎重写了一遍**。
用一句话概括这次升级:
> **把一台「能用的机器」,升级成了一台「能扩展、能移植、能扛住未来三年迭代的机器」。**
具体来说,0.2 版本做了这几件大事:
1. **跨平台地基浇筑完成**——为未来在 iPad 上运行铺好了路
2. **画布内核全面重写**——连线系统统一、缩放控件统一、支持面板弹出多屏
3. **六边形架构正式落地**——33 个 Repository 端口,领域层与存储层彻底解耦
4. **故事管线深度重构**——故事圣经变更自动同步到受影响的剧集
5. **提示词工程全仓统一**——五层架构、17 条 SSOT 入口、CI 门禁自动检查
6. **字号系统 SSOT 化**——全仓字号用一套 CSS 变量管理,改一处全局生效
听起来很技术?别急,下面我一个一个用大白话讲清楚。
---
## 一、直连官方 API,不降级、不中转
这是比格熊最硬核的一点,也是很多人误解最深的一点。
市面上大部分「AI 创作工具」做的事情是:把几家模型的 API 包一层,做成一个统一的界面。用户在里面点按钮,工具在后台转发请求,拿到结果展示出来。这种做法有个致命问题——**你不知道中间经历了什么**。
有些工具会在后台偷偷做「降级处理」:你选了 A 模型,但 A 模型排队太久或者报错了,工具静默换成 B 模型给你出结果。你拿到的图或者视频,可能根本不是你以为的那个模型生成的。
比格熊的做法完全不同:
**你选了什么模型,系统就用什么模型。不会偷偷换通道,不会静默兜底。没有适配过的模型宁可报错也不给你废图。**
这不是一句口号,是写在架构里的硬规则。后端有一个「统一端点注册表」——即梦、可灵、通义万相、Seedance、OpenAI,每家模型的接口都不一样,但比格熊把它们的差异全部封装在底层。业务管线只认统一接口,新增一家模型厂商,只需要注册一个新端点,业务层零改动。
更重要的是:**每一次生成请求,都是从你的电脑直连到模型厂商的官方 API**。没有中间服务器转发,没有第三方中转站。你的请求路径是:
```
你的电脑 → 模型厂商官方 API → 结果返回你的电脑
```
不是:
```
你的电脑 → 某个中转服务器 → 模型厂商 API → 中转服务器 → 你的电脑
```
**直连意味着什么?**
- **速度更快**——少一跳就少一层延迟
- **隐私更安全**——你的提示词、你的素材,不经过任何第三方服务器
- **成本更透明**——你用的就是官方定价,没有中间商加价
- **稳定性更高**——不依赖某个中转服务的存活
而且比格熊不只是接了一两家模型。当前已接入的模型矩阵:
| 能力 | 已接入模型 |
|------|-----------|
| 文本生成 | OpenAI、本地 llama.cpp 等 |
| 图片生成 | 即梦、通义万相、ComfyUI 等 |
| 视频生成 | 即梦、可灵、Seedance、通义万相等 |
| 语音合成 | 多家云端 TTS + 本地方案 |
| 唇形同步 | Hedra、LivePortrait、MuseTalk、Wav2Lip、可灵 — 5 种适配器 |
**今天能用的模型,明天全部能用。明天出来的模型,后天就能接上。** 这就是统一端点注册表的威力。
---
## 二、本地化运行,数据主权在你手里
比格熊是一个**安装在你电脑上的桌面客户端**,不是网页,不是在线白板。
这意味着什么?意味着你的故事、剧本、分镜、任务记录、生成的图片和视频——**全部存在你自己的电脑上**。不是存在某个云服务商的服务器上,不是存在某个网站的数据库里,是实实在在落在你硬盘的 SQLite 文件里。
**「本地化运行」到底好在哪?**
**第一,数据不会莫名消失。** 用网页工具,你有没有过这种经历:某天打开一个常用的在线工具,发现它改版了、下线了、或者你的账号出了问题,所有数据都没了。比格熊不存在这个问题——你的工程文件就在你的电脑上,拷到另一台电脑上照样打开。
**第二,断网也能用。** 比格熊内置了本地 AI 能力:通过 llama.cpp 可以跑本地大模型做文本推理,通过 Whisper 可以做本地语音识别。在飞机上、在偏远地区、在保密环境里,你照样能编辑工程、跑本地推理。云端 AI 是「可选外挂」,不是「唯一脊梁」。
**第三,隐私有保障。** 你的剧本不会自动上传到任何地方。对外发出的请求,只有你在某个按钮上**明确触发**的那次生成。机构关心「剧情与素材出不出域」的时候,比格熊的架构能给出清晰的边界——数据默认在本地,只有你主动发起的生成请求才会出境。
**第四,不绑定任何网站的生命周期。** 关闭浏览器不会丢工作,清理 Cookie 不会清空项目,某家网站改版不会影响你的工程。比格熊就像 Word 或 Photoshop 一样——装在你电脑上,打开就是你的工作环境。
---
## 三、52 万行代码,不是套壳 API 聚合器
很多人看到「AI 工具」四个字,第一反应是:不就是调几个 API,拼一个界面嘛。
比格熊的代码规模会让这种想法彻底破灭:
| 类别 | 文件数 | 代码行数 |
|------|--------|----------|
| Rust 后端 | 1147 | 20.3 万 |
| TSX 前端 | 519 | 11.0 万 |
| TS 逻辑层 | 1766 | 19.3 万 |
| **合计** | **≈3598** | **≈52.3 万** |
52.3 万行自研代码,3598 个文件。这不是一个周末项目,不是从 GitHub 上 clone 下来改改就发布的东西。这是一个人、从零开始、持续迭代的**正经生产软件**。
而且这些代码不是「能跑就行」的堆砌。0.2 版本做了几个架构层面的大动作:
### 六边形架构正式落地
这是软件工程里一个很高级的设计模式。简单说就是:**你的业务逻辑和数据存储完全分开**。
0.2 版本新增了 33 个 Repository 端口和 5 个 DTO(数据传输对象),覆盖画布、片段、角色、分镜、迁移等全领域。这意味着什么?意味着将来如果要换一个数据库,业务逻辑完全不用改;如果要加一个云端存储选项,只需要写一个新的适配器。
**四层分离**——领域层、应用层、基础设施层、组装层——每一层只干自己的事。上层知道下层,下层不知道上层。就像一栋楼:三楼知道有二楼,但二楼不知道三楼长什么样。加一个四楼,二楼完全不受影响。
### 故事管线深度重构
0.2 版本新增了一个 830 行的「故事同步管线」。这个管线做的事情是:当你修改了故事圣经(角色设定、世界观等核心设定),系统会自动检测哪些剧集受到影响,自动合并冲突,然后逐章同步更新。
以前你改了一个角色的性格设定,可能需要手动去每一集检查有没有矛盾。现在系统帮你做了。这不是「AI 帮你写故事」,是**工程化的自动同步机制**。
### 提示词工程全仓统一
比格熊的提示词系统不是「写一句 prompt 发给 AI」那么简单。它有五层架构(UPEA),17 条 SSOT 入口,还有 CI 门禁脚本自动检查。
什么是 SSOT?Single Source of Truth——单一数据源。一个提示词模板,从数据库到接口到界面,只有一个权威来源。改一处,全局生效;不会出现「数据库里是 A,界面上显示 B」的情况。
0.2 版本还做了视觉样式词表统一、negative prompt 统一管理,甚至写了自动化检查脚本——每次提交代码前自动检查提示词有没有违反规范。这种工程严谨度,在消费级 AI 工具里极其罕见。
---
## 四、画布内核全面重写——自研引擎的真正威力
比格熊的无限画布是**完全自研**的,不依赖任何第三方商业画布包。0.2 版本对画布内核做了一次全面重写。
### 连线系统统一
以前,片段画布、分镜画布、角色画布各自有一套连线逻辑,交互方式不完全一致。0.2 版本新增了 `canvas-connector` 统一模块,把所有画布的连线系统收归一处。
这意味着什么?意味着你在一个画布里学会的连线操作,在其他画布里完全通用。**改一处交互,五处同时受益。**
### 缩放控件全仓统一
以前每个画布有自己的缩放组件——有的是滑块,有的是按钮,有的是快捷键。0.2 版本把这些全部统一成 `CanvasZoomHud` 通用组件,删除了 5 套旧的缩放组件,减少了约 600 行冗余代码。
### 面板弹出多屏
这是一个很实用的新功能:你可以把画布上的某个面板「弹出来」变成一个独立窗口,拖到第二个显示器上。对于有双屏或者多屏工作环境的创作者来说,这大大提升了工作效率。
### 性能策略
比格熊的画布不是「能显示就行」的简单实现。它有一套完整的性能策略:
- **虚拟渲染**——只重点处理屏幕附近的内容,视野外的卡片不画
- **分批加载**——几百张图不会一次性涌入,按需加载
- **视野外降级**——视频、大图离开视野后自动释放资源,不白占内存
- **指针中心缩放**——以鼠标位置为中心缩放,手感一致不跳帧
内部规格对**数百个节点**量级写了性能目标——先定体验指标,再实现。这是基础设施思路,不是「能用就行」。
---
## 五、跨平台地基浇筑——iPad 版已在路上
0.2 版本做了一件看起来「用户感知不到」但极其重要的事:**跨平台基础架构升级**。
比格熊目前是 Windows 桌面应用,但 0.2 版本已经开始为 iPad 支持做准备。核心改造包括三个 trait(特征抽象):
- **PlatformPaths**——抽象文件系统访问。Windows 上读 `C:\Users\...`,iPad 上读 `NSDocumentDirectory`。上层代码不需要知道底层是什么系统。
- **ProcessExecutor**——抽象外部进程调用。Windows 上可以直接调 FFmpeg、llama.cpp,iOS 上全部走云端降级。
- **AiCapabilities**——抽象 AI 能力。iPad 上不能跑本地大模型?没关系,自动降级到云端。
这三个抽象层意味着:**将来移植到 iPad,核心业务逻辑几乎不用改**。只需要为 iOS 写一套「适配器」,把文件操作、进程调用、AI 能力替换成 iOS 版本就行。
这不是「以后再说」的规划,是**已经写进代码里的架构**。跨平台地基已经浇筑完成,后续的 iPad 适配是在这个地基上盖楼。
---
## 六、你选什么模型,就用什么模型——能力映射系统
这是比格熊最被低估的功能之一。
在设置里,有一个「能力映射」面板。在这个面板里,你可以精确控制:文本生成用哪家模型、图片生成用哪家模型、视频生成用哪家模型、语音合成用哪家模型。
而且这个映射是**全局生效**的。你在这里设置好了,整个应用所有需要生成的地方都按这个来。不会出现「分镜工作台用 A 模型,角色工作台用 B 模型」的混乱情况——除非你明确在某个地方做了单独设置。
**更关键的是:系统记住你上次实际使用了什么。** 你上次用可灵生成了一个视频,下次打开视频工作台,默认就是可灵。但这个「记住」是基于你实际使用的结果,不是基于某个硬编码的默认值。
多家供应商加多台本地模型混用时,这种「列表可控、心智稳定」的体验至关重要。你不需要每次都去翻下拉列表找你常用的那个模型——系统帮你记住了。
---
## 七、双脑分镜——AI 不只是帮你画画,是帮你当导演
这是比格熊区别于所有「AI 分镜工具」的核心能力。
市面工具的「AI 分镜」通常是:你写一句话,AI 出一张图。完事。
比格熊不是。每个镜头经过**两层大脑**处理:
**导演脑(语义层)**——理解剧本,拆出镜头语言:景别、机位角度、运镜方式、角色走位、身体朝向、视线方向、对白模式……这些是影视工业几十年积累的专业概念,不是随机排列。
**工程脑(渲染层)**——把导演语义翻译成画面可执行的结构化参数:构图锚点、头部空间、鼻前空间、纵深层次、光线方向、轴线规则……
两层分开的好处:导演语义可以反复调整,不用每次从头重画;工程参数可以批量替换,换一套渲染风格只需改工程脑,不用动导演脑。
0.2 版本对这两层都做了重大升级——后端新增了五阶段提示词管线(编译门控→布局提取→参考引导→文本锚定→解析),前端对齐了相同的管线逻辑。**前后端的提示词生成逻辑完全一致**,不会再出现「前端算出来的和后端算出来的不一样」的尴尬。
而且还有**叙事保真协议(NFP)**:每集剧本自动对照 NFP 规则做结构化检查——戏剧弧位是否完整、冲突类型是否合理、节奏目标是否匹配。检查结果不是笼统的「写得不好」,而是精确到规则 ID + 违规依据。
对话场景还有**自动质检**:必须有 master 镜、双方各有 OTS 和 reaction 镜——这是好莱坞几十年的覆盖拍摄规范,系统会自动检查并补全。
**AI 不只是帮你写故事,还帮你守规矩。**
---
## 八、自研通用图引擎——故事结构不是树,是网
传统的项目管理工具用「文件夹」组织内容——一层套一层,像树状目录。但故事不是这样的:角色跨集出场、场景跨章引用、镜头之间有因果和并行关系。
比格熊内置了一个**自研的通用有向图引擎**(GraphCore),用节点和连线来表达故事结构。每个节点可以连接任意多个其他节点,支持拓扑排序、连通性分析、环路检测。
这套引擎是**通用**的——分镜故事板、片段画布、Clips 片段管理——所有涉及「关系」的场景,共用同一套图引擎。**造一次,用五处。**
0.2 版本对图引擎做了性能优化和存储层升级,配合六边形架构的端口抽象,图引擎的持久化层可以灵活切换。
---
## 九、AI 任务队列——加一种能力,只写一个文件
比格熊的 AI 任务系统不是「调一个 API 等结果」那么简单。它有一套完整的任务生命周期管理:
- **状态机**——每个任务有明确的状态流转:排队→执行中→成功/失败/取消
- **调度器**——多个任务自动排队、并发控制、配额管理
- **持久化**——任务记录落盘,关掉软件再打开,任务状态还在
- **事件总线**——任务状态变化实时通知前端,进度条不是假的
已经支持 14 种不同的 AI 任务类型(文生图、图生图、视频生成、语音合成、唇形同步……),每种任务只需要注册一个 Handler,调度、排队、持久化、前端通知——全部自动生效。
**加一种新的 AI 能力,就像往书架上放一本新书——书架不用重建。**
---
## 十、ComfyUI 深度集成——不只是调用,是完整嵌入
如果你是 AI 图像生成的重度用户,你一定知道 ComfyUI——最流行的本地 Stable Diffusion 工作流工具。
比格熊对 ComfyUI 的集成不是「简单调个 API」那么粗糙。它是**完整集成**:
- HTTP/WebSocket 双协议客户端
- 工作流扫描与编译器
- 占位符注入
- 自定义工作流支持
- 图像/视频双管线
- 设置管理
27 个源文件,覆盖了 ComfyUI 的方方面面。你可以在比格熊里直接使用你在 ComfyUI 里搭建的自定义工作流,不需要在两个软件之间来回切换。
---
## 十一、FFmpeg 媒体运行时——视频转码、音频提取、字幕合成
比格熊内置了完整的 FFmpeg 集成(12 个源文件),封装了 FFmpeg CLI 的定位、参数构建、执行、探测解析。
这意味着什么?意味着在从分镜图到最终成片的全链路中,所有需要媒体处理的环节——视频转码、音频提取、字幕合成、格式转换——都可以在应用内完成,不需要你另外安装和配置 FFmpeg。
---
## 十二、权限系统与配额管理——面向机构的设计
比格熊不只是给个人用户用的。它内置了一套可插拔的权限框架:
- **权限后端**——支持多种认证方式
- **装饰器**——函数级权限控制
- **审计日志**——每一次操作都有记录
- **缓存层**——权限检查不影响性能
- **日配额管理**——控制每天的 AI 生成次数
这套系统面向的是机构采购和团队使用场景。对于影视公司、教育机构、内容团队来说,「谁能用、用了多少、做了什么」是必须回答的问题。比格熊从架构层面就考虑了这些需求。
---
## 十三、唇形同步——5 种适配器,总有一款适合你
这是比格熊在视频生成领域的一个独特能力。当你的角色需要「开口说话」时,光有配音是不够的——嘴型要对得上。
比格熊内置了 5 种唇形同步适配器:
- **Hedra**——高质量唇形驱动
- **LivePortrait**——实时肖像动画
- **MuseTalk**——开源唇形同步
- **Wav2Lip**——经典的音频驱动唇形
- **可灵**——视频模型自带的唇形能力
5 种方案,覆盖从「够用」到「精雕」的不同需求。你可以根据自己的预算和质量要求,选择最适合的方案。
---
## 十四、自动更新与断点续传
0.2 版本改进了应用更新体验:
- **静默后台下载**——更新包在后台下载,不打断你的工作
- **断点续传**——网络中断后恢复下载,不需要从头再来
- **被动安装模式**——下载完成后提示你安装,你选择合适的时间重启
这些看起来是「小功能」,但对于一个需要频繁更新的桌面应用来说,更新体验的好坏直接影响用户的留存意愿。
---
## 说到底,0.2 版本意味着什么?
0.1 是「能用」。0.2 是「能扩展、能移植、能扛住未来三年迭代」。
从用户视角看,0.2 版本的体验提升是渐进的——你可能不会立刻感觉到「哇,完全不同了」。但从架构视角看,这是一次质的飞跃:
- **跨平台地基浇筑完成**——iPad 版不再是一个遥远的梦想,而是一个「写适配器就能实现」的工程任务
- **六边形架构落地**——换数据库、换云服务商、加新功能,都不会牵一发动全身
- **画布内核重写**——所有画布共用一套引擎,改一处交互,五处同时受益
- **提示词工程统一**——前后端逻辑一致,CI 门禁自动检查,不会再出现「前端算的和后端不一样」
**架构决定上限。比格熊的上限,远不止你现在看到的样子。**
---
## 适合谁用?
- 🎬 **独立创作者**——一个人也能产出完整的分镜和视频草稿
- 📹 **短视频团队**——批量试制 AI 辅助前期,快速验证创意
- 🎓 **影视院校**——学生在可控环境下练习分镜和导演思维
- 📖 **网文/漫画作者**——把文字故事可视化,试拍「纸上电影」
- 🏢 **内容机构**——数据不出域、操作可追溯、模型可审计
---
## 现在就试试
比格熊数字导演工作站,Windows 桌面客户端,本地安装,即开即用。
- ✅ 直连官方 API,不降级、不中转
- ✅ 本地化运行,数据主权在你手里
- ✅ 52 万行自研代码,不是套壳
- ✅ 支持即梦、可灵、通义万相、Seedance、OpenAI 等多家模型
- ✅ 内置 llama.cpp + Whisper 离线推理
- ✅ 5 种唇形同步方案
- ✅ ComfyUI 本地工作流深度集成
- ✅ 自研无限画布内核,数百节点流畅运行
**你的故事。你的数据。你的选择。**
🔗 [bgxiong.com](https://www.bgxiong.com)
---
*52.3 万行代码,从零到一。不是套壳,不是聚合器,是造机器。版本号从 0.1 跳到 0.2,不是修 Bug,是重建地基。*
