修复标签与标题脱离原始文件名的问题

核心问题是:文件名中的中文部分是后期不准确的直译,而英文部分是准确的原始描述。需要优先使用英文部分进行翻译和标签生成。

  • 英文部分是准确的原始描述,中文部分可能是后期不准确的直译,应优先使用英文部分
  • 过滤无意义内容:天途影像、X 2 数量标识、错误直译词
  • 单个中文数字(一、二、三等)应保留,不应被过滤
  • 保持代码修改已提交到 git

Discoveries

  1. 问题根源_extract_english_part 方法从完整路径提取英文而非只提取文件名
  2. 多层过滤问题:多个地方都有 len(word) >= 2 的过滤条件,导致单个中文数字被过滤
  3. 需要修改的位置
    • _extract_semantic_words 中的语义提取
    • _filter_meaningless_tags 中的标签过滤
    • _generate_natural_language_filename 中的文件名生成

Accomplished

  1. 新增 _extract_english_part() 方法提取英文部分(已修复路径问题)
  2. 新增 _optimize_filename_with_llm() 方法使用 Qwen 模型优化
  3. 扩展翻译词库(鸟类、猫、狗、身体部位、数字等约150词)
  4. 扩展 label_to_tags 映射表(约120词)
  5. 修复 NameError: quoted_content 未定义 错误
  6. 添加缺失的翻译词:finger→手指, five→五, six→六 等
  7. 修改多处过滤逻辑允许单个中文数字通过

正在修复:单个中文数字在最终文件名生成时仍被过滤的问题

Relevant files / directories

  • python/classifier_v2.py - 主分类器,包含文件名处理逻辑

    • _extract_english_part() - 提取英文部分
    • _extract_semantic_words() - 提取语义词
    • _generate_natural_language_filename() - 生成新文件名
    • _translate_filename_to_chinese() - 翻译英文到中文
    • _optimize_filename_with_llm() - LLM优化文件名
  • python/utils/tag_generator.py - 标签生成工具

    • extract_filename_keywords() - 提取关键词
    • _filter_meaningless_tags() - 过滤无意义标签
    • MEANINGLESS_TAGS - 无意义标签列表
    • translation_map - 翻译词库
  • python/utils/local_llm_tags.py - 本地LLM标签生成器

File: Five finger whistles..07034113.wav
Semantic: ['五', '手指', '口哨']  ✅ 正确
Keywords: ['五', '手指', '口哨']  ✅ 正确
CN Tags: ['五', '手指', '口哨', ...]  ✅ 正确
New Name: 手指_口哨_2df943.wav  ❌ 缺少 '五'

【已用光】激活码送给有缘人

5X3W-33Q7-A5RA-6E93                    RRLA-S397-B7QA-4R2E
DVYU-S5WC-8GEZ-8NTN                 M786-3DSD-HJ5P-PGFD
Y8L3-XKU2-U5F4-K6BN                    ECUH-XPSJ-MFU5-T5A2
84E4-4565-Q46P-7U9H                     9S6S-8QJH-P2DL-RRU7
JZL3-YR8D-FL3L-TRR6                      L7X7-B349-V5ZS-R93U

正在改进音效分类工具

目前有大批的音效超过万首以上待审核
过去的音效分类工具虽然用了大模型
但是对于音效这种短音频文件
很难识别的特别准确

所有我整合了三个模型来做智能音效分类
希望能够尽快的完成音效库的搭建
毕竟工具体验再好
资源不完整也是白搭

达芬奇音效字幕插件v1.2.4升级!

## 📝 字幕模块 ### 新增:智能定位 打开字幕面板时,自动跳转到当前播放头所在的字幕位置,不用再手动翻找了。 ### 优化:点击跳转 现在只有**真正点击输入框**时才会跳转播放头,解决了之前"不小心碰到就乱跳"的问题。 ### 优化:后台自动释放 当你切换到其他软件时,字幕输入框会自动失去焦点,避免意外修改字幕内容。 --- ## 🎵 音效模块 ### 修复:播放头位置 添加音效后,播放头现在会停在音效的**开头位置**,方便你直接预听效果。(之前会跳到结尾,很烦人) ### 新增:智能避让 添加音效时如果和已有内容重叠,会**自动创建新轨道**,不会再覆盖掉其他素材。 ### 优化:轨道命名 音效轨道命名改为更简洁的 **BGX** 格式,时间线更清爽。 --- **一句话总结**:字幕定位更智能,音效添加更顺手。

我不太会写博客

就记录一下比格熊的更新日志吧!