跳到主要内容

文件处理方式

SecondLoop 会先保存原始附件,再按文件类型与设置决定是否执行增强处理。

按文件类型的处理规则

文件类型SecondLoop 的处理方式
image/*保存原图,尽可能读取 EXIF 元数据,并可在开启时执行图片注释/OCR。
audio/*保存音频,必要时生成更统一的代理格式,并可执行转写(local / BYOK / Cloud)。
video/*可转为分段视频清单(application/x.secondloop.video+json),包含预览帧与可选音轨抽取,再执行转写/OCR类增强。
application/pdf先抽取文本层;若文本为空则标记需要 OCR,并可继续做 OCR。
application/vnd.openxmlformats-officedocument.wordprocessingml.document先抽取文档文本;对扫描类内容可结合嵌入媒体走 OCR。
text/*以 UTF-8 解码并规范化文本,便于检索/阅读。
结构化文本(json/xml/yaml/toml/ini/csv作为可提取文本类型参与内容抽取。
URL 清单(application/x.secondloop.url+json通过安全策略抓取网页标题/正文摘要并写回增强结果。
其他二进制文件可保存、下载、系统打开,但不保证有文本增强结果。

PDF 与 OCR

  • PDF 会先做文本抽取。
  • 当抽取文本为空时,进入 needs OCR 状态。
  • 是否自动 OCR、页数上限、语言提示由设置决定。

视频处理要点

  • 视频处理可能产出:
    • 分段播放代理
    • 封面与关键帧
    • 关联音频转写输入
  • 查看器可把转写文本与 OCR/关键帧文本汇总成可读内容。

实用说明

  • 实际处理是否执行,取决于你是否开启对应功能(如 OCR、音频转写)。
  • 即使暂未完成增强,原始文件依然会保留,可同步与下载。