Whisper

一个接近人类级别准确性的自动语音识别系统,具有鲁棒性和多语言转录翻译功能。
所属类别:
定价模式:免费增值
出品公司:OpenAI
0 0

产品介绍

Whisper是一个自动语音识别(ASR)系统,经过训练后可以接近人类级别的鲁棒性和准确性。它使用了680,000小时的多语言和多任务监督数据进行训练,可以提供更好的口音、背景噪音和技术语言的鲁棒性。此外,它还可以进行多语言转录和从其他语言翻译成英语。我们开源了模型和推理代码,以便构建有用的应用程序和进行更深入的鲁棒性语音处理研究。

主要功能

  • 提供鲁棒的语音识别功能,对口音、背景噪音和技术语言具有较高的识别准确性。
  • 支持多语言转录和从其他语言翻译成英语的功能。
  • 使用简单的端到端架构,基于编码器-解码器Transformer模型实现。
  • 输入音频被分割成30秒的片段,转换为对数梅尔频谱图,并传入编码器进行处理。
  • 训练解码器以预测相应的文本标题,并与特殊标记交替使用,以指示单个模型执行语言识别、短语级时间戳、多语言语音转录和到英语的语音翻译等任务。

应用场景

  • 语音识别应用程序:可以用于构建语音助手、语音输入工具等应用。
  • 多语言转录和翻译应用程序:可以用于将其他语言的音频转录成文本,并进行翻译。

声明:请注意,信息可能并非最新。如需获取最准确、最新的AI工具详情,请访问 Whisper 官方网站。

综合评分
0.0/5
0人评分
评分分布

评论记录

未查询到任何数据!

发表评论

微信扫一扫

AI工具收录模版下载