Whisper-工具导航-AIFinder-探寻人工智能的魅力

产品介绍

Whisper是一个自动语音识别（ASR）系统，经过训练后可以接近人类级别的鲁棒性和准确性。它使用了680，000小时的多语言和多任务监督数据进行训练，可以提供更好的口音、背景噪音和技术语言的鲁棒性。此外，它还可以进行多语言转录和从其他语言翻译成英语。我们开源了模型和推理代码，以便构建有用的应用程序和进行更深入的鲁棒性语音处理研究。

主要功能

提供鲁棒的语音识别功能，对口音、背景噪音和技术语言具有较高的识别准确性。
支持多语言转录和从其他语言翻译成英语的功能。
使用简单的端到端架构，基于编码器-解码器Transformer模型实现。
输入音频被分割成30秒的片段，转换为对数梅尔频谱图，并传入编码器进行处理。
训练解码器以预测相应的文本标题，并与特殊标记交替使用，以指示单个模型执行语言识别、短语级时间戳、多语言语音转录和到英语的语音翻译等任务。

应用场景

语音识别应用程序：可以用于构建语音助手、语音输入工具等应用。
多语言转录和翻译应用程序：可以用于将其他语言的音频转录成文本，并进行翻译。

声明：请注意，信息可能并非最新。如需获取最准确、最新的AI工具详情，请访问 Whisper 官方网站。

Whisper

产品介绍

主要功能

应用场景

评论记录

发表评论

微信扫一扫