OpenAI 发布新一代语音模型，让智能体语音表达更自然

AI文摘

此内容由AI根据文章内容自动生成，并已由人工审核

3月2

3 月 21 日消息，OpenAI 昨日（3 月 20 日）发布博文，宣布推出语音转文本（speech-to-text）和文本转语音（text-to-speech）模型，提升语音处理能力，支持开发者构建更精准、可定制的语音交互系统，进一步推动人工智能语音技术的商业化应用。

在语音转文本模型上，OpenAI 主要推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 两个模型，官方表示在单词错误率（WER）、语言识别和准确性上超越现有 Whisper 系列。

这两个模型支持超 100 种语言，主要通过强化学习和多样化高质量音频数据集训练，能捕捉细微语音特征，减少误识别，尤其在嘈杂环境、口音及不同语速下表现更稳定。

在文本转语音上，OpenAI 最新推出了 gpt-4o-mini-tts 模型，开发者通过“模拟耐心客服”或“生动故事叙述”等指令，控制语音风格，可以应用于客服（合成更具同理心的语音，提升用户体验）和创意内容（为有声书或游戏角色设计个性化声音）方面。

如果您喜欢本站，点击这儿不花一分钱捐赠本站

这些信息可能会帮助到你：下载帮助 | 报毒说明 | 进站必看

修改版本安卓软件，加群提示为修改者自留，非本站信息，注意鉴别

发表回复

评论列表（1条）

c.zyrichard 2025年3月21日上午11:33

Google Chrome 134.0.0.0 Windows 10 x64 Edition
不开源的话意义不大啊

回复

Snowclod 2025年5月7日

夸克还行吧，比百度可好多了

评论于闪豆视频下载器 v4.0.0.0-2025.05.06 安装版
zzh12668 2025年5月7日

只有伟大的国家才有这样民主的法案

评论于美国议员硬刚苹果：新提交法案要打破 App Store 垄断
476257264 2025年5月7日

看见这个软件我就进来了，我早已经买了正版，这个软件是真神，玩游戏、看电影和看视频（B站需要关弹幕）都有用，使用后能明显感觉到帧率的提高。

评论于 Lossless Scaling(游戏无损缩放) v3.1.02 绿色版
翊 2025年5月7日

配置较为繁琐，但是很好用，带版本控制和校对，能跑满路由器，比其他软件好用很多很多

评论于 Syncthing(文件同步工具) v1.29.6 官方版
山风 2025年5月7日

晚了好像坦白说这个功能都没了

评论于 Android QQ坦白说查询工具1.2-免ROOT
j-da 2025年5月7日

流畅度惊人，比那个450M的雨晨的还流畅，相当好使

评论于【哄哄】Windows7 SP1 纯净精简版系统
zd2324 2025年5月7日

不能下油管的了

评论于 Internet Download Manager v6.42.23 修改版
翼派印象 2025年5月7日

后缀改为“.bat”

评论于 Microsoft Activation Scripts v3.2 官方版/汉化版
翼派印象 2025年5月7日

这次的激活工具版本是怎么回事，“CMD”格式是未知文件？

评论于 Microsoft Activation Scripts v3.2 官方版/汉化版
mingke 2025年5月7日

2025年5月7日亲测可用，登录的是自己的迅雷账号，自己云盘内的东西也能满速下载。

评论于迅雷11 v11.1.12.1692 绿色精简版

OpenAI 发布新一代语音模型，让智能体语音表达更自然 - 果核剥壳

相关推荐

发表回复

评论列表（1条）

分享到：