Hathora 探索、测试与部署可直接投入生产的语音模型。

✨ Hathora：您的下一代语音模型平台

探索、测试与部署可直接投入生产的语音模型，让您的语音助手构建之路无忧无虑！

无论您是倾向于开源模型还是需要封闭环境，Hathora 都为您提供了无缝的构建体验。我们负责所有的底层基础设施和复杂运维，让您专注于创意的实现。

“在开源或封闭模型上轻松构建语音助手，无需任何运维经验。”

您可以从共享端点开始您的旅程，快速测试和迭代。随着项目需求的变化，如果对隐私、合规性或VPC有更高要求，您可以随时升级到专属的私有基础设施，保障您的数据安全和业务独立性。

我们深知实时交互的重要性。Hathora 的模型在全球14个地区运行，这意味着无论您的用户身处何地，都能享受到超低延迟的语音交互体验。流畅的对话，提升用户满意度。

您的业务有独特需求？没问题！Hathora 支持您引入自己的专属模型，或是部署自定义的容器。这种灵活性确保您的语音解决方案能够完美契合您的业务场景，实现无缝扩展。

Hathora 不仅提供成熟的模型，更有一个不断扩大的模型目录。无论是先进的语音识别 (ASR)、自然流畅的文本转语音 (TTS) 还是强大的大型语言模型 (LLM)，我们都在不断地整合和更新最前沿的技术，确保您始终走在行业前沿。

nvidia/parakeet_realtime_eou_120m-v1: 低延迟 EOU 检测流式语音识别模型，英文专用。
nvidia/parakeet-tdt-0.6b-v3: 多语言自动语音识别模型，支持词级时间戳，高准确度。
hexgrad/Kokoro-82M: 轻量级、快速推理、成本效益高的 TTS 模型。
ResembleAI/chatterbox: 优化自然与富有表现力语音合成的 TTS 模型。
rime/arcanabeta: 栩栩如生、情感丰富的 TTS 模型，可细粒度控制语调和节奏。
Qwen/Qwen3-30B-A3B: 新一代大语言模型，增强推理、指令遵循和多语言支持。
Qwen/Qwen3-Omni-30B-A3B-Instruct: 多模态语音到语音模型，可处理图像、音频、文本输入并生成自然语音输出。
即将推出： nvidia/magpie-tts-zeroshot（零样本语音克隆）、elevenlabs/elevenV3（超逼真语音合成）、moonshotai/Kimi-K2-Instruct-0905（为实时语音应用优化的大语言模型）、rime/mistv2（新一代多语言模型，超快延迟）。