Skip to content

HappyHorse:阿里用一头「快乐小马」重新定义了 AI 视频生成

2026 年 4 月,一款匿名 AI 视频模型空降 Artificial Analysis 盲测榜,文生视频和视频生视频双榜第一,一夜之间压过 Seedance 2.0、Veo 3、Sora。谜底在几天后揭晓——这是阿里造的马,叫 HappyHorse。

它不是另一个"能生成视频的模型"。它可能是第一个真正"面向生产"的 AI 视频引擎。


先说结论:音画同生的技术拆墙,比你想的重要得多

市面上的 AI 视频模型在干同一件事:用文生图那套逻辑改吧改吧做视频。先出一堆帧,再拼成片段,然后找另一个模型配音、对唇形。

HappyHorse 不这么干。

它是一个 150 亿参数的单流 Transformer,把文本、图像、视频、音频统一编码,一次推理同时输出画面和声音。这跟 Stable Diffusion 出图再找配音的关系,差了整整一个架构层级。

2026 年 4 月 27 日,HappyHorse 1.0 在阿里云百炼平台开启企业级 API 灰度测试,同时在 fal.ai 向全球开发者开放。个人用户可以通过千问 App 直接体验。


关键数据

维度HappyHorse 1.0
参数量~15B,40 层单流 Transformer
分辨率原生 1080p,支持 720p
时长3-15 秒,多镜头叙事
推理速度5 秒 1080p 约 38 秒(单张 H100)
音频原生同步生成,支持 7 种语言唇形匹配
输入方式T2V / I2V / S2V / V2V
榜单排名Artificial Analysis T2V & I2V 双榜第一
定价$0.14/秒(720p),$0.28/秒(1080p)
开放方式阿里云百炼 API + fal.ai + 千问 App

匿名登顶:一个「没有 Logo」的模型怎么拿下第一

4 月 7 日,Artificial Analysis 视频盲测榜单上多了一个未标注来源的模型。没有公司名、没有 Logo、没有 PR 稿——只有一串 URL 和一组测试结果。

结果是什么?

  • 文生视频:Elo 1333,第一
  • 图生视频:Elo 1392,第一

这不是小幅领先。它碾压了 ByteDance 的 Seedance 2.0、Google 的 Veo 3、Kuaishou 的 Kling AI,以及已经关停的 OpenAI Sora。

业界猜了三天:是腾讯秘密憋的大招?是哪个开源团队做的?还是独立开发者搞出来的怪物?

4 月 10 日,一个崭新的 X 账号发了一条推文,说 HappyHorse 属于阿里 ATH 创新事业部。阿里随即向 CNBC 确认了消息属实。当天阿里港股收涨 2.12%。

这件事有趣的地方在于:阿里选择匿名上线,让产品自己说话。 在大厂 AI 竞赛里,这是一种罕见的自信——或者说,一种罕见的对 benchmark 的判断:你知道你的东西好,好到不需要品牌加持去解释。


架构级的差异:为什么「一次生成」比「两次生成」重要

大多数 AI 视频模型的工作流是这样的:

文本 → 视频帧 → 拼合视频 → 渲染音频 → 音画对齐 → 导出

每一步都可能出错。帧不一致、口型对不上、音频延迟、多镜头切换后人脸变样——这不是"不成熟",这是架构决定的。

HappyHorse 的工作流:

文本 → 视频 + 音频(一次性)

技术上看,区别在于:

  1. 音频不是后期加的,是和画面同时规划的。 人物说话时嘴唇怎么动、语气怎么走、环境音放多大——模型在生成第一帧时就知道了。这意味着音画天然同步,不需要后期对轨。

  2. 多镜头一致性是架构特性,不是后期补救。 因为整个场景的信息在一次推理中编码完成,角色在镜头切换时不会"变脸"——这是模型层面的一致性,不是后期一帧帧修的。

  3. 推理效率反而更高。 单张 H100 生成 5 秒 1080p 视频约 38 秒。不是因为它跑得快,而是因为它只跑了一次。分段生成的模型每一步都要加载、推理、卸载,光 IO 开销就翻了几倍。

说实话,这个架构选择让我觉得阿里这次认真了。不是做一个"也能做视频"的模型,而是从底层去想:如果目标是生产可用的视频,那从第一性原理出发应该怎么设计架构? 答案就是 HappyHorse 这条路。


API 优先:它不是为了炫 Demo,是为了接入工作流

另一个关键判断点:HappyHorse 同步在 fal.ai、阿里云百炼、Atlas Cloud 三个平台上线 API,而不是只在官网放一个花哨的 Demo 页面。

这意味着你可以:

python
# 用 fal SDK 调用 HappyHorse
import fal_client

# 提交视频生成任务
handler = fal_client.submit(
    "alibaba/happy-horse/text-to-video",
    arguments={
        "prompt": "A lone traveler walks through a vast desert at sunset, golden light casting long shadows across rippled sand dunes.",
        "resolution": "1080p",
        "duration": 8,
    },
)

# 获取结果
result = handler.get()

注意 fal.submithandler.get() 这个模式——它是异步的。HappyHorse 的生成时间在 38 秒到几分钟不等,异步调用意味着你可以把它嵌入到任何自动化工流里。

这对独立开发者和产品团队意味着什么:

第一,视频生成变成了一个 API 调用。 你不需要部署模型、不需要管 GPU、不需要看推理优化。一个 HTTP 请求,几秒钟后拿到一条 1080p 视频。接入成本低到发指。

第二,它可以成为你产品里的一个能力层。 你在做一个电商内容工具?在"生成商品图"旁边加一个"生成商品视频"按钮,背后调的就是 HappyHorse API。你在做社交媒体管理工具?自动把博客文章转成口播短视频。你的产品是一层皮,AI 视频引擎是它的肌肉。

第三,价格透明到可以做预算。 $0.14/秒(720p)、$0.28/秒(1080p),没有最低消费,没有订阅费。做一个 10 秒的 1080p 视频成本不到 3 美元。

对比一下:传统方式拍一条 10 秒的产品视频,请摄影师、租场地、后期剪辑——几百美元起步,一周起跳。HappyHorse 的 3 美元和几分钟,不是一个量级的竞争。


窗口期:三件事同时发生

写这篇文章的时候,AI 视频赛道正在经历一次罕见的"窗口重置":

1. OpenAI 关停了 Sora。 理由是战略转向编码工具和企业客户。不管真实原因是什么(我猜是推理成本太高),唯一有品牌号召力的 AI 视频产品退出了市场。

2. ByteDance 暂停了 Seedance 2.0 的全面铺开。 因为版权纠纷——好莱坞和流媒体平台对训练数据提出了质疑。具体进展还不知道,但至少说明大公司在 AI 视频的合规路径上还在摸索。

3. HappyHorse 开源了模型权重和推理代码。 这在所有 Top 级视频模型里是独一份。Seedance 没开、Veo 没开、Kling 没开。HappyHorse 不仅开源,而且附带完整的商用许可。这对独立开发者和中小团队意味着:你可以自己部署、不受 API 定价牵制、可以基于它做二次开发。

这三件事叠加在一起,创造了一个短暂的"真空期"。不是市场真空,是心智真空——用户和开发者需要一个"生产可用的 AI 视频工具",而 HappyHorse 正好是当前最接近这个定义的选择。


对独立开发者和内容团队的具体影响

场景一:电商内容自动生成

做电商工具的人应该最兴奋。HappyHorse 的 Subject-to-Video(S2V)功能——上传一张产品图片,生成一段带运镜的产品展示视频。

你的工具逻辑可以是:用户在后台传商品图 → 选一个模板("展示 + 文案口播")→ 选画幅(小红书竖版/淘宝横版)→ 点击生成 → 一条 10 秒的 1080p 短视频自动产出。全程不需要打开剪辑软件。

场景二:多语言口播内容

HappyHorse 支持 7 种语言的唇形同步:中、英、粤、日、韩、德、法。这意味着:

一个面向跨境卖家的内容工具,输入一段中文文案,选择目标语言(英语或日语),HappyHorse 生成一段对应语言的真人口播视频。唇形是匹配的,语气是自然的。不需要请外籍演员,不需要配音工作室。

场景三:短剧和概念片 Pre-viz

短剧行业是 AI 视频最激进的用户群。HappyHorse 多镜头一致性的能力——角色在切换镜头时保持面部一致——意味着你可以在 15 秒内生成一段多镜头的短剧片段。

对于独立制片人和小型内容团队,这相当于以接近零成本完成概念片的视觉预览(pre-viz)。拿去说服投资人、试投放、测内容方向——投入产出比完全不是一个数量级。


坦率地说:它还不完美

信息都摆这了,也得说说不足。

第一,单次最长 15 秒。 HappyHorse 的单次生成上限是 15 秒。可以多段拼接出长视频,但拼接处的一致性还是一个实操层面的挑战——不是模型问题,是工具链问题。

第二,多镜头依然是短时序的。 虽然多镜头一致性比同类模型好,但 15 秒内切三四个镜头和拍一部 30 分钟的短剧是两回事。当前最适合的是短视频、广告片段、概念 demo,还不足以支撑完整的叙事长片。

第三,音频效果需要实测。 "原生音画同步"在技术上是革命性的,但实际效果——音质的保真度、语气的情感表达是否自然——还需要大量测试。官方 Demo 肯定选最好的片段,现实场景的可用率要自己试。

第四,开源 vs API 的经济账。 HappyHorse 开源了权重,但部署 15B 参数的模型需要至少一张 H100。对大多数人来说用 API 更划算。开源的意义更多在于:你不被锁定在某个平台、可以做 fine-tune、可以审视线下部署的合规性。对独立开发者来说,API 仍然是正确的起点。


更大的图景:视频生成正在从「能不能做」变成「怎么用」

过去一年我看 AI 视频赛道的感觉是:大家都在秀肌肉。"我们的模型能做 15 秒 4K 了""我们的模型能理解动词了""我们的模型跑得更快了"。

HappyHorse 转向了另一个方向:它默认你搞定了技术,所以它关心的是接入方式、工具链、工作流集成。

这跟我在 Claude Code 源码分析里看到的趋势一模一样——模型的原始能力在过去一年提升了一个台阶,接下来的竞争不再是"谁能做出更长的视频",而是"谁能做出更可靠的产品"。

  • AI 编码已经从"哪个模型写代码更好"变成了"怎么把模型接入你的开发工作流"
  • AI 视频正在从"哪个模型画面更美"变成"怎么把视频生成嵌入你的内容生产线"
  • HappyHorse 扛着 #1 的榜单排名,选择先做 API、先做多平台部署、先开源——这本身就是对"产品化优先"战略的表态

2025 年 AI 视频的竞争是模型能力的竞争。2026 年的竞争是工程化和产品化的竞争。HappyHorse 的结构化优势——音画同生、API 优先、多模态统一架构——让它在起跑线上就选了另一条赛道。


一些想法

HappyHorse 让我想到一件事:

AI 产品界的竞争正在从一个「技术霸权」模式转向一个「产品深度」模式。不是技术不重要,而是当技术能力趋近同一水平线时,谁更懂"怎么交付价值"谁就赢了。

阿里把 HappyHorse 放上 fal、开百炼 API、开源模型权重、提供千问 App 免费体验——这些都是典型的"铺管道"策略。不是在讲一个更大的故事,而是在建一条更宽的路。

对做产品的独立开发者来说,这是一个明确的信号:底层模型的能力差距在缩小,上层应用的工具链差距在拉大。 你的竞争优势不是选哪个模型 API,而是你比其他人更懂怎么把 AI 视频能力变成用户愿意付费的产品。

HappyHorse 给了你一个当前最好的视频引擎。怎么用它做出一款让人「哇」出来的产品——那是你的活儿。


怎么上手

开发者:访问 fal.ai/models/alibaba/happy-horse 或阿里云百炼平台,申请 API 密钥,一行代码开始生成。

个人用户:在千问 App 中直接体验,免费额度即可试玩。

开源部署:HappyHorse 权重和推理代码已在 GitHub 开源,附带商用许可,适合对数据合规有要求的企业用户。

定价参考:720p $0.14/秒,1080p $0.28/秒。生成一条 10 秒 1080p 视频成本约 2.8 美元。


HappyHorse 1.0 于 2026 年 4 月 27 日在阿里云百炼开启企业 API 灰度测试,同步上线 fal.ai。由阿里 ATH 创新事业部(原淘天未来生活实验室)开发,张迪(前快手 VP、Kling AI 技术架构师)带队。详情:alibabacloud.com

最近更新

基于 MIT LICENSE 许可发布