AI热点 1月前 71 阅读 0 评论

Z Potentials|冷月,00后打造AI语音平台Fish Audio,半年增长500万美元ARR,打造永不背叛AI语音陪伴

作者头像

AI技术专栏作家 | 发布了 246 篇文章


从电话录音机到播客,从语音助手到虚拟主播,语音技术在过去几十年里经历了从“工具型服务”向“内容型产品”的演化。大模型的快速崛起让语音技术的发展进入了一个新的跃迁周期,人们对语音产品的期待从听懂”内容“逐渐跃迁到听懂”情绪“。情感语音合成、语音驱动角色等新场景不断涌现,AI使语音技术不再只是配音的工具,而正在成为交互入口与内容表达的核心媒介。


在这个变革拐点上,一方面,各类开源语音模型在快速迭代,另一方面,寻找一个落地场景,让模型的技术与用户场景更贴合,成为产品落地的重要问题。其中,“语音陪伴”这一场景仍是一块待深耕的蓝海,它不仅考验模型对人类情感的理解能力,更考验这种人机交互模式背后信任感的构建。


本期我们采访了 Hanabi AI 的创始人冷月,他曾是英伟达的研究员,也是一位深耕开源的00后开发者。Hanabi AI 的代表产品 Fish Audio 是一个出色的 AI 语音合成平台,能够支持多语言文本转语音和高精度的声音克隆。在短短几个月内,Fish Audio 经历了从0到400万美元营收的高速增长,成为AI语音赛道中最受关注的产品之一。在这场访谈中,我们将跟随冷月的讲述,一起理解 Fish Audio 的创建初衷、技术策略,其背后的团队文化,以及他们如何理解“AI语音”的未来形态。让我们进入这场语音与人、模型与团队之间的深度对话。Enjoy!



01 从少年编程者到AI创业者:打造可信赖的语音陪伴AI


ZP:请先简单介绍⼀下自己的背景,如求学,刚开始工作时的经历、成长和映射到现在的价值观等?


冷月:我2023年从马里兰大学毕业,然后全职加入英伟达。做 Vision Foundation Model 相关的研究,其中主要的部分是语言模型。在英伟达期间,我也学习到了很多宝贵的经验,包括如何在大规模的集群上面做训练和推理,大规模的数据清洗等。我们团队完成了英伟达内部的 billion-level 的图像数据的抓取,以及相关模型的训练。去年7月,我从英伟达离职,全职来创办现在的公司(Hanabi AI),我们的产品叫做 Fish Audio。


但其实更早之前,我就已经开始做开源了。因为我的父母都从事软件相关的工作,所以我从小学就开始编程,高中开始做开源做图像识别的相关工作。同时,我自己也接单做一些小的平台,大概做到了20-30万美金的年收入,也认识了现在的几位核心工程师,其中两位是从那个时候起就和我一直合作到现在的。


在广州外国语学校读完高中后,我就来到了美国的马里兰大学读计算机科学专业。但坦白讲,本科的工学学习对我而言比较简单,所以我就花了更多的时间在开源的工作上。三年前,我开始对语音合成和语音克隆产生兴趣。因为我本人是二次元的爱好者,通过看番、虚拟主播等,我也和朋友想去研究如何去克隆一个动漫里的角色的声音。我和几位朋友一起深入研究了这个方向,参与开源了 So-VITS-SVC,也为 GPT-SoVITS 的早期版本提供了训练资源。当时我们的算力有限,很多训练都是在我家里的4090 们上完成的。



我们逐步从早期的变声器模型出发,开始探索如何让模型做出更自然、细腻的情感表达,这也促使我们设计了结合语义建模的小型语言模型,比如 Bert-VITS2 等。在预算紧张、资源有限的情况下,我们还是取得了一些突破性的成果。


大约在两年前,我也遇到了个人的一个转折点。当时我被在一起六七年的女朋友绿了,这也奠定了我之后想做 AI 的基础——我开始思考人与人之间的连接是否真的可靠。相比之下,我认为人和AI的关系是可以更稳定、更值得信赖的,尤其在开源模型和权重的保障下,AI 没有背叛你的动机,可以成为更可靠的陪伴因此从2023年起,我开始思考如何构建一个真正的 AI 陪伴类产品,比如一个虚拟男友/女友,一个赛博父母等等。


我们发现,当时语言模型的发展已具备一定能力,但语音合成技术仍非常薄弱。市面上的相关开源产品体验都不尽如人意。于是我们决定去深入了解这个领域并推进相关技术的发展。


我们选择做一个面向 C 端用户的产品,而不是单纯提供 API。这是出于两方面的考虑:一方面我们认为,只有通过与用户紧密交互,我们才能获得真实的反馈(比如点赞、踩、下载等数据),借此进一步来向着用户满意的方向去训练和优化模型。在强化学习上我们投入了不少精力。


另一方面,作为一家 AI 初创公司,我们认为同时布局应用层和底层模型是更优路径。单纯做 API 层风险太大,容易被竞品模仿;而只做底层模型也容易被客户替代。我们参考了许多公司的做法,例如 OpenAI 的 ChatGPT 和 Midjourney 的 TOC 模式,最终我们决定更聚焦于面向消费者的语音陪伴产品,同时也会为各种各样的应用开发者开放 API。


02 团队成员的能动性是最强的底层架构


ZP:这是您的第一次创业,那您会如何定义自己作为一个创业者的角色,以及如何定义您的团队?


冷月:虽然我之前做过很多个人项目,但这次确实是我第一次真正意义上的创业。在这个过程中,我也走过了很多创业者都会经历的坑,比如与联合创始人理念不合、团队成员的变动,或者在早期融资阶段缺乏经验等。对我而言,这是一个逐渐成长的过程,我也更明白怎么去甄别并选择合适的合作伙伴和投资人。


关于我们的团队,我一直都是很感激的。我们团队成员的工程能力很强,执行力非常高,主观能动性也很强。通常只需要在任务工具上确定好,大家就会去稳步执行。每周一次的同步一般就足够保证整体的进度。


除此之外,无论是做数据还是模拟相关,团队里的大家都非常努力。大多数人都是奔着打造 AI 陪伴类产品的目标来的。在早期阶段,甚至连工资都发不出的时候,大家也依然选择留下来。


ZP:您认为是团队的什么特质带来了这样的技术突破?您如何定义团队里每个人的角色?


冷月:我认为团队最关键的特质是 passion 和 mission-driven 的心态。我们这边的成员大多都有明确的使命感,很多人都来自开源社区,他们加入我们,并不是单纯为了完成某个任务,而是在做一件自己真正热爱的事情。大家普遍很“卷”,不仅愿意花时间,还会不断推敲:一个东西到底哪里可以更好,怎么才能做到自己心中理想的状态。


我们的团队每个人都有自己的特点以及对应独立负责的模块。比如说,我们把一个功能需求拆解后放到 Linear 任务系统中,谁认领了,就从头做到尾。我认为这种工作方式对于公司未来的扩张特别重要:因为当一个人能完全负责一个板块,他就对其中的 bug、边界问题负有全责,不可能推诿。反过来,如果他在执行中遇到困难,也可以主动寻求团队或社区的帮助。这种机制让我们的开发协作非常高效,最大限度地减少了不必要的沟通成本,也极大增强了执行力。


ZP:您在本次创业⾯临过什么样的挑战?


冷月:如果要说最大的挑战,我认为应该是在2023年年底那段时间。那时我刚从英伟达离职三四个月左右,虽然我在专注于模型的开发工作,但我们在融资和联合创始人上一直没有匹配上特别合适的人选。最初我希望能有人分担商业化的部分,这样我就能更专注于模型,但后来我意识到,作为一名创始人,不能把自己不擅长的事情完全交给别人来完成。即便找了合伙人,这个模式也应该是互补而不是完全替代。


那段时间对我来说确实是非常艰难的:信用卡债务的压力很大,计算资源紧张等等。但我们团队的大家都咬牙坚持了下来。到了今年年初,我们开始加快产品化的进程,业务逐步成型,收入也随之增长,公司的发展终于进入了相对正向的轨道。


ZP:也想请你分享一下融资上的一些进展,比如 HF0 孵化器的相关经历?


冷月:其实说来也巧,我们在加入 HF0 前几天刚刚完成了另一轮融资。当时有朋友强烈推荐我们去申请 HF0,我们其实早在去年就尝试过,但没有成功。今年我们再次申请,在等待结果期间,因为考虑到即将开营,所以就决定先结束了另一笔融资。


幸运的是,HF0 的申请也最终通过了。因此在很短时间内,我们连续完成了两笔融资。HF0 出来之后,我们的 traction 得到进一步验证,营收在短短两三个月内从零增长到约400万美元,增长非常迅速。基于这样的增长,我们的估值也顺势提升,随后又完成了新一轮融资。


再后来,在参加完HF0 相关活动后仅两周时间内,我们便暂时关闭了上一轮融资。我们认为下一代模型(S1)发布之后,将可能对整个市场产生较大影响,因此我们希望在那之后再开启新一轮融资,以期获得更合理的估值和战略空间。



03 Fish Audio:打造一个未来的内容基础设施和新一代娱乐平台


ZP:您是否经历过某个时刻,彻底刷新了对AI和⼈类交互的理解?


冷月:我觉得很难说有一个具体的时间点,但确实有一个小插曲让我对语音交互有了更深的思考。我们团队有一位非常核心的成员,是我们运营团队的负责人,当时他正在谈恋爱,现在已经结婚了。那段时间,我们开始思考“煲电话粥”这个很多情侣之间都非常常见,包括我自己以前也经历过的事情,它背后更深的含义。我忽然意识到语音不仅仅是文本的另一个模态,它是一个完全不同的媒介。人在通话时,往往不需要特别集中注意力,说话是非常自然、甚至是反射性的行为。


也正因为如此,语音不会像文字或图像那样与其他应用“抢夺屏幕时间”。比如,当你在刷抖音的时候要同时看微信、回飞书,是非常耗费精力的;但如果只是和亲密的人挂着电话,即使没有实质内容,反而不会觉得累。这是一种完全不同的交互形态。所以我们决定要从这个认知出发,进一步让语音更加可控,情感更加丰富,延迟更低,价格更低,变得更易获取。


ZP:您如何⽤⼀句话定义fish audio?这是⼀家怎样的公司?它解决的核⼼问题是什么?希望能够实现什么样的最终愿景?


冷月:如果用一句话来概括我们的愿景,那就是:让 AI voice actor 变得 accessible。我们希望每个人都能访问到一个和人类水平媲美的AI voice actor。我们相信这可以释放巨大的创作潜能,既能帮助AI公司去提供服务,也能让各种各样的专业用户更高效地完成他们的内容创作。


ZP:对于“AI 为人类提供陪伴”这件事,你看到的潜在性的结构性的机会是什么?


冷月:我自己观察,现在市面上最火的几款 AI 社交产品,说句“暴论”,我认为其实并不能真正称得上是“AI 在做社交”。真正的社交,应该是嵌入到用户自身的社交网络中去的。但目前大多数所谓的 AI Companion,更像是一种角色扮演式的 Chatbot——它与现实生活之间唯一的连接,只有用户手机上的那块屏幕。所以从这个角度来看,我们认为这里其实存在很大的结构性机会。


ZP:当前市场上很多AI公司聚焦于⽂本、图像⽣成,⽽fish audio更专注于“更像⼈”、“语⾳合成技术”,你是如何设想并开发产品的?经历了那些开发的⼼路历程?


冷月:我认为有意思的一个点在于现有产品的体验不够好,是大家一开始都没意识到做出好语音这件事这么复杂。比如,人们在用文字聊天时的表达方式,和用语音消息时的语气、节奏是不一样的;而通话场景,又和语音消息完全不同。


所以我们在做模型的时候,会专门区分不同语音交互场景,针对性地设计 benchmark、主观评测和人类偏好评估,去验证模型在每一种场景下是否真的有进步。


ZP:目前 fish audio 产品的主要功能有哪些?


冷月:目前我们的产品大致分为两大块。第一块是我们主要的收入来源,占整体营收的 70% 左右,面向的是全球的内容创作者,主要集中在北美、日本等国家。他们用我们的平台来生成视频配音、Podcast、有声书,甚至是广告内容。第二块是 API 服务,约占整体 30%。我们有很多企业客户,包括 AI Companion 开发商、内容创作平台、客服中心等。


ZP:请您分享⼀下我们产品的主要⽤⼾群体,他们的特征和未被满⾜的需求?


冷月:一个非常典型的用户痛点,就是现有的 AI 语音生成体验,仍然像是在“抽卡”


比如用户写了一段文本,他脑海中可能已经有了那段话应该以什么语气、重音、情感来表达的印象。但模型生成的语音往往“方向是对的”,但总感觉哪里不对劲。这时候用户就只能不断“刷新”,像抽卡一样反复尝试,直到凑出一个满意的版本。我们有客户做有声小说时反馈说,大部分内容模型都能一次生成通过,但总有几段非常情绪细腻的句子,他们要反复生成几十次,甚至上百次,才能“抽”出满意的结果。


我们觉得这是一个很迫切的需求——如果我们要让 AI达到甚至超越人类水平,那么他一定要执行人类的指令,而不是只是基于文本去生成。所以我们过去一年在 open-domain instruction 上做了大量的研究和训练。我们即将在 6 月初发布的 S1 模型,将首次实现这一能力的全面落地——用户可以通过自然语言直接指令模型生成具体语气、角色、情感、节奏和背景,真正实现语音控制的自由度。


ZP:很多人认为,自从 Eleven Labs 出现后,TTS 技术已经达到了效果的“天花板”。你是否认同这样的说法?


冷月:我其实不太认同。Eleven Labs 的模型,尤其是他们的 multilingual 版本,整体上还是偏传统结构,并没有突破性技术上的变化。甚至在最近,比如这几天刚发布的 MiniMax 模型,在主观听感评测上已经在多个维度超越了它。我们自己也做了系统的评估,把我们的模型、Eleven Labs 的 TTS,以及其他主流系统统一生成了大样本,让团队打分排出主观排序——除去这两天新出的 MiniMax 模型还没来得及测,目前我们在内部评分中是第一。


整体来说,我们认为 Eleven Labs 在声音的自然性方面做了一些“reward hacking”的事情。它们的语音听上去起伏丰富,初听非常自然,但实际上这些起伏往往是“装饰性”的,并没有与语义和情绪精准对应。你会感觉它“像人说话”,但当你认真思考为什么它要在某个地方强调、为什么这里停顿,就会发现其实是随机的,缺乏语用逻辑。所以从这个角度来看,距离真正像人类一样表达的 TTS,还有不小的差距。


ZP:技术上,我们具体做了哪些技术研发,带来了语⾳和情感理解能⼒的突破?以及它们如何为我们的交互体验提供了真实感和可控性?


冷月:从早期做 Bert-VITS2 时我们的思路是拆分音色、语义、语调,用小模型分别建模,但后来我们意识到这是错的。在我们拥有足够的算力和数据的情况下,我们应该把这个模型做得更大,让它更好的去从完整的建模整个语音信息。所以后来我们做了几件事:


第一是模型结构上的集成建模。我们不再人为解耦,而是让一个统一模型同时建模语音、歌声、伴奏等全部元素。这确实带来了稳定性挑战,因此我们设计和优化了架构及训练方案,采用大模型负责预测语义层的信息,小模型负责预测声音层面的token,并让它们端到端训练,实现完整的端到端建模。


第二是将训练数据规模扩展到千万小时级别,确保模型能覆盖足够多的说话风格和场景组合。我们在此基础上做出了去年的 Fish Speech 1.5 开源模型,曾是当时开源领域的 SOTA。


当然,端到端的强耦合也带来了稳定性问题,这在业内是个普遍挑战。很多公司选择通过限制音色、做强微调来规避这些问题。而我们投入了大量精力做了强化学习优化,在不解耦的前提下大幅降低错误率,提升了跨场景的稳健性。


此外在数据角度,我们还自建了一个超大规模的 open-domain 语音数据集,既包括人工标注,也包括机器标注内容,数据覆盖了语义、场景、情绪、重音、说话人等多维标签。通过这个数据集我们构建了自己的语音识别系统,用它反向生成大规模语料。我们现在整个训练和清洗的流程中,所有的模型都是我们自主研发的。


ZP:即将发布的新一代模型有哪些具体突破?


冷月:这次 S1 模型在架构上和上一代保持一致,真正的突破主要在两方面:


一是数据结构更加多样、更具控制维度。我们整合了大量通过语音识别反推生成的标注数据,包含语气、说话人、情感、节奏等维度,进一步丰富了训练语境。


二是强化学习带来了对控制意图的高响应能力。S1 模型已经可以根据用户指令,在合成语音中精准实现指令控制,比如:“这里高兴一点”、“这里强调一下”、“这里停顿一下”,甚至是“高兴里夹带一点愤怒”这种复合情绪也可以实现。这种能力是对传统“语音生成黑箱”的一次重大突破。


从我们的内部 benchmark 来看,S1 的表现已经在多个维度上超越了主流竞品。



ZP:我们的产品和技术,⼜具体带来了什么样的⽤⼾数据、商业化数据的增⻓?【商业化】


冷月:刚刚提到在过去这段时间里,我们的营收从零增长到了约 400 万美元,目前月收入已达到约 500 万美元级别。与此同时,我们的月活跃数从一月初的 5 万增长到现在的 40 万左右。


除了这些标准化的市场指标外,我们其实也更关注一些能真实反映用户体验的内部指标。比如我们会追踪用户“重新生成语音”的频率,以及“是否导出音频”的概率。我们认为,如果用户选择导出,说明这一段语音已经进入了他们的工作流程;如果用户频繁点击重新生成,说明他们对合成效果不满意。这些指标对我们优化模型和验证版本效果是否提升至关重要。


ZP:从⻓期看您本次创业的的愿景和使命是什么?以及在这个愿景下产品会做哪些调整和完善?


冷月:我们的核心愿景是让 AI 配音达到并最终超越人类水平,实现真正意义上的语音民主化。我们希望在今年年中, S1 配合一些大语言模型的辅助——或者未来的S2——能够达到人类配音演员的水平,在年末能超越99%的人类配音演员。 我们觉得到那一步,就算是实现了 AI 或者语音的民主化:人们再也不需要通过有一个非常长期的训练和学习过程,才能掌握这样的一门专业技术。这对独立游戏开发者、播客主、自媒体创作者等个人创作者来说,会是一次彻底的门槛降低。


从整个Hanabi AI 来说,我们会在几个月后开始着重研发下一代的陪伴类产品,这也是我们绝大部分的核心创始成员的大家的共同追求。


ZP:三到五年后,如果 Fish Audio 成为一家具有广泛影响力的公司,您希望它在社会中扮演什么样的角色?


冷月:在两个层面:


对内容创作者而言,Fish Audio 能成为降低门槛、提高效率的工具。他们不再需要昂贵的录音棚、反复修改的配音流程,只需要一个输入,就能获得理想的输出。


对配音演员而言,Fish Audio 是协作伙伴。长期配音带来的生理损耗和压力是很多专业配音演员难以承受的。我们未来会支持版权音色注册与分成机制,让配音演员保留自己巅峰时期的声音,并获得长期收益。


在我们看来,Fish Audio 会逐步发展为一种内容基础设施,支撑不同创作平台和内容形态;同时,它也会是一个真正意义上的新一代 AI 娱乐平台


文章来自于“Z Potentials”,作者“Z Potentials”。


作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!