AI人物 9小时前 158 阅读 0 评论

OpenAI神秘狠人,花名Bob

作者头像
量子位

AI技术专栏作家 | 发布了 246 篇文章

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

在OpenAI,有一个神秘人专门负责推理用的CUDA内核。

同事们管他叫Bob,人们会把他写的注意力内核亲切地称为Bob内核

这个内核每天可能在数十万张GPU上被执行万亿次

要知道,这个环节对精度的要求非常高,如果出bug,需要回滚checkpoint重训,会浪费大量的算力资源。

有网友感叹:

全世界能写出高性能训练用CUDA内核的人,活着的不超过100个。

就是这么一个“地狱级难度”的东西,在OpenAI居然只靠Bob一个人

Bob内核能力者

OpenAI前员工感叹,Bob轻轻松松在几分钟内修好了自己一周都没搞定的问题。

其他前员工也附议,表示OpenAI对Bob的依赖极高。

公司内部的Slack上专门有一个“Bob magic”表情包,用来来膜拜Bob——无人能不折服于他那“巫师”般的能力。

还有些员工打趣道:如果Bob心血来潮想出去度假一周,那整个公司可就要准备好面临生死存亡的终极阶段了

既然是这么重磅级的人物,怎么能逃过小扎的法眼呢?

坊间传言,小扎已经知道了这个消息,已经火急火燎地安排上了,Meta明天招聘会议的Top 1事项就是:“Bob到底是谁!”

听说扎总甚至还为此大动肝火(笑死)

“小扎买买买”换新季居然能错过这么一个大宝贝,不禁怀疑自己每年给亚历山大王开的1400万美金是不是打了水漂。

Bob啊Bob,隐姓埋名这么多年,看来此次还是难逃小扎的魔爪。

像CUDA内核这种基础工程对AI公司来说实在太重要了,因此这类技术人员在硅谷往往被视为核心机密,Bob本人大概率是不会亲口承认的。

但在帖子评论区,反复地在出现一个名字——Scott Gray

是他,就是他:Scott Gray

Scott Gray毕业于美国伊利诺伊大学香槟分校,修读物理和计算机科学。

Scott是OpenAI相当资深的技术人员,他早在2016年就加入了团队,主要工作是负责GPU内核优化。

至今,Scott一共参与写作了51篇机器学习论文,总引用超过 80000 次。其中不乏像《GPT-4 Technical Report》《Scaling Laws for Neural Language Models》这样的重磅研究。

为什么说Scott的神秘人Bob的第一候选人呢?从Scott的技术背景和社交媒体上或许可以发现一些蛛丝马迹。

2017 年,Scott作为一作发布了《Block-sparse GPU kernels》,这是OpenAI官方博客上的一篇核心论文,由他与Alec Radford和Durk Kingma合著。

这是一种针对块稀疏权重(block-sparse weights)设计的高性能GPU内核。相比传统的cuBLAS或cuSPARSE,这种内核优化了全连接和卷积层,在某些稀疏度设置下可提速数倍

这与“Bob内核”描述的核心——高效注意力机制和海量GPU推理——高度吻合。

如果这还不够,让我们来看看Scott本人在“口供”里是怎么交代的。

2017年,Scott在Reddit上事无巨细地全盘托出了自己是怎么在OpenAI搭建的CUDA内核,包括FP16/FP32计算优化和针对P100/P102 GPU的适配。

Scott提到:“这些内核是我两个月前完成的,现在悄悄发布了。”

硅谷人才争夺暗流涌动

有人说,AI的未来取决于谁囤得下更多显卡。

但在硅谷,围绕人才的竞争才是如今台前最受关注、热议的焦点。

狙击战发展现在,只要有厉害的大佬出现在聚光灯之下,几乎是露头就秒,以至于各大实验室恨不得把手上的王牌全部挖个洞藏起来。

OpenAI这位GPU蒙面超人面纱被揭,亦是硅谷人才市场暗流涌动的一处具象化。

不知道小扎的超级智能实验室,是否又蓄势待发了呢?

此前,OpenAI的核心研究员几乎被小扎挖个半空,先后已有赵晟佳、Lucas Beyer、Alexander Kolesnikov等人纷纷跳槽加入Meta,可谓是连续给了奥特曼几记重拳。

图片由AI生成

那么奥特曼,这一次,你能够守得住Bob吗?

参考链接:
[1]https://x.com/khoomeik/status/1968136500807340291
[2]https://openai.com/index/block-sparse-gpu-kernels/
[3]https://www.linkedin.com/in/scott-gray-569704/
[4]https://www.reddit.com/r/MachineLearning/comments/5izkux/comment/dbctqo3/?context=3

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!