开源项目 7小时前 122 阅读 0 评论

Roblox 开源 AI 系统,用于检测可能对儿童有害的对话

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

Roblox Sentinel是一个旨在检测潜在儿童危害早期迹象的人工智能系统,以便进行进一步的分析和调查。作为一个Python库实现,Sentinel 使用对比学习来处理传统分类器常常面临的高度不平衡的数据集,并且可以应用于广泛的用例。

 

由于样本的稀缺,传统分类器很难检测出稀有类别的内容,比如试图梳理儿童的情况,无害的对话远远超过了这种情况。例如,Roblox 表示,其生产系统只包含 1.3 万个有害样本对话,而无害样本可能有数百万个。

 

同样重要的是要理解,单个信息(例如,“你来自哪里?”)本身可能看起来无害,但在周围信息及其进展的上下文下,可能会暴露出有害的意图。

 

Roblox 工程师设计了一种特定的方法来克服这些挑战。

 

通过优先考虑召回率而不是精确度,Sentinel 作为一个高召回率的候选生成器,用于更彻底的调查。这种方法特别适用于需要识别罕见模式的应用。Sentinel 不是孤立地处理每条消息,而是分析消息之间的模式以识别相关的行为。

 

为了实现这一点,Sentinel 分析用户最近的消息,并根据嵌入相似性对它们进行评分。分数是通过测量每条消息与罕见类别和常见类别样本的接近程度,然后取罕见类别相似度与常见类别相似度的比率来计算的。

 

然后,Sentinel 聚合从同一来源计算出的最近消息的分数,以计算偏度,作为可疑模式存在的衡量标准。

 

正偏度表示一种模式,其中大多数内容都是常见的,但有足够的罕见类别相似性,以创建一个右偏分布。

 

Roblox 表示,这种方法的一个关键优势是它对观测次数的变化具有弹性,这使得它非常适用于不同活动水平的来源。

 

根据 Roblox 的说法,Sentinel 提高了平台的安全性,并在部署的头几个月里向当局提交了 1000 多份官方报告。由于系统优先考虑召回率而不是精度度,所有可疑案例都需要人类专家进行筛查和调查。

 

这些分析师所做的决策创建了一个反馈循环,使我们能够不断提炼和更新示例、索引和训练集。这种人工参与的过程对于帮助 Sentinel 适应并跟上新的和不断演变的模式和方法至关重要,这些模式和方法是由那些试图逃避我们检测的不良行为者所采用的。

 

虽然 Sentinel AI 是针对 Roblox 的特定用例设计的,但其创造者表示,它可以应用于任何目标类别示例稀缺的分类问题,特别是当多个观测的上下文都很重要,并且需要高召回率的情况下。Sentinel 的另一个优势是它能够大规模的近实时操作。

 

原文链接:

https://www.infoq.com/news/2025/08/roblox-sentinel-classifier/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!