开源项目 4小时前 169 阅读 0 评论

Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于复杂和昂贵而无法处理的资源。

 

尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。

 

为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。

 

该数据集涵盖了广泛的语言,其中英语占比最高,有超过 1.1 万亿个 Token。西班牙语、德语、法语、俄语和日语各自贡献了超过 1000 亿个 Token。它也能代表一些比较小的语种,有 978 种语言贡献了超过 100 万个 Token。

 

为了评估 FinePDFs,Hugging Face 在该数据集的子集上训练了 1.67B 参数模型。结果显示,FinePDFs 的表现几乎与 SmolLM-3 Web 相当,后者是一个最先进的 HTML 数据集。更重要的是,在基准测试中,将两者相结合显著提升了性能,强化了 PDF 可以带来互补知识的观点。

 

对评估结果的强调立即引起了社区的质疑。在 LinkedIn 上,数据科学家 Arthur Wuhrmann 问道

 

怎么评估的?得分是多少?

 

Hugging Face 机器学习工程师 Hynek Kydlíček 回应说,团队追踪了各种基准测试中正确选择的概率。这表明他们关注的是基于概率的报告,而不是单一的分数。

 

研究人员指出,该数据集有推进长上下文训练的潜力,因为 PDF 文档通常比网页长得多。有些 AI 社区成员将其视为数据透明度的里程碑,因为 Hugging Face 不仅发布了数据集,还记录了其处理流程,从 OCR 检测到去重。

 

FinePDFs 遵循开放数据共享署名许可,可免费用于研究和开发。该数据集托管在 Hugging Face Hub 上,可通过 datasets、huggingface_hub 和内部处理库 Datatrove 访问。

 

声明:本文为 InfoQ 翻译,未经许可禁止转载。

 

原文链接:

https://www.infoq.com/news/2025/09/finepdfs/

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!