AI热点 2月前 122 阅读 0 评论

国家数据局:我国日均 Token 消耗量突破 30 万亿,一年半时间增长 300 多倍

作者头像
AI中国

AI技术专栏作家 | 发布了 246 篇文章

感谢IT之家网友 会弹琴的九号 的线索投递!

IT之家 8 月 14 日消息,据中国新闻网今天报道,国务院新闻办公室今天举行了“高质量完成‘十四五’规划”系列主题新闻发布会,其中国家数据局局长刘烈宏作出了相关报告、解读。

刘烈宏介绍道,2024 年初中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半的时间增长了 300 多倍,反映了我国人工智能应用规模快速增长。

刘烈宏还指出,中国一直在持续推进高质量数据集建设工作,截至今年 6 月底,中国已建设高质量数据集超过 3.5 万个,总体量超 400PB(409600TB)

同时,AI 模型训练也推动了数据交易需求,今年 6 月底前中国各地高质量数据集累计交易额近 40 亿元人民币,数据交易机构挂牌的高质量数据集总规模达 246PB(251904TB)。北京数交所的高质量数据集占交易总量的比例从去年的 10% 跃升到目前的近 80%。

中文数据也在国内大模型的训练性能提升方面发挥重要作用,目前中国多数模型训练使用的中文数据占比已超过 60%,有的模型已达 80%。

IT之家注:Token(常被称为词元)是计算机科学与自然语言处理领域中的一个基础且重要的概念,通常指文本数据经过分词或标记化处理后的最小单位,其中单位可以是单词、标点符号、数字或其他任何有意义的符号。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

作者头像

AI前线

专注人工智能前沿技术报道,深入解析AI发展趋势与应用场景

246篇文章 1.2M阅读 56.3k粉丝

评论 (128)

用户头像

AI爱好者

2小时前

这个更新太令人期待了!视频分析功能将极大扩展AI的应用场景,特别是在教育和内容创作领域。

用户头像

开发者小明

昨天

有没有人测试过新的API响应速度?我们正在开发一个实时视频分析应用,非常关注性能表现。

作者头像

AI前线 作者

12小时前

我们测试的平均响应时间在300ms左右,比上一代快了很多,适合实时应用场景。

用户头像

科技观察家

3天前

GPT-4的视频处理能力已经接近专业级水平,这可能会对内容审核、视频编辑等行业产生颠覆性影响。期待看到更多创新应用!