国家数据局：国内多数模型训练使用中文数据占比超60%_国际国内_新闻

记者从国家数据局获悉：中文数据在国内大模型的训练性能提升方面发挥着重要作用。国内多数模型训练使用的中文数据占比已经超过60%，有的模型达到80%。中文高质量数据的开发和供给能力持续增强，推动我国人工智能模型性能快速提升。

在人工智能时代，Token（通常所说的词元）是处理文本的最小数据单元。国家数据局局长刘烈宏介绍，2024年初，我国日均Token的消耗量为1000亿，截至今年6月底，日均Token消耗量已经突破30万亿，1年半时间增长了300多倍，反映了我国人工智能应用规模的快速增长。（记者王云杉）

编辑/赵俊阳

未标明由印象庆阳网（www.yinxiangqingyang.com）原创的文章，均为公益转载或由网民自行上传发布。网站所有文章均不代表我站任何观点，请大家自行判断阅读。文章内容包括图片、音视频等如有侵犯您的合法权益，请及时联系我站删除。感谢理解，致敬原创！站务邮箱：931548454@qq.com

招文袋

国家数据局：国内多数模型训练使用中文数据占比超60%

您可能感兴趣的文章