国内多数AI模型训练使用的中文数据占比已超60%-速读
时间:2025-08-23 12:46:53来源:新华网


(资料图)

中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。

人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。

标签:

生活指南
  • 国家防总针对辽宁四川云南启动防汛四级应急响应 每日视讯

    据应急管理部网站消息,气象部门预报,8月21日至22日,辽宁、四川、

  • 前沿热点:数据显示川菜餐厅数量位居上海地方菜系第一位

    2025上海之夏国际消费季·环球美食节系列活动——辣味江湖畅游市集1

  • 七部门:到2027年脑机接口关键技术取得突破_即时看

     记者8月7日从工业和信息化部获悉,日前工业和信息化部、国家

  • 市场监管总局就《城镇供水供电供气公用企业计量行为合规指南》公开征求意见

    据市说新语微信公众号消息,近日,市场监管总局发布《城镇供水供电

  • 每日动态!2024年商业特许经营TOP300发布

    根据2024年行业基本情况调查结果,参考相关上市公司年报数据,中国

  • 2025年暑期档电影总票房破50亿

    据网络平台数据截至7月27日11时19分2025年暑期档(6月—8月)总票房(

  • 每日播报!国家管网集团“全国一张网”建设步稳蹄疾

    2025年征程过半,国家管网集团全年重点任务目标的冲锋号角愈发嘹亮

  • 观速讯丨2025年6月全国受理网络违法和不良信息举报1849.6万件

    图片来源:中央网信办举报中心微信公众号中新网7月9日电 据中央网

  • 焦点热文:肝败吓疯是什么意思?肝败吓疯是什么梗?

    肝败吓疯 是一个网络热梗,用于形容在需要大量时间和精力的游戏中

  • 每日热文:1-4月规模以上纺织企业工业增加值同比增长4.2%

    据工信部网站消息,工信部7日发布2025年1-4月纺织行业运行情况。纺

  • 甘肃文旅进京启幕 “金秋双胡杨” 新篇

     6月26日,甘肃文旅运营集团携十二大景区和资源在北京举办 跨

  • 首批10只科创债ETF“火速”上报

     伴随着科创债市场快速扩容、流动性逐渐提升,支持科技创新的

  • 外汇中的基础货币是什么意思?外汇中的基础货币介绍

    在外汇交易中,** 基础货币(Base Currency)** 是外汇汇率标价

  • 5家保险资管机构一季度合计实现净利润超10亿元

    近日,多家保险资管机构陆续发布一季度信息披露报告。数据显示,截

  • 长江、黄河干流统一的横向生态保护补偿机制有望于2027年建成

    记者4日从财政部了解到,财政部、生态环境部、国家发展改革委、水利

  • 中国成品油价迎年内“第四涨”

    中国成品油价迎年内第四涨。中国国家发改委3日消息,根据近期国际市

  • 民生
    • 中国文化艺术发展促进会等三机构落地西安鹿野苑共绘文旅新图景-焦点速读

    • 吴桥县亮相《300秒看家乡》 千年杂技韵·万象焕新程 今日讯

    • “无菌蛋”真的无菌吗

    • 上交所举办科创成长层证券公司专题培训会