數據要素與產業加速融合 2030年我國數據產業規模將達7.5萬億元來源:央視網 日期:[2025-05-20]
5月17日,記者從2025數據安全發展大會上獲悉,我國將培育壯大一批數據要素產業鏈上下游企業,預計到2030年,我國數據產業規模將達到7.5萬億元。
作為全球首個將數據納入生產要素的國家,我國已初步構建起門類齊全的數據產業鏈。數據顯示,2024年,我國年度數據生產總量達41.06澤字節,同比增長25%。截至目前,我國數據領域相關企業超19萬家,數據產業規模超2萬億元。按照20%以上的年均增長率測算,2030年我國數據產業規模將達7.5萬億元。
國家數據局局長劉烈宏表示,當前正謀劃構建橫向聯通、縱向貫通,協調有力的數據基礎設施體系,到2029年要基本建成國家數據基礎設施主體結構。
公共數據開放共享成為數據要素市場化的重要突破口。2024年,全國地市級以上的地方公共數據開放平臺數量增長7.5%,開放數據量增長7.1%,高質量數據集數量同比增長27.4%。在數據要素與產業融合方面,國家正加快打通公共數據共享開放壁壘,推動公共數據與企業數據深度融合,激活海量"沉睡數據"。
構建高質量數據集加速人工智能發展
眼下,數據已超越傳統生產要素,成為驅動人工智能技術突破與產業變革的核心動力。高質量數據集不僅是人工智能模型性能躍升的基石,更重塑了從技術研發到商業落地的全產業鏈條。那高質量數據集是如何構建的?
在浙江溫州,作為全國數據要素市場化改革的“試驗田”,這里構建了一套數據安全與合規體系,保障數據要素規模化流動,形成數據交易生態圈,讓更多數據“活了起來”。
技術人員告訴記者,構建大模型數據集主要包含數據采集、數據清洗、數據標注、質量評估等核心環節。各環節需要根據大模型數據集的規模大、多樣性足、行業垂直屬性強等特點進行針對性的技術研發和適配。
數據標注與清洗是高質量數據集建設的關鍵環節。數據標注通過“貼標簽”(如為照片標注“貓”“狗”)教會人工智能“認知世界”,未經標注的數據如同亂碼教材,導致人工智能無法有效學習;數據清洗則通過剔除重復、修正錯誤等操作凈化數據,混亂數據將直接影響人工智能訓練效果。
人工智能發展正加速從“以模型為中心”轉向“以數據為中心”。準確性高、規范性高、安全性高的數據能讓人工智能系統準確捕捉現實世界的復雜規律,取得良好的模型訓練效果。
我國數據標注產業產值超80億
可以看到數據標注是高質量數據集建設的關鍵環節,那我國的相關產業發展情況如何呢?在2025數據安全發展大會發布的《2025高質量數據集研究報告》顯示,隨著人工智能、大模型技術迭代,我國數據標注產業產值已突破80億元,高質量數據建設進入規模化、規范化發展新階段。
2024年,我國開發或應用人工智能的企業數量同比增長36%,高質量數據集數量同比增長27.4%,有力支撐人工智能訓練和應用。利用大模型的數據技術企業和數據應用企業同比分別增長57.21%、37.14%。
報告顯示,當前我國正加速推動高質量數據集創新發展,但是仍然面臨數據存量小產量低、數據集質量良莠不齊、缺乏主流高價值數據引領、數據利用效率低等問題。