史瑩
春回大地,中央網信辦、國家發改委、工業和資訊化部聯合印發《公共資訊資源開放試點工作方案》,確定在北京、上海、浙江、福建、貴州5省份開展公共資訊資源開放試點。
上述方案要求,試點地區要結合實際抓緊制定具體實施方案,明確試點範圍,細化任務措施,積極認真有序開展相關工作,著力提高開放數據品質、促進社會化利用,探索建立制度規範,於2018年底前完成試點各項任務。
數據成為關鍵生產要素
2018年,隨著8大國家大數據綜合實驗區建設不斷加快,產業發展將推動形成特色領域。圍繞京津冀和珠三角跨區域類綜合試驗區,將更加注重數據要素流通,以數據流引領技術流、物質流、資金流、人才流,支撐跨區域公共服務、社會治理和產業轉移,促進區域一體化發展;圍繞上海、重慶、河南和瀋陽四大區域示範類綜合試驗區,將更加注重數據資源統籌,加強大數據產業集聚,發揮輻射帶動作用,促進區域協同發展,實現經濟提質增效;圍繞內蒙古基礎設施統籌發展類綜合試驗區,將在充分發揮區域能源、氣候、地質等條件基礎上,加大資源整合力度,強化綠色集約發展,加強與東、中部產業、人才、應用優勢地區合作,實現跨越發展。此外,結合地方產業發展和應用特色,大數據產業集聚區和大數據新型工業化產業示範基地建設也將持續推進。
權威數據顯示,預計2020年,中國大數據市場規模將超過8000億元(人民幣,下同),未來中國將成為全球數據中心。IT技術的持續創新促使大數據時代加速到來,在此大背景下,數據成為關鍵的生產要素,預計到2020年,全球的數據總量將達到40ZB,中國的數據量將占全球數據總量的20%,成為世界第一大數據資源大國。
目前,中國大數據產業生態系統日趨完善,大數據技術、交易、開放共用、工業大數據等產業鏈縱向發展逐步延伸;重點區域產業佈局有效推進。在行業應用中,預計到2020年,工業大數據的占比將達到6.64%。中國大數據產業發展呈現出政府與企業聯動的態勢,近幾年國內培育出了一批大數據創新企業,發展勢頭良好。
在美國納斯達克上市的中國第一家大數據公司——國雙公司財報顯示,其淨收入增速是行業平均水準的2倍,預計2018年營收將達10億元。
國雙迄今不僅為包括中國政府網、國家發改委、農業部、北京市等在內的3000多家政府網站提供大數據分析服務,還為國家發改委、國家林業局、稅務總局等眾多單位提供政策大數據互聯網分析服務,同時也為旅遊、政府招商引資、地方產業促進、電子政務等垂直領域提供大數據整體解決方案。
「在新媒體領域,主要針對傳統廣電系統新媒體轉型、三網融合、三屏互動的需求,提供融合媒體大數據解決方案,為新媒體運營與運維、節目創新、全媒體收視考核及領導決策提供即時的全媒體數據支持。」國雙公司有關負責人表示。
四大難題亟待破解
2017年,菜鳥和順豐的「數據斷交」事件,暴露出大數據發展中的數據共用難題。當前,中國大數據產業正在從起步階段步入黃金期,數據開放度低、技術薄弱、人才缺失、行業應用不深入等都成為產業發展中亟待解決的問題。
首先資訊數據資源80%以上掌握在各級政府部門手中。據貴州省大數據發展管理局相關負責人介紹,部分政府部門在數據收集的過程中,由於缺乏統一的標準,收集到的數據雖然量大,但品質不高,可利用價值低。據此前媒體報導,長江上游地區一些省份的交通管理部門、運輸公司不願與其他省市共用物流資訊,造成聯運銜接的資訊壁壘,甚至出現了同樣1噸貨,一百公里公路運費比經濟發達地區高60元的現象。
據了解,截至2016年底,廣東省全省87個省直部門有6988類數據資源、62332個數據項,居全大陸各省(區、市)首位。但各部門提出的共用需求僅3649類,省級編目共用僅477類,數據難以真正發揮利民惠民、支撐政府決策的作用。
此外,儘管部分數據已接入共用開放平臺,但由於不能被機器讀取,成為無法釋放應有活力的「休眠數據」。
其二是技術創新滯後。中國大陸大數據產業雖然與國際大數據發展幾近步伐相同,但是仍然存在技術及應用滯後的差距,在新型計算平台、分佈式計算架構、大數據處理、分析和呈現方面與國外仍存在較大差距,對開源技術和相關生態系統影響力弱。市場上,由於大陸本土大數據企業技術上的不足,用戶更加青睞Google、IBM、Oracle、SAP等國外IT企業。
微軟大中華區董事長兼CEO柯睿傑認為,數據智能並非那麼觸手可及。大數據來源眾多、數量巨大、形式各異,要從中獲得一目了然的資訊,就需要真正高效、可靠的數據管理和分析平台。
如何處理巨量數據是中國大數據產業面臨的首要技術問題。鄂維南表示,「中國的數據體量特別大,比如,中國的視頻比任何國家都要多,這些數據儲存困難,需要用的時候往往就沒了」。再以基因測序領域為例,中國每年新增的基因組測序原始數據超過20PB(1PB相當於100萬GB),面臨數據量大、數據處理流程長等技術挑戰。
目前,中國大數據技術創新能力還有待提升。《大數據產業發展規劃(2016~2020年)》指出,中國在新型計算平台、分佈式計算架構、大數據處理、分析和呈現方面與國外仍存在較大差距,對開源技術和相關生態系統影響力弱。同時,大數據應用水準不高。中國發展大數據具有強勁的應用市場優勢,但是目前還存在應用領域不廣泛、應用程度不深、認識不到位等問題。
「中國大數據在底層技術上和國外差距特別大,技術都來源於穀歌等國外大公司。」國務院發展研究中心資訊中心研究處處長李廣乾說,很多時候我們的商業模式走在了技術前面,但並沒有通過技術手段來推動創新。
第三是人才不足限制了大數據產業創新發展的成效。清華大學電腦系教授武永衛透露的數據顯示,未來3至5年,中國需要180萬數據人才,但截至目前,中國大數據從業人員只有約30萬人。
同時,大數據行業選才的標準也在不斷變化。初期,大數據人才的需求主要集中在ETL研發、系統架構開發、數據倉庫研究等偏硬體領域,以IT、電腦背景的人才居多。隨著大數據往各垂直領域延伸發展,對統計學、數學專業的人才,數據分析、數據挖掘、人工智慧等偏軟體領域的需求加大。
其四,行業應用不深入。賽迪顧問股份有限公司大數據產業研究中心提供的數據顯示,互聯網、金融和電信三大領域的大數據應用在各行業總規模中所占比重超過70%;健康醫療領域和交通領域近年不斷「上架」新應用,但行業規模占比相對較小;而在其他眾多民生領域,大數據應用仍處於淺層次資訊化層面,行業發展水準參差不齊。
「目前,大數據在多個行業尚未與業務實現深度融合,應用場景創新不足,大數據技術人員需要提升行業業務知識和經驗。」百分點首席數據科學家杜曉夢表示,國內很多行業仍僅在局部業務上使用大數據技術,僅掌握數據挖掘和分析技術,如不能將技術與業務全面、深度地融合,則無法完全發掘出數據應用的真正價值。