“到2025年底,建成世界級人工智能產業生態;力爭全市智能算力規模突破100EFLOPS;形成50個左右具有顯著成效的行業開放語料庫示范應用成果;建設3—5個大模型創新加速孵化器,建成一批上下游協同的賦能中心和垂直模型訓練場。”2024年12月,上海發布《關于人工智能“模塑申城”的實施方案》(以下簡稱《實施方案》),在方案中提出了一系列有關人工智能產業發展的目標。
在先后經歷了信息化、數字化革新后,上海正在積極投入城市“數智化”建設,為以大模型為代表的新一代人工智能產業的發展添瓦加磚,為強化大模型基礎底座賦能。
在今年1月舉行的上海市“人工智能+”行動推進大會暨中國—金磚國家人工智能發展與合作中心基地啟用儀式上,“模塑申城”五大公共服務平臺正式亮相,包括由上海儀電集團運營上海智能算力公共服務平臺、庫帕思牽頭“模塑申城”語料普惠計劃、上海人工智能實驗室運營大模型評測與驗證中心、上海創智學院牽頭“百人百項”青年科學家計劃,以及上海國投—徐匯融資服務中心。
作為大模型最重要的燃料,算力和語料直接關系著大模型產業落地的進展。經過并不算長的時間的跨越式發展,這兩大關鍵平臺目前不僅為上海的基礎模型企業提供保障,同時也正在順應垂類應用蓬勃發展的趨勢,為企業創新提供高性價比、高質量的算力與語料支持。
國資扛起算力供給重任
曾經參與籌辦了以往七屆世界人工智能大會的孫躍在2024年7月有了新的身份——上海儀電智算科技公司總經理。
“2023年,隨著國產大模型的蓬勃發展,市里意識到建設完善支撐大模型發展的智能算力功能性公共服務設施的重要性。”與以往超算中心以CPU為主的算力不同,大模型的訓練和推理都需要由GPU支撐,且算力需求呈現指數級增長。“缺卡缺算力”成為大模型創新的一個關鍵掣肘,業內預計這種供需不平衡可能在未來三五年都會持續存在,人工智能日新月異的迭代速度決定了抓住產業發展窗口期的迫切性。
上海儀電(集團)有限公司作為大股東承擔起了上海儀電智算科技公司的牽頭建設工作。
為此上海決定設立一個國資的算力平臺,為上海的大模型企業和科研單位提供基礎的人工智能算力保障,降低創新成本。這一意見很快得到落實,上海儀電(集團)有限公司作為大股東承擔起了上海儀電智算科技公司的牽頭建設工作,當年即投入運營。
“經過兩年時間,我們已經建成投產了多個萬卡集群。”孫躍介紹說,目前上海儀電智算科技公司正在為上海的重要大模型企業以及研究機構提供算力服務,支持他們的科研和大模型開發,包括上海算法創新研究院、大模型創業企業階躍星辰等。
相對于自建集群來說,租用算力可以免去承擔巨額硬件資產的投入成本。“我們的目標是通過相對低成本的規模化運營為上海的人工智能創新企業和戰略客戶提供靈活的公共算力服務。”
除了成為公共算力服務商,打造國產算力軟硬件生態也是上海儀電智算科技公司作為國資功能性平臺的另一個重要使命。
“作為上海市智能算力公共服務平臺,要發揮國產智算產業鏈生態鏈接和引領作用,通過國產芯片軟硬件和解決方案適配來降低國產芯片的使用門檻,讓國產算力能夠更好地服務大模型發展。”
孫躍介紹,上海儀電智算科技公司從2024年初開始建設國產化AI算力適配測試中心,目前已完成十余款國產芯片的適配測試,并開展國產軟硬件平臺的適配和新技術驗證,有力支撐了我國自主創新生態的構建。
伴隨著人工智能技術的深入發展和大規模應用,模型后訓練和推理需求可能很快會超過預訓練算力需求,而在此之前,作為上海儀電智算科技公司來說,需要為新一輪產業和技術革命的到來提前做好算力保障和穩定供應的準備。目前,上海市智能算力公共服務平臺一方面進一步強化規模化的智算集群工程建設運營能力。同時,著力推動基礎設施IaaS、軟件工具平臺PaaS、語料數據層DaaS及模型層MaaS能力整合,提供“訓推一體、混合部署”的智算云服務,加速向國內一流的智算云公共服務商轉型,支撐本市大模型行業垂類應用和千行百業數字化轉型。
語料供給有了正規軍
在AI應用中,語料質量直接決定了模型的性能。高質量的訓練數據能夠有效減少模型在推理過程中的錯誤率,提高模型在實際應用中的創作能力和生成質量。
近兩年,隨著AI技術的快速發展,產業界也越發意識到數據質量管理的重要性。不過,數據市場普遍存在授權難、成本高和版權風險大的問題。
授權難是指模型公司難以通過合規渠道獲取語料,有礙于基礎模型和垂類模型的商業化應用推廣和技術迭代創新。成本高則體現在當前購買語料的價格大部分是以版權計價的方式進行,授權周期通常為1年,到期還需銷毀,繼續使用需要再次收費。而在版權方面,近兩年,人工智能版權糾紛的問題讓大模型公司經常處于“風口浪尖”上。
“之前語料數據管理市場沒有方法論,俗稱‘亂燉’式,找來的數據對提升模型能力究竟有沒有幫助,效果未知。”上海庫帕思科技有限公司(以下簡稱“庫帕思”)董事長山棟明日前在接受澎湃科技采訪時坦言當前數據市場存在的“難言之隱”。
庫帕思成立于2024年3月下旬,是按照上海市委、市政府部署,由上海聯和(信投)牽頭,協同相關數據資源方和大模型相關企業組建的中國第一家人工智能語料公司,專注于大模型和垂類模型的發展,聚焦高質量人工智能語料供給。
庫帕思定位是帶有功能性的語料服務專業化運營平臺,提供一站式的高質量語料服務,推進多層次語料體系建設。“通俗理解,我們有三個角色,一是數據標注施工隊,二是語料處理總包商,三是語料專業開發商。”山棟明介紹說。
庫帕思定位是帶有功能性的語料服務專業化運營平臺。
經過近一年的實踐,庫帕思圍繞服務萬億級參數模型訓練持續擴容基礎語料庫,去年9月完成第二批語料采購和交付任務,已經啟動第三批語料清單方案。目前已經實現成品語料輸出約200TB,鏈接生態主體超100家,直接服務器機構數量超30家。同時圍繞打造中國版Sora,推動高質量多模態語料供給,與眾多內容供給企業形成合作。
在語料服務模式上,庫帕思也改變硬盤拷貝、云端傳輸等傳統數據交付方式,根據基礎模型、垂類模型、端側模型不同需求,提供語料動態配比、知識修正、價值對齊、快速封裝等“一站式”交付服務。庫帕思提出的系統化清洗流程,涵蓋了從數據預處理到語法糾正的多個步驟。這種方法不僅提高了標注數據的準確性,還大大減少了人工干預的頻率,從而提升了數據處理的整體效率。山棟明介紹,傳統數據公司只提供原始數據,而庫帕思提供清洗標注后的語料,可直接用于模型訓練。
此外,針對業內缺乏統一的高質量數據集定義標準,導致不同公司、不同機構或平臺即便有了高質量數據,但仍要耗費人力和時間重新處理數據標注的情況,庫帕思自成立以來也在推動語料工作的標準創新。
在2024世界人工智能大會語料主題論壇上,庫帕思公司同覆蓋多模態數據資源供應、加工、應用和運營全鏈在內的近二十家企業共同發布了團體標準《語料庫建設導則》。在語料數據清洗方面,庫帕思在國家知識產權局申請了一項名為“語料數據的清洗和質檢方法、設備、存儲介質及程序產品”的專利。該專利公開號為CN119128385A,申請日期為2024年9月。專利的核心在于有效提升語料數據的質量,這對于AI領域尤其是自然語言處理(NLP)和知識圖譜等應用具有深遠影響。
“我們把自己定位為人工智能拼圖中的生態鏈接者,致力于制定行業標準,構建AI生態。”山棟明說。
為垂類模型企業降低創新成本
伴隨著大模型行業發展需求的變化,上海儀電智算科技公司從去年開始也在逐步轉型,“起初我們主要任務是保障基礎大模型用戶,現在隨著大模型行業應用的發展,我們的服務對象擴展至各類垂類大模型企業。”孫躍說。
和基礎大模型相對量大、穩定的算力需求相比,垂類模型的算力需求更加靈活,“可能每次需要的量不多,頻率也不穩定,這就需要我們有更加靈活的應對方案。”為此,從2024年起,上海儀電智算科技公司不僅提供自己的算力,還在打造一個算力的靈活調度平臺,通過平臺協調其他社會算力資源,來共同服務垂類大模型的算力需求。“資源集中化、規模化后,才能提高資源的有效利用率,從而降低成本。”孫躍介紹說。
山棟明也表示,自成立以來,庫帕思也在一路探索模型公司對語料需求的變化。和上海智算公司一樣,庫帕思在創立之初也主要服務于基礎大模型,隨著產業不斷演進,模型未來的核心不僅僅是基礎大模型能力本身,而與應用緊密掛鉤。在應用領域,過往選模型的邏輯并不適用現在,“某些模型整體表現不錯,但在特定應用場景中,表現未必最好”,其中差異的關鍵在于用于模型訓練語料的不同。
庫帕思的目標是大幅降低居高不下的AI應用成本,讓開發垂類模型的中小企業能夠零門檻使用數據,實現“開箱即用”。此外,在垂類領域上,已聚焦“5+6”垂類領域(金融領域、醫療領域、制造領域、教育領域、文旅領域、城市治理領域)按照“一業一方法”建設行業語料庫。
庫帕思聚焦“5+6”垂類領域按照“一業一方法”建設行業語料庫。
此外,庫帕思也在發力具身智能、機器人等前沿垂類領域的高維語料需求市場,目前該公司已經聯合上海國地中心、智元、傅利葉、開普勒、21所編制發布《具身智能語料庫建設導則》,下一步庫帕思將推動具身智能真機數據采集上規模和上質量,在世界人工智能大會前將發布更大規模、更多樣場景的具身智能語料庫。此外,進一步增強語料智能清洗與質量保障、智能合成和模型價值對齊、智能配比和知識修正等方面的技術能力。
本文鏈接:搭建算力、語料公共服務平臺,上海為大模型基礎底座賦能http://www.lensthegame.com/show-11-16911-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。