Email:[email protected]
生成式AI技術基于大語言模型架構,,可以為XR場景與用戶之間的虛實交互提供更加自然的交互方式、更流暢的場景和角色切換,,讓用戶感受到與現(xiàn)實世界相匹配甚至超現(xiàn)實的沉浸式體驗,。
在國內(nèi),標準化工作也在積極推進以支持這一技術的發(fā)展,。全國信標委人工智能分委會(TC28/SC42)發(fā)布GB/T 42382.1-2023《信息技術 神經(jīng)網(wǎng)絡表示與模型壓縮 第1部分:卷積神經(jīng)網(wǎng)絡》,,規(guī)定了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)離線模型的表示與壓縮過程,以保證人工智能技術的跨平臺可操作性,,并提升模型復用效果,,從而帶動人工智能產(chǎn)業(yè)的健康、快速發(fā)展,。該標準是國內(nèi)首個面向人工智能生成模型的國家標準,。此外,《信息技術 神經(jīng)網(wǎng)絡表示與模型壓縮 第2部分:大規(guī)模預訓練模型》(計劃號:20230717-T-469)和《信息技術 神經(jīng)網(wǎng)絡表示與模型壓縮 第3部分:圖神經(jīng)網(wǎng)絡》(計劃號:20230718-T-469)正在起草過程中,。
全國網(wǎng)絡安全標準化技術委員會(TC260)正在起草生成式AI數(shù)據(jù)和服務安全方面國家標準,,如《網(wǎng)絡安全技術 生成式人工智能預訓練和優(yōu)化訓練數(shù)據(jù)安全規(guī)范》(計劃號:20242095-T-469)、《網(wǎng)絡安全技術 生成式人工智能數(shù)據(jù)標注安全規(guī)范》(計劃號:20242097-T-469),、《網(wǎng)絡安全技術 生成式人工智能服務安全基本要求》(計劃號:20241752-T-469),。
國際上ISO/IEC JTC1/SC42負責人工智能標準化工作,重點圍繞數(shù)據(jù)質(zhì)量與治理,、可信與安全展開研制工作,。此外,在第27屆聯(lián)合國科技大會期間,,世界數(shù)字技術院(WDTA)發(fā)布了《生成式人工智能應用安全測試標準》和《大語言模型安全測試方法》兩項國際標準,。其中,《大語言模型安全測試方法》由螞蟻集團作為牽頭單位,。
編解碼技術
1
概述
在虛擬現(xiàn)實產(chǎn)業(yè)中,,音視頻編解碼技術主要應用于沉浸式媒體內(nèi)容源的獲取編碼、封裝,、傳輸,、解碼及呈現(xiàn)交互。如下圖所示,。
圖 2 音視頻編解碼技術框架
其中,,視覺方面主要包含4K/8K超高清視頻,、全景視頻、自由視點視頻,、點云,、3D網(wǎng)格(3D Mesh) 等視頻流;聽覺方面包含沉浸式音頻流,。
2
XR中的編解碼技術
視頻編碼
1)超高清視頻編碼
超高清視頻通常指4K/8K分辨率的視頻內(nèi)容,,支持高幀率(HFR,如100fps,、120fps),、高動態(tài)范圍(HDR)、廣色域(WCG),。超高清視頻對應的超高數(shù)據(jù)量和超大帶寬,,對壓縮效率和時延也提出了更高的需求?;诖?,國內(nèi)外標準工作組織,如