鄔賀銓院士:標準數字化是大勢所趨
《國家標準化發展綱要》提出,要“推動標準化工作向數字化、網絡化、智能化轉型”。市場監管總局副局長、國家標準委主任田世宏在全國標準化工作會議的報告中提出“積極推進機器可讀標準工作,探索數字化條件下國家標準管理新機制。”“加強標準數字化技術研究,把握前沿科技發展趨勢,增強標準化基礎理論儲備。”標準數字化成爲今後標準化工作的重要內容之一。爲此,本刊近日專訪了中國工程院院士、國家標準化專家諮詢委員會主任鄔賀銓,請他分享對標準數字化的理解和建議。
標準數字化順應
數字化、網絡化、智能化時代的發展
2022年政府工作報告提出要加快數字技術和實體經濟的融合,這種融合表現在很多方面,其中包含有標準化怎樣與數字技術融合。標準數字化指利用數字技術對標準本身及生命週期全過程賦能,使標準承載的規則與特性能夠通過數字設備進行讀取、傳輸與使用的過程。提出標準的數字化,是希望藉助新一代數字技術,更好實現標準的制定和標準的推廣、宣貫和實施。標準的數字化包括兩個方面,一是標準的表現形式的數字化,二是標準化方法的數字化,通過數字化技術來推動標準化工作的發展。
標準數字化不僅在中國,國際上也在研究這個課題。國際標準化組織ISO對標準數字化給出一個被稱爲SMART的定義,即無需人員參與可實現標準的機器可讀、可用、可理解、可解析,這應該是標準化工作發展的一個里程碑。從過去單純的文字表達方式轉變到現在的機器可讀方式,這不僅因數字技術的發展成爲可能,而且它也是社會發展的需要,數字化已經滲透到實體經濟產業的各個方面,在不少應用場景已經機器換人,讓機器理解標準將是社會發展的大勢所趨。
我們以智慧城市攝像頭拍攝的視頻爲例,馬路上數十萬的交通監控攝像頭都聯網到城市的交管中心,可是交管中心監控室電視牆再大也放不下這麼多視頻屏幕。現在基本上是按馬路分時顯示,例如每分鐘一條馬路,一條馬路上的攝像頭也不少,靠人盯着看的效率很低。現在我們希望把所有馬路上的監控視頻通過人工智能的技術合成爲一個全城交通動態視頻,可顯著提升人來監看的效率。還有一種方法無需合成,通過計算機直接來讀這些分散的視頻,依據監控點時空位置的標籤,由機器代替人獲得全局的瞭解。未來的這種交通監控視頻不是供人來看的,以人作爲觀看對象時考慮的是視頻的幀率與分辨率對應人眼的分辨率能力即可,機器視覺的視頻編碼算法標準跟供人看的標準會有不同,所以我們要考慮從人來閱讀到機器來閱讀不僅僅是方式發生了變化,可能連標準內容甚至裡邊的一些內涵、規定、指標都會有所不同。
我們現在進入信息技術的新時代,整個社會經濟都在向數字化、網絡化、智能化轉型發展,在標準化方面體現的就是標準的數字化。
標準數字化能爲我們帶來什麼
第一,首先是標準的呈現形式的變化。我們知道標準過去基本上都是文本,那麼未來要讓機器可讀,標準文本就要變革。機器的可讀化首先是機器可檢索,即從機器可以發現和找到這個標準。然後是機器可讀,也就是把標準的內容能夠讀出來。進一步發展到標準的可理解,機器能理解標準的內涵,可交互,最後可以去執行。機器可檢索相對容易,機器可讀就有困難了。
人工智能的技術發展都可以通過語義理解把中文變英文,英文變中文,那機器可讀有什麼困難呢?首先標準是專業的,人工智能的模型和算法是要根據處理的任務經過大量的數據訓練才能優化,這種訓練不可能覆蓋所有專業,何況人來閱讀標準都有專業門檻問題。其次標準裡面包含公式、圖表、曲線等非結構化數據,計算機一般比較難理解非結構化的內容,在這些方面的標準可視化和可讀化並不簡單,還要做不少工作。
如何做到機器可讀,可以先從標準的描述語言入手。現在有人用XML的語言來描述標準,XML是可擴展的標記語言,是一種可以描述數據對象的計算機的語言,而且它比一般的數據語言多了一個包含對這個數據對象的解釋,這就降低了計算機對數據的理解難度。
要做到機器可讀還可以引入程序來描述標準,比如說有些算法可以直接成爲標準,這就引入到標準數字化表現形式的另外一方面——開源軟件和開源軟件的應用。《國家標準化發展綱要》提到的標準數字化,涉及機器可讀、開源軟件兩大方面。開源軟件現在在開源社區裡用的比較多,它是一種軟件,或者說它是把一個技術規範以一種算法來描述,計算機就便於執行,顯然開源也是標準數字化的一種表現形式。不過符合以開源軟件方式表達的標準還是很有限的。
標準數字化不僅在於標準的表現形式,還表現爲標準化方法的數字化,讓數字化貫穿標準化的全生命週期,便於標準的制定、實施和推廣應用。首先通過開源衆包加快標準制定和修訂的過程。過去我們制定標準習慣用會議和函審的方式,現在我們可以用開源衆包的方式即建立一個“在線協作寫作”平臺讓更多人蔘與標準制定的過程,在數字化環境中進行標準協作開發,能夠在數週時間內形成可交付成果,顯著縮短標準制定週期。標準按照常規的辦法,幾年才修訂一次,而開源可以快速迭代,動態更新,加快標準的制修訂。這裡會涉及到一些管理體制的問題,未來國家標準能否允許這樣做還需要研究,但團體標準可以探索,大家可以快速地參與到開源平臺上,只要同意了就能更新,這適用於新興或快速演進技術領域的標準。
第三,助力對標準實施的監管。因爲標準是數字化的,監管部門能從實施標準的行爲數據上發現它是否符合標準,容易對這種標準實施的合規性進行檢查。過去讓政府主管部門去讀那麼多標準是有困難的,但是如果我們做的事情有數據留痕,根據這些可以跟標準來比對,就能發現這些工作是否符合標準,就可以更好地進行社會的治理,這也是標準數字化希望能夠實現的一個好處。
第四,標準知識的快速檢索。一個標準文本往往很長,在一個執行實施的項目裡,可能只是用到這個標準的某一點或某一方面,並不一定涉及全部標準,但是實施方需要將整個標準從頭到尾讀一遍,有些工作涉及到多個標準,把所有有關的標準都讀起來,可能就比較難。爲什麼會導致現在有些工作沒有很好地符合標準,實際上是覺得標準太多了,不知道這個事情跟哪個標準有關,所以就導致了執行可能不符合規定。現在通過機器可讀無需下載閱讀大量的標準文本即可智能推送,實現快速的知識檢索,甚至通過機器直接編譯成工作指令或規則,可精準地指導實施。標準數字化不僅僅是對標準制定部門和起草單位例如標準化技術委員會受益,也有利於標準的監管部門如國家標準化管理委員會,同時對我們實施的部門也都很有幫助。
技術、體制方面的挑戰
標準數字化是工業革命以來標準化發展史的一次里程碑,是數字經濟時代標準化的主要特徵,爲標準化工作創新展現難得的機遇,促進標準化方法和管理制度的變革,但也帶來前所未有的挑戰。
一是標準化管理的挑戰。標準數字化本身不完全是技術工作,這裡邊是有很多技術上的事要做,但還要管理上做相應改革,需要重新審定標準制修訂流程與審批管理權限。我們原來的標準規定都是針對人來讀和人來執行的,雖然每個人讀標準可能會有不同的解釋,但每一個標準都會註明解釋權的歸屬,標準的實施方遇到問題會申請解釋。現在轉到了機器來讀,機器執行的算法是人來編的,不同機器也可能有不同的理解,解釋權的歸屬沒有變化,還得回到標準的制定單位或標準實施的主管部門,但機器會認識到標準條款可能有理解的多義性而主動提出要求解釋嗎?在標準機器可讀的時代不能都交給機器仍然需要人介入,什麼時候人要介入以及如何介入,需要在管理上加以明確。另外,按現在的管理規定,團體標準機構需要具有在民政部註冊的法人資格,而負責制定開源軟件標準的開源社區不具有這樣的資質,標準化管理模式的改革需要適應標準數字化做探索。
二是人工智能技術的挑戰。利用人工智能技術分析大數據,從錯綜複雜的事物中釐清來龍去脈,給出決策參考,在很多領域的應用已經表現出超越工作人員的智慧,但也要注意到人工智能通過內部神經網絡運算給出的結果可解析性差,往往是知其然不知所以然,無法說明爲什麼是這個結果,在一些重要的應用中難免對人工智能給出結果的可信性有疑慮。標準的機器可讀會用到人工智能技術來理解語義,同樣也面臨人工智能技術方面的這些困境,如果某些很重要的事情按機器可讀的標準操作了,99%的時候可能是對的,但是並不排除有1%的時候會誤判。如何能避免人工智能導致的誤操作呢?在人讀標準出現理解偏差時當然是人的責任,在機讀標準出問題時很難界定是機器算法的設計者還是機器的使用者或所有者須承擔責任。我們不能因爲標準機器可讀會陷入到目前人工智能技術的誤區而放棄標準數字化的努力,任何技術不用是不可能完善的,還是要推動機器可讀的應用,爲了避免風險,機器可讀標準可從那些即便出現機讀誤判也不至於產生很大影響的標準做起。
三是網絡安全的挑戰。機器可讀必然會利用計算機系統,信息技術是雙刃劍,網絡系統本身容易遭遇黑客木馬攻擊,網絡上有的風險在標準數字化以後也會有這樣的風險,
可以想象使用“中毒”的機器來理解標準會有什麼結果?標準數字化需要高度重視其所關聯的信息系統的安全性,並且重要的標準不能完全依賴機器來解讀,人要對機器解讀的結果把關。
任重道遠
標準數字化工作任務艱鉅,需要有長遠規劃有序推進,當前需要從以下幾方面做起。
一是當務之急需要一個關於機器可讀標準的標準。明確機器可讀的要素以及用什麼技術來支撐機器可讀。關於標準描述語言,前面提到XML可擴展的標記語言,也有人提出用JSON語言,未來可能還會出現別的格式的語言,需要從中優選,如果多語言並列的話還要解決兼容問題。對標準中的公式、算法、程序、流程圖、電路圖、曲線圖等都要有一個統一的機器表示形式。總之,對機器可讀標準中最基礎的元數據需要先有規定,國標委部署了中國標準化研究院來做這方面的研究。中國標準化研究院、浙江省標準化研究院等也分別開過一些研討會,探討怎麼做標準數字化的基礎工作。
現在ISO和ITU以及國外一些標準化機構都在研究標準數字化,但到目前爲止國際上也還沒有出臺一個大家公認的機器可讀標準的標準,這方面起步還不那麼容易。不過在個別領域已經開始探索,出國旅行都要護照簽證,過去是靠邊防的人員來看,現在可以讓機器來讀。2017年出現了機器可讀護照的國家標準,包括機器可讀護照、機器可讀簽證和機器可讀旅行文件三個部分。現代的護照本內有芯片,就像我們國內的二代身份證,機器讀身份證和護照實際上是在讀芯片,把芯片的信息讀出來跟預存的信息對比。機器可讀護照的模式難以用到機器可讀標準,將芯片嵌入到每一個標準文本中的方法難以推廣。
二是標準可讀可理解需要建立相應的專業平臺來支撐。標準基本都是專業性的,對這些專業的理解不是一般的人工智能就能勝任,需要經過訓練。利用大數據技術從海量的標準文本中建立知識圖譜,構建標準知識“本體”,發現機器可讀的規律。中國電子技術標準化研究院正在研究標準知識圖譜的規範,這也是一個基礎的研究,目前還未形成可發佈的標準。不過標準覆蓋的領域非常多,僅有通用的知識圖譜還是不夠的,需要分專業領域來開發相應的標準知識圖譜,開發和建設一批針對專業領域標準機器可讀的雲平臺,例如機械、電子、生物、化工、冶金、建築等行業的標準數字化技術平臺。這些工作需要國家標準化管理部門統籌協調,責成有關部門開發建立這樣的平臺,幫助促進標準數字化的應用。據瞭解我國國標委曾經部署在航空專業領域探索機器可讀標準的研究與可能的技術支撐。
三是人才培訓。我們原有寫標準的人應該說很多都是老手,知道怎麼寫標準,用標準的語言都比較簡潔,而且很少歧義。但原有的標準化老手未必勝任編寫用XML等語言來描述的機器可讀標準,通常的IT的專家也並不熟悉標準化的規則與行業的技術。既要熟悉專業,還要熟悉原來標準編寫的規則,還需要熟悉使用機器可讀的技術,這樣的人才絕對是稀缺的。標準數字化的人才培養問題需儘早提到議事日程。
四是建立標準數字化的管理規範。標準數字化是個新問題,涉及到標準化全生命週期的管理,我們需要針對性地修改標準化相應的規定和流程,否則標準機器可讀化這種文本形式及其產生方式的合法性就是個問題。標準化具有很強的國際性,標準數字化的研究需要加強國際合作。另外,標準數字化不能一哄而起,需要有規劃做好試點再推開,機器可讀標準的最有效應用場景是生產現場的裝備按標準自動執行流程,這些領域的標準機器可讀化可以先行推進。現有這麼多存量的標準都要變成機器可讀其工作量很大,需要從長計議。總之,標準數字化對於標準化發展是難得的機遇,對從事標準化研究、標準制定和實施及標準化管理部門也是新的挑戰。
杭州數字經濟聯合會簡介
全國首家打造“開放型、平臺型、樞紐型、生態型”的數字經濟品牌組織,是由杭州市數字經濟學會聯合體(由24家相關領域的學會、協會、研究會組成)及“數字中國智庫”爲核心,覆蓋數字經濟相關企業近萬家。先後舉辦數字經濟大講堂、數字經濟發佈、數字中國智庫等助力創業創新品牌活動200多場,參與人數超百萬人次,得到各級部門領導及企業好評。
“數經聯”同時承擔“長三角數字經濟產業聯盟”秘書處工作,正抓住長三角一體化發展的新機遇和立足大平臺,致力於把浙江省、杭州市 “數字經濟”一號工程更好落到實處高處;着力爲解決長三角發展中遇到的跨學科跨行業跨區域、社會與經濟協同的卡脖子技術等,積極建言獻策出力;助力傳統產業提質增效轉型升級,提升中國製造的核心技術、品牌價值與國際影響力等。期待與業界同仁和各界朋友優勢互補、協同創新、合作多贏、共謀發展、同譜新篇!
加入“數經聯”會員,
享盡40家協會與數字生態資源!
更多合作:掃碼加小編
微信手機同號
157 5773 0011