• 北京在線 > 科技 > 正文

    特斯聯普惠AI:CV弱監督自訓練引擎推動AI技術有效落地

    更新時間:2022-03-10點擊數:文字大?。?/SPAN>

    機器學習是推動人工智能AI向前發展的核心技術,過往,AI領域的主要發展聚焦于拓展機器的能力,隨著AI從早期的野蠻發展階段步入落地應用階段,在與各個行業的實際結合過程當中,如何能將人類經驗與機器學習規則充分結合,使機器更高效地學習,成為了AI發展所亟須解決的關鍵問題。

    要使機器具備人類的經驗,少不了人工的參與。以往的機器學習,往往需要大量的數據信息以及較高的人工參與如對數據的標注等程度,這使AI在行業中的應用也面臨著耗時、耗力的問題,而由人工參與導致的數據標注錯誤更容易影響訓練的效果。

    日前,特斯聯的首間人工智能開放創新中心下稱:科創中心已宣布在德陽AI PARK落地運營??苿撝行耐瑫r兼備著算法孵化、科研共享、及人才培養的使命。據特斯聯介紹,為解決前述問題而打造的弱監督大模型訓練體系及聯邦學習安全訓練體系,即為科創中心最核心的技術亮點。

    image.png

    特斯聯德陽AI PARK內景

    特斯聯科創中心致力于通過九章算法賦能平臺向不具備AI能力或弱AI能力的用戶提供AI算法孵化服務能力,因而弱化機器學習對標簽數據的依賴、弱化人工參與算法訓練為重中之重。目前針對計算機視覺、自然語言處理、推薦預測、知識圖譜四個方向共十三個細分項,特斯聯與學術生態及產業合作伙伴已展開深入合作,并打造了弱監督體系訓練平臺。其中,在計算機視覺領域,基于對比式自監督學習Momentum Contrast,下稱:MoCo框架,特斯聯構建了CV弱監督自訓練引擎,在圖像分類、目標檢測、實例分割三個領域,實現最優性能。

    優化MoCo自監督學習框架,構建CV弱監督自訓練引擎

    在計算機視覺現有的弱監督學習框架中,由于memory bank思路易于實現,其應用最廣也最為成熟。然而這一思路也存在著明顯的缺點:

    1.首先,每一輪訓練需要對所有樣本特征進行存儲,其內存空間消耗巨大;

    2.此外,所有樣本特征僅在每輪訓練結束后方可更新,導致更新延遲,實驗效果并不理想。

    據此,特斯聯研發團隊選擇采用MoCo系列自監督學習框架作為基礎學習框架進行優化,研發出了自訓練引擎及相關算法。

    MoCo是一種在高維連續輸入中建立離散字典的方法,字典是動態的,鍵值keys是隨機采樣得到的,編碼器key encoder在訓練中進行更新。假設好的特征可以從包含大量負樣本的字典中學習而來,而編碼器能夠在更新中盡可能保持一致。在MoCo框架的訓練過程中,每一步訓練均會以“批次batch”為單位,將當前批次樣本特征更新至隊列,并將最舊的批次樣本特征從隊列剔除,實現動態存儲,將memory bank的樣本特征可存儲數量與批次大小batch size分離,提升訓練效率。

    特斯聯CV弱監督自訓練引擎技術在傳統的MoCo系列自監督學習框架上,做出了五個方面的創新:

    1.特斯聯將MoCo中采用動量編碼器的方式改為指數加權移動平均EMA算法更新,其公式如下:

    image.png

    各數值的加權影響力隨時間呈指數式遞減,時間越靠近當前時刻的數據加權影響力越大,以此來提高當前和較早期鍵值之間表示的一致性。

    2.Transformer模型結構首次推出是在NLP自然語言處理領域,最近兩年開始引進計算機視覺領域且呈主流發展趨勢,為了更好地支持基于Transformer結構的模型算法,特斯聯吸納由清華大學、西安交通大學以及微軟亞洲研究院的研究者提出的?MoBY 自監督學習方法的優化思路,將BYOL由Google?DeepMind提出的算法中的非對稱編碼器、非對稱數據擴充、動量調度,與MoCo中的動量設計、鍵隊列、對比損失相互結合。由此,可借助BYOL先進的算法架構,以出色的性能支持基于Transformer結構的模型算法,進而豐富弱監督訓練引擎所支持的模型種類,提高引擎的模型多元性。

    3.事物形態的變化不會脫離其核心,圖像風格的改變亦不會影響其核心內涵?;诖饲疤?特斯聯吸納了由Google DeepMind研究者所提出的ReLIC自監督學習算法思想,將因果框架引入MoCo,通過因果不變性原理,在主流的InfoNCE損失函數上進行優化,顯性約束模型的學習目標,鼓勵模型學習到圖像中的核心內容。由此,模型可最大程度挖掘到圖像中真正有用的內容信息,降低對圖像風格改變的敏感度,從而整體上使模型具備更高魯棒性,性能更穩定。

    4.參考強化學習的Prioritized Experience Replay算法思路,特斯聯以對比損失值作為優先級,引入sum-tree數據結構代替隊列結構,實現高效的優先級存儲,完善“樣本特征淘汰機制”,由此,訓練可最大程度保留信息熵較大的特征,進一步提高模型的訓練效率以及學習效果。

    5.針對目標檢測及實例分割下游任務,由于采用SGD優化器優化Transformer結構模型,會存在精度大幅下降,超參數魯棒性差等問題,特斯聯研發團隊將Transformer中的convolutional stem替換為patchify stem,在穩定訓練的同時提高訓練效率,降低超參數的影響。

    降低人工參與成本,CV弱監督自訓練引擎助力工業智慧化轉型

    特斯聯的CV弱監督自訓練引擎在工業場景中尤其有著不可替代的價值。

    在工業互聯網實踐中,大量工業算法的研發以缺陷檢查為目標。然而壞件本身是個小樣本事件,且壞件形態各異,因而在數據收集層面以及數據人工標注層面,使用標準的大量有標簽的壞件數據對檢測模型進行訓練,在產業中的實現難度極高。

    特斯聯CV弱監督自訓練引擎及優化后的MoCo框架則可幫助廠家將此產業難題分解成多個簡單的子問題一一解決。廠家可先從工業生產環境收集大量零件圖像樣本并對少量壞件數據進行標注,然后根據平臺提供的評估指標選定模型,即可在無需標注的情況下直接使用零件圖像樣本開啟訓練。

    在開啟預訓練流程后,CV弱監督自訓練引擎首先會結合數據以及下游任務目標進行分析,為模型自構一個或多個自學習子任務,然后借助優化后的MoCo框架,幫助模型不斷學習和挖掘零件圖像樣本中的有效信息,例如正常零件紋路,正常零件外觀,正常零件隱性特征等等。完成預訓練流程后,引擎將進入下游任務訓練流程,配合半監督技術和少量壞件數據再次訓練。待訓練完成,即可得到最終的檢測模型,幫助廠家完成大規模缺陷檢查任務。

    不難發現,CV弱監督自訓練引擎的應用可以充分利用現有的沉默數據,極大降低數據標注的人力成本及時間成本,而優化后的MoCo框架不僅僅提高了精度,也在一定程度上降低了計算資源的消耗,提升了計算的效率。這都幫助降低了AI在產業界應用的門檻。

    實驗效果出眾,CV弱監督自訓練引擎促AI應用落地

    為驗證CV弱監督自訓練引擎改進算法的有效性,特斯聯研發團隊分別按照MoCo V2,MoCo V3,MoBY三篇論文的實驗模型選型、制定參數配置及訓練策略,將相應的模型在特斯聯的自訓練引擎上重新訓練。實驗結果顯示,CV弱監督自訓練引擎所訓練出的大部分模型在主流的Linear Probing性能評估上超過了前述三篇論文的實驗結果,如下圖所示:

    image.png

    ImageNet-1K Linear Probing性能對比實驗結果

    不光如此,特斯聯所打造的CV弱監督自訓練引擎還在2021年度ICCV國際計算機視覺大會的賽事中躋身前十名。將特斯聯CV弱監督自訓練引擎技術導入特斯聯的弱監督訓練體系,將提高平臺大部分CV訓練模型性能。而用戶亦可在科創中心,基于九章算法賦能平臺,通過零門檻的訓練,生成自有知識產權的高性能CV算法。

    在特斯聯看來,降低機器學習過程中的人工參與,即可在一定程度上讓更大范圍的企業有機會參與到人工智能的研發當中,也推動AI向更為細分的領域滲透。特斯聯創始人兼CEO艾渝對此表示:“就像是AI產業發展的木桶原理,如果細分市場的發展相對較慢,那么整個AI產業的推進也會有困難。我們希望通過科創中心以及特斯聯自身的技術專長,幫助中小微企業緩解AI研發中的問題,找到AI有效應用落地的路徑,也帶動整個AI產業,再向前走一步?!?/p>

    關于我們 | 聯系方式 | 招聘信息 | 版權申明 | 廣告服務 | 聯系我們 |

    免責聲明:本站為非營利性網站,部分圖片或文章來源于互聯網如果無意中對您的權益構成了侵犯,我們深表歉意,請您聯系,我們立即刪除

    老头把舌头伸进粉嫩,被公用玩弄的漂亮人妻,非洲黑人BBwBBWBBw