Google揭露使用聯合學習(Federated Learning)技術,強化Android系統上的智慧文字選擇(Smart Text Selection),開發人員提到,由於運用聯合學習,除了能夠藉由用戶互動來訓練神經網路模型之外,同時還能保護隱私,進而提高智慧文字選擇的效能。這項改進工作是Android新的私密運算核心(Private Compute Core)安全環境的一部分,對於部分文字實體,模型選擇精確度可提升20%。

智慧文字選擇是Google在2017年的時候,在Android Oreo加入的新功能,也是現在用戶常用功能之一,能夠透過用戶的點擊來預測需要的單字,使得用戶能夠快速選擇、複製和使用文字,並適當地擴大選擇範圍,對於具有定義分類的實體,像是地址和電話號碼,用戶可以直接使用應用程式開啟,以減少用戶操作的步驟。

開發人員提到,智慧文字選擇和智慧連結(Smart Linkify)背後使用的技術相同,並不會預測隨意的選擇,而是針對明確定義的實體,像是地址和電話號碼,並且嘗試預測這些類別的選擇範圍,模型會盡量選擇單字,來減少多字選擇發生錯誤的頻率。

智慧文字選擇的模型,Google一開始使用schema.org中的結構化代理資料進行訓練,這些實體會被嵌入到隨機文字中,訓練模型只選擇實體,而不會選到實體周圍的文字,開發人員解釋,雖然這種針對schema.org註解的訓練方法有效果,但是具有幾個限制,像是資料和用戶裝置上看到的文字可能有差距,schema.org的資料通常比用戶手機上輸入的格式更正確,而且訓練實體嵌入在隨機文字樣本,並無法真實反映裝置中的上下文。

而最新的模型使用聯合學習,已經不使用代理資料進行預測,而是裝置上真實的互動資料。聯合學習是一種機器學習模型的訓練方法,中央伺服器會協調分散在許多裝置上的模型訓練,但是用戶的原始資料,會保留在本地端裝置上。

聯合學習的訓練程序,由伺服器啟動模型初始化,迭代過程從裝置採樣開始,選擇裝置並且使用本地端資料改進模型,接著裝置僅會回傳改進後的模型,而非訓練資料,伺服器對接受到的更新進行平均,並創建用於下一次迭代的模型。

每次用戶點擊選擇文字,並且更正模型建議時,Android都能獲得關於模型選擇範圍的精確回饋,但是為了保護用戶的隱私,這些選擇會暫存在裝置上,伺服器並無法取得這些資料,透過聯合學習技術來改進模型,而這種技術的優點,是能夠使用推理過程看到的資料,來進一步訓練模型。

聯合學習的優點還有能夠保護用戶隱私,開發人員解釋,因為原始資料不會暴露給伺服器,伺服器只能接受更新的模型權重。不過為了抵禦各種可能的威脅,Google還用上各種安全方法,像是用來訓練智慧文字選擇模型的裝置上程式碼,是Android私密運算核心安全環境一部分,因此能夠安全地處理用戶資料。

由於要聚合來自裝置上的模型更新,開發人員使用安全聚合(Secure Aggregation)技術,這是一種加密協定,可以讓伺服器不需要讀取單個裝置所提供的更新,就能計算聯合學習模型訓練的平均更新。

藉由使用新的聯合學習方法,Google明顯提升智慧文字選擇模型效能,多字選擇精確度改善介於5%到7%,最複雜的地址選擇,準確度提高8%到20%。聯合智慧的另一個優勢,是能夠擴展至其他語言,因爲使用用戶互動來訓練模型,也就更容易擴展支援其他語言,模型不只在英文上表現良好,將相同工作管線應用在日文,不需要針對日文特別進行調整,就能獲得良好的進展。


熱門新聞

Advertisement