| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程 | ML當機

10多年Google ML維運經驗,歸納19種ML當機情境要注意

Google ML維運團隊分析近百起大型ML當機事故後發現,系統出錯原因不盡然是ML本身問題,而是與系統管理方式有關

2022-03-15

| 封面故事 | ML | AI | 機器學習 | SRE | ML可靠性戰略 | google | 服務可靠性工程

十多年ML系統SRE經驗,Google練出4大ML可靠性戰略

13年前,Google在匹茲堡設立了第一個ML SRE團隊,開始將累積了好幾年的SRE經驗,開始運用到ML系統,先從改善搜尋引擎關鍵字廣告投放精準做起,後來擴大導入到各式各樣的ML服務,甚至要發展成可以支援多模型類型多租戶架構的ML維運平臺

2022-03-15

| SRE | K8s | Line臺灣 | 應用可靠性 | 可觀測平臺 | 容器架構

8大關鍵服務維運監控得靠它,Line臺灣百億筆遙測數據的可觀察性平臺架構大公開

Line臺灣SRE團隊去年順利打造可觀察性平臺,是該團隊自2020年第三季成立以來,聚焦開發的第一個專案團隊維運共用工具。目前Line臺灣有8大應用開發團隊使用該平臺,像是Line Today、Line購物和Line音樂,截至今日,已收集超過百億則監控數據,包含30TB日誌、60TB指標,還有20TB鏈條追蹤,從中及早發現系統錯誤,減少意外事件。

2022-02-14

| 台積電 | 數位轉型 | IT人才 | TSMC | SRE | DevOps

【獨家披露:台積IT關鍵新能力1】為何台積電大舉招募SRE和DevOps?

去年3月底,台積官網發布了一種特別的新職缺,要招募國外火紅但臺灣少見的SRE,這不是臨時的IT布局,而是台積IT在2022年需要的關鍵人才

2022-01-28

| Target | SRE | 金絲雀部署 | Canary Deployment | 服務級別目標.SLO | 服務水準指標 | SLI

新手Target SRE首次重大事件的4個教訓

因為系統異動造成的問題,經常會延後發酵;監控機制必須連備用系統都監控,才有完整數據;第一時間先採取緩解對策,而不是先找出問題根源來處理;不要浪費事故教訓的價值,必須從這些事件來累積和學習

2022-01-20

| Target | SRE | 數位轉型 | DevOps

Target如何提前阻止大規模事故?從POS失效徵兆學到4大SRE教訓

這個成立才3個月的SRE團隊,驚覺幾家分店少數結帳POS機掃碼「嗶」聲響起的速度慢了,沒想到,竟是上周一次更新造成的微服務出錯,若不能趕快排除,不只全美近2千家分店,連服務上億顧客的網路商場都會大受影響,錯過2020年的復活節購物潮商機

2022-01-20

| CIO必看10大趨勢 | 雲端原生 | SRE | K8s | IT現代化

【展望後疫2022新趨勢3】IT現代化成為主流,SRE成為IT團隊必備新能力

2021年,不少企業要招募SRE職缺,不只網路原生公司,銀行、零售、高科技業,連房仲、保險、物流、媒體、百貨業者、線上電商都要招募SRE人才

2021-12-30

| google | DORA | SRE | DevOps

Google發布DevOps年度報告,菁英績效團隊的軟體交付時間從一天縮短至一小時內

2021年的Google的DevOps調查報告顯示,DevOps實踐表現最好的團隊,變得更加優秀,軟體交付時間從2019年的一天內,在今年縮短成一小時內

2021-09-22

| 網站可靠性工程 | google | SRE | Site Reliability Engineering | 17Live集團 | 7Live集團技術副總經 | 徐永吉 | 服務關鍵路徑 | Critical Path | SRE人才

【CTO看SRE:17Live集團技術副總經理徐永吉】SRE如何成為營運和工程單位的橋樑就靠2關鍵

SRE真正的價值,不是節省基礎設施成本或訂定系統可用性目標,而是要強健系統來降低營運損失,才能活化SRE在保護系統上的責任

2021-05-06

| 網站可靠性工程 | google | SRE | Site Reliability Engineering | 17Live集團 | 17Live集團工程總監 | 林毅民

【臺灣SRE實例:17Live集團】多功能型SRE化身內部信心來源,天天成為開發團隊後盾

2017年時,17Live將DevOps團隊轉型為SRE團隊,要維運人員跳脫傳統框架,以軟體工程角度開發自動化機制,並負責監控系統狀況,來應變意外事件,成為內部的可信任對象

2021-05-06

| 網站可靠性工程 | google | SRE | Site Reliability Engineering

建立服務信賴感也有專業

SRE風潮開始吹進臺灣,我們不只跨海專訪新加坡星展集團SRE負責人,還歸納臺灣SRE的先行者直播平臺17Live集團和Line臺灣的SRE經驗,一窺他們如何建立網站服務信賴感的SRE專業心法

2021-05-06

| Line臺灣SRE團隊 | Line臺灣技術長 | 陳鴻嘉 | 網站可靠性工程 | google | SRE | Site Reliability Engineering | Line臺灣 | K8s | Kubernetes | 服務觀測

【臺灣SRE實例:Line臺灣】如何確保Line服務天天不中斷,專責SRE扮演開發與維運的橋樑

去年,Line臺灣工程團隊成立了一支專責的SRE維運團隊,就是要為各服務的專案團隊找到開發和維運的最佳作法,進一步確保服務可靠性

2021-05-06