導 言 新華通訊社,簡稱新華社,是中國國家通訊社和世界性通訊社,在國內各省會城市和直轄市設有分社,在境外設有180多個分支機構。新華社建立了覆蓋全球的新聞信息采集網絡,由于新聞機構的業務特性對實時性的要求較高,網絡保障的首要任務是不能讓網絡中斷,因此統計網絡帶寬利用率和鏈路傳輸質量就顯得尤為重要,可以對運維工作提供有力的數據支持和指導。過去網絡技術部門在流量和業務分析方面還不太完善,存在一些監控盲區,無法追溯故障原因。現在,新華社通過建立流量監控平臺,實現了鏈路監控視圖和業務監控視圖,支持故障根因分析及事前預警,提升了新華社的網絡性能分析能力和重大報道任務的保障能力。 2022年3月13日晚,舉世矚目的北京冬、殘奧會正式落下帷幕。新華社全身心投入、全媒體呈現、全世界覆蓋,持續向海內外推出一大批權威充分、形態多樣、出新出彩的精品力作,圓滿完成了北京冬、殘奧會報道任務。本次我們采訪了新華社網絡技術部門流量監控項目的負責人(以下簡稱PM,請他們介紹是如何通過流量分析提升日常運維效率以及支持重大事件報道任務的。 1.打造無感知的流暢網絡體驗是新華社網絡運維的目標 記者:網絡運維對于國家 級的宣傳單位來說重要性主要體現在哪些方面? PM:新華社在一些重大報道和應急報道時,對網絡的搭建和運行會有很高的要求,無論是處于任何采訪條件下,都要保證能夠快速連接、傳輸信息。在網絡運維的效果上,運維團隊比較認同的觀點是,無感知的網絡才是運維的終極目標。而為了讓用戶感知不到網絡,就需要在網絡建設或者運維方面做更多地努力,保障它無縫銜接、平滑地運行。 記者:運維團隊主要的工作難點是哪些? PM:現階段運維人員比較緊張,團隊管理的業務系統又比較多,有園區網、城域網、廣域網。另外,由于每張網承載的業務屬性不一樣,因此對網絡運維的要求也不一樣。這其中最關鍵的問題是網絡不能中斷。和有些企事業單位不同,部分企業希望定位故障之后再去解決網絡問題,而我們要以恢復業務為優先。 記者:以前的網管平臺的情況是怎樣的?現在的流量監控平臺可以解決哪些主要問題? PM:以前的網管工具通常是網絡設備自有的,對于運行狀態、設備潛在風險具有一定的監控能力,但對于本身承載于設備之上的業務、流量以及跨系統的故障則無法進行有效分析。另外,在可視化方面能力不足,無法通過視圖直觀地展示監控情況。 而且,之前的網管工具數據是實時性質的,無法進行故障回溯,現在新搭建的流量分析平臺通過結合智維數據nCompass的產品,可以進行故障追溯,查找過去某一個精確時間點的業務以及此刻的流量,支持關聯分析和根因分析,能將現有隱患排除,避免之后的故障風險。 2.全流量智能分析關鍵業務監控微探針分布式流量可視化打造適合融媒體平臺的流量分析解決方案 場景1全流量智能分析+長時效歷史回溯為日常運維效率提升做支撐 記者:我們經常會遇到哪些類型的故障,流量分析平臺在這其中起到了什么作用? PM:一種是流量中斷類故障,這類故障雖然影響會比較大,但是解決起來相對簡單,用流量監控平臺精準定位故障點,可快速解決故障并恢復業務;另一種是訪問慢或者丟包類故障,這類故障需要逐一排除故障點,處理起來會比較耗時。之前處理這類問題會非常依賴人工,但由于部門日常任務比較繁重,一旦發生故障,運維團隊會陷入超負荷地運轉。現在,這類問題使用流量監控就能快速解決。先通過平臺進行歷史故障排查,再基于全流量采集對歷史數據進行智能分析,可以準確判斷過去在這個時間點里發生了什么問題。 例如,之前有用戶反饋他在每次登錄應用時會出現10秒左右延時才跳轉到下一步。而原理上分析,簡單的交互動作不應該花費這么多時間。當時運維人員用流量監控平臺進行歷史數據回溯,結果發現用戶使用的某個插件訪問了DNS,而DNS解析這個域名因此導致了10秒延時。正常訪問內網上設備是沒有域名的,域名解析此時肯定是不必要的。在確認原因之后,運維人員建議用戶進行插件修改,速度就回復正常了。 還有在安全方面,曾出現安全部門反饋給運維人員查到網絡設備可能遭到攻擊。運維人員需要知道攻擊的來源以及發起攻擊后是由哪里跳轉的。因為攻擊的過程不可復現,所以需要查看歷史數據中的原有完整數據鏈。在這方面,結合平臺的歷史流量回溯能幫助運維人員找到相關線索。 場景2重大事件網絡全局監控為現場報道流暢輸出提供保障 記者:流量監控是如何匹配重大事件報道任務需求的呢? PM:新華社每年都會有一些重大事件的報道任務,也會派出大量人員參與報道,在新聞現場技術運維部門也會搭建技術平臺保障現場報道。在整個報道任務期間網絡會產生大量數據,運維人員可以使用流量分析平臺進行網絡全局監控。 以2022年冬奧會為例,冬奧會開幕式非常盛大,現場記者需要不間斷地進行文字和圖片類的取材報道。現場有多臺高點固定和機器人相機,進行遙控拍攝后馬上將海量圖片傳回新聞中心,因此通常會形成較大的流量流向是國家體育場到新聞中心方向。在此期間,新華社現場技術人員收到組委會運維團隊的反饋,指出現場產生了長時間、大量的反方向流量,希望我方協助調查異常原因。 【圖一】冬奧會運維監控視圖 此時運維人員通過流量監控平臺分析后發現,雖然記者們在使用高點固定和機器人相機拍攝完成后把照片傳到了新聞中心,但同時由于記者需要在開幕式現場選片,所以需要再集中把照片從新聞中心拷回到體育場。這種情況如果沒有流量分析平臺,運維人員會難以判斷是否真的出現了異常,而現在,通過分析視圖不僅能夠分析到原因,還能夠查看到記者傳輸照片的連接數,能夠大致判斷記者傳送了多少張照片。 除此之外,在奧運會報道期間,偶爾有記者反應上網慢,運維人員通過流量監控平臺也能精準定位故障原因。比如某個用戶由于業務應用把帶寬給占滿了導致網速變慢,此時運維人員就可以給業務部門一個合理的反饋和調整建議。 場景3微探針技術創新賦能設備輕量化用戶體驗再獲提升 記者:本次冬奧會報道的網絡技術保障任務中哪類創新技術您認為是最有價值的? PM:不同于常規數據中心的網絡流量監測搭建,這次冬奧會報道技術保障任務中,網絡部選用了智維數據nCompass的微探針技術。在未采用微探針技術之前,傳統的流量分析產品幾乎都要承載在服務器上,由于服務器本身的體積、重量都比較大,即使選擇比較小的服務器,在遇到外出報道任務時,運維人員攜帶至報道現場也不方便。 【圖二】 微探針部署示意圖 這次網絡部采用了微探針的數據采集技術,首先它體積小,運維人員有現場任務支持時可以一次攜帶多個微探針,符合對設備輕量化的要求。在之前的類似任務中,由于攜帶設備的限制,我們只能采集一個內網出口的流量,現在通過微探針的部署,就能實現同時采集多個端口的流量,在現場也能進行端到端的網絡分析,為我社重大事件的技術保障提供了更全面的數據支撐。 3.展望移動監測是未來實現更多分析場景的基礎 記者:如何看待未來進一步加強移動監測能力? PM:新華社因為其融媒體的業務特性以及對新聞時效性的要求,對移動監測的需求是比較迫切的。以冬奧會為例,之前流量采集只能部署在出口上,可以了解總社到前方新聞中心之間的流量。這次采用微探針采集方案,在場館一側的交換機上也做了鏡像,運維人員就可以看到場館方向的所有流量,以用于業務分析。未來如果增加更多微探針的部署,就能實現更多方面的業務分析,便于去提升業務端的各方面能力。 對于未來的流量分析場景上,不止網絡數據,希望也能實現業務端到端的流量探查,展現在整個通信鏈條上的全部傳輸過程和細節數據,無論是大到一條完整的業務流程或者小到一個通訊對。這樣對于運維團隊的故障排查,數據可支持多場景的深入分析,實現真正的AIOps端到端的可視化智能運維。 |