ERPC Solana 網路重大升級
ERPC Solana 網路重大升級

由 ELSOUL LABO B.V.(總部:荷蘭阿姆斯特丹,CEO:Fumitake Kawasaki)與 Validators DAO 運營的 ERPC,完成了對其 Solana 網路基礎設施的重大升級。
此次升級已應用於 ERPC 提供的所有區域和所有共享端點(Solana RPC、Geyser gRPC 和 Shredstream)。我們將往往直接影響實際運營結果的基礎設施行為作為整合系統進行更新,包括連線初始化、TLS 處理、快取控制、HTTP/1.1 和 HTTP/2 傳輸、長連線行為,以及用於可觀測性和故障排查的指標。
在維持日常響應性的基礎上,我們還重新組織了底層網路行為,使其在容易導致結果退化的場景中——如峰值負載波動、持續運營下的不穩定性,以及斷連和重連觸發的級聯——更不容易產生偏差或不穩定。因此,該環境現在更好地結構化,能夠在實際 Solana 運營中同時維持效能和穩定性。
此外,我們已過渡到可以在完全零停機時間下應用網路配置變更和平臺升級的運營架構。定價、規格、認證或速率限制均無變化,現有 ERPC 客戶無需任何額外設定或運營變更即可享受升級帶來的收益。
背景
在實際的 Solana 運營中,平均響應時間和正常時段延遲是關鍵的基線要求。同時,存在一些底層網路基礎設施行為本身決定結果的場景——如負載集中時刻、長連線,以及斷連和重連發生的階段。
共享端點尤其需要同時適應短時間視窗內的交易提交突發和透過 WebSocket 及 gRPC 的持續連線。在這些條件下,基礎設施層面的行為——連線初始化、TLS 握手、傳輸行為、快取處理和從空閒狀態恢復——直接反映到使用者體驗和執行結果中。
以平均響應性為明確基線,在峰值或持續運營期間,實際結果仍可能由不同因素決定。因此,實際運營要求日常可用性和容易出現故障的場景中的連續性同時實現。
ERPC 設計並運營自己的 Rust 高效能代理平臺作為 Solana 通訊的基礎,維持在所有區域應用相同方法的架構,同時持續演進平臺。此次升級將運營中觀測到的問題作為統一系統重新審視——從連線初始化到長時間執行——並相應地重新組織整個網路基礎。
ERPC 客戶有何變化
透過此次更新,ERPC 客戶首先會看到連線初始化行為的穩定化。在包括 TLS 的連線建立過程中,不匹配條件和不必要的重試不太可能發生,使交易和流更容易在起始時可靠地進入處理。
其次,我們重新組織了在峰值負載期間容易造成波動的基礎設施行為。透過將不必要連線的早期過濾與 HTTP/1.1 和 HTTP/2 傳輸及超時一致性、連線池健康度、競爭下的快取行為,以及用於可觀測性和故障排查的指標的同步更新相結合,我們加強了即使在負載集中時也有助於防止行為偏差的條件。
對於長連線的 WebSocket 和 gRPC 流以及持續監控工作負載,連線連續性得到了改善。斷連/重連/重新同步事件的頻率——以及這些事件級聯影響結果的可能性——已降低,使基於持續執行時間假設來構建運營變得更加容易。
快取控制和傳輸行為的改進也減少了擁堵期間不必要的重新獲取和浪費處理的可能性。頻寬和處理餘量更可能保持可用和穩定,擴充套件的指標和可觀測性使根因識別和恢復時間線更容易縮短。
此外,透過實現零停機的配置變更和平臺升級,我們建立了能夠以高頻率提升效能、穩定性和整體平臺質量的運營條件。不暫停平臺就能持續改進的能力進一步加強了客戶的連續性。
改進詳情
此次升級不是以特定功能名稱或版本號驅動的釋出來呈現的。相反,它將往往主導實際 Solana 結果的場景分解為以下層——連線初始化、TLS、L4/HTTP 邊界、H1/H2 傳輸、快取、可觀測性、故障行為和長期運營先決條件——並更新平臺使這些層之間不產生矛盾地連線。
以下,我們從對客戶體驗和運營結果的貢獻角度解釋所納入的改進。
連線初始化和 TLS 處理的改進
我們擴充套件了連線建立期間處理的 TLS 上下文,並更新了結構使所需狀態能夠適當地保留和應用。這使得連線初始化時的不匹配條件和不必要重試不太可能發生。
我們還重新組織了 TLS 處理——包括證書驗證和主機名驗證——使安全要求能夠在減少握手失敗或處理不一致造成初始化損失級聯影響結果的條件的同時得到滿足。這不僅僅是安全增強;它有助於穩定從連線開始到進入 Solana 工作負載處理的行為。
我們進一步加強了使 TLS 相關行為更容易觀測和排查的機制。在初始化主導結果的場景中,復現問題、識別原因和快速反映修復的能力成為維護體驗質量的核心能力。
透過早期過濾不必要連線來保持餘量
我們引入了在早期階段過濾 TCP 連線的機制,更新了平臺使非法或不必要的連線不太可能對合法流量施加壓力。在共享端點中,連線請求可能因外部因素或暫時性偏差而激增。
早期過濾有助於確保合法連線不太可能在初始化時停滯,提高在峰值負載期間保持餘量可用的可能性。因此,即使在負載集中場景中行為也不太可能出現偏差,穩定延遲分佈的條件得到加強。
透過重新組織 L4/HTTP 邊界來明確連線模型
網路基礎設施不止於 HTTP。連線建立和連續性取決於 L4 條件,該層的波動會傳播到更高層協議體驗。
在此次更新中,我們抽象了 L4 流處理並重新組織了結構,使連線模型能夠更明確地處理。這使平臺在連線持續增長、客戶端實現各異、長時間執行導致狀態轉換的場景中更容易維持一致行為。
重試行為也被重新組織,以減少短期波動級聯到使用者體驗的模式。實際穩定性更多取決於防止故障級聯,而非消除孤立故障。
HTTP/1.1 和 HTTP/2 傳輸及長時間執行行為的改進
我們新增了可以跨 HTTP/1.1 和 HTTP/2 一致跟蹤傳輸資料量的測量。這使得更容易識別傳輸管道中停滯或瓶頸發生的位置,改善了故障排查和修復應用的速度。
我們還重新組織了 HTTP/2 body-write 超時行為,使不自然的停滯和掛起在集中負載或長時間流媒體期間不太可能發生。在長時間執行中,重要的不是理想狀態下的峰值效能,而是在狀態轉換期間防止行為崩潰的能力。
空閒超時行為和連線池處理也已審查,消除了在持續執行時間中容易累積的不穩定因素。在 HTTP/1.1 方面,我們重新組織了持有不完整請求的連線的安全關閉行為,減少了資源使用和行為方面的波動源。
快取控制和運營質量的改進
我們改善了跟蹤資產未被快取原因的能力,增加了快取行為的可解釋性。在實踐中,主導因素不是快取是否存在,而是在什麼條件下被應用以及在什麼條件下失效。
我們重新組織了鎖定行為、過期處理和重新驗證模式,使體驗退化在峰值負載下發生競爭時不太可能級聯。我們還組織了快取資產數量增長時的驅逐控制,並最佳化了部分內容行為(包括 Range 請求),加強了在實際工作負載下減少不必要重新獲取和延遲的條件。
這些改進減少了快取行為成為異常值的情況,使客戶不太可能需要圍繞基礎設施層面的不確定性來設計運營。
故障行為、日誌和可觀測性的改進
故障行為和日誌已重新組織,使問題發生時更容易理解發生了什麼。下游錯誤級聯到快取/傳輸行為並惡化體驗的模式減少了,使爆炸半徑更容易本地化。
可觀測性和故障排查的改進不是為了宣稱"零事故",而是為了在事故發生時縮短恢復時間。這降低了峰值負載和持續運營場景中的風險。
依賴項更新和安全修復作為長期運營先決條件
我們納入了依賴項更新和安全修復,以維持長期平臺運營的先決條件。這包括與最低支援 Rust 版本(MSRV)和 CI 對齊相關的更新,加強了持續演進平臺所需的基礎。
能夠安全地持續更新,本身就是長期質量的要求。
向零停機運營的過渡
此前,網路配置變更或平臺升級期間可能出現短暫停機。透過此次更新,我們已過渡到可以在完全零停機下應用這些操作的架構。
共享端點擁有持續連線和時機至關重要的連續時刻。即使是短暫的停機也可能觸發斷連、重連和重新同步級聯,這一成本可能傳播到結果中。零停機更新減少了這些級聯的可能性,防止長時間執行的操作被碎片化。
同時,ERPC 現在具備了能夠快速將觀測到的問題反映到改進中的運營條件。更高的迭代頻率使我們能夠在生產運營中持續消除波動和邊緣情況行為。
按服務的影響
Solana RPC(HTTP / WebSocket)
連線初始化、TLS、快取控制和傳輸行為的改進影響資料讀取和交易提交兩方面。在維持日常可用性的同時,減少了在峰值負載期間使結果產生偏差的因素,加強了在擁堵期間保持餘量的條件。
Geyser gRPC
長連線流媒體使用的連線連續性得到改善。HTTP/2 傳輸、超時一致性、連線池健康度和擴充套件的傳輸測量協同工作,降低了重連/重新同步成本傳播到結果中的可能性。
Shredstream(Direct Shreds)
透過為持續交付設計的連線管理和初始化改進,在擁堵期間資料丟失或延遲的條件得到加強。檢測和跟隨的穩定連續性變得更容易維持。
連線研發與生產運營
包括 ERPC 在內的分散式系統基礎已被認定為荷蘭政府 WBSO 計劃下的研發專案。建立了一個運營中觀測到的問題可以作為研究課題納入並透過驗證和迭代加以改進的結構。
這一網路基礎更新是在所有區域應用的此類迭代之一,反映到實際效能和穩定性中。保持運營和研發的連線是將生產中觀測到的內容持續連線到下一次更新的先決條件,而不是停留在一次性改進。
在 ERPC 內部,實際使用模式、負載變動和故障模式行為被納入反覆的驗證和改進週期中,逐步提高網路基礎的質量。此次更新是在研發與生產運營的整合框架內執行的。
客戶資訊
此次更新已應用於所有區域和所有共享端點。現有 ERPC 客戶無需更改配置或運營。定價、規格、認證或速率限制均無變化。
由於共享端點必須同時承受短暫的峰值和長連線,條件已重新組織,使行為在這些混合工作負載下不太可能出現偏差。即使在運營期間發生配置變更或平臺更新,變更也會以零停機方式應用,因此客戶無需為連線碎片化或重新同步進行預設。
有關架構、特定工作負載最佳化或運營回饋的問題,請透過 Validators DAO 官方 Discord 聯絡。
透過將生產中的觀測和回饋持續連線到改進中,ERPC 已逐步提升了其基礎質量。我們將繼續以零停機積累改進,提供能夠維持實際 Solana 運營結果的網路基礎設施。
Validators DAO 官方 Discord:https://discord.gg/C7ZQSrCkYR
ERPC 官方網站:https://erpc.global/en


