“2025(第二十三屆)水業戰略論壇”上,E20環境平臺智能規劃中心AI解決方案總監戰凱以《兩山智聯?視頻智能V2.0(大模型版):“快而準”的視頻智能安全管控》為題,系統性拆解了云邊端協同架構下的技術閉環,并首次公開“兩山智聯?視頻智能V2.0(大模型版)”在水務行業的規模化落地路徑。
在運營為王的時代,水務行業面臨效率提升與風險管控的雙重挑戰,智能化轉型成為破局關鍵。
隨著視頻監控的普及,全國大量公共區域及水務設施已完成覆蓋,據不完全統計雙百跨越標桿水廠便部署了33類視頻智能技能,視頻分析技術已成為行業標配、并得到了行業內認可。如何借助視頻智能賦能行業發展,成為業界同仁面臨的一道必選題。
在“2025(第二十三屆)水業戰略論壇”上,E20環境平臺智能規劃中心AI解決方案總監戰凱以《兩山智聯?視頻智能V2.0(大模型版):“快而準”的視頻智能安全管控》為題,系統性拆解了云邊端協同架構下的技術閉環,并首次公開“兩山智聯?視頻智能V2.0(大模型版)”在水務行業的規模化落地路徑。
戰凱
1.0階段小模型奠基,覆蓋三大核心場景
2023年,E20環境平臺與百度智能云聯合推出了兩山智聯視頻智能1.0版本。針對供水、污水、垃圾焚燒領域,雙方共同開發了25項行業技能,并且有17個項目成功落地。
戰凱表示,視頻智能的技術演進植根于小模型積累,受限于小模型的局限性,在實際應用中會偶發誤報存在。
例如夜晚場景中燈光被錯誤標注為火焰,地面反光被識別為積水,施工工人被誤判為人員倒地等。為提升系統準確率、解決誤報問題,需采集大量負樣本數據。然而,與正樣本相比,負樣本數量少,采集工作艱巨。盡管系統準確率已達行業領先的 90% - 95%,但客戶期望達到 100% 的準確率,每一張誤報圖片都會影響客戶使用體驗。
戰凱首先感謝了過去一年多親密合作的用戶,讓1.0版本得到快速落地和完善。在1.0實踐應用階段,E20與用戶始終保持密切溝通,水務集團也對雙方的合作給與了高度信任和支持,在過程中積極反饋助力技術迭代。
“盡管技術迭代與用戶反饋持續推動優化,小模型的技術瓶頸仍是誤報難根治的核心癥結。”戰凱強調。
因其底層邏輯依賴單幀抽樣分析——從每秒24幀視頻中截取單幀進行特征點匹配,這一機制在復雜現實場景中易受環境干擾:低光照導致圖像模糊、非常規視角引發特征偏移、動態遮擋與背景噪聲形成干擾信號。
因此突破環境敏感性與特征泛化能力的天花板,需系統性重構算法架構。
技術攻堅:多模態大模型破解行業痛點
在小模型推進緩慢的情況下,技術瓶頸亟待突破。隨著技術發展,大模型的出現帶來了轉機。
2017 年 Transformer 架構出現,大模型開始進入人們的視野;2022 年 ChatGPT 出現,使大模型應用成為可能;2023 年中期 GPT4V 出現,首次實現了圖像和文本兩個模態的交互;到 2024 年初 GPT4O出現,真正實現了視頻、音頻、圖像甚至其他感知的多模態交互,經過一年發展,國內很多廠商也實現了多模態大模型的落地。
多模態大模型在視覺識別上優勢顯著。大語言模型能理解并歸納文本內容,同樣,多模態大模型也能解讀圖像信息。在復雜場景中,小模型可能需十幾個要素來識別圖片內容,而大模型通過分析圖像內容就能準確判斷。
例如火燒云照片,小模型可能因特征值匹配煙火而誤報火災,多模態大模型卻能準確解釋這是自然景象。在實際測試中,小模型將燈誤識別為煙火,多模態大模型則正確識別出是監控拍攝的夜景,還能解析畫面中特定區域的反光和光線折射效果。
可見,多模態大模型在理解和解析復雜視覺信息方面能力卓越,能夠有效解決小模型在視頻智能應用中面臨的誤報難題。
場景落地:全鏈路賦能水務智能化
隨著技術發展,E20兩山智聯團隊推出了兩山智聯?視頻智能V2.0(大模型版)。
該版本在端側配備智能分析一體機,通過小模型實現快速且低成本的秒級抽幀分析。前端完成識別后,借助智聯盒將預警信息傳送至云側,由兩山智聯視頻智能運維平臺進行事件處理及應用場景服務。同時,大模型平臺負責提升分析準確性并應對復雜場景。
技術升級后,兩山智聯?視頻智能系統v2.0(大模型版)應運而生。此版本以 “準、活、簡” 三大核心能力為突破點,深度融合云邊端協同架構,全面優化智能識別與場景適配效率。
編輯:李丹
版權聲明:
凡注明來源為“中國水網/中國固廢網/中國大氣網“的所有內容,包括但不限于文字、圖表、音頻視頻等,版權均屬E20環境平臺所有,如有轉載,請注明來源和作者。E20環境平臺保留責任追究的權利。
媒體合作請聯系:李女士 010-88480317