從精準識別到跨場景融合，大模型助力下的視頻智能驅動水務革新

時間：2025-04-03 09:41

來源：中國水網

作者：趙怡茗整理

“2025（第二十三屆）水業戰略論壇”上，E20環境平臺智能規劃中心AI解決方案總監戰凱以《兩山智聯?視頻智能V2.0(大模型版)：“快而準”的視頻智能安全管控》為題，系統性拆解了云邊端協同架構下的技術閉環，并首次公開“兩山智聯?視頻智能V2.0（大模型版)”在水務行業的規模化落地路徑。

在運營為王的時代，水務行業面臨效率提升與風險管控的雙重挑戰，智能化轉型成為破局關鍵。

隨著視頻監控的普及，全國大量公共區域及水務設施已完成覆蓋，據不完全統計雙百跨越標桿水廠便部署了33類視頻智能技能，視頻分析技術已成為行業標配、并得到了行業內認可。如何借助視頻智能賦能行業發展，成為業界同仁面臨的一道必選題。

在“2025（第二十三屆）水業戰略論壇”上，E20環境平臺智能規劃中心AI解決方案總監戰凱以《兩山智聯?視頻智能V2.0(大模型版)：“快而準”的視頻智能安全管控》為題，系統性拆解了云邊端協同架構下的技術閉環，并首次公開“兩山智聯?視頻智能V2.0（大模型版)”在水務行業的規模化落地路徑。

戰凱

1.0階段小模型奠基，覆蓋三大核心場景

2023年，E20環境平臺與百度智能云聯合推出了兩山智聯視頻智能1.0版本。針對供水、污水、垃圾焚燒領域，雙方共同開發了25項行業技能，并且有17個項目成功落地。

戰凱表示，視頻智能的技術演進植根于小模型積累，受限于小模型的局限性，在實際應用中會偶發誤報存在。

例如夜晚場景中燈光被錯誤標注為火焰，地面反光被識別為積水，施工工人被誤判為人員倒地等。為提升系統準確率、解決誤報問題，需采集大量負樣本數據。然而，與正樣本相比，負樣本數量少，采集工作艱巨。盡管系統準確率已達行業領先的 90% - 95%，但客戶期望達到 100% 的準確率，每一張誤報圖片都會影響客戶使用體驗。

戰凱首先感謝了過去一年多親密合作的用戶，讓1.0版本得到快速落地和完善。在1.0實踐應用階段，E20與用戶始終保持密切溝通，水務集團也對雙方的合作給與了高度信任和支持，在過程中積極反饋助力技術迭代。

“盡管技術迭代與用戶反饋持續推動優化，小模型的技術瓶頸仍是誤報難根治的核心癥結。”戰凱強調。

因其底層邏輯依賴單幀抽樣分析——從每秒24幀視頻中截取單幀進行特征點匹配，這一機制在復雜現實場景中易受環境干擾：低光照導致圖像模糊、非常規視角引發特征偏移、動態遮擋與背景噪聲形成干擾信號。

因此突破環境敏感性與特征泛化能力的天花板，需系統性重構算法架構。

技術攻堅：多模態大模型破解行業痛點

在小模型推進緩慢的情況下，技術瓶頸亟待突破。隨著技術發展，大模型的出現帶來了轉機。

2017 年 Transformer 架構出現，大模型開始進入人們的視野；2022 年 ChatGPT 出現，使大模型應用成為可能；2023 年中期 GPT4V 出現，首次實現了圖像和文本兩個模態的交互；到 2024 年初 GPT4O出現，真正實現了視頻、音頻、圖像甚至其他感知的多模態交互，經過一年發展，國內很多廠商也實現了多模態大模型的落地。