視(shì)頻(pín)摘要(yào)技術(shù)在視(shì)頻(pín)分析領域的作(zuò)用-北京明(míng)景科技行(xíng)業新聞-北京明(míng)景科技 - 視(shì)頻(pín)偵查|影像鑒定|火(huǒ)災調查|視(shì)頻(pín)勘察|

視(shì)頻(pín)摘要(yào)技術(shù)在視(shì)頻(pín)分析領域的作(zuò)用

2020/04/08

視(shì)頻(pín)摘要(yào)又稱視(shì)頻(pín)濃縮，是對視(shì)頻(pín)內(nèi)容的一(yī)個簡單概括，以自(zì)動或半自(zì)動的方式，先通(tōng)過運動目标分析，提取運動目标，然後對各個目标的運動軌迹進行(xíng)分析，将不同的目标拼接到一(yī)個共同的背景場景中，并将它們以某種方式進行(xíng)組合。視(shì)頻(pín)摘要(yào)在視(shì)頻(pín)分析和(hé)基于內(nèi)容的視(shì)頻(pín)檢索中扮演着重要(yào)角色。

視(shì)頻(pín)錄像存在存儲數(shù)據量大，存儲時(shí)間(jiān)長(cháng)等特點，通(tōng)過錄像尋找線索，獲取證據傳統的做(zuò)法是要(yào)耗費(fèi)大量人(rén)力、物(wù)力以及時(shí)間(jiān)，效率極其低(dī)下(xià)，以至于錯過最佳破案時(shí)機。因此在視(shì)頻(pín)監控系統中，對原始視(shì)頻(pín)進行(xíng)濃縮，可(kě)以快(kuài)速浏覽，鎖定檢索對象，對于公安加快(kuài)破案速度，提高大案、要(yào)案的破案效率具有重要(yào)指導意義。

對于企業應用來說，視(shì)頻(pín)摘要(yào)與壓縮技術(shù)可(kě)以使企業管理人(rén)員(yuán)在短時(shí)間(jiān)內(nèi)浏覽完視(shì)頻(pín)。在智能(néng)手機大行(xíng)其道(dào)的今天，使用視(shì)頻(pín)摘要(yào)技術(shù)對監控視(shì)頻(pín)進行(xíng)處理，供手機浏覽，既可(kě)以節約管理者的時(shí)間(jiān)，又可(kě)以節約大量的流量。

視(shì)頻(pín)摘要(yào)技術(shù)

視(shì)頻(pín)摘要(yào)技術(shù)的研究最早始于1994年(nián)CMU大學的Informedia工(gōng)程，随後德國(guó)曼海(hǎi)姆大學、FXPaloAlto實驗室、Minnesota大學、MITRE公司、哥倫比亞大學與微(wēi)軟研究院等都(dōu)在這(zhè)方面進行(xíng)了(le)較為(wèi)深入的研究，分别提出了(le)各自(zì)的視(shì)頻(pín)摘要(yào)策略，視(shì)頻(pín)摘要(yào)的表現形式也由最初的靜态摘要(yào)轉變為(wèi)現在的動态縮略視(shì)頻(pín)。

總的來說視(shì)頻(pín)摘要(yào)是對一(yī)長(cháng)段視(shì)頻(pín)內(nèi)容的簡短總結，即視(shì)頻(pín)摘要(yào)就是一(yī)連串靜止或運動的圖像，分别稱為(wèi)靜态視(shì)頻(pín)摘要(yào)和(hé)動态視(shì)頻(pín)摘要(yào)，它們用精簡的方式代表了(le)原視(shì)頻(pín)的內(nèi)容，同時(shí)保留了(le)原內(nèi)容的要(yào)點。靜态視(shì)頻(pín)摘要(yào)是從(cóng)原始視(shì)頻(pín)中剪取而生成的一(yī)系列靜止圖像的集合，這(zhè)些代表了(le)原始視(shì)頻(pín)的圖像成為(wèi)關鍵幀;動态視(shì)頻(pín)摘要(yào)是由一(yī)些圖像序列以及對應的音頻(pín)組成，它本身是一(yī)個視(shì)頻(pín)片斷。兩者區(qū)别是靜态視(shì)頻(pín)摘要(yào)隻考慮其關鍵幀，忽略了(le)音頻(pín)信息，但(dàn)生成摘要(yào)的速度比動态視(shì)頻(pín)摘要(yào)快(kuài);動态視(shì)頻(pín)摘要(yào)表現的內(nèi)容比靜态視(shì)頻(pín)摘要(yào)豐富，通(tōng)常以鏡頭的方式表示，融合了(le)圖像、聲音和(hé)文字等信息。

視(shì)頻(pín)摘要(yào)的作(zuò)用主要(yào)是便于存儲和(hé)視(shì)頻(pín)的浏覽或查找，相對于原始的視(shì)頻(pín)資料，視(shì)頻(pín)摘要(yào)的長(cháng)度要(yào)短很(hěn)多，節省了(le)存儲時(shí)間(jiān)和(hé)空間(jiān)。視(shì)頻(pín)摘要(yào)保留了(le)原內(nèi)容的要(yào)點，所以對于用戶來說，浏覽或查找視(shì)頻(pín)摘要(yào)比浏覽原始視(shì)頻(pín)要(yào)節省時(shí)間(jiān)。

視(shì)頻(pín)摘要(yào)生成方法及過程

視(shì)頻(pín)摘要(yào)的生成方法大緻可(kě)以分為(wèi)4類：

簡單的生成方法

基于時(shí)間(jiān)點對視(shì)頻(pín)進行(xíng)采樣，即每間(jiān)隔一(yī)定的時(shí)間(jiān)抽取一(yī)個代表幀或者一(yī)個片段，這(zhè)種生成方法很(hěn)容易實現，但(dàn)完全沒有基于視(shì)頻(pín)的內(nèi)容。

基于視(shì)覺信息的生成方法

根據視(shì)頻(pín)裏出現的顔色、紋理、形狀、運動方向和(hé)強度等視(shì)覺信息，基于模式識别的思維，應用各種視(shì)頻(pín)和(hé)圖像處理技術(shù)，進行(xíng)鏡頭探測、關鍵幀提取、場景聚類、運動特征提取等一(yī)系列操作(zuò)，最終生成具有代表性的關鍵幀序列或縮略視(shì)頻(pín)。這(zhè)種算法完全基于視(shì)覺特征，忽略了(le)音頻(pín)、字幕等信息對視(shì)頻(pín)的作(zuò)用。

融合多特性的生成方法

在基于視(shì)覺方法的基礎上(shàng)融入其他(tā)媒體提供的信息，準确的判斷視(shì)頻(pín)片段的重要(yào)程度，這(zhè)種算法是目前大多數(shù)視(shì)頻(pín)摘要(yào)技術(shù)采用的方法。

基于視(shì)頻(pín)句法語義的生成方法

從(cóng)視(shì)頻(pín)的句法結構分析入手，探尋鏡頭與鏡頭之間(jiān)、場景與場景之間(jiān)的結構規則，将視(shì)頻(pín)的句法語義盡可(kě)能(néng)完整的保存在摘要(yào)中。

視(shì)頻(pín)摘要(yào)生成過程可(kě)以歸納為(wèi)3個過程：

視(shì)頻(pín)分割

任何視(shì)頻(pín)摘要(yào)算法都(dōu)遵循“先分後合”的原則，要(yào)進行(xíng)視(shì)頻(pín)內(nèi)容理解和(hé)分析必須首先将視(shì)頻(pín)切分成合理的基本單位，這(zhè)些基本單位包括場景、鏡頭、幀等。

視(shì)頻(pín)內(nèi)容提取

采用模式識别或者視(shì)頻(pín)結構探測的方法來獲取能(néng)夠被計算機或者人(rén)感覺的信息。

合成摘要(yào)

把判定為(wèi)重要(yào)的視(shì)頻(pín)片段組合在一(yī)起形成某種形式的摘要(yào)。

如(rú)果将上(shàng)述3個過程細化，由原始視(shì)頻(pín)生成視(shì)頻(pín)摘要(yào)首先要(yào)對非結構化的圖像流進行(xíng)處理，使之成為(wèi)結構化的數(shù)據，這(zhè)個過程被稱為(wèi)視(shì)頻(pín)結構化，又叫視(shì)頻(pín)分析。幀是視(shì)頻(pín)數(shù)據的最小單元，是一(yī)幅靜止的畫(huà)面，鏡頭是由幀組成的視(shì)頻(pín)數(shù)據的基本單位，是攝像頭的一(yī)次連續的動作(zuò)，隻能(néng)拍攝相鄰地(dì)點連續發生的事情，場景由內(nèi)容相近的鏡頭組成，從(cóng)不同的角度描述同一(yī)個事件，視(shì)頻(pín)是由許多場景組成，叙述一(yī)件完成的事情。針對視(shì)頻(pín)內(nèi)容的結構化提取是通(tōng)過自(zì)底向上(shàng)的方法從(cóng)每一(yī)幀中分析出結構化信息。

視(shì)頻(pín)結構化主要(yào)步驟有鏡頭分割、關鍵幀提取、場景重構。

鏡頭分割：鏡頭是視(shì)頻(pín)檢索的基本單元，大部分視(shì)頻(pín)是由一(yī)個個鏡頭連接而成的。在編輯時(shí)，可(kě)能(néng)采用不同的方法将前後兩個鏡頭結合在一(yī)起。兩個鏡頭的結合方法可(kě)能(néng)是突變，即一(yī)個鏡頭直接加在上(shàng)一(yī)個鏡頭最後一(yī)個畫(huà)面之後;也可(kě)能(néng)是漸變，如(rú)淡入淡出、慢(màn)轉換等。鏡頭分割過程的主要(yào)工(gōng)作(zuò)是鏡頭邊界的檢測。常用的鏡頭邊界檢測的算法有突變檢測算法和(hé)漸變檢測算法。

關鍵幀提取：在進行(xíng)鏡頭分割後，視(shì)頻(pín)被分解為(wèi)一(yī)個個連續的鏡頭。在同一(yī)鏡頭中，t時(shí)刻的圖像幀和(hé)t+1時(shí)刻的圖像幀往往在視(shì)覺特征和(hé)內(nèi)容上(shàng)差别不大，所以在一(yī)個鏡頭中對分析過程而言存在太多的冗餘的圖像幀，因此就需要(yào)從(cóng)成千上(shàng)萬的圖像幀中提取關鍵幀。所謂關鍵幀是用于描述一(yī)個鏡頭內(nèi)容的關鍵圖像，它是從(cóng)原始的視(shì)頻(pín)文件中抽取的一(yī)些靜态圖像。靜态視(shì)頻(pín)摘要(yào)就是由這(zhè)些關鍵幀組成的。用它們來表示視(shì)頻(pín)，更加簡潔，也消除了(le)在視(shì)頻(pín)分析時(shí)的巨大冗餘。關鍵幀提取主要(yào)是利用圖論、曲線分裂、聚類和(hé)奇異值分解的方法。這(zhè)些方法的基本思想是把一(yī)幀看(kàn)成是多維特征空間(jiān)中的一(yī)點，選擇的關鍵幀是點的子集，這(zhè)些點集能(néng)夠覆蓋特征距離內(nèi)的其它點，或者能(néng)夠表明(míng)場景內(nèi)容的變化。關鍵幀提取算法主要(yào)有:基于鏡頭邊界法、基于顔色特征法、基于運動分析法、基于內(nèi)容的自(zì)适應提取方法、基于聚類的關鍵幀提取方法等。

場景重構：場景是由語義上(shàng)相關和(hé)時(shí)間(jiān)上(shàng)相鄰的若幹組鏡頭組成的。場景是視(shì)頻(pín)所蘊涵的高層抽像概念和(hé)語義的表達。在視(shì)頻(pín)分割中，首先将視(shì)頻(pín)切分為(wèi)一(yī)個個的鏡頭，然而實質上(shàng)某一(yī)些連續的鏡頭在情節上(shàng)是相關的，這(zhè)組鏡頭具有相同的語義，表達同樣的主題，将這(zhè)些鏡頭重構成場景也是視(shì)頻(pín)結構化的重要(yào)部分。重構的場景是觀衆頭腦中形成的主觀概念，因此，場景重構的邊界檢測也就比鏡頭邊界檢測要(yào)困難得多，更具有挑戰性。完全自(zì)動場景變換檢測系統很(hěn)難實現，很(hěn)多文獻提出了(le)場景變化檢測的算法。這(zhè)些算法可(kě)分為(wèi)兩類:時(shí)間(jiān)約束聚類算法和(hé)聲音、視(shì)覺特性檢測算法。前者是把視(shì)覺相似和(hé)時(shí)間(jiān)接近的鏡頭組織成一(yī)個場景，目标在于用一(yī)種緊湊且有語義含義的方法表示視(shì)頻(pín);後者則強調模仿人(rén)的觀察力檢測場景變化。

視(shì)頻(pín)摘要(yào)未來發展趨勢

随着視(shì)頻(pín)、音頻(pín)內(nèi)容分析技術(shù)、自(zì)然語言理解以及人(rén)工(gōng)交互技術(shù)的不斷發展與完善，未來的視(shì)頻(pín)摘要(yào)技術(shù)将出現以下(xià)發展趨勢:

1)多模态的視(shì)頻(pín)摘要(yào)，即融合圖像、視(shì)頻(pín)、音頻(pín)以及文本等多種媒體內(nèi)容的視(shì)頻(pín)摘要(yào)。大量的實驗證明(míng)，将各種媒體的特征有機地(dì)結合在一(yī)起，才能(néng)最大限度地(dì)讓用戶在短時(shí)間(jiān)內(nèi)迅速理解并獲取視(shì)頻(pín)的內(nèi)容，如(rú)标題與故事闆相結合的摘要(yào)形式必定會比單一(yī)的标題或故事闆的摘要(yào)形式更容易讓人(rén)理解。

2)交互式的視(shì)頻(pín)摘要(yào)。現在的視(shì)頻(pín)摘要(yào)多半是主觀的、按照生成者意圖定制的摘要(yào)，力求讓用戶理解或浏覽視(shì)頻(pín)內(nèi)容。但(dàn)未來的視(shì)頻(pín)摘要(yào)将是交互式的，允許用戶指定摘要(yào)的形式，摘要(yào)哪方面的內(nèi)容，便于用戶自(zì)己設計個性化的摘要(yào)。未來的視(shì)頻(pín)摘要(yào)技術(shù)目标是生成自(zì)适應的、可(kě)視(shì)化的視(shì)頻(pín)摘要(yào)，即根據用戶需求對內(nèi)容進行(xíng)自(zì)适應的表現。具體體現在允許用戶對視(shì)頻(pín)片段進行(xíng)标注，允許用戶調整縮略的壓縮比，如(rú)對感興趣的內(nèi)容設置較小的壓縮率。另外(wài)，它可(kě)以通(tōng)過對用戶交互記錄的分析獲取用戶的喜好，按照用戶喜好自(zì)适應地(dì)生成縮略。目前，已經能(néng)夠實現通(tōng)過交互式的地(dì)圖以及時(shí)間(jiān)線的方法對新聞視(shì)頻(pín)按地(dì)區(qū)和(hé)時(shí)間(jiān)進行(xíng)快(kuài)速信息的獲取。

總而言之，視(shì)頻(pín)摘要(yào)技術(shù)正在向多模态、個性化以及融合的方向發展，具有很(hěn)好的研究價值以及廣闊的應用前景。