-
歡迎來到北京明(míng)景科技有限公司
聯系我們: 010-82378600, 13911129392
歡迎來到北京明(míng)景科技有限公司
聯系我們: 010-82378600, 13911129392
視(shì)頻(pín)摘要(yào)又稱視(shì)頻(pín)濃縮,是對視(shì)頻(pín)內(nèi)容的一(yī)個簡單概括,以自(zì)動或半自(zì)動的方式,先通(tōng)過運動目标分析,提取運動目标,然後對各個目标的運動軌迹進行(xíng)分析,将不同的目标拼接到一(yī)個共同的背景場景中,并将它們以某種方式進行(xíng)組合。視(shì)頻(pín)摘要(yào)在視(shì)頻(pín)分析和(hé)基于內(nèi)容的視(shì)頻(pín)檢索中扮演着重要(yào)角色。
視(shì)頻(pín)錄像存在存儲數(shù)據量大,存儲時(shí)間(jiān)長(cháng)等特點,通(tōng)過錄像尋找線索,獲取證據傳統的做(zuò)法是要(yào)耗費(fèi)大量人(rén)力、物(wù)力以及時(shí)間(jiān),效率極其低(dī)下(xià),以至于錯過最佳破案時(shí)機。因此在視(shì)頻(pín)監控系統中,對原始視(shì)頻(pín)進行(xíng)濃縮,可(kě)以快(kuài)速浏覽,鎖定檢索對象,對于公安加快(kuài)破案速度,提高大案、要(yào)案的破案效率具有重要(yào)指導意義。
對于企業應用來說,視(shì)頻(pín)摘要(yào)與壓縮技術(shù)可(kě)以使企業管理人(rén)員(yuán)在短時(shí)間(jiān)內(nèi)浏覽完視(shì)頻(pín)。在智能(néng)手機大行(xíng)其道(dào)的今天,使用視(shì)頻(pín)摘要(yào)技術(shù)對監控視(shì)頻(pín)進行(xíng)處理,供手機浏覽,既可(kě)以節約管理者的時(shí)間(jiān),又可(kě)以節約大量的流量。
視(shì)頻(pín)摘要(yào)技術(shù)的研究最早始于1994年(nián)CMU大學的Informedia工(gōng)程,随後德國(guó)曼海(hǎi)姆大學、FXPaloAlto實驗室、Minnesota大學、MITRE公司、哥倫比亞大學與微(wēi)軟研究院等都(dōu)在這(zhè)方面進行(xíng)了(le)較為(wèi)深入的研究,分别提出了(le)各自(zì)的視(shì)頻(pín)摘要(yào)策略,視(shì)頻(pín)摘要(yào)的表現形式也由最初的靜态摘要(yào)轉變為(wèi)現在的動态縮略視(shì)頻(pín)。
總的來說視(shì)頻(pín)摘要(yào)是對一(yī)長(cháng)段視(shì)頻(pín)內(nèi)容的簡短總結,即視(shì)頻(pín)摘要(yào)就是一(yī)連串靜止或運動的圖像,分别稱為(wèi)靜态視(shì)頻(pín)摘要(yào)和(hé)動态視(shì)頻(pín)摘要(yào),它們用精簡的方式代表了(le)原視(shì)頻(pín)的內(nèi)容,同時(shí)保留了(le)原內(nèi)容的要(yào)點。靜态視(shì)頻(pín)摘要(yào)是從(cóng)原始視(shì)頻(pín)中剪取而生成的一(yī)系列靜止圖像的集合,這(zhè)些代表了(le)原始視(shì)頻(pín)的圖像成為(wèi)關鍵幀;動态視(shì)頻(pín)摘要(yào)是由一(yī)些圖像序列以及對應的音頻(pín)組成,它本身是一(yī)個視(shì)頻(pín)片斷。兩者區(qū)别是靜态視(shì)頻(pín)摘要(yào)隻考慮其關鍵幀,忽略了(le)音頻(pín)信息,但(dàn)生成摘要(yào)的速度比動态視(shì)頻(pín)摘要(yào)快(kuài);動态視(shì)頻(pín)摘要(yào)表現的內(nèi)容比靜态視(shì)頻(pín)摘要(yào)豐富,通(tōng)常以鏡頭的方式表示,融合了(le)圖像、聲音和(hé)文字等信息。
視(shì)頻(pín)摘要(yào)的作(zuò)用主要(yào)是便于存儲和(hé)視(shì)頻(pín)的浏覽或查找,相對于原始的視(shì)頻(pín)資料,視(shì)頻(pín)摘要(yào)的長(cháng)度要(yào)短很(hěn)多,節省了(le)存儲時(shí)間(jiān)和(hé)空間(jiān)。視(shì)頻(pín)摘要(yào)保留了(le)原內(nèi)容的要(yào)點,所以對于用戶來說,浏覽或查找視(shì)頻(pín)摘要(yào)比浏覽原始視(shì)頻(pín)要(yào)節省時(shí)間(jiān)。
視(shì)頻(pín)摘要(yào)的生成方法大緻可(kě)以分為(wèi)4類:
基于時(shí)間(jiān)點對視(shì)頻(pín)進行(xíng)采樣,即每間(jiān)隔一(yī)定的時(shí)間(jiān)抽取一(yī)個代表幀或者一(yī)個片段,這(zhè)種生成方法很(hěn)容易實現,但(dàn)完全沒有基于視(shì)頻(pín)的內(nèi)容。
根據視(shì)頻(pín)裏出現的顔色、紋理、形狀、運動方向和(hé)強度等視(shì)覺信息,基于模式識别的思維,應用各種視(shì)頻(pín)和(hé)圖像處理技術(shù),進行(xíng)鏡頭探測、關鍵幀提取、場景聚類、運動特征提取等一(yī)系列操作(zuò),最終生成具有代表性的關鍵幀序列或縮略視(shì)頻(pín)。這(zhè)種算法完全基于視(shì)覺特征,忽略了(le)音頻(pín)、字幕等信息對視(shì)頻(pín)的作(zuò)用。
在基于視(shì)覺方法的基礎上(shàng)融入其他(tā)媒體提供的信息,準确的判斷視(shì)頻(pín)片段的重要(yào)程度,這(zhè)種算法是目前大多數(shù)視(shì)頻(pín)摘要(yào)技術(shù)采用的方法。
從(cóng)視(shì)頻(pín)的句法結構分析入手,探尋鏡頭與鏡頭之間(jiān)、場景與場景之間(jiān)的結構規則,将視(shì)頻(pín)的句法語義盡可(kě)能(néng)完整的保存在摘要(yào)中。
視(shì)頻(pín)摘要(yào)生成過程可(kě)以歸納為(wèi)3個過程:
任何視(shì)頻(pín)摘要(yào)算法都(dōu)遵循“先分後合”的原則,要(yào)進行(xíng)視(shì)頻(pín)內(nèi)容理解和(hé)分析必須首先将視(shì)頻(pín)切分成合理的基本單位,這(zhè)些基本單位包括場景、鏡頭、幀等。
采用模式識别或者視(shì)頻(pín)結構探測的方法來獲取能(néng)夠被計算機或者人(rén)感覺的信息。
把判定為(wèi)重要(yào)的視(shì)頻(pín)片段組合在一(yī)起形成某種形式的摘要(yào)。
如(rú)果将上(shàng)述3個過程細化,由原始視(shì)頻(pín)生成視(shì)頻(pín)摘要(yào)首先要(yào)對非結構化的圖像流進行(xíng)處理,使之成為(wèi)結構化的數(shù)據,這(zhè)個過程被稱為(wèi)視(shì)頻(pín)結構化,又叫視(shì)頻(pín)分析。幀是視(shì)頻(pín)數(shù)據的最小單元,是一(yī)幅靜止的畫(huà)面,鏡頭是由幀組成的視(shì)頻(pín)數(shù)據的基本單位,是攝像頭的一(yī)次連續的動作(zuò),隻能(néng)拍攝相鄰地(dì)點連續發生的事情,場景由內(nèi)容相近的鏡頭組成,從(cóng)不同的角度描述同一(yī)個事件,視(shì)頻(pín)是由許多場景組成,叙述一(yī)件完成的事情。針對視(shì)頻(pín)內(nèi)容的結構化提取是通(tōng)過自(zì)底向上(shàng)的方法從(cóng)每一(yī)幀中分析出結構化信息。
視(shì)頻(pín)結構化主要(yào)步驟有鏡頭分割、關鍵幀提取、場景重構。
鏡頭分割:鏡頭是視(shì)頻(pín)檢索的基本單元,大部分視(shì)頻(pín)是由一(yī)個個鏡頭連接而成的。在編輯時(shí),可(kě)能(néng)采用不同的方法将前後兩個鏡頭結合在一(yī)起。兩個鏡頭的結合方法可(kě)能(néng)是突變,即一(yī)個鏡頭直接加在上(shàng)一(yī)個鏡頭最後一(yī)個畫(huà)面之後;也可(kě)能(néng)是漸變,如(rú)淡入淡出、慢(màn)轉換等。鏡頭分割過程的主要(yào)工(gōng)作(zuò)是鏡頭邊界的檢測。常用的鏡頭邊界檢測的算法有突變檢測算法和(hé)漸變檢測算法。
關鍵幀提取:在進行(xíng)鏡頭分割後,視(shì)頻(pín)被分解為(wèi)一(yī)個個連續的鏡頭。在同一(yī)鏡頭中,t時(shí)刻的圖像幀和(hé)t+1時(shí)刻的圖像幀往往在視(shì)覺特征和(hé)內(nèi)容上(shàng)差别不大,所以在一(yī)個鏡頭中對分析過程而言存在太多的冗餘的圖像幀,因此就需要(yào)從(cóng)成千上(shàng)萬的圖像幀中提取關鍵幀。所謂關鍵幀是用于描述一(yī)個鏡頭內(nèi)容的關鍵圖像,它是從(cóng)原始的視(shì)頻(pín)文件中抽取的一(yī)些靜态圖像。靜态視(shì)頻(pín)摘要(yào)就是由這(zhè)些關鍵幀組成的。用它們來表示視(shì)頻(pín),更加簡潔,也消除了(le)在視(shì)頻(pín)分析時(shí)的巨大冗餘。關鍵幀提取主要(yào)是利用圖論、曲線分裂、聚類和(hé)奇異值分解的方法。這(zhè)些方法的基本思想是把一(yī)幀看(kàn)成是多維特征空間(jiān)中的一(yī)點,選擇的關鍵幀是點的子集,這(zhè)些點集能(néng)夠覆蓋特征距離內(nèi)的其它點,或者能(néng)夠表明(míng)場景內(nèi)容的變化。關鍵幀提取算法主要(yào)有:基于鏡頭邊界法、基于顔色特征法、基于運動分析法、基于內(nèi)容的自(zì)适應提取方法、基于聚類的關鍵幀提取方法等。
場景重構:場景是由語義上(shàng)相關和(hé)時(shí)間(jiān)上(shàng)相鄰的若幹組鏡頭組成的。場景是視(shì)頻(pín)所蘊涵的高層抽像概念和(hé)語義的表達。在視(shì)頻(pín)分割中,首先将視(shì)頻(pín)切分為(wèi)一(yī)個個的鏡頭,然而實質上(shàng)某一(yī)些連續的鏡頭在情節上(shàng)是相關的,這(zhè)組鏡頭具有相同的語義,表達同樣的主題,将這(zhè)些鏡頭重構成場景也是視(shì)頻(pín)結構化的重要(yào)部分。重構的場景是觀衆頭腦中形成的主觀概念,因此,場景重構的邊界檢測也就比鏡頭邊界檢測要(yào)困難得多,更具有挑戰性。完全自(zì)動場景變換檢測系統很(hěn)難實現,很(hěn)多文獻提出了(le)場景變化檢測的算法。這(zhè)些算法可(kě)分為(wèi)兩類:時(shí)間(jiān)約束聚類算法和(hé)聲音、視(shì)覺特性檢測算法。前者是把視(shì)覺相似和(hé)時(shí)間(jiān)接近的鏡頭組織成一(yī)個場景,目标在于用一(yī)種緊湊且有語義含義的方法表示視(shì)頻(pín);後者則強調模仿人(rén)的觀察力檢測場景變化。
随着視(shì)頻(pín)、音頻(pín)內(nèi)容分析技術(shù)、自(zì)然語言理解以及人(rén)工(gōng)交互技術(shù)的不斷發展與完善,未來的視(shì)頻(pín)摘要(yào)技術(shù)将出現以下(xià)發展趨勢:
1)多模态的視(shì)頻(pín)摘要(yào),即融合圖像、視(shì)頻(pín)、音頻(pín)以及文本等多種媒體內(nèi)容的視(shì)頻(pín)摘要(yào)。大量的實驗證明(míng),将各種媒體的特征有機地(dì)結合在一(yī)起,才能(néng)最大限度地(dì)讓用戶在短時(shí)間(jiān)內(nèi)迅速理解并獲取視(shì)頻(pín)的內(nèi)容,如(rú)标題與故事闆相結合的摘要(yào)形式必定會比單一(yī)的标題或故事闆的摘要(yào)形式更容易讓人(rén)理解。
2)交互式的視(shì)頻(pín)摘要(yào)。現在的視(shì)頻(pín)摘要(yào)多半是主觀的、按照生成者意圖定制的摘要(yào),力求讓用戶理解或浏覽視(shì)頻(pín)內(nèi)容。但(dàn)未來的視(shì)頻(pín)摘要(yào)将是交互式的,允許用戶指定摘要(yào)的形式,摘要(yào)哪方面的內(nèi)容,便于用戶自(zì)己設計個性化的摘要(yào)。未來的視(shì)頻(pín)摘要(yào)技術(shù)目标是生成自(zì)适應的、可(kě)視(shì)化的視(shì)頻(pín)摘要(yào),即根據用戶需求對內(nèi)容進行(xíng)自(zì)适應的表現。具體體現在允許用戶對視(shì)頻(pín)片段進行(xíng)标注,允許用戶調整縮略的壓縮比,如(rú)對感興趣的內(nèi)容設置較小的壓縮率。另外(wài),它可(kě)以通(tōng)過對用戶交互記錄的分析獲取用戶的喜好,按照用戶喜好自(zì)适應地(dì)生成縮略。目前,已經能(néng)夠實現通(tōng)過交互式的地(dì)圖以及時(shí)間(jiān)線的方法對新聞視(shì)頻(pín)按地(dì)區(qū)和(hé)時(shí)間(jiān)進行(xíng)快(kuài)速信息的獲取。
總而言之,視(shì)頻(pín)摘要(yào)技術(shù)正在向多模态、個性化以及融合的方向發展,具有很(hěn)好的研究價值以及廣闊的應用前景。