Sunteți pe pagina 1din 20

Interfete om-calculator

Curs 7: Segmentarea continutului video

Definitii
Segmentarea continutului video (Video content structuring / video structuring / video structure analysis / video segmentation) := procesul de descompunere ierarhica a secventelor video in unitati si construirea unei structuri relationale intre aceste unitati
Similara cu descompunerea textului in capitole, paragrafe, propozitii, cuvinte etc. Secventele video se descompun in scene, shots si key-frames + structura lor relationala cuprins (table of content) al secventei video (indexare) usureaza accesul si manipularea datelor/informatiei continute in secventa video Fara indexare accesul la informatia continuta este foarte dificil (dimensiune mare, format nestructurat)

IOC

Technical University of Cluj Napoca Computer Science Department

Definitii
Decompozitia si reprezentarea ierarhica a continutului video [1]

IOC

Technical University of Cluj Napoca Computer Science Department

Definitii
Unitatile continutului video:
Shot: secvente neintrerupta inregistrata cu o singura camera. Entitate fizica de baza a continutuluiv video. Din 2001, detectia de shots a fost stabilita ca un task de evaluare in TREC Video Retrieval Evaluation (TRECVID) benchmark de catre National Institute of Standard and Technology (NIST). Scena (scene): colectie de shots aflate intr-o relatie temporala de adiacenta si avand legaturi semantice care ilustreaza si converg catre un concept. De obicei este formata dint-o serie de shots inregistrate in aceeasi locatie. Poveste (story): un clip/secventa care inregistreaza o actiune continua sau o serie de evenimente si care este compusa din mai multe scene si shots. Sunt de obicei clare doar pentru contnut video structurat in mod rigid. In prezent majoritatea metodelor de identificare a povestilor (stories) sunt dezvoltate pentru secvente video de stiri (news stories). TECVID story := segment al unei emisiuni de stiri cu o focalizare pe o stire coerenta Technical University of Cluj Napoca care contine cel putin dou clauze independente, declarative.
Computer Science Department

IOC

Definitii
Unitatile continutului video:
Sub-shot: subshot este un segment din cadrul unui shot care corespunde unei miscari unice a camerei (zoom-in, zoom-out, rotatii de tip pan sau tilt, etc.). Un shot poate fi divizat in mai multe sub-shots consecutive in functie de misacrile camerei. Keyframe (cadru cheie): cadrul care reprezinta cel mai bine continutul unui shot sau sub-shot. In functie de variatia continutului video, un shot/sub-shot poate fi caracterizat de una sau mai multe cadre cheie (keyframes). - Keyframes pot fi folosite ca entitati de intrare primare in reprezentarea continutului video in aplicatii de indexare, cautare, analiza automata de continut semantic etc.

IOC

Technical University of Cluj Napoca Computer Science Department

Detectia de shots
Detectia zonelor de separare dintre 2 shots consecutive (Shot Boundary Detection - SBD)
Zhang [3] a propus prima schema departitionare a unei secvente video in shots iar primul cadru din fiecare sgot a fost considerat ca si cadru cheie (keyframe) pentru indexare. Zonele de separare (SB) tranzitie: - brusca: tranzitie de tip taietura (cut) - lenta: tranzitie graduala Cum se detecteaza - masurarea gradului de modificare dintre 2 care succesive Reprezaentarea cadrelor (trasaturi / features) Estimarea diferentei Discriminarea zonelor de separare de zonele continuue (boundary/nonTechnical University of Cluj Napoca boundary discrimination)
Computer Science Department

IOC

Detectia de shots
Ilustrarea procesului de detectie a shot-urilor

Trasaturi: pixel, histograme de culoare, muchii, intensitati etc. estimarea diferentei dintre trasaturi pt. perechi de cadre succesive

IOC

Technical University of Cluj Napoca Computer Science Department

Detectia de shots
Estimarea diferentelor dintre cadre
- exemplu pentru trasaturi de tip histograma:

Hk(i) - bin-ul i din histograma de la frame-ul k Dk,k+1 diferenta dintre histogramele cadrelor k+1 si k

IOC

Technical University of Cluj Napoca Computer Science Department

Detectia de shots
Discriminarea zonelor de delimitare ale shot-urilor (SB)
- Threshold global sau adaptiv-local bazat pe reguli -Detectie bazata pe invatare (clasificatori antrenati pe secvente de imagini cu SB ethichetate manual)

Rezultate al emetodelor actuale (TRECVID): - Cut detection: 0.95 - Gradual transition: 0.8

IOC

Technical University of Cluj Napoca Computer Science Department

Detectia de sub-shots
Subshot o miscare specifica a camerei detectia se poate face prin detectia miscarii camerei

Clase de miscari: pan, tilt, zoom, rot, object motion, and static.

IOC

Technical University of Cluj Napoca Computer Science Department

Detectia de sub-shots

IOC

Technical University of Cluj Napoca Computer Science Department

Detectia de key-frames
Metode de detectie: - Analiza (calitatea si impactul cadrelor) - Clustering (grupare): key-frame este centroidul clusterului - Bazate pe invatare (caliatea imagini, atentia urilizatorului, detalii vizuale)

IOC

Technical University of Cluj Napoca Computer Science Department

Aplicatii
(1) Video summarization. It refers to the process that creates a set of images or a shorter video clip that can help viewers quickly get an abstract knowledge of the original video One popular approach is to first parse videos into shots and extract keyframes, and then the summarization can be easily accomplished by presenting the keyframes on a board in a user-friend way (2) Video search. In many cases, users want to find segments instead of whole videos that contain specific persons, objects, events, locations, etc. Therefore, the videos need to be segmented first. Typically, the shot is adopted as the basic unit for search, such as in the evaluation task in TRECVID. But for several video genres such as movies and news videos, scene and story can be better units since they can convey more complete and coherent information. (3) Video annotation. It refers to the process of manually or automatically assigning descriptive keywords to video data in order to facilitate other applications, such as video browsing, search and advertising. Obviously, annotating each frame in a video will introduce redundant efforts, as frames in a shot are usually visually and semantically close to each other. Therefore, the shot is often adopted as the unit for annotation. For several video genres, such as home videos, in which long shots are frequently used that may Technical University of Cluj Napoca contain significantly varying content, subshot is also widely used.
Computer Science Department

IOC

SBD (Shot Boundary Detection)


Shot: secvente neintrerupta inregistrata cu o singura camera (actiune de filmare) SBD detectarea discontinuitatilor/tranzitiilor din continutul vizual (shot transitions)

3 etape: 1.Reprezentarea continutului vizual 2.Evaluarea continuitatii/discontinuitatii continutului vizual 3.Clasificarea valorilor de continuitate/discontinuitate

IOC

Technical University of Cluj Napoca Computer Science Department

Dscrierea formala a problemei SBD

IOC

Technical University of Cluj Napoca Computer Science Department

1. Reprezentarea continutului vizual


Q spatiul imagine F spatiul trasaturilor It imaginea/cadrul curent Vt vectorul de trastauri pentru cadrul curent metoda de extragere de trasaturi Caracteristicile Vt (vectorului de trastauri): -Invarianta: trasaturile sunt stabile la variatii ale continutului (ex. translatii, rotatii), cu exceptia variatiilor determinate de tranzitii intre shots. -Senzitivitatea: capacitatea trasaturilor de a capta detaliile continutului vizual ( 1 / invarianta) Cu cat trasaturile sunt de nivel mai coborat sunt mai invariante si invers Ex. Histograma de culoare si vectorul coerent de culoare

IOC

Technical University of Cluj Napoca Computer Science Department

2. Generarea semnalului de continuitate


Calcularea: - continuitatii (similaritatii) - discontinuitatii (distantei) dintre 2 vectori de trasaturi (adiacenti / cadre consecutive) Continuitatea (intre 2 cadre succesive): - mare in cadrul unui shot si mica la tranzitie dintre shots - instabilitate la variatii puternice de iluminare sau miscari bruste ale camerei / obiectelor Imbunatatiri (incorporarea informatiei contextuale):

S spatiul de continuitate st valoarea continuitatii intre Vt si Vt+1

IOC

Technical University of Cluj Napoca Computer Science Department

3. Clasificarea valorilor de continuitate


Clasificarea semnalului de continuitate in zone de demarcare (tranzitie / boundary) si identificarea tipului de tranzitie

S spatiul de continuitate W spatiul de decizie wt tipul de tranzitie dintre cadrul t si t+1

Ex: clasificatorul erorii minime


Probabilitatea posteriori ca tipul tranzitiei sa fie w, dandu-se observatia Btr

IOC

Technical University of Cluj Napoca Computer Science Department

3. Clasificarea valorilor de continuitate


Functia de decizie se poate modela prin: - clasificatori generativi [4-6] : - se modeleaza intai probabilitatea conditionala a clasei: - se modeleaza probabilitatea apriori: - se aplica regula lui Bayes pentru a infera probabilitatea posteriori: - clasificatori discriminativi [7-9] : - probabilitatea posteriori se poate reprezenta functional, parmetrii functiei fiind estimati prin antrenare - ex simplu: = functia treapta (thresholding), cu parametrul T (pragul)

IOC

Technical University of Cluj Napoca Computer Science Department

Bibliografie
[1] Meng Wang, Hong-Jiang Zhang (2009) Video Content Structuring. Scholarpedia, 4(8):9431, 2009, http://www.scholarpedia.org/article/Video_Content_Structuring [2] TREC Video Retrieval Evaluation (TRECVID) benchmark (http://wwwnlpir.nist.gov/projects/trecvid/) [3] Yuan, J., Wang, H., Xiao, L., Zheng, W., Li, J., Lin, F., Zhang, B. A formal study of shot boundary detection. IEEE Transactions on Circuits and Systems for Video Technology, Vol. 17, No.2, 2007, pp. 168-186. [4] N. Vasconcelos and A. Lippman, Statistical models of video structure for content analysis and characterization, IEEE Trans. Image Process., vol. 9, no. 1, pp. 319, Jan. 2000. [5] A. Hanjalic, Shot boundary detection: unraveled and resolved?, IEEE Trans. Circuits Syst. Video Technol., vol. 12, no. 2, pp. 90105, Feb. 2002. [6] B. Janvier, E. Bruno, S. Marchand-Maillet, and T. Pun, Information theoretic framework for the joint temporal partioning and representation of video data, in European Conf. Content-Based Multimedia Indexing (CBMI03), 2003. [7] J. Yuan, J. Li, F. Lin, and B. Zhang, A unified shot boundary detection framework based on graph partition model, in Proc. ACM Multimedia 2005, Nov. 2005, pp. 539542. [8] M. Cooper, Video segmentation combining similarity analysis and classification, in Proc. ACM Multimedia 2004, Oct. 2004, pp. 252255. [9] Y. Qi, A. Hauptmann, and T. Liu, Supervised classification for video shot segmentation, in IEEE Conf. Multimedia Expo, Jul. 2003, vol. 2, pp. 689692.

IOC

Technical University of Cluj Napoca Computer Science Department