A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities

Audio-visual recognition system is becoming popular because it overcomes certain problems of traditional audio-only recognition system. However, difficulties due to visual variations in video sequencecan significantly degrade the recognition performance of the system. This problem can be further com...

Full description

Bibliographic Details
Main Authors:	Wong, Y.W., Ch’ng, S.I., Seng, K.P., Ang, L., Chin, S.W., Chew, W.J., Lim, Hann
Format:	Journal Article
Published:	Elsevier BV, North-Holland 2011
Subjects:	Audio-visual database Speech recognition Face recognition Visual variation
Online Access:	http://hdl.handle.net/20.500.11937/13681

_version_	1848748410997309440
author	Wong, Y.W. Ch’ng, S.I. Seng, K.P. Ang, L. Chin, S.W. Chew, W.J. Lim, Hann
author_facet	Wong, Y.W. Ch’ng, S.I. Seng, K.P. Ang, L. Chin, S.W. Chew, W.J. Lim, Hann
author_sort	Wong, Y.W.
building	Curtin Institutional Repository
collection	Online Access
description	Audio-visual recognition system is becoming popular because it overcomes certain problems of traditional audio-only recognition system. However, difficulties due to visual variations in video sequencecan significantly degrade the recognition performance of the system. This problem can be further complicated when more than one visual variation happen at the same time. Although several databases have been created in this area, none of them includes realistic visual variations in video sequence. With the aim to facilitate the development of robust audio-visual recognition systems, the new audio-visualUNMC-VIER database is created. This database contains various visual variations including illumination,facial expression, head pose, and image resolution variations. The most unique aspect of this database is that it includes more than one visual variation in the same video recording. For the audio part, the utterances are spoken in slow and normal speech pace to improve the learning process of audio-visual speech recognition system. Hence, this database is useful for the development of robust audio-visual person,speech recognition and face recognition systems.
first_indexed	2025-11-14T07:04:37Z
format	Journal Article
id	curtin-20.500.11937-13681
institution	Curtin University Malaysia
institution_category	Local University
last_indexed	2025-11-14T07:04:37Z
publishDate	2011
publisher	Elsevier BV, North-Holland
recordtype	eprints
repository_type	Digital Repository
spelling	curtin-20.500.11937-136812017-09-13T15:00:25Z A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities Wong, Y.W. Ch’ng, S.I. Seng, K.P. Ang, L. Chin, S.W. Chew, W.J. Lim, Hann Audio-visual database Speech recognition Face recognition Visual variation Audio-visual recognition system is becoming popular because it overcomes certain problems of traditional audio-only recognition system. However, difficulties due to visual variations in video sequencecan significantly degrade the recognition performance of the system. This problem can be further complicated when more than one visual variation happen at the same time. Although several databases have been created in this area, none of them includes realistic visual variations in video sequence. With the aim to facilitate the development of robust audio-visual recognition systems, the new audio-visualUNMC-VIER database is created. This database contains various visual variations including illumination,facial expression, head pose, and image resolution variations. The most unique aspect of this database is that it includes more than one visual variation in the same video recording. For the audio part, the utterances are spoken in slow and normal speech pace to improve the learning process of audio-visual speech recognition system. Hence, this database is useful for the development of robust audio-visual person,speech recognition and face recognition systems. 2011 Journal Article http://hdl.handle.net/20.500.11937/13681 10.1016/j.patrec.2011.06.011 Elsevier BV, North-Holland restricted
spellingShingle	Audio-visual database Speech recognition Face recognition Visual variation Wong, Y.W. Ch’ng, S.I. Seng, K.P. Ang, L. Chin, S.W. Chew, W.J. Lim, Hann A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
title	A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
title_full	A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
title_fullStr	A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
title_full_unstemmed	A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
title_short	A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities
title_sort	new multi-purpose audio-visual unmc-vier database with multiple variabilities
topic	Audio-visual database Speech recognition Face recognition Visual variation
url	http://hdl.handle.net/20.500.11937/13681

A new multi-purpose audio-visual UNMC-VIER database with multiple variabilities

Similar Items