Echelle JDN - Notation DMOS
Echelle JDN
Le moyen le plus traditionnel d'évaluer objectivement la qualité
de la vidéo émanant d'un système de processing digital (Un
encodeur digital par exemple) est de calculer le ratio
signal-sur-bruit et le ratio peak signal sur bruit (PSNR) entre la
vidéo de référence et la vidéo processée. Le PSNR est le plus
utilisé dans le calcul métrique de la qualité objective. Cependant
le PSNR reflète la différence absolue entre deux séquences et
ignore la capacité du cerveau humain de compensation face à la
dégradation de la qualité de la vidéo.
Les experts du
Video Quality Expert Group (VQEG) ont créé une spécification pour
les tests de qualité subjectives de la vidéo, ils l'ont soumise
sous la recommandation ITU-R BT.500. Cette recommandation décrit la
méthode de l'analyse subjective de la qualité vidéo où des
testeurs humains analysent des séquences vidéo et leur donne une
note qualitative. Ces notes sont combinées, corrélées et reportées
sous forme de score appelé Mean Opinion Score (MOS).
Les
valeurs heuristiques et nominales du MOS s'échelonnent de 1 à 5 :
- 4.4-5.0 – Très satisfait
- 4.0-4.3 – Satisfait
- 3.0-3.9 – Quelques utilisateurs
satisfaits
- 2.0-2.9 – Beaucoup
d'utilisateurs insatisfaits
- 1.0-1.9 – La plus part des utilisateurs insatisfaits
Les techniques d'évaluations perceptibles de la vidéo sont
des modèles mathématiques qui approximatisent les résultats
d'évaluations qualitatives subjectives. Elles prennent en compte le
système visuel humain (HVS) et mesure les contrastes, la luminance,
les premiers plans et les arrières plans, les blocs et les flous,
etc. L'échelle des algorithmes de ces mesures crée une valeur qui
reflète le score reçu de chaque image (ou trames). Si cet
algorithme est bien conçu, le chiffre augmente au même rythme que
la qualité évolue.
Ce nombre est ensuite comparé avec
celui des données MOS collectées. De nombreuses organisations ont
collecté des données subjectives - VQEG, CRC, EBU, etc. - mais
jusque récemment aucun d'entre eux n'a rendu d'études publiques.
(l'université du Texas l'a fait à partir de leur base de données
LIVE en septembre 2009).
Si vous voulez déterminer si une
audience peut voir la différence entre deux séquences vidéo, alors
vous pourrez utiliser l'échelle JND (Picture Quality Rating/PQR).
PQR/JND est défini dans la recommandation T1.TR.75.2001.
Qu'est-ce que la notation par mesures DMOS ?
MOS représente la manière la plus directe de mesurer
la qualité de la vidéo. On demande à un groupe de personnes de
noter la qualité d'une séquence vidéo processée (reçue à la
maison par exemple) par rapport à une séquence similaire de
référence (Celle qui représente l'original avant compression et
envoi par exemple). La méthodologie générale pour conduire ce type
de mesure est décrite dans la norme ITU-R BT.500. Cette notation est
basée sur des valeurs numériques qui vont de 1 à 5. La norme ITU
recommande la notation MOS (ou DMOS) dans ITU-T P.910. L'échelle des
notes heuristiques et nominales pour les valeurs de MOS s'échelonne
comme suit:
- 4.4-5.0 – Très satisfaisant
- 4.0-4.3 – Satisfaisant
- 3.0-3.9 – Quelques utilisateurs
satisfaits
- 2.0-2.9 – Beaucoup
d'utilisateurs insatisfaits
- 1.0-1.9 – La plus part des utilisateurs insatisfaits
Nous avons choisi un moyen d'analyse plus moderne et
complémentaire qui diffère en philosophie de ce que nous avons
décrit plus haut dans l'approche qualitative via la méthode de
notation en JND. Rappelons que leurs algorithmes comptent le nombre
d'anomalies trouvées dans les images.
L'approche
structurelle de l'analyse par similarités fournit une voie
alternative et complémentaire qui met en touche le problème de
l'évaluation traditionnelle métrique de la qualité de la vidéo.
Elle considère que le HVS, le système visuel humain, est adapté
pour extraire des informations structurelles des scènes analysées,
et qu'une mesure structurelle par comparaison serait une bonne
approximation de la qualité perçue des images visionnées. L'idée
c'est que l'oeil peut reconnaître une forme, même si cette forme
est incomplète, est floue ou affichée par blocs. Il a été prouvé
qu'une simple implémentation de similarité structurelle (SSIM)
surpasse la mesure traditionnelle métrique de la qualité des
images. Cependant l'indexe de SSIM offre les meilleures résultats
lorsqu'il est appliqué à l'échelle de distance de vue appropriée
(entre l'oeil et l'écran, hauteur de l'écran, etc). La calibration
des paramètres pris en compte comme la distance oeil écran ou comme
la résolution des images est de loin, la plus grande difficulté
dans ce genre d'approche. Pour rectifier cela, il a été défini
une échelle à différents niveaux (multi-scale, structure
similarity MS-SSIM) pour l'analyse structurelle par similarité. Dans
l'échelle MS-SSIM, les images sont évaluées à différentes
résolutions et le résultat est la moyenne des résultats des étapes
calibrées. Il a été démontré que l'analyse en MS-SSIM surpasse
celle en SSIM, même quand cette dernière est correctement calibrée
à l'environnement et aux données.
L'algorithme MS-SSIM génère un nombre par
image (ou par trame), ce nombre est comparé au résultat des
données subjectives LIVE collectées par l'étude à grande échelle
de l'université du Texas ( University of Texas). Ce nombre est
reporté dans l'échelle DMOS. DMOS est simplement la différence
entre le MOS de la video de référence et celui (MOS) de la vidéo
processée. Le « D » du DMOS pour « Différence »
(Soustraction).
Suite à de nombreux tests, Video Clarity a
créé différents cas d'étude et a noté tous les résultats. Le
graphe qui suit a été créé en utilisant comme séquence de
référence (Source) une vidéo non compressée de FootBall comparée
à la même séquence mais cette fois-ci compressée (processée) en
MPEG-2 à 15 Mb/s. Les parties qui ont obtenue les meilleures scores
sont les images en I-frame. Cette vidéo est considérée de qualité
broadcast.
L'utilisation de ClearView permet de rejeter automatiquement
les images dont la qualité perçue sort des limites qualitatives
données. La définitions des limites dépend essentiellement de
l'utilisation que l'on fera des images. Clarity a créé une charte
qualitative utilisée en interne comme exemple.
DMOS
|
Description
|
4-3.5
|
Irregardable
|
3.4999-3.0
|
Ennuyeuse
|
2.9999-0.4
|
Qualité Broadcast
|
0.3999-0.0001
|
Qualité de « Production »
|
0
|
Sans défaut
|
Vous pouvez constater que beaucoup d'images sont
irregardables. Si vous voyiez ces images vous devriez être d'accord.