Clearview - Les raisons d'effectuer un monitoring qualitatif
Bill Reckwerdt, CTO
Video Clarity, Inc.
La mesure de la qualité vidéo et
audio a pris une grande importance depuis que l'on communique et que
l'on interagit avec ces nouveaux média.
Le but dans l'analyse de la qualité (
quality assessment (QA), c'est de mesurer la qualité en accord avec
l'observation humaine du résultat. Des recherches considérables
sont menées afin de trouver les solutions à ce problème.
Les nouveaux services vidéo, IPTV,
VOD, P2P streaming fournissent de plus en plus d'options à leurs
clients. Qu'est-ce qui arriverait si l'un de ces services fournissait
une qualité vidéo très médiocre ?
L'identification simple que les données
ont été reçues avec de nombreuses erreurs n'est plus suffisant.
Nous avons besoin de définir ce qui affecte la qualité de la vidéo
en passant par l'organisation de la notation selon la sévérité de
l'emplacement des erreurs. Maintenant les clients ont leur propre
opinion sur la qualité de la vidéo, il sont devenus des experts.
Lorsque la qualité de la vidéo se dégrade, ils appelleront
immédiatement la chaîne concernée. Un fournisseur de services qui
n'est pas sensibilisé à cela perdra des revenues et peut-être même
des clients qui partiront chez le concurrent. C'est pour cela qu'il
est impératif de fournir un système de monitoring et d'analyse
adhoc. Cette étude montrera la méthodologie pour évaluer la
qualité de la vidéo en comparant 2 points du réseau, en utilisant
une technique complète de comparaison par rapport à une qualité de
référence.
Définition des termes
CBR – Constant Bit-Rate Taux constant
d'encodage et de compression.
DMOS – En comparant un flux AV avec
un autre flux AV, la vidéo est jugée en utilisant la notation Mean
Opinion Scale. un jugement d'opinion. Sur cette échelle, 0 serait
parfait.
Full Reference – L'évaluation de la
qualité vidéo lorsqu'on peut comparer l'original à la vidéo
processée. Cette méthode mesure la différence de qualité, elle
est en opposition avec la méthode qui devine comment la vidéo
devrait être.
Grooming – Choisir des programmes
parmi de multiples MPTS et former un nouveau MPTS
GS – Guaranteed Service – Se réfère
à un réseau qui alloue un espace pour un stream à un débit défini
Headroom – Les encodeurs sont
autorisés d'allouer plus de bits que le taux moyen de transfert
alloué lorsque la scène est difficile à compresser. Headroom c'est
cet espace supplémentaire pré-alloué au cas ou cela arrive.
Lossless – L'algorithme de compression
qui restaure la qualité originale à l'audio et la vidéo.
Lossy – L'algorithme de compression
qui ne respectera pas la restauration de la qualité originale de
l'audio et de la vidéo.
MPEG – Moving Pictures Experts Group
– Le nom informel de ISO/IEC JTC1/SC29 WG11 responsable de la
standardisation MPEGX
MPTS – un bouquet. Des programmes
multiples sont combinés ensemble afin d'être envoyés comme un seul
programme lorsqu'un certain débit a été pré-alloué.
PSNR – Une mesure métrique qui
compare un ensemble de valeurs de référence à un ensemble de
valeurs processées, comparaison des erreurs visibles, des blocs.
Quality of Experience (QoE) – Mesure
de la qualité en respect avec ce que voit et entend l'utilisateur
final.
STB – Set-top Box
VBR – Variable Bit-Rate, Encodage et
compression à taux variables.
VCEG – Visual (Video) Coding Experts
Group – Le nom informel pour Visual Coding Working Party 3 des
études.
Group 16 de ITU-T responsable pour les
standardisations H.26X, JPEGX, et JBIG-X.
Video Quality – La qualité vidéo
intègre ensemble images et son.
Background
La plus part des vidéo sont
digitalisées et compressées pour leur permettre d'être transmises
au travers de moyens de transmission existants: Satellite, microwave,
fiber, et Internet. La seule exception réside dans la transmission
de vidéos analogiques, ce sont des formats progressivement abandonnés.
Les standards de-facto de la vidéo
sont les formats définis par VCEQ et MPEG.
Leur généralisation est
due à: - Il n'y a pas de restriction sur
l'implémentation des encodeurs vidéo (outils de compression).
- Les capacités des décodeurs
vidéo (Set-top box, PC) sont complètement définies en niveaux et
en profiles (levels & profiles).
-
Les standards intègrent la
vidéo, l'audio, le transport et les fonctions de timing.
Ces formats vidéo englobent: MPEG-1,
MPEG-2 (DVD), H.263 (vidéo surveillance), MPEG-4/H.264 (standard de
la nouvelle génération), JPEG (images fixes), JPEG-2000 (archive) –
juste pour n'en nommer que quelques uns. Avec comme exception
possible le format JPEG-2000, ils sont tous « Lossy »
(des informations sont perdues à la compression. Cela signifie que
la qualité après compression n'est plus la même que celle de
l'orignal). Le JPEG-2000 peut être Lossy et aussi mathématiquement
LossLess (sans perte).
En pratique, tous les encodeurs
« Lossy » (qui fonctionnent à perte) génèrent des
artefacts, (endroits où la reproduction visuelle/audible est
dégradée). Si l'encodeur a été développé dans les règles de
l'art, si la bande passante allouée au signal est suffisante pour le
transporter alors les artefacts seront virtuellement invisibles. La
qualité des encodeurs et le choix des réglages appropriés peuvent
être vérifiés en mode Offline (Pas en temps réel) en utilisant un
outil d'analyse quantitative comme le ClearView.
Si un encodeur de qualité a été
choisi et que ses réglages ont été peaufinés, des erreurs de
temps réel peuvent quand même se produire,
elles sont dues à:
- La Compression en temps réel
-
L'insertion de publicités
-
Les statistiques de multiplexage
-
Re-encodage
-
Système de transmission
La Compression en temps réel
Les compressions en temps réel sont
nécessaires pour les transmissions de direct (et/ou
retransmissions). L'outil de compression (l'encodeur) s'applique à
fournir des flux de la meilleure qualité possible. Il y a deux
manières d'encoder:
-
Constant Bit Rate (CBR), à
taux constant
- Variable Bit Rate (VBR), à taux
variable
Les encodeurs vidéo, basés sur des
compressions inter et intra images (Ceux mentionnés ci-dessus, à
l'exception du JPEG) diminuent les taux de compression en réduisant
les informations redondantes entre une image et l'image qui suit.
Pour des scènes sans mouvements significatifs importants (Scènes à
forte redondance) ces encodeurs sont efficaces. Lorsque des
mouvements rapides se produisent alors cela devient plus compliqué
pour eux. La vidéo est, par nature, dynamique. Imaginons une scène
où un couple marche dans un parc. Cette scène ne possède pas de
mouvements significatifs. Si, soudainement, la scène change pour
inclure un véhicule qui arrive face à eux à vive allure, cela crée
un mouvement considérable dans l'image.
La technique VBR produit des vidéos de
meilleures qualité car elle change les taux de compression en
rapport avec la complexité de la scène. Plus il y a de bit, plus la
bande passante du flux sera élevée. La plus part du temps, la bande
passante de streaming est fixée sur le réseau, il n'est pas
possible, dans ce cas, d'utiliser un encodage VBR.
Les applications où la bande passante
est figée sont gérées en CBR – Internet, CableTV, Satellite TV,
et IPTV.
Le mode CBR sait s'adapter avec un taux
de transfert dans le temps constant, mais où le bit-rate instantané
est plus haut ou plus bas en rapport avec la complexité de la scène
encodée. Des buffers pour lisser les variations des complexités
sont utilisés pour réduire les effets causées par ces scènes en
mouvement. Ils sont connus sous le nom d'allocation de place
(headroom), ils devront être suffisamment alloués pour chaque types
de matériels (images).
Pour des compressions en temps réel,
il est très important de laisser assez de place aux headrooms.
Lorsque les headrooms ne sont pas suffisamment provisionnés, alors
des erreurs se produisent.
Les encodages qui ne se font pas en
temps réel s'appellent des encodages de fichiers. Le spécialiste
d'encodage peut prendre son temps pour encoder/ré-encoder les
éléments sur les bases de son expertise. Les problèmes de headroom
sont éliminés par son savoir faire. Les flux et fichiers sont joués
à partir d'un serveur vidéo ou écrit sur un DVD.
L'insertion de publicités
C'est le procédé d'insérer un
message de publicité dans le flux. Les pubs peuvent être insérées
à différents niveaux, national, géographique, ou démographique.
Normalement un signal digital audio (cue tone) est généré pour
dire au serveur de publicités de jouer la pub à la place du flux
normal des programmes.
Un autre signal sera généré pour le
retour au programme normal.
Des problèmes peuvent subvenir au
moment de la commutation si:
- La résolution ou l'aspect ratio
entre le programme et la pub sont différents
- La pub démarre trop tôt ou trop
tard
- La pub générée par l'encodeur
en temps réel demande plus de headroom
Les statistiques de multiplexage
Les broadcasters achètent des
quantités de bande passante fixes. Pour en maximiser l'utilisation,
il font passer le maximum de chaînes de télévision dans cette
bande passante. La technique normale pour le faire s'appelle la
statistique de multiplexage (Statistical Multiplexing). La
Statistical Multiplexing est une technique qui
combine un nombre de sources hétéroclites et sans corrélation
entre elles, ensemble afin que leur trafic maximum n'excède jamais
la capacité de la liaison. Les sorties d'un ensemble d'encodeurs
sont combinés par un multiplexeur afin de constituer un bouquet
unique, multi-program transport stream (MPTS). Chaque encodeur reçoit
l'information du taux d'encodage et le multiplexeur contrôle la
somme des trafics. Lorsqu'un encodeur est confronté à des scènes
complexes, il demandera plus de bande passante. Le multiplexeur va
chipper des bits aux autres encodeurs et les alloue à l'encodeur en
demande. Si plusieurs encodeurs ont des demandes concomitantes
simultanées, des problèmes se produisent. le multiplexer refusera
les demandes des encodeurs ou abandonnera les données (drop
frames). Dans les deux cas la qualité de la vidéo en pâtira.
Le Statistical multiplexing est très
important lorsque la livraison de données vidéo se fait au travers
de flux de transmission prédéfinis – satellite, microwave,et
fibre. La bande passante souscrite est garantie et l'utilisateur
voudra l'utiliser à son maximum pour rentabiliser ses dépenses.
Quelques multiplexers (développés par
Divicom (maintenant Harmonic – www.harmonicinc.com) utilisent une
technique d'évaluation avancée pour les statistiques de
multiplexage. L'encodage se fait en deux phases. La première calcule
le taux du débit et donne l'information en avance au multiplexer
qui pourra la changer si nécessaire dans le but d'éviter une
sur-demande avant qu'elle ne se produise.
Re-encodage
Une autre approche qui est similaire à
la Statistical Multiplexing est connue sous le nom de Re-Encoding. Ce
n'est pas une opération de décodage complet suivi d'un encodage.
Lorsqu'un décodage complet est réalisé il est préférable
d'utiliser un Statistical Multiplexer.
Le Re-encodage modifie un flux digital
compressé existant en temps réel sans décodage. Lorsqu'un
broadcaster ré-émet des programmes qu'il tire de sources
multiples, les combinant et les envoyant sur ses chaînes via des
liaisons fibre, satellite ou microwave il utilisera certainement la
méthode de ré-encodage. Un tel broadcaster pourra être une TV par
câble, satellite ou un opérateur TV via IP (IPTV operator).
Le Re-encoding donne une structure
constituante à la syntax de compression et enlève certains détails
de l'encodage pour l'insertion dans un nouveau bouquet MPTS. Il est
normalement réalisé en conjonction avec un multiplexer de systèmes,
lorsque l'on veut créer un bouquet (MPTS) à partir d'autres
bouquets existants.
Encore une fois les scènes complexes
peuvent causer des situations qui excèdent les capacités des flux
alloués, avec comme résultante directe la dégradation de la
qualité de la vidéo.
Systèmes de transmission
La vidéo est transmise via un service
garanti (GS - microwave, satellite ou IP) ou un service à contrôle
de charge (IP). A controlled load service is a best-effort service. A
cause de l'augmentation exponentielle de la demande vers des réseaux IP
de nouvelle génération cette méthode demande la création
considérable de données.
Même dans le cas d'un service réseau
garanti, des erreurs de transmission se produisent. Les flux sont
envoyés au travers de nombreux routers qui peuvent retarder les
paquets (Ce qui cause des vibrations dans l'image), qui peuvent
re-router les paquets (causant des pertes et des remises en ordre) ou
simplement en faisant tomber le flux réseau.
Dans le meilleur réseau, des erreurs
de bit se produisent.
Monitoring des erreurs en temps réel
« Des erreurs se produiront »
est une lapalissade. Quels seront les effets sur la qualité de la
vidéo ?
Cela dépends du type de compression.
En général pour des algorithmes basés sur les blocs – MPEGx,
H.26x, les images sont divisées en trois catégories:
- Intra frames (I) – Une image
entière
- Predicted frames (P) – (images
prédites) elle retient les changements par rapport à l'image
précédente
- Bi Predictive frames (B) – Elles
retient les différences entre l'image précédente et la suivante
Si une I-frame est perdue ou corrompue
la qualité de la vidéo sera affectée jusqu'à la prochaine image
entière valide. Si une P-frame est perdue alors la zone affectée
fournira une vidéo à qualité réduite jusqu'à la prochaine
P-frame ou I-Frame valide. Si une B-frame est perdue l'effet sur la
qualité sera minime.
Comment savoir quel type d'image a été
perdu ? Les I-frames sont les plus nombreuses suivies par les P, puis
par les B. Certains algorithmes tentent d'examiner intelligemment la
taille des paquets. D'autres effectuent une analyse minutieuse des
paquets et lisent la syntaxe du flux. Les analyses minutieuses
prennent beaucoup de temps et les broadcasters encryptent leurs
services en rendant cette analyse impossible.
Les Set-top boxes (STB) sont des outils
« informatisés » qui reçoivent des signaux digitaux
compressés, les décryptent, les décodent et les convertissent en
format analogique ou digital afin qu'ils s'affichent correctement sur
un téléviseur. Une STB peut être un boîtier externe, intégrée à
un téléviseur, dans un PC, une console de jeux, etc, indépendamment
de pouvoir recevoir la télé, se connecter à un réseau, jouer avec
des jeux et surfer sur Internet. L'une de ses fonctions primaires est
de détecter les erreurs, les résoudre ou de les dissimuler.
Elle le
fait en:
- Gelant la dernière image entière
ou partielle
- Demandant une retransmission
(solution Microsoft IPTV)
Certaines STB effectuent un travail
exceptionnelle de dissimulation des erreurs. C'est la raison pour
laquelle le monitoring de contrôle doit être effectué en sortie de
STB.
Pourquoi s'inquiéter ?
A cause de l'augmentation exponentielle de la demande vers des réseaux
IP de
nouvelle génération la demande de création de données est
considérable.
Le monitoring devra retourner 3
paramètres basiques:
- La connaissance des problèmes survenues
- L'effet sur la perception finale,
(chez le client )
- L'endroit de l'erreur – quels
points ont causés le problème
Armé de ces réponses, le fournisseur
d'accès peut:
- Réparer l'erreur
- Prévenir de futures erreurs
Pour toutes ces raisons, la meilleure
place pour le monitoring qualificatif, c'est partout. Cela est bien
sûr irréalisable, le monitoring devra être installé après:
-
L'insertion Pub (Master
Control)
- L'encodeur en temps réel
- Le Multiplexer Statistique
-
Le Re-encodeur
-
Le Transmitteur
Master Control Workflow
Le monitoring des phases initiales peut
donner une compréhension plus précise de la cause de l'erreur. Si
l'outil de monitoring peut sauvegarder les états des erreurs, alors
une analyse approfondie pourra être effectuée pour les résoudre.
Enfin, un système de monitoring bien élaboré réduira les couts,
et fournira une solution sur le long terme.
Le Video Clarity RTM
Nous savons que des erreurs AV se
produisent, RTM compare le flux de transmission après le STB,
avertit lorsque des erreurs visuelles, audio, et ancillary se
produisent, prévient des décalages audio vidéo et enregistre les
résultats des erreurs.
RTM fournit des informations pour
choisir un plan de réparation.
En résumé RTM
- Lit & Aligne 2 sources vidéo
live
- Monitore la qualité A/V
- Monitore le VANC
- Calcule le décalage A/V Sync
(Lip-sync)
- Sauvegarde les flux où des
erreurs se sont produites pour une analyse OffLine
Un monitoring hardware
pour l'analyse de la qualité vidéo
Les alertes peuvent être utilisées de
différentes manières qui dépendent de la complexité technique
chez le broadcaster:
- commutation d'un flux A vers un
flux B (alternative) automatiquement
- déclenchement d'une
retransmission
- l'erreur peut être sauvegardée
pour analyse postérieure afin d'éviter des problèmes futurs
Video Clarity ClearView Solution
ClearView Video Analysis génère des
signaux de tests, capture des éléments live, il accepte des
fichiers compressés et non-compressés. Il calcule les scores DMOS,
JND, et/ou PSNR. Il utilise les algorithmes Sarnoff/PQR portés par
JND (avec l'utilisation de la base de données VQEG) et l'algorithme
MS-SSIM porté par DMOS (avec l'utilisation de la base de données
live de University of Texas' ). Il permet aussi la lecture de test
patterns pour des tests subjectifs, l'analyse du signal de
“référence”et celui “processed” côte à côte ou pour une
évaluation personnelle.
Traduction AV2P, à propos du texte
original
Bill Reckwerdt has been involved in
digital video since the early 90’s from digital compression, video
on demand, to streaming servers. He received his MS specializing in
Behavioral Modeling and Design Automation from the University of
Illinois Urbana-Champaign.
He is currently the VP of Marketing
and the CTO for Video Clarity, which makes quantitative, repeatable
video quality testing tools.