Théorie du taux – distorsion – Wikipedia wiki

before-content-x4

Théorie du taux de distorsion est une branche majeure de la théorie de l’information qui fournit les fondements théoriques de la compression des données avec perte; Il aborde le problème de la détermination du nombre minimal de bits par symbole, tel que mesuré par le taux R , cela doit être communiqué sur un canal, afin que la source (signal d’entrée) puisse être approximativement reconstruite au niveau du récepteur (signal de sortie) sans dépasser une distorsion attendue D .

after-content-x4

Introduction [ modifier ]]

La théorie du taux-distorsion donne une expression analytique pour la quantité de compression que la compression peut être obtenue en utilisant des méthodes de compression avec perte. Bon nombre des techniques de compression audio, de la parole, de l’image et des vidéos existantes ont des procédures de transformations, de quantification et d’allocation de taux de bit qui capitalisent sur la forme générale des fonctions de taux-distorsion.

La théorie du taux-distorsion a été créée par Claude Shannon dans son travail fondamental sur la théorie de l’information.

Dans la théorie du taux – distorsion, le taux est généralement compris comme le nombre de bits par échantillon de données à stocker ou à transmettre. La notion de Distorsion est un sujet de discussion en cours. [d’abord] Dans le cas le plus simple (qui est réellement utilisé dans la plupart des cas), la distorsion est définie comme la valeur attendue du carré de la différence entre l’entrée et le signal de sortie (c’est-à-dire l’erreur carré moyenne). Cependant, puisque nous savons que la plupart des techniques de compression avec perte fonctionnent sur des données qui seront perçues par les consommateurs humains (écouter de la musique, regarder des images et des vidéos), la mesure de la distorsion devrait de préférence être modélisée sur la perception humaine et peut-être l’esthétique: un peu comme l’utilisation de la probabilité Dans la compression sans perte, les mesures de distorsion peuvent finalement être identifiées avec les fonctions de perte utilisées dans l’estimation bayésienne et la théorie de la décision. Dans la compression audio, les modèles perceptuels (et donc les mesures de distorsion perceptuelle) sont relativement bien développés et systématiquement utilisés dans les techniques de compression tels que MP3 ou Vorbis, mais ne sont souvent pas faciles à inclure dans la théorie du taux-distorsion. Dans la compression d’image et de vidéo, les modèles de perception humaine sont moins bien développés et l’inclusion est principalement limitée à la matrice JPEG et MPEG de pondération (quantification, normalisation).

Fonctions de distorsion [ modifier ]]

Les fonctions de distorsion mesurent le coût de la représentation d’un symbole

X {displaystyle x}

par un symbole approximatif

after-content-x4
x^{displayStyle {hat {x}}}

. Les fonctions de distorsion typiques sont la distorsion de Hamming et la distorsion d’erreur carrée.

Distorsion de Hamming [ modifier ]]

Distorsion d’erreur carrée [ modifier ]]

Fonctions de taux de distorsion [ modifier ]]

Les fonctions qui relient le taux et la distorsion sont trouvées comme la solution du problème de minimisation suivant:

Ici

Q ET X ( et X ) {displayStyle q_ {ymid x} (ymid x)}

, parfois appelé canal de test, est la fonction de densité de probabilité conditionnelle (PDF) de la sortie du canal de communication (signal compressé)

ET {displaystyle y}

pour une entrée donnée (signal d’origine)

X {displaystyle x}

, et

je Q ( ET ; X ) {displayStyle i_ {q} (y; x)}

est le informations mutuelles entre

ET {displaystyle y}

et

X {displaystyle x}

défini comme

H ( ET ) {displayStyle h (y)}

et

H ( ET X ) {displayStyle h (ymid x)}

sont l’entropie du signal de sortie ET et l’entropie conditionnelle du signal de sortie étant donné le signal d’entrée, respectivement:

Le problème peut également être formulé comme une fonction de distorsion-taux, où nous trouvons l’infimum sur les distorsions réalisables pour la contrainte de taux donnée. L’expression pertinente est:

Les deux formulations conduisent à des fonctions qui sont inversées les unes des autres.

Les informations mutuelles peuvent être comprises comme une mesure pour l’incertitude «antérieure» que le récepteur a sur le signal de l’expéditeur ( H ( ET )), diminué par l’incertitude qui reste après avoir reçu des informations sur le signal de l’expéditeur (

H ( ET X ) {displayStyle h (ymid x)}

). Bien sûr, la diminution de l’incertitude est due à la quantité communiquée d’informations, qui est

je ( ET ; X ) {displayStyle ileft (y; xRight)}

.

Par exemple, en cas de cas Non communication du tout, alors

H ( ET X ) = H ( ET ) {displayStyle h (ymid x) = h (y)}

et

je ( ET ; X ) = 0 {displayStyle i (y; x) = 0}

. Alternativement, si le canal de communication est parfait et le signal reçu

ET {displaystyle y}

est identique au signal

X {displaystyle x}

à l’expéditeur, alors

H ( ET X ) = 0 {displayStyle h (ymid x) = 0}

et

je ( ET ; X ) = H ( X ) = H ( ET ) {DisplayStyle i (y; x) = h (x) = (y)}

.

Dans la définition de la fonction taux-distorsion,

D Q {displayStyle d_ {q}}

et

D {displayStyle d ^ {*}}

sont la distorsion entre

X {displaystyle x}

et

ET {displaystyle y}

pour une donnée

Q ET X ( et X ) {displayStyle q_ {ymid x} (ymid x)}

et la distorsion maximale prescrite, respectivement. Lorsque nous utilisons l’erreur quadratique moyenne comme mesure de distorsion, nous avons (pour les signaux continues de l’amplitude):

Comme le montrent les équations ci-dessus, le calcul d’une fonction de taux-distorsion nécessite la description stochastique de l’entrée

X {displaystyle x}

en termes de PDF

P X ( X ) {displayStyle p_ {x} (x)}

, puis vise à trouver le PDF conditionnel

Q ET X ( et X ) {displayStyle q_ {ymid x} (ymid x)}

qui minimisent le taux pour une distorsion donnée

D {displayStyle d ^ {*}}

. Ces définitions peuvent être formulées en théorie pour tenir compte des variables aléatoires discrètes et mixtes.

Une solution analytique à ce problème de minimisation est souvent difficile à obtenir, sauf dans certains cas pour lesquelles nous proposons ensuite deux des exemples les plus connus. La fonction de taux-distorsion de toute source est connue pour obéir à plusieurs propriétés fondamentales, les plus importantes étant qu’il s’agit d’une fonction convexe (U) continue et décroissante monotone et donc la forme de la fonction dans les exemples est typique (même le taux mesuré mesuré –Les fonctions de distorsion dans la vie réelle ont tendance à avoir des formes très similaires).

Bien que les solutions analytiques à ce problème soient rares, il existe des limites supérieures et inférieures à ces fonctions, notamment la célèbre borne inférieure de Shannon (SLB), qui dans le cas d’une erreur carrée et de sources sans mémoire, indique que pour des sources arbitraires avec une entropie différentielle finie,

H ( D ) est l’entropie différentielle d’une variable aléatoire gaussienne avec la variance D. Cette limite inférieure est extensible aux sources avec la mémoire et d’autres mesures de distorsion. Une caractéristique importante du SLB est qu’elle est asymptotiquement serrée dans le régime de faible distorsion pour une large classe de sources et à certaines occasions, il coïncide en fait avec la fonction de taux-distorsion. Les limites inférieures de Shannon peuvent généralement être trouvées si la distorsion entre deux nombres peut être exprimée en fonction de la différence entre la valeur de ces deux nombres.

L’algorithme de Blahut – Arimoto, co-inventé par Richard Blahut, est une technique itérative élégante pour obtenir des fonctions de taux de taux et de distorsion numérique des sources d’alphabet d’entrée / sortie finies arbitraires et beaucoup de travail a été fait pour l’étendre à des instances de problèmes plus générales.

Lorsque vous travaillez avec des sources stationnaires avec de la mémoire, il est nécessaire de modifier la définition de la fonction de distorsion de taux et il doit être compris dans le sens d’une limite de séquences prises en fonction des longueurs croissantes.

et

où les exposés indiquent une séquence complète jusqu’à ce moment et l’indice 0 indique l’état initial.

Source gaussienne sans mémoire (indépendante avec une distorsion d’erreur carrée [ modifier ]]

Si nous supposons que

X {displaystyle x}

est une variable aléatoire gaussienne avec variance

un 2 {displayStyle Sigma ^ {2}}

, et si nous supposons que des échantillons successifs du signal

X {displaystyle x}

sont stochastiques indépendantes (ou de manière équivalente, la source est sans mémoire ou le signal est non corrélé ), nous trouvons l’expression analytique suivante pour la fonction de taux-distorsion:

La figure suivante montre à quoi ressemble cette fonction:

Rate distortion function.png

La théorie du taux-distorsion nous dit qu ‘«aucun système de compression n’existe qui se produit en dehors de la zone grise». Plus un système de compression pratique est proche de la limite rouge (inférieure), mieux elle fonctionne. En règle générale, cette limite ne peut être atteinte qu’en augmentant le paramètre de longueur de bloc de codage. Néanmoins, même chez les longues de blocs d’unité, on peut souvent trouver de bons quantités (scalaires) qui fonctionnent à des distances de la fonction de taux-distorsion qui sont pratiquement pertinentes. [2]

Cette fonction de taux-distorsion ne vaut que pour les sources sans mémoire gaussiennes. Il est connu que la source gaussienne est la source la plus “difficile” à encoder: pour une erreur quadratique moyenne, elle nécessite le plus grand nombre de bits. Les performances d’un système de compression pratique travaillant – par exemple -, peuvent bien être inférieures à la

R ( D ) {DisplayStyle Rleft (Dright)}

Bound inférieur indiqué.

Source de Bernoulli sans mémoire (indépendante) avec distorsion de Hamming [ modifier ]]

La fonction de débit-distorsion d’une variable aléatoire de Bernoulli avec distorsion de Hamming est donnée par:

after-content-x4