Teoría de La Información

Teoría de la información
5,1 Introducción
Como se mencionó en Capítulo 1 y reiterado a lo largo del camino, el propósito
de un sistema de comunicación es facilitar la transmisión de señales generadas
por una fuente de información a través de un canal de comunicación. Pero, en
términos básicos, ¿qué entendemos por el término información? Para abordar
esta importante cuestión, necesitamos entender los fundamentos de la teoría
de la información.1
La razón para estudiar los fundamentos de la teoría de la información en esta
primera etapa del libro es triple:
1. La teoría de la información hace uso extensivo de la teoría de la
probabilidad, que estudiamos en Capítulo 3; por lo tanto, es un seguimiento
lógico de ese capítulo.
2. Añade significado al término "información" utilizado en los capítulos
anteriores del libro.
3. Lo más importante es que la teoría de la información allana el camino para
muchos conceptos y temas importantes que se discuten en los capítulos
siguientes.
En el contexto de las comunicaciones, la teoría de la información trata sobre
el modelado matemático y el análisis de un sistema de comunicación en lugar
de con fuentes físicas y canales físicos. En particular, proporciona respuestas a
dos preguntas fundamentales (entre otras):
1. ¿Cuál es la complejidad irreducible, por debajo de la cual no se puede
comprimir una señal?
2. ¿Cuál es la máxima velocidad de transmisión para una comunicación fiable
en un canal ruidoso?
Las respuestas a estas dos preguntas residen en la entropía de una fuente y la
capacidad de un canal, respectivamente:
1. Entropía se define en términos del comportamiento probabilístico de una
fuente de información; se llama así en deferencia al uso paralelo de este
concepto en termodinámica.
2. Capacidad se define como la capacidad intrínseca de un canal para
transmitir información; se relaciona naturalmente con las características del
ruido del canal.
Un resultado notable que emerge de la teoría de la información es que si la
entropía de la fuente es menos que la capacidad del canal, entonces,
idealmente, la comunicación error-libre sobre el canal puede ser alcanzada.
Por lo tanto, es apropiado que comencemos nuestro estudio de la teoría de la
información discutiendo las relaciones entre la incertidumbre, la información
y la entropía.
5,2 Entropía
Supongamos que un experimento probabilístico implica la observación de la
salida emitida por una fuente discreta durante cada intervalo de señalización.
La salida de origen se modela como un proceso estocástico, una muestra de la
cual es denotada por la variable aleatoria discreta S. Esta variable aleatoria
adquiere símbolos del finito fijo Alfabeto
Con Probabilidades
Por supuesto, este conjunto de probabilidades debe satisfacer la propiedad de

normalización
Asumimos que los símbolos emitidos por la fuente durante los intervalos de
señalización sucesivos son estadísticamente independientes. Dado este
escenario, ¿podemos encontrar un Medida ¿de cuánta información es
producida por tal fuente? Para responder a esta pregunta, reconocemos que
la idea de información está estrechamente relacionada con la de
incertidumbre o sorpresa, como se describe a continuación.
Considere el evento S = sk, describiendo la emisión de símbolo sk por la fuente
con probabilidad pk, como se define en (5,2). Claramente, si la
probabilidad pk = 1 y pi = 0 para todos i ≠ k, entonces no hay "sorpresa" y, por
lo tanto, no "información" cuando el símbolo sk se emite, porque sabemos lo
que el mensaje de la fuente debe ser. Si, por el contrario, los símbolos de la
fuente ocurren con diversas probabilidades y la probabilidad pk es baja,
entonces hay más sorpresa y, por lo tanto, la información cuando el
símbolo sk es emitido por la fuente que cuando otro símbolo si, i ≠ k, con mayor
probabilidad se emite. Así, las
palabras Incertidumbre, SorpresaY Información están todos relacionados.
Antes el evento S = sk ocurre, hay una cantidad de incertidumbre. Cuando el
evento S = sk ocurre, hay una cantidad de sorpresa. Después de la ocurrencia
del acontecimiento S = sk, hay ganancia en la cantidad de información, cuya
esencia puede ser vista como la resolución de incertidumbre. Lo más
importante es que la cantidad de información está relacionada con la inversa
de la probabilidad de ocurrencia del evento S = sk.
Definimos el cantidad de información ganado después de observar el
evento S = sk, que ocurre con probabilidad pk, como la función logarítmica2
que a menudo se denomina "auto-información" del evento S = sk. Esta

definición exhibe las siguientes propiedades importantes que son
intuitivamente satisfactorias:
Property 1
Obviamente, si estamos absolutamente Ciertos del resultado de un evento,

incluso antes de que ocurra, hay no información obtenida.
Property 2
Es decir, el ocurrencia de un evento S = sk proporciona o no información, pero

nunca produce una Pérdida de información.
Property 3
Es decir, cuanto menos probable sea un evento, mayor será la información que
ganemos cuando ocurra.
Property 4
I(sk, sl) = I(sk) + I(sl) si sk Y sl son estadísticamente independientes
Esta característica aditiva sigue de la definición logarítmica descrita en (5,4).

La base del logaritmo en (5,4) especifica las unidades de medida de
información. Sin embargo, es práctica estándar en teoría de la información
utilizar un logaritmo a base 2 con señalización binaria en mente. El resultado
la unidad de información se denomina Poco, que es una contracción del dígito
binario de las palabras. Que Así Escribir
Cuando pk = 1/2, tenemos I(sk) = 1 bit. Por lo tanto, podemos decir:
Un bit es la cantidad de información que ganamos cuando se

produce uno de los dos eventos posibles e igualmente probables (es
decir, equiprobables).
Tenga en cuenta que la información I(sk) es positivo, porque el logaritmo de un

número menor que uno, como una probabilidad, es negativo. Tenga en cuenta
también que si pk es cero, entonces la auto-información Isk asume un valor
ilimitado.
La cantidad de información I(sk) producido por la fuente durante un intervalo
de señalización arbitraria depende del símbolo sk emitido por la fuente en ese
momento. La uno mismo-información I(sk) es una variable aleatoria discreta
que adquiere los valores I(s0), I(s1),...,I(sK – 1) con probabilidades p0, p1,...,pK –
1 Respectivamente. Lla Expectativa De I(sk) sobre todos los valores probables
tomados por la variable aleatoria S se da por

La cantidad H(S) se llama el Entropía,3definidos formalmente como sigue:
La entropía de una variable aleatoria discreta, que representa la

salida de una fuente de información, es una medida del contenido
de información promedio por símbolo de fuente.
Tenga en cuenta que la entropía H(S) es independiente del alfabeto ;

depende solamente de las probabilidades de los símbolos en el alfabeto de
la fuente.
PROPIEDADES DE LA ENTROPÍA
Basándose en la definición de entropía dada en (5,9), encontramos que la
entropía de la variable aleatoria discreta S se limita de la siguiente manera:
Donde K es el número de símbolos en el alfabeto .

Elaboración de los dos límites de la entropía en (5,10), ahora hacemos dos
declaraciones:
1. H(S) = 0, si, y sólo si, la probabilidad pk = 1 para algunos k, y las
probabilidades restantes en el conjunto son cero; Este límite inferior de la
entropía corresponde a sin incertidumbre.
2. H(S) = log K, si, y sólo si, pk = 1/K para todos k (es decir, todos los símbolos
en el alfabeto de origen son equiprobables); Este límite superior en la
entropía corresponde a la incertidumbre máxima.
Para probar estas propiedades de H(S), procedemos como sigue. En primer
lugar, ya que cada probabilidad pk es menor o igual a la unidad, se deduce que
cada término pkRegistro21pk), en (5,9) siempre es no negativo, por lo que H(S)
≥ 0. A continuación, observamos que el término del producto pk Registro21pk)
es cero si, y sólo si, pk = 0 o 1. Por lo tanto deducimos que H(S) = 0 si, y sólo
si, pk = 0 o 1 para algunos k y el resto son cero. Esto completa las pruebas del
límite inferior en (5,10) y declaración 1.
Para probar el límite superior en (5,10) y la declaración 2, hacemos uso de una
propiedad del logaritmo natural:
donde loge es otra forma de describir la logaritmo natural, comúnmente

denotada por LN; ambas notaciones se utilizan indistintamente. Esta
desigualdad se puede verificar fácilmente trazando las funciones Enx yx – 1)
versus x, como se muestra en Figura 5,1. Aquí vemos que la línea y = x – 1
siempre está por encima de la curva y = Registroex. La igualdad sólo se
mantiene en el punto x = 1, donde la línea es tangencial a la curva.
Para proceder con la prueba, considere primero las dos distribuciones de
probabilidad diferentes denotadas por p0, p1,...,pK – 1 Y q0, q1,...,qK – 1 en el
alfabeto = {s0, s1,...,sK – 1) de una fuente discreta. Podemos entonces definir
el entropía relativa de estas dos distribuciones:
Figura 5,1 Gráficas de las funciones x – 1 y log x Versus x.
Por lo tanto, cambiando al logaritmo natural y utilizando la desigualdad

de (5,11), podemos expresar la suma en la parte derecha de (5,12) como sigue:
donde, en la tercera línea de la ecuación, se observa que las sumas
sobre pk Y qk son iguales a la unidad de acuerdo con (5,3). Que Así Hve
Lla Fundamental Propiedad De Probabilidad Teoría:
En palabras, (5,13) Estados:
La entropía relativa de un par de diversas distribuciones discretas es

siempre no negativa; es cero sólo cuando las dos distribuciones son
idénticas.
Supongo Que Próxima Poner
que corresponde a un alfabeto de origen Con equiprobables Símbolos.

Usando Este Distribución En (5,12)Rendimientos
donde hemos hecho uso de (5,3) Y (5,9). Ahí, Invocar Lla Fundamental
Desigualdad De (5,13), Que Puede Finalmente Escribir
Así H(S) es siempre menor o igual a log2K. La igualdad sostiene si, y sólo si, los
símbolos en el alfabeto son equiprobables. Esto completa la prueba
de (5,10) y con él las declaraciones de acompañamiento 1 y 2.
Ejemplo 1 Entropía de la variable aleatoria de Bernoulli
Para ilustrar las propiedades de H(S) resumido en (5,10), considere la variable
aleatoria de Bernoulli para la que se produce el símbolo 0 con probabilidad p0 y
el símbolo 1 con probabilidad p1 = 1 – p0.
La entropía de esta variable aleatoria es
de la cual observamos lo siguiente:

1. Cuando p0 = 0, la entropía H(S) = 0; Esto sigue del hecho de
que xRegistroe x → 0 como x → 0.
2. Cuando p0 = 1, la entropía H(S) = 0.
3. La entropía H(S) alcanza su valor máximo HMax = 1 bit cuando p1 = p0 = 1/2;
Esto es, cuando los símbolos 1 y 0 son igualmente probables.
En otras palabras, H(S) es simétrico sobre p0 = 1/2.
La función de p0 dado en la parte derecha de (5,15) se encuentra con
frecuencia en problemas teóricos de la información. Por lo tanto, es habitual
asignar un símbolo especial a esta función. Específicamente, Que Definir
Nos referimos a H(p0) como el función de la entropía. La distinción

entre (5,15) Y (5,16) debe ser cuidadosamente observado. Lla H(S)
de (5,15) da la entropía de la variable aleatoria de Bernoulli S. Lla H(p0)
de (5,16), por otro lado, es una función de la probabilidad previa p0 definido
en el intervalo [0,1]. En consecuencia, podemos trazar la función de
entropía H(p0) versus p0, definido en el intervalo [0,1], como se muestra
en Figura 5,2. La curva en Figura 5,2 destaca las observaciones realizadas en
los puntos 1, 2 y 3.
Figura 5,2 Función de la entropía H(p0).
EXTENSIÓN DE UNA FUENTE INMEMORIAL DISCRETA

Para añadir especificidad a la fuente discreta de símbolos que ha sido el foco
de atención hasta ahora, ahora asumimos que es memoria en el sentido de
que el símbolo emitido por la fuente en cualquier momento es independiente
de las emisiones anteriores y futuras.
En este contexto, a menudo nos resulta útil considerar Bloques en lugar de
símbolos individuales, con cada bloque formado por n fuente sucesiva
Símbolos. Podemos ver cada bloque tal como producido por un fuente
extendida con un alfabeto de origen descrito por el producto cartesiano de un
conjunto Sn que ha KnDistintas bloques, donde K es el número de símbolos
distintos en el alfabeto de origen S de la fuente original. Con los símbolos de la
fuente que son estadístico independientes, sigue que la probabilidad de un
símbolo de la fuente en Sn es igual al producto de las probabilidades de
la n símbolos de origen en S que constituyen un símbolo fuente particular
de Sn. Por lo tanto, intuitivamente podemos esperar que H(Sn), la entropía de
la fuente extendida, es igual a n Veces H(S), la entropía de la fuente original.
Que Es, Que Puede Escribir
Ilustramos la validez de esta relación por medio de un ejemplo.

Ejemplo 2 Entropía de la fuente extendida
Considere una fuente sin memoria discreta con alfabeto de origen =
{s0, s1, s2}, cuyos tres símbolos distintos tienen las siguientes probabilidades:
Por lo tanto, el uso de (5,9) rinde la entropía de la variable aleatoria
discreta S representación de la fuente como
Considere siguiente la extensión de segundo orden de la fuente. Con el

alfabeto de origen consistiendo en tres símbolos, sigue que el alfabeto de la
fuente de la fuente extendida S(2 tiene nueve símbolos. La primera fila de Tabla
5,1 presenta los nueve símbolos de S2Denota Por σ0, σ1,...,σ8. La segunda fila de
la tabla presenta la composición de estos nueve símbolos en términos de las
secuencias correspondientes de símbolos de origen s0, s1Y s2, tomado dos a la
vez. Las probabilidades de los nueve símbolos fuente de la fuente extendida
se presentan en la última fila de la tabla. En consecuencia, el uso
de (5,9) produce la entropía de la fuente extendida como
Tabla 5,1 Alfabetos de extensión de segundo orden de una fuente inmemorial discreta
Así vemos que H(S 2) = 2H(S) de acuerdo con (5,17).
5,3 Teorema de código fuente

Ahora que entendemos el significado de la entropía de una variable aleatoria,
estamos equipados para abordar un tema importante en la teoría de la
comunicación: la representación de los datos generados por una fuente
discreta de información.
El proceso por el cual se realiza esta representación se llama codificación de
origen. El dispositivo que realiza la representación se denomina codificador de
fuente. Por razones que se describen, puede ser deseable conocer las
estadísticas de la fuente. En particular, si se sabe que algunos símbolos de
origen son más probables que otros, entonces podemos explotar esta
característica en la generación de un código
fuente asignando Corto Codewords a Frecuente símbolos de origen
y Largo Codewords a Raro símbolos de origen. Nos referimos a tal fuente
código como un código de longitud variable. Lla Código Morse, utilizado en la
telegrafía en el pasado, es un ejemplo de un código de longitud variable.
Nuestro principal interés es la formulación de un codificador de fuentes que
satisfaga dos requisitos:
1. El Codewords producido por el codificador se encuentran en Binario Forma.
2. El código fuente es únicamente decodable, de modo que la secuencia
original de la fuente se pueda reconstruir perfectamente de la secuencia
binaria codificada.
El segundo requisito es particularmente importante: constituye la base de
una código fuente perfecto.
Considere entonces el esquema mostrado en Figura 5,3 que representa una
fuente de memoria discreta cuya salida sk es convertido por el codificador de
fuente en una secuencia de 0s y 1s, denotada por bk. Asumimos que la fuente
tiene un alfabeto con K diferentes símbolos y que la ksímbolo TH sk ocurre con
probabilidad pk, k = 0, 1,...,K 1. Dejar que el binario antirracista asignado al
símbolo sk por el codificador tenga longitud lk, medido en pedacitos. Definimos
el longitud media de antirracista del codificador de fuentes como
Figura 5,3 Codificación de origen.
En términos físicos, el parámetro representa la número medio de bits por

símbolo de fuente utilizado en el proceso de codificación de origen.
Dejar LMin denota la Mínimo posible valor de L. A continuación, definimos
el eficacia de la codificación del codificador de fuentes como
Con ≥ LMin, claramente tenemos η ≤ 1. Se dice que el codificador de origen

es Eficiente Cuando η se acerca a la unidad.
Pero, ¿cómo es el valor mínimo LMin ¿Determinado? La respuesta a esta
pregunta fundamental está encarnada en el primer teorema de Shannon:
el Teorema de código fuente,4 que pueden ser indicados de la siguiente
manera:
Dada una fuente de memoria discreta cuya salida se denota por la

variable aleatoria S, la entropía H(S) impone el siguiente límite en la
longitud media de antirracista para cualquier esquema de
codificación de fuentes:
De acuerdo con este teorema, la entropía H(S) representa una límite

fundamental en el número medio de bits por símbolo de fuente necesario para
representar una fuente sin memoria discreta, en que se puede hacer tan
pequeño como pero no menor que la entropía H(S). Por lo tanto,
establecer LMin = H(S), podemos reescribir (5,19), definiendo la eficiencia de un
codificador de fuentes en términos de la entropía H(S) como se muestra en
donde como antes de que tengamos η ≤ 1.
5,4 Algoritmos de compresión de datos sin pérdida

Una característica común de las señales generadas por fuentes físicas es que,
en su forma natural, contienen una cantidad significativa
de Redundante información, cuya transmisión es, por lo tanto, derrochador de
recursos de comunicación primaria. Por ejemplo, la salida de un equipo
utilizado para las transacciones comerciales constituye una secuencia
redundante en el sentido de que los dos símbolos adyacentes suelen
correlacionarse entre sí.
Para una transmisión eficiente de la señal, la información redundante debe,
por lo tanto, ser retirada de la señal antes de la transmisión. Esta operación,
sin pérdida de información, se realiza ordinariamente en una señal en forma
digital, en cuyo caso nos referimos a la operación como compresión de datos
sin pérdida. El código resultante de dicha operación proporciona una
representación de la salida de origen que no sólo es eficiente en términos del
número medio de bits por símbolo, sino también exacta en el sentido de que
los datos originales pueden ser reconstruidos sin pérdida de información. La
entropía de la fuente establece el límite fundamental para la eliminación de la
redundancia de los datos. Básicamente, datos sin pérdida la compresión se
logra asignando descripciones cortas a los resultados más frecuentes de la
salida de origen y descripciones más largas a las menos frecuentes.
En esta sección se discuten algunos esquemas de codificación de código fuente
para la compresión de datos sin pérdida. Comenzamos la discusión
describiendo un tipo de código fuente conocido como un código de prefijo,
que no sólo es únicamente decodable, sino que también ofrece la posibilidad
de realizar una longitud media de antirracista que se puede hacer
arbitrariamente cerca de la entropía de la fuente.
CODIFICACIÓN DE PREFIJO
Considere una fuente de alfabeto inmemorial discreta {s0, s1,...,sK – 1} y las
probabilidades respectivas {p0, p1,...,pK – 1}. Para un código fuente que
representa la salida de esta fuente para ser de uso práctico, el código debe ser
únicamente decodable. Esta restricción asegura que, para cada secuencia
finita de símbolos emitidos por la fuente, la secuencia correspondiente de
Codewords es diferente de la secuencia de Codewords que corresponde a
cualquier otra secuencia de fuente. Estamos específicamente interesados en
una clase especial de códigos que satisfacen una restricción conocida como
el condición de prefijo. Para definir la condición de prefijo, deje que el
antirracista asignado al símbolo de origen sk ser denotado por (mk1, mk2,...,mkn),
donde los elementos individuales mk1,...,mknSon 0s y 1S y n es la longitud
antirracista. La parte inicial del antirracista está representada por los
elementos mk1,...,mki para algunos i ≤ n. Cualquier secuencia formada por la
parte inicial del antirracista se denomina Prefijo del antirracista. Así decimos:
Un código de prefijo se define como un código en el que no

antirracista es el prefijo de cualquier otro antirracista.
Los códigos del prefijo se distinguen de otros códigos únicamente decodable

por el hecho de que el final de un antirracista es siempre reconocible. Por lo
tanto, la descodificación de un prefijo se puede lograr tan pronto como la
secuencia binaria que representa un símbolo de origen se reciba
completamente. Por esta razón, los códigos de prefijo también se conocen
como códigos instantáneos.
Ejemplo 3 Ejemplo ilustrativo de codificación de prefijos
Para ilustrar el significado de un código de prefijo, considere los tres códigos
fuente descritos en Tabla 5,2. El código I no es un prefijo porque el bit 0, el
antirracista para s0, es un prefijo de 00, el antirracista para s2. Del mismo modo,
el bit 1, el antirracista para s1, es un prefijo de 11, el antirracista para s3. Del
mismo modo, podemos mostrar que el código III no es un código de prefijo,
pero el código II es.
Tabla 5,2 Ilustración de la definición de un código de prefijo

DESCODIFICACIÓN DEL CÓDIGO DEL PREFIJO
Para descodificar una secuencia de Codewords generado a partir de un código
fuente de prefijo, el decodificador de origen simplemente comienza al
principio de la secuencia y descifra un antirracista a la vez. En concreto,
establece lo que equivale a un árbol de decisión, que es una representación
gráfica de la Codewords en el código fuente en particular. Por ejemplo, Figura
5,4 representa el árbol de decisión correspondiente al código II en Tabla 5,2.
El árbol tiene una estado inicial y cuatro Estados terminales correspondiente a
los símbolos de origen s0, s1, s2Y s3. El decodificador siempre comienza en el
estado inicial. El primer bit recibido desplaza el decodificador al estado
terminal s0 Si es 0 o más a un segundo punto de decisión si es 1. En el último
caso, el segundo bit mueve el decodificador un paso más abajo del árbol, ya
sea al estado terminal s1 Si es 0 o más a un tercer punto de decisión si es 1, y
así sucesivamente. Una vez que cada estado terminal emite su símbolo, el
decodificador se restablece a su estado inicial. Tenga en cuenta también que
cada bit en la secuencia codificada recibida sólo se examina una vez.
Considerar, Para Ejemplo, Lla Siguientes Codificado Secuencia:
Esta secuencia se descifra fácilmente como la secuencia de origen s1s3s2s0s0....

Se invita al lector a llevar a cabo esta descodificación.
Como se mencionó anteriormente, un código de prefijo tiene la propiedad
importante que es instantáneamente decodable. Pero lo contrario no es
necesariamente cierto. Por ejemplo, el código III en Tabla 5,2 no satisface la
condición de prefijo, pero es únicamente decodable porque el bit 0 indica el
principio de cada antirracista en el código.
Para sondear más profundamente en los códigos de prefijo, ejemplificado por
que en Tabla 5,2, recurrimos a una desigualdad, que se considera a
continuación.
DESIGUALDAD DE KRAFT
Considere una fuente sin memoria discreta con el alfabeto de origen
{s0, s1,...,sK – 1} y las probabilidades de origen {p0, p1,...,pK – 1}, con el antirracista
del símbolo sk tener longitud lk, k = 0,1,...,K 1. Entonces, de acuerdo con
el Desigualdad de Kraft,5 las longitudes de antirracista satisfacen siempre la
desigualdad siguiente:
Figura 5,4 Árbol de decisión para el código II de Tabla 5,2.
donde el factor 2 se refiere al número de símbolos en el alfabeto binario. La

desigualdad de Kraft es una condición necesaria pero no suficiente para que
un código fuente sea un código de prefijo. En otras palabras, la desigualdad
de (5,22) es simplemente una condición en las longitudes de antirracista de un
código del prefijo y no en el Codewords ellos mismos. Por ejemplo,
refiriéndose a los tres códigos enumerados en Tabla 5,2, vemos:
 El código I viola la desigualdad de Kraft; por lo tanto, no puede ser un

código prefijo.
 La desigualdad de Kraft es satisfecha por ambos códigos II y III, pero
solamente el código II es un código del prefijo.
Dada una fuente inmemorial discreta de entropía H(S), un código del prefijo se
puede construir con una longitud media del antirracista , que se limita como
sigue:
El límite de la mano izquierda de (5,23) está satisfecho con la igualdad bajo la

condición de que el símbolo sk es emitido por la fuente con probabilidad
Donde lk es la longitud del antirracista asignado al símbolo de origen sk. Una
distribución regida por (5,24) se dice que es un distribución Dyadic. Para Este
Distribución, Que Naturalmente Hve
Bajo esta condición, la desigualdad de Kraft (5,22) confirma que podemos

construir un código de prefijo, de forma que la longitud del antirracista
asignado al símbolo de origen sk is – log2 pk. Para Tal Un Código, Lla Promedio
antirracista Longitud Es
y la entropía correspondiente de la fuente es
Por lo tanto, en este caso especial (en lugar de prostituida), encontramos

de (5,25) Y (5,26) que el código de prefijo es Emparejado a la fuente en
eso = H(S).
¿Pero cómo emparejamos el código del prefijo a una fuente sin memoria
arbitraria discreta? La respuesta a este problema básico radica en el uso de
un código extendido. Dejar denotan la longitud antirracista media del
código de prefijo extendido. Para un código de decodable única, es lo más

pequeño posible. De (5,23), encontramos que
O, Equivalente,
En el límite, como n tiende a infinito, los límites inferiores y superiores

en (5,28) convergen como muestra
Por lo tanto, podemos hacer la declaración:
Al hacer la orden n de un codificador extendido de la fuente del

prefijo bastante grande, podemos hacer que el código representa
fielmente la fuente memoryless discreta S tan de cerca como se
desee.
En otras palabras, la longitud promedio de antirracista de un código de prefijo

extendido se puede hacer tan pequeña como la entropía de la fuente, siempre
que el código extendido tenga un orden suficientemente alto de acuerdo con
el teorema de codificación de código fuente. Sin embargo, el precio que
tenemos que pagar por la disminución de la longitud promedio de antirracista
es la complejidad de descodificación aumentada, que es provocada por el alto
orden del código de prefijo extendido.
CODIFICACIÓN HUFFMAN
A continuación describiremos una clase importante de códigos de prefijo
conocidos como códigos Huffman. La idea básica detrás Codificación
Huffman6 es la construcción de un algoritmo simple que computa
un Óptima código de prefijo para una distribución determinada, óptima en el
sentido de que el código longitud esperada más corta. El resultado final es un
código fuente cuya longitud promedio de antirracista se aproxima al límite
fundamental establecido por la entropía de una fuente sin memoria discreta,
es decir, H(S). La esencia de la Algoritmo utilizado para sintetizar el código
Huffman es reemplazar el conjunto prescrito de estadísticas de origen de una
fuente sin memoria discreta con uno más sencillo. Este Reducción proceso se
continúa de manera paso a paso hasta que nos quedamos con un conjunto
final de sólo dos estadísticas de origen (símbolos), para los cuales (0,1) es un
código óptimo. A partir de este código trivial, entonces trabajamos hacia atrás
y por lo tanto construimos el código Huffman para la fuente dada.
Para ser específico, Huffman algoritmo de codificación procede de la siguiente
manera:
1. Los símbolos de origen se enumeran en orden de disminución de la
probabilidad. Los dos símbolos de la fuente de la probabilidad más baja se
asignan 0 y 1. Esta parte del paso se denomina etapa de división.
2. Estos dos símbolos de origen se Combinado en un nuevo símbolo de la
fuente con la probabilidad igual a la suma de las dos probabilidades originales.
(la lista de símbolos de origen, y, por lo tanto, las estadísticas de origen, es por
lo tanto Reducido en tamaño por uno.) La probabilidad del nuevo símbolo se
coloca en la lista de acuerdo con su valor.
3. El procedimiento se repite hasta que nos quedamos con una lista final de
estadísticas de origen (símbolos) de sólo dos para los que se asignan los
símbolos 0 y 1.
El código para cada fuente (original) se encuentra trabajando hacia atrás y
trazando la secuencia de 0s y 1S asignados a ese símbolo, así como a sus
sucesores.
Ejemplo 4 Árbol Huffman
Para ilustrar la construcción de un código Huffman, considere los cinco
símbolos del alfabeto de una fuente de memoria discreta y sus probabilidades,
que se muestran en las dos columnas más a la izquierda de Figura 5.5 b.
Siguiendo el algoritmo Huffman, llegamos al final del cómputo en cuatro
pasos, resultando en un Árbol Huffman similar a la que se muestra en Figura
5,5; el árbol Huffman no debe confundirse con el árbol de decisión que se
discutió anteriormente en Figura 5,4. La Codewords del código Huffman para
el origen se tabula en Figura 5.5 a. Lla Promedio antirracista Longitud Es, por,
La entropía de la fuente de memoria discreta especificada se calcula de la

siguiente manera (véase (5,9)):
Para este ejemplo, podemos hacer dos observaciones:
1. La longitud media de antirracista excede la entropía H(S) por sólo 3,67%.
2. La longitud media de antirracista efectivamente satisface (5,23).
Figura 5,5 (a) ejemplo del algoritmo de codificación Huffman. (b) código fuente.
Cabe destacar que el proceso de codificación Huffman (es decir, el árbol

Huffman) no es único. En particular, podemos citar dos variaciones en el
proceso que son responsables de la no unicidad del código Huffman. En primer
lugar, en cada etapa de división en la construcción de un código Huffman, hay
arbitrariedad en la forma en que los símbolos 0 y 1 se asignan a los dos últimos
símbolos de origen. De cualquier forma que se hagan las asignaciones, sin
embargo, las diferencias resultantes son triviales. En segundo lugar, surge la
ambigüedad cuando la probabilidad de un Combinado símbolo (obtenida
añadiendo las dos últimas probabilidades pertinentes a un paso en particular)
se encuentra que equivale a otra probabilidad en la lista. Podemos proceder
colocando la probabilidad del nuevo símbolo como Alta como sea posible,
como en Ejemplo 4. Alternativamente, podemos colocarlo como Baja como
sea posible. (se presume que cualquiera que sea la forma en que se realiza la
colocación, alta o baja, se adhiere consistentemente a lo largo del proceso de
codificación.) Por este tiempo, las diferencias notables se presentan en que el
Codewords en el código de fuente resultante puede tener diversas longitudes.
Sin embargo, la longitud media de antirracista sigue siendo la misma.
Como medida de la variabilidad en antirracista longitudes de un código fuente,
definimos el Varianza de la longitud media de antirracista sobre el conjunto
de símbolos de la fuente como
Donde p0, p1,...,pK – 1 son las estadísticas de origen y lk es la longitud del

antirracista asignado al símbolo de origen sk. Se suele encontrar que cuando
un símbolo combinado se mueve lo más alto posible, el código Huffman
resultante tiene una varianza significativamente menor σ2que cuando se
mueve lo más bajo posible. Sobre esta base, es razonable elegir el antiguo
código Huffman sobre este último.
LEMPEL-ZIV CODIFICACIÓN
Un inconveniente del código Huffman es que requiere el conocimiento de un
modelo probabilístico de la fuente; Desafortunadamente, en la práctica, las
estadísticas de fuentes no siempre se conocen a priori. Además, en la
modelación de texto encontramos que los requerimientos de almacenamiento
de información evitan que el código Huffman Capture las relaciones de orden
superior entre palabras y frases porque el Codebook crece exponencialmente
rápidamente en el tamaño de cada Super-símbolo de letras (i.e., agrupación
de letras); por lo tanto, la eficacia del código se ve comprometida. Para superar
estas limitaciones prácticas de los códigos Huffman, podemos utilizar
el LempelZiv Algoritmo,7 que es intrínsecamente Adaptación y más sencillo de
implementar que la codificación Huffman.
Básicamente, la idea detrás de la codificación en el Lempel-Ziv el algoritmo se
describe de la siguiente manera:
La secuencia de datos de origen se analiza en segmentos que son

las subsecuencias más cortas no encontradas anteriormente.
Para ilustrar esta idea sencilla pero elegante, considere el ejemplo de la

secuencia binaria
000101110010100101...
Se supone que los símbolos binarios 0 y 1 ya están almacenados en ese orden
en el libro de código. Que Así Escribir
Subsecuencias Almacenado: 0, 1
Datos Para Ser Analiza: 000101110010100101...

El proceso de codificación comienza a la izquierda. Con los símbolos 0 y 1 ya
almacenados, el Menor SubsequenceDe la secuencia de datos encontrada por
primera vez y no vista antes es 00; así que escribimos
Subsecuencias Almacenado: 0, 1, 00

La segunda subsecuencia más corta no vista antes es 01; en consecuencia,
vamos a escribir
Subsecuencias Almacenado: 0, 0, 00, 01

La siguiente subsecuencia más corta no encontrada anteriormente es 011; por
lo tanto, escribimos
Subsecuencias Almacenado: 0, 1, 00, 01, 011

Continuamos de la manera descrita aquí hasta que el flujo de datos dado haya
sido completamente analizado. Por lo tanto, para el ejemplo a mano, se
obtiene la libro de código de subsecuencias binarias mostradas en la segunda
fila de Figura 5,6.8
La primera fila que se muestra en esta figura meramente indica las posiciones
numéricas de las subsecuencias individuales en el libro de código. Ahora
reconocemos que la primera subsecuencia de la secuencia de datos, 00, está
formada por la concatenación de la Primera entrada del libro de código, 0, con
sí mismo; está, por lo tanto, representado por el número 11. La segunda
subsecuencia de la secuencia de datos, 01, consiste en el Primera entrada de
código de libro, 0, concatenado con el Segundo entrada del libro de código, 1;
por lo tanto, está representado por el número 12. Las subsecuencias restantes
se tratan de una manera similar. El conjunto completo de representaciones
numéricas para las distintas subsecuencias del libro de códigos se muestra en
la tercera fila de Figura 5,6. Como otro ejemplo ilustrando la composición de
esta fila, observamos que la subsecuencia 010 consiste en la concatenación de
la subsecuencia 01 en la posición 4 y el símbolo 0 en la posición 1; por lo tanto,
la representación numérica es 41. La última fila mostrada en Figura 5,6 es la
representación binaria codificada de las diferentes subsecuencias de la
secuencia de datos.
El último símbolo de cada subsecuencia en el libro de códigos (es decir, la
segunda fila de Figura 5,6) es una símbolo de innovación, que se llama así en
reconocimiento del hecho de que su apéndice a una subsecuencia particular
lo distingue de todas las subsecuencias anteriores almacenadas en el libro de
código. En consecuencia, el último bit de cada bloque uniforme de bits en la
representación binaria codificada de la secuencia de datos (es decir, la cuarta
fila en Figura 5,6) representa el símbolo de la innovación para la subsecuencia
particular bajo consideración. Los bits restantes proporcionan la
representación binaria equivalente del "puntero" al Raíz Subsequence que
coincida con el de la pregunta, a excepción del símbolo de la innovación.
Lla LempelZiv Decodificador es tan simple como el codificador. En concreto,
utiliza el puntero para identificar la subsecuencia raíz y, a continuación, anexa
el símbolo de innovación. Consideremos, por ejemplo, el bloque codificado
binario 1101 en la posición 9. El último bit, 1, es el símbolo de la innovación.
Los bits restantes, 110, apuntan a la subsecuencia raíz 10 en la posición 6. Por
lo tanto, el bloque 1101 se descifra en 101, lo cual es correcto.
Del ejemplo descrito aquí, observamos que, en contraste con la codificación
Huffman, el Lempel –Ziv el algoritmo utiliza códigos de longitud fija para
representar un número variable de símbolos de origen; Esta característica
hace que el Lempel –Ziv código adecuado para transmisión sincrónica.
Figura 5,6 Ilustrando el proceso de codificación realizado por el Lempel –Ziv algoritmo en la
secuencia binaria 000101110010100101...
En la práctica, se utilizan bloques fijos de 12 bits de largo, lo que implica un

libro de código de 212 = 4096 entradas.
Durante mucho tiempo, la codificación Huffman no fue impugnada como el
algoritmo de elección para la compresión de datos sin pérdida; La codificación
Huffman sigue siendo óptima, pero en la práctica es difícil de implementar. Es
debido a la aplicación práctica que el Lempel-Ziv algoritmo se ha apoderado
casi completamente del algoritmo Huffman. El Lempel –Ziv algoritmo es ahora
el algoritmo estándar para la compresión de archivos.
5,5 Canales de memoria discretos

Hasta este punto en el capítulo hemos estado preocupados por fuentes sin
memoria discretas responsables de generación de información. A
continuación, consideramos la cuestión conexa de transmisión de información.
Con este fin, comenzamos la discusión considerando un canal discreto, la
contraparte de una fuente de memoria discreta.
Un canal discreto de memoria es un modelo estadístico con una entrada X y
una salida Y que es un RuidosoVersión De X; Ambos X Y Y son variables
aleatorias. Cada unidad de tiempo, el canal acepta un símbolo de
entrada X seleccionado de un alfabeto y, en respuesta, emite un símbolo de
salida Y de un alfabeto . Se dice que el canal es "discreto" cuando ambos
alfabetos Y Hve Finito Tamaños. Se dice que es "inmemoriable" cuando el
símbolo de salida actual depende Sólo en el símbolo de entrada actual
y NoCualquier símbolo anterior o futuro.
Figura 5.7 a muestra una vista de un canal discreto que no tiene memoria. Lla
Canal Es Descrito En Términos De Un Entrada Alfabeto
Y Un Salida Alfabeto
Figura 5,7 (a) canal discreto sin memoria; (b) representación gráfica simplificada del canal.
Lla Cardinalidad de los alfabetos Y , o cualquier otro alfabeto para esa

materia, se define como el número de elementos en el alfabeto. Además, el
canal se caracteriza por un conjunto de probabilidades de transición
para lo cual, de acuerdo a la teoría de la probabilidad, naturalmente tenemos
Cuando el número de símbolos de entrada JY el número de símbolos de

salida K no son grandes, podemos representar el canal discreto sin memoria
gráficamente de otra manera, como se muestra en Figura 5.7 b. En esta última
representación, cada par de símbolos de entrada-salida (x, y), caracterizado
por la probabilidad de la transición p(y|x) > 0, se une entre sí por una línea
marcada con el número p(y|x).
Además, el alfabeto de entrada y alfabeto de salida no necesitan tener el
mismo tamaño; por lo tanto el uso de J para el tamaño de Y K para el tamaño
de . Por ejemplo, en la codificación de canales, el tamaño K del alfabeto de
salida puede ser mayor que el tamaño J del alfabeto de entrada ; Así K ≥ J.
Por otro lado, es posible que tengamos una situación en la que el canal emita
el mismo símbolo cuando se envíe uno de los dos símbolos de entrada, en cuyo
caso tenemos K ≤ J.
Una manera conveniente de describir un canal discreto de la memoria es
arreglar las varias probabilidades de la transición del canal bajo la forma de
un Matriz
Lla JporK Matriz P se llama el matriz de canalesO matriz estocástica. Tenga en

cuenta que cada Fila de la matriz de canales P corresponde a un entrada de
canal fijo, mientras que cada columna de la matriz corresponde a un salida de
canal fijo. Nótese también que una propiedad fundamental de la matriz de
canales P, como se define aquí, es que la suma de los elementos a lo largo de
cualquier fila de la matriz estocástica es siempre igual a uno, de acuerdo
con (5,35).
Suponga ahora que las entradas a un canal discreto de memoria se seleccionan
de acuerdo con la distribución de probabilidad {p(xj), j = 0, 1,...,J – 1}. en otras
palabras, el evento que la entrada de canal X = xj ocurre con probabilidad
Habiendo especificado la variable aleatoria X denotando la entrada de canal,

podemos ahora especificar la segunda variable aleatoria Y que denota la salida
del canal. Lla distribución de probabilidad conjunta de las variables
aleatorias X Y Y se da por
Lla distribución de probabilidad marginal de la variable de salida aleatoria Y se
obtiene promediando la dependencia de p(xj, yk) de xjObtener
Las probabilidades p(xj) para j = 0, 1,...,J – 1, se conocen como

el probabilidades anteriores de los distintos símbolos de entrada. Ecuación
(5,39) Estados:
Si se nos da la entrada de probabilidades anteriores p(xj) y la matriz

estocástica (i.e., la matriz de probabilidades de transición p(yk|xj),
entonces podemos calcular las probabilidades de los distintos
símbolos de salida, el p(yk).
Ejemplo 5 Canal simétrico binario

Lla canal simétrico binario es de interés teórico y de importancia práctica. Es
un caso especial del canal sin memoria discreto con J = K = 2. El canal tiene dos
símbolos de entrada (x0 = 0, x1 = 1) y dos símbolos de salida (y0 = 0, y1 = 1). El
canal es simétrico porque la probabilidad de recibir 1 si se envía 0 es la misma
que la probabilidad de recibir 0 si se envía 1. Esta probabilidad condicional de
error se denota por p (es decir, la probabilidad de un poco de voltear).
Lla diagrama de probabilidad de transición de un canal binario simétrico es
como se muestra en Figura 5,8. Correspondientemente, Que Puede Express
Lla Estocástico Matriz Como
Figura 5,8 Diagrama de probabilidad de transición del canal binario simétrico.
5,6 Información mutua

Dado que pensamos en la salida del canal Y (seleccionado del alfabeto )
como una versión ruidosa de la entrada de canal X (seleccionado del
alfabeto ) y que la entropía H(X) es una medida de la incertidumbre previa
sobre X, ¿cómo podemos medir la incertidumbre sobre X después de
observar Y? Para responder a esta pregunta básica, extendemos las ideas
desarrolladas en Sección 5,2 al definir el entropía
condicional De XSeleccionado del alfabeto Dado Y = yk. Específicamente, Que
Escribir
Esta cantidad es en sí misma una variable aleatoria que adquiere los

valores H(X| Y = y0),...,H(X| Y = yK – 1) con probabilidades p(y0),...,p(yK– 1),
respectivamente. La expectativa de la entropía H(X| Y = yk) sobre el alfabeto
de la salida por lo tanto se da por
donde, en la última línea, usamos la definición de la probabilidad del evento
conjunto (X = xj, Y = yk) como se muestra en
La cantidad H(X| Y), en (5,41)se llama el entropía condicional, definidos

formalmente de la siguiente manera:
La entropía condicional, H(X| Y), es la cantidad promedio de

incertidumbre restante sobre la entrada de canal después de que se
ha observado la salida del canal.
La entropía condicional H(X| Y) relaciona la salida del canal Y a la entrada de

canal X. La entropía H(X) define la entropía de la entrada de canal X por sí
mismo. Dado Estos Dos entropías, Que Nwo Introducir Lla Definición
que se llama el información mutua del canal. Para añadir significado a este
nuevo concepto, reconocemos que la entropía H(X) explica la incertidumbre
acerca de la entrada de canal Antes Observando la salida del canal y la entropía
condicional H(X| Y) explica la incertidumbre acerca de la entrada de
canal Después Observando la salida del canal. Que Puede, por, Ir En Para Hacer
Lla Declaración:
La información mutua I(X;Y) es una medida de la incertidumbre

acerca de la entrada de canal, que se resuelve observando la salida
del canal.
Ecuación (5,43) no es la única manera de definir la información mutua de un
canal. Más bien, podemos definirlo de otra manera, como muestra
sobre la base de que podemos hacer la siguiente declaración:
La información mutua I(Y;X) es una medida de la incertidumbre

acerca de la salida del canal que se resuelve Enviar la entrada de
canal.
A primera vista, las dos definiciones de (5,43) Y (5,44) parecen diferentes. En

realidad, sin embargo, encarnan declaraciones equivalentes sobre la
información mutua del canal que se redactan de manera diferente. Más
específicamente, podrían usarse indistintamente, como se demostró a
continuación.
PROPIEDADES DE LA INFORMACIÓN MUTUA
Property 1 Simetría
La información mutua de un canal es simétrica en el sentido de que
Para probar esta propiedad, primero usamos la fórmula para la entropía y

luego usamos (5,35) Y (5,38), en ese orden, la obtención de
donde, en ir de la tercera a la línea final, hicimos uso de la definición de una
probabilidad común. Ahí, Sustituyendo (5,41) Y (5,46) En (5,43) Y Entonces
Combinar Términos, Que Obtener
Tenga en cuenta que la suma doble en la parte derecha

de (5,47) Es Invariante con respecto a intercambiar el x Y y. En otras palabras,
la simetría de la información mutua I(X;Y) ya es evidente desde (5,47).
Para confirmar aún más esta propiedad, podemos utilizar Regla de
Bayes probabilidades condicionales, previamente discutidas en Capítulo
3Escribir
Por lo tanto, sustituir (5,48) En (5,47) e intercambiando el orden de la suma,

conseguimos
lo que prueba property1.
Propiedad 2 No negatividad
La información mutua es siempre no negativa; eso es;
Para probar esta propiedad, la primera nota de (5,42)Que
Por lo tanto, sustituir (5,51) En (5,47), podemos expresar la información

mutua del canal como
A continuación, una aplicación directa de la desigualdad fundamental

de (5,12) en la entropía relativa confirma (5,50), con igualdad si, y sólo si,
En palabras, la propiedad 2 declara lo siguiente:
No podemos perder información, en promedio, observando la

salida de un canal.
Además, la información mutua es cero si, y sólo si, los símbolos de entrada y
salida del canal son estadísticamente independientes; es, cuando (5,53) está
satisfecho.
Propiedad 3 Expansión de la información mutua

La información mutua de un canal se relaciona con la entropía común de la
entrada del canal y de la salida del canal por
donde la entropía común HX, Y) se define por
Para probar (5,54), primero reescribimos la entropía común en la forma

equivalente
El primer término de suma doble en la parte derecha de (5,56) se reconoce

como el negativo de la información mutua del canal, I(X;Y), previamente
entregado en (5,52). En cuanto al segundo término de suma, lo manipulamos
de la siguiente manera:
donde, en la primera línea, hicimos uso de la relación siguiente de la teoría de

la probabilidad:
y una relación similar sostiene para la segunda línea de la ecuación.
En consecuencia, utilizando (5,52) Y (5,57) En (5,56), conseguimos el resultado
que, en el reordenamiento, prueba la propiedad 3.

Concluimos nuestra discusión de la información mutua de un canal
proporcionando un diagramatic interpretación en Figura
5,9 De (5,43), (5,44)Y (5,54).
Figura 5,9 Ilustrando las relaciones entre las distintas entropías del canal.
5,7 Capacidad del canal

El concepto de entropía introducido en Sección 5,2 nos preparó para formular
el primer teorema de Shannon: el teorema de código fuente. Para establecer
el escenario para la formulación del segundo Teorema de Shannon, a saber, el
teorema de codificación de canales, esta sección introduce el concepto
de Capacidad, que, como se mencionó anteriormente, define la capacidad
intrínseca de un canal de comunicación para transmitir información.
Para proceder, considere un canal discreto sin memoria con el alfabeto de
entrada , alfabeto de la salida y probabilidades de transición p(yk|xj),
donde j = 0, 1,...,J – 1 y k = 0,1,...,K 1. La información mutua del canal se define
por la primera línea de (5,49), que se reproduce aquí para mayor comodidad:
Donde, Acuerdo Para (5,38),
También, De (5,39), Que Hve
Poniendo estas tres ecuaciones en una sola ecuación, escribimos
La examinación cuidadosa de la suma doble en esta ecuación revela dos

diversas probabilidades, en las cuales la esencia de la información
mutua I(X;Ydepende
 la distribución de probabilidad que caracteriza la entrada de

canal y
 la distribución de probabilidad de transición que

caracteriza al propio canal.
Estas dos distribuciones de probabilidad son obviamente independientes unas

de otras. Así, dado un canal caracterizado por la distribución de probabilidad
de transición {p(yk|xj}, ahora podemos introducir el capacidad del canal, que
se define formalmente en términos de la información mutua entre la entrada
del canal y la salida de la siguiente manera:
La maximización en (5,59) se realiza, sujeto a dos restricciones probabilísticas
de entrada:
En consecuencia, hacemos la siguiente declaración:
La capacidad de canal de un canal discreto, inmemoriable,

comúnmente denotada por C, se define como la máxima
información mutua I(X;Y) en cualquier uso individual del canal (es
decir, intervalo de señalización), donde la maximización es sobre
todas las posibles distribuciones de probabilidad de entrada {p(xj)}
en X.
La capacidad del canal es claramente una propiedad intrínseca del canal.

Ejemplo 6 Canal simétrico binario (revisitado)
Considere de nuevo el canal simétrico binario, que es descrita por el diagrama
de probabilidad de transición De Figura 5,8. Este diagrama está definido
únicamente por la probabilidad condicional de error p.
De Ejemplo 1 recordamos que la entropía H(X) se maximiza cuando la
probabilidad de entrada del canal p(x0) = p(x1) = 1/2, donde x0 Y x1 son cada 0 o
1. Por lo tanto, invocar la definición ecuación (5,59), encontramos que la
información mutua I(X;Y) también se maximiza y escribe así
De Figura 5,8 Que Hve
Por lo tanto, la sustitución de estas probabilidades de transición de canal

en (5,49) Con J = K = 2 y luego establecer la probabilidad de entrada p(x0)
= p(x1) = 1/2 en (5,59), encontramos que la capacidad del canal binario
simétrico es
Además, el uso de la definición de la función de entropía introducida en (5,16),
podemos reducir (5,60) Para
La capacidad del canal C varía con la probabilidad de error (es decir,

probabilidad de transición) p de manera convexa como se muestra en Figura
5,10, que es simétrica sobre p = 1/2. Comparando la curva de esta figura con
la de Figura 5,2, hacemos dos observaciones:
1. Cuando el canal está sin ruidos, permitiéndonos establecer p = 0, la
capacidad del canal C obtiene su valor máximo de un bit por uso de canal, que
es exactamente la información en cada entrada de canal. En este valor de p, la
función de la entropía H(p) logra su valor mínimo de cero.
2. Cuando la probabilidad condicional de error p = 1/2 debido al ruido de
canal, la capacidad del canal CLogra su valor mínimo de cero, mientras que la
función de entropía H(p) logre su valor máximo de unidad; en tal caso, se dice
que el canal es Inútil en el sentido que la entrada y la salida del canal asumen
las estructuras estadístico independientes.
Figura 5,10 Variación de la capacidad del canal de un canal simétrico binario con probabilidad
de transición p.
5,8 Teorema de codificación de canales

Con la entropía de una fuente sin memoria discreta y la capacidad
correspondiente de un canal discreto sin memoria a mano, ahora estamos
equipados con los conceptos necesarios para formular el segundo Teorema de
Shannon: el teorema de codificación de canales.
Con este fin, primero reconocemos que la inevitable presencia de Ruido en un
canal se producen discrepancias (errores) entre la salida y las secuencias de
datos de entrada de un sistema de comunicación digital. Para un canal
relativamente ruidoso (por ejemplo, un canal de comunicación inalámbrico),
la probabilidad de error puede alcanzar un valor tan alto como 10– 1, lo que
significa que (en promedio) sólo 9 de cada 10 bits transmitidos se reciben
correctamente. Para muchas aplicaciones, este nivel de fiabilidad es
totalmente inaceptable. De hecho, una probabilidad de error igual a 10– 6 o
incluso más bajo es a menudo un requisito práctico necesario. Para lograr un
alto nivel de rendimiento, recurrimos al uso de la codificación de canales.
El objetivo de diseño de la codificación de canales es aumentar la resistencia
de un sistema de comunicación digital para canalizar el ruido.
Específicamente codificación de canales consiste en Asignación la secuencia
de datos entrante en una secuencia de entrada de canal y Mapeo inverso la
secuencia de salida de canal en una secuencia de datos de salida de tal manera
que el efecto general del ruido de canal en el sistema se minimice. La primera
operación de mapeo se realiza en el transmisor por un codificador de canal,
mientras que la operación de mapeo inversa se realiza en el receptor por
un Canal Decodificador, como se muestra en el diagrama de bloques de Figura
5,11; para simplificar la exposición, no hemos incluido la codificación de la
fuente (antes de la codificación del canal) y la descodificación de la fuente
(después de descifrar del canal) en esta figura.9
Figura 5,11 Diagrama de bloques de sistema de comunicación digital.
El codificador de canal y el decodificador de canal en Figura 5,11 están bajo el

control del diseñador y deben ser diseñados para optimizar la fiabilidad
general del sistema de comunicación. El enfoque adoptado es
introducir Redundancia en el codificador de canal de una manera controlada,
para reconstruir la secuencia original de la fuente tan exactamente como sea
posible. En un sentido bastante flojo, podemos así ver la codificación del canal
como el Doble de codificación de código fuente, en el que el primero introduce
redundancia controlada para mejorar la fiabilidad mientras que esta última
reduce la redundancia para mejorar la eficiencia.
El tratamiento de las técnicas de codificación de canales se aplaza a Capítulo
10. Para el propósito de nuestra discusión actual, basta con limitar nuestra
atención a códigos de bloque. En esta clase de códigos, la secuencia de
mensajes se subdivide en bloques secuenciales cada k bits de largo, y cada k-
el bloque del pedacito es Asignado en una n-bit block, donde N > k. El número
de bits redundantes añadidos por el codificador a cada bloque transmitido
es N – k bits. La relación k/n se llama el tarifa del código. Usando r para
denotar la tasa de código, escribimos
donde, por supuesto, r es menos que la unidad. Para una prescripción k, la tasa
de código r (y, por lo tanto, la eficiencia de codificación del sistema) se
aproxima a cero como la longitud del bloque n tiende a infinito.
La reconstrucción exacta de la secuencia original de la fuente en el destino
requiere que el probabilidad media de error de símbolo ser arbitrariamente
bajo. Esto plantea la siguiente pregunta importante:
¿existe un esquema de codificación de canales tal que la

probabilidad de que un bit de mensaje esté en error sea menor que
cualquier Número ε (es decir, tan pequeño como lo queramos), y
sin embargo el esquema de codificación de canales es eficiente en
que la tasa de código no necesita ser demasiado pequeña?
La respuesta a esta pregunta fundamental es un "sí" enfático. De hecho, la

respuesta a la pregunta es proporcionada por el segundo Teorema de Shannon
en términos de la capacidad del canal C, como se describe en lo que sigue.
Hasta este punto, hora no ha desempeñado un papel importante en nuestra
discusión sobre la capacidad de los canales. Supongo que entonces la fuente
de memoria discreta en Figura 5,11 tiene el alfabeto de origen y la
entropía H(S) bits por símbolo de fuente. Asumimos que la fuente emite
símbolos una vez cada Ts Segundos. Por lo tanto, el tasa media de
información de la fuente es H(S)/Ts bits por segundo. El decodificador entrega
símbolos descodificados al destino desde el alfabeto de origen S y a la misma
tasa de fuente de un símbolo cada Ts Segundos. El canal discreto sin memoria
tiene una capacidad de canal igual a C bits por uso del canal. Asumimos que el
canal es capaz de ser utilizado una vez cada Tc Segundos. Por lo tanto,
el capacidad de canal por unidad de tiempo Es C/Tc bits por segundo, que
representa la tasa máxima de transferencia de información sobre el canal. Con
este fondo, ahora estamos listos para indicar el segundo Teorema de Shannon,
el Teorema de codificación de canales,10 en dos partes como sigue:
1. Que una fuente sin memoria discreta con un alfabeto tienen
entropía H(S) para la variable aleatoria Sy producir símbolos una vez
cada Ts Segundos. Deje que un canal discreto tenga capacidad C y ser utilizado
una vez cada Tc segundos, entonces, si
existe un esquema de codificación para el cual la salida de la

fuente se puede transmitir sobre el canal y ser reconstruida con
una probabilidad arbitrariamente pequeña del error. El
parámetro C/Tc se llama el tasa crítica; Cuando (5,62) está
satisfecho con el signo de igualdad, el sistema se dice que está
señalando a la tasa crítica.
2. Inversa, Si
no es posible transmitir información sobre el canal y reconstruirla

con una probabilidad arbitrariamente pequeña de error.
El teorema de codificación de canales es el resultado más importante de la

teoría de la información. El teorema especifica la capacidad del canal C como
un límite fundamental en la tarifa en la cual la transmisión de mensajes error-
libres confiables puede ocurrir sobre un canal sin memoria discreto. Sin
embargo, es importante notar dos limitaciones del teorema:
1. El teorema de codificación de canales no nos muestra cómo construir un
buen código. Más bien, el teorema debe ser visto como un prueba de la
existencia en el sentido de que nos dice que si la condición de (5,62) está
satisfecho, entonces existen buenos códigos. Más tarde, en Chapter10,
describimos los buenos códigos para los canales inmemoriales discretos.
2. El teorema no tiene un resultado preciso para la probabilidad de error de
símbolo después de descodificar la salida del canal. Más bien, nos dice que la
probabilidad de error de símbolo tiende a cero a medida que la longitud del
código aumenta, de nuevo siempre que la condición de (5,62) está satisfecho.
APLICACIÓN DEL TEOREMA DE CODIFICACIÓN DE CANALES A

CANALES SIMÉTRICOS BINARIOS
Considere una fuente de memoria discreta que emita símbolos binarios
igualmente probables (0s y 1s) una vez cada Ts Segundos. Con la entropía de la
fuente igual a un pedacito por símbolo de la fuente (véase Ejemplo 1), la tasa
de información de la fuente es (1/Ts) bits por segundo. La secuencia de origen
se aplica a un codificador de canal con tasa de código r. El codificador de
canales produce un símbolo una vez cada Tc Segundos. Por lo tanto, la tarifa
de transmisión del símbolo codificado es (1/Tc) símbolos por segundo. El
codificador de canales activa un canal binario simétrico una vez
cada Tc Segundos. Por lo tanto, la capacidad del canal por unidad de tiempo es
(C/Tc) bits por segundo, donde C se determina por la probabilidad de transición
del canal prescrito p de acuerdo con (5,60). Por consiguiente, Parte 1 De Lla
codificación de canales Teorema Implica Que Si
entonces la probabilidad de error puede hacerse arbitrariamente bajo por el

uso de un esquema de codificación de canales adecuado. Pero la
relación Tc/Ts equivale a la tasa de código del codificador de canal:
Por lo tanto, podemos replantear la condición de (5,63)simplemente como

r≤C
Es, por r ≤ C, existe un código (con una tasa de código inferior o igual a la
capacidad del canal C) capaz de alcanzar una probabilidad arbitrariamente
baja del error.
Ejemplo 7 Código de repetición
En este ejemplo presentamos una interpretación gráfica del teorema de
codificación de canales. También sacamos un aspecto sorprendente del
teorema, echando un vistazo a un esquema de codificación simple.
Considere primero un canal binario simétrico con probabilidad de
transición p = 10– 2. Para este valor de p, encontramos desde (5,60) que la
capacidad del canal C = 0,9192. Por lo tanto, desde el teorema de codificación
de canales, podemos afirmar que, para cualquier ε > 0 y r ≤ 0,9192, existe un
código de longitud bastante grande n, tasa de código r, y un algoritmo de
descodificación apropiado de tal manera que, cuando la secuencia de bits
codificada se envía sobre el canal dado, la probabilidad media de error de
descodificación de canal es menor que ε. Este resultado se representa
en Figura 5,12 para el valor límite ε = 10– 8.
Para poner la importancia de este resultado en perspectiva, consideremos
siguiente un esquema de codificación simple que implique el uso de un código
de repetición, en el que cada bit del mensaje se repite varias veces. Deje que
cada bit (0 o 1) se repita n veces, donde n = 2m + 1 es un entero impar. Por
ejemplo, para n = 3, transmitimos 0 y 1 como 000 y 111, respectivamente.
Intuitivamente, parece lógico utilizar un regla de la mayoría para descifrar,
que funciona como sigue:
Figura 5,12 Ilustrando el significado del teorema de codificación de canales.
Si en un bloque de n Repetido pedacitos (representando un

pedacito del mensaje) el número de 0s excede el número de 1s, el
decodificador decide a favor de a 0; Si no, decide a favor de un 1.
Por lo tanto, se produce un error cuando m + 1 o más bits de n = 2m + 1 bits se

reciben incorrectamente. Debido a la naturaleza simétrica asumida del canal,
el probabilidad media de error, denotado por Pe, es independiente de
la Antes probabilidades de 0 y 1. Por consiguiente, Que Encontrar Que Pe Es
Dado Por
Donde p es la probabilidad de transición del canal.
Tabla 5,3 da la probabilidad media de error Pe para un código de repetición
que se calcula utilizando (5,65) para diferentes valores de la tasa de código r.
Los valores dados aquí asumen el uso de un canal binario simétrico con
probabilidad de transición p = 10– 2. La mejora de la fiabilidad mostrada
en Tabla 5,3 se logra a costa de reducir la tasa de código. Los resultados de
esta tabla también se muestran trazados como la curva marcada como "código
de repetición" en Figura 5,12. Esta curva ilustra la intercambio de la tarifa del
código para la confiabilidad del mensaje, que es una característica de los
códigos de repetición.
En este ejemplo se destaca el resultado inesperado que nos presenta el
teorema de codificación de canales. El resultado es que no es necesario tener
la tasa de código r aproximación a cero (como en el caso de los códigos de
repetición) para lograr un funcionamiento cada más fiable del enlace de
comunicación. El teorema simplemente requiere que la tasa de código sea
menor que la capacidad del canal C.
Tabla 5,3 Probabilidad media de error para el código de repetición
5,9 Entropía diferencial e información mutua para

conjuntos aleatorios continuos
Las fuentes y los canales considerados en nuestra discusión de conceptos
teóricos de la información hasta ahora han implicado los conjuntos del azar
variables que son Discreta en amplitud. En esta sección, extendemos estos
conceptos a Continua variables aleatorias. La motivación para hacerlo es
allanar el camino para la descripción de otro límite fundamental en la teoría
de la información, que tomamos en Sección 5,10.
Considere una variable aleatoria continua X con el función de densidad de
probabilidad fX(x). Por analogía con la entropía de una variable aleatoria
discreta, introducimos la siguiente definición:
Nos referimos al nuevo término h(X) como el entropía

diferencial De X distinguirla de la entropía ordinaria o absoluta. Lo hacemos en
reconocimiento al hecho de que, aunque h(X) es una cantidad matemática útil
para saber, es No en cualquier sentido una medida de la aleatoriedad de X. Sin
embargo, justificamos el uso de (5,66) en lo que sigue. Empezamos por ver la
variable aleatoria continua X como la forma de limitación de una variable
aleatoria discreta que asume el valor xk = kΔxDonde k = 0, ± 1, ± 2,..., y Δx se
aproxima a cero. Por definición, el variable aleatoria continua X asume un
valor en el intervalo [xk, xk + Δx] con probabilidad fX(xk)Δx. Por lo tanto, permitir
ΔxPara aproximación cero, la entropía ordinaria de la variable aleatoria
continua X toma el formulario limitador
En la última línea de (5,67), el uso se ha hecho de (5,66) y el hecho de que el

área total bajo la curva de la función de densidad de probabilidad fX(x) es la
unidad. En el límite como ΔxEnfoques cero, el término – log2ΔxEnfoques
Infinito. Esto significa que la entropía de una variable aleatoria continua es
infinitamente grande. Intuitivamente, esperaríamos que esto fuera cierto
porque una variable aleatoria continua puede asumir un valor en cualquier
lugar del intervalo (– ∞, ∞); por lo tanto, podemos encontrar un número
infinito de resultados probables innumerables. Para evitar el problema
asociado con el término log2Δx, adoptamos h(X) como un entropía diferencial,
con el término – log2Δx sirviendo meramente como referencia. Además, dado
que la información transmitida a través de un canal es en realidad el diferencia
entre dos términos de entropía que tienen una referencia común, la
información será la misma que la diferencia entre los términos de entropía
diferencial correspondientes. Por lo tanto, estamos perfectamente justificados
en el uso del término h(X), definido en (5,66), como la entropía diferencial de
la variable aleatoria continua X.
Cuando tenemos un vector aleatorio continuo X consistente en n variables
aleatorias X1, X2,...,Xn, definimos la entropía diferencial de X como el n-Fold
integral
Donde fX(x) es la función común de la densidad de la probabilidad de X.

Ejemplo 8 Distribución uniforme
Para ilustrar la noción de entropía diferencial, considere una variable
aleatoria X uniformemente distribuido sobre el intervalo (0, a). Lla
Probabilidad Densidad Función De X Es
Aplicar (5,66) a esta distribución, conseguimos
Tenga en cuenta que Registroa < 0 for a < 1. Así, este ejemplo muestra que, a
diferencia de una variable aleatoria discreta, la entropía diferencial de una
variable aleatoria continua puede asumir un valor negativo.
ENTROPÍA RELATIVA DE DISTRIBUCIONES CONTINUAS

En (5,12) Definimos la entropía relativa de un par de diversas distribuciones
discretas. Para extender esa definición a un par de distribuciones continuas,
considere las variables aleatorias continuas X Y YCuya las funciones de
densidad de probabilidad respectivas fX(x) y fY(x) para el mismo valor de
muestra (argumento) x. Lla entropía relativa11 de las variables
aleatorias X Y Y se define por
Donde fX(x) se considera como la distribución de la "referencia". En forma

correspondiente a la propiedad fundamental de (5,13)Tenemos
Combinar (5,70) Y (5,71) en una sola desigualdad, por lo que puede escribir
La expresión en la parte izquierda de esta desigualdad se reconoce como la

entropía diferencial de la variable aleatoria Y, a saber h(Y). Por consiguiente,
El siguiente ejemplo ilustra una aplicación perspicaz de (5,72).

Ejemplo 9 Distribución de Gauss
Supongamos que dos variables aleatorias, X Y Y, se describen de la siguiente
manera:
 las variables aleatorias X Y Y tienen la media común μ y varianza σ2;

 la variable aleatoria X Es Gauss distribuido (véase Sección 3,9) como se
muestra en
Por lo tanto, sustituir (5,73) En (5,72) y cambiando la base del logaritmo de 2

a e = 2,7183, conseguimos
donde e es la base del algoritmo natural. Ahora reconocemos las siguientes
caracterizaciones de la variable aleatoria Y (dado que su media es μ y su
varianza es σ2):
Que Puede, por, Simplificar (5,74) Como
La cantidad en la parte derecha de (5,75)es, de hecho, la entropía diferencial

de la variable aleatoria de Gauss X:
Finalmente, combinando (5,75) Y (5,76), podemos escribir
donde la igualdad se mantiene si, y sólo si, Y = X.

Ahora podemos resumir los resultados de este importante ejemplo
describiendo dos propiedades Entropic de una variable aleatoria:
Property 1 Para cualquier variación finita, una variable aleatoria de Gauss tiene
la entropía diferencial más grande alcanzable por cualquier otra
variable aleatoria.
Property 2 La entropía de una variable aleatoria de Gauss está determinada
únicamente por su varianza (es decir, la entropía es independiente
de la media).
De hecho, es debido a la propiedad 1 que el modelo de canal de Gauss es tan
ampliamente utilizado como un modelo conservador en el estudio de los
sistemas de comunicación digital.
INFORMACIÓN MUTUA
Continuando con la caracterización información-teórica de variables aleatorias
continuas, podemos utilizar la analogía con (5,47) para definir el información
mutua entre el par de variables aleatorias continuas X Y Y como sigue:
Donde fX, Y(x, y) es la función común de la densidad de la probabilidad

de XY Y Y fX(x|y) es la función de densidad de probabilidad condicional
de X Dado Y = y. También, por analogía con (5,45), (5,50), (5,43)Y (5,44),
encontramos que la información mutua entre el par de Gausian las variables
aleatorias tienen las siguientes propiedades:
El parámetro h(X) es la entropía diferencial de X; Asimismo para h(Y). El

parámetro h(X| Y) es el entropía diferencial condicional De XDado Y; se define
por el doble integral (ver (5,41))
El parámetro h(Y|X) es la entropía diferencial condicional de Y Dado X; se

define de una manera similar a h(X| Y).
5,10 Información Ley de la capacidad

En esta sección utilizamos nuestro conocimiento de la teoría de la probabilidad
para ampliar el teorema de la codificación del canal de Shannon, con el fin de
formular la capacidad de información para un banda limitada, de energía
limitada de canal de Gauss, representado en Figura 5,13. Para ser específico,
considere un proceso estacionario cero-medio X(t) que se limita a la
banda B Hertz. Dejar Xk, k = 1, 2,...,K, denotan las variables aleatorias continuas
obtenidas por muestreo uniforme del proceso X(t) a razón de 2B muestras por
segundo. La tarifa 2B las muestras por segundo son la tasa permisible más
pequeña para un ancho de banda B que no resultaría en una pérdida de
información de acuerdo con la Teorema de muestreo; Esto se discute
en Capítulo 6. Supongamos que estas muestras se transmiten en T los
segundos sobre un canal ruidoso, también venda-limitado a B Hertz. Ahí, Lla
Total Número De Muestras K Es Dado Por
Figura 5,13 Modelo de canal de Gauss discreto y de tiempo inmemoriable.
Nos referimos a Xk como muestra de la señal transmitida. La salida del canal es

perturbada por aditivo blanco ruido de Gauss (AWGN) de media cero y
densidad espectral de la energía N0/2. El ruido se limita a la banda B Hertz.
Deje que las variables aleatorias continuas Yk, k = 1, 2,.., K, denotar las
muestras correspondientes de la salida del canal, como se muestra en
La muestra de ruido Nk En (5,84) es de Gauss con media cero y varianza
Asumimos que las muestras Yk, k = 1, 2,...,K, son estadísticamente

independientes.
Un canal para el cual el ruido y la señal recibida son como se describe
en (5,84) Y (5,85) se llama un tiempo discreto, canal de Gauss de memoria,
modelado como se muestra en Figura 5,13. Para hacer declaraciones
significativas sobre el canal, sin embargo, tenemos que asignar un Costo a cada
entrada de canal. Típicamente, el transmisor es energía limitada; por lo tanto,
es razonable definir el costo como
Donde P es el potencia transmitida media. Lla potencia limitada de Gauss
CanalDescrito Aquí no es sólo de importancia teórica sino también de
importancia práctica, en que modela muchos canales de comunicación,
incluyendo radio de línea de visión y enlaces satelitales.
Lla capacidad de información del canal se define como el máximo de la
información mutua entre la entrada de canal Xk y la salida de canal Yk sobre
todas las distribuciones de la entrada Xk que satisfacen la limitación de poder
de (5,86). Dejar I(Xk;Yk) denota la información mutua entre Xk Y Yk. Podemos
entonces definir el capacidad de información del canal como
En palabras, la maximización de la información mutua I(Xk;Yk) se hace con

respecto a todas las distribuciones de la probabilidad de la entrada del canal Xk,
satisfaciendo la restricción de energía .
La información mutua I(Xk;Yk) puede expresarse en una de las dos formas
equivalentes mostradas en (5,81). Para el propósito a mano, usamos la
segunda línea de esta ecuación para escribir
Desde Xk Y Nk son variables aleatorias independientes y su suma es igual

a Yk de acuerdo con (5,84), encontramos que la entropía diferencial
condicional de Yk Dado Xk es igual a la entropía diferencial de Nk, como se
muestra en
Ahí, Que Puede Reescribir (5,88) Como
Con h(Nk) siendo independiente de la distribución de Xk, se sigue que

maximizar I(Xk;Yk) de acuerdo con (5,87) requiere maximizar la entropía
diferencial h(Yk). Para h(Yk) para ser máximo, Yk tiene que ser una variable
aleatoria de Gauss. Es decir, las muestras de la salida del canal representan un
noiselike Proceso. A continuación, observamos que desde Nk es de Gauss por
supuesto, la muestra Xk de la entrada de canal debe ser también de Gauss. Por
lo tanto, podemos afirmar que la maximización especificada en (5,87) se logra
eligiendo muestras de la entrada de canal de un noiselike Gauss-proceso
distribuido de energía media P. En consecuencia, podemos
reformular (5,87) Como
donde la información mutua I(Xk;Yk) se define de acuerdo con (5,90).

Para la evaluación de la capacidad de información C, ahora procedemos en tres
etapas:
1. La varianza de la muestra Yk de la salida del canal es igual a P + σ2, que es
una consecuencia del hecho de que las variables aleatorias X Y N son
estadísticamente independientes; por lo tanto, el uso de (5,76) rinde la
entropía diferencial
2. La varianza de la muestra ruidosa NkIguales σ2; por lo tanto, el uso

de (5,76) rinde la entropía diferencial
3. Sustituyendo (5,92) Y (5,93) En (5,90), y reconociendo la definición de la

capacidad de información dada en (5,91), conseguimos la fórmula:
Con el canal utilizado K veces para la transmisión de K muestras del

proceso X(t), en T segundos, encontramos que la capacidad de información
por unidad de tiempo es (K/T) por el resultado dado en (5,94). El número K es
igual a 2Bt, como en (5,83). En consecuencia, podemos expresar la capacidad
de información del canal en la siguiente forma equivalente:
Donde N0B es la potencia de ruido total en la salida del canal, definida de
acuerdo con (5,85).
Basándose en la fórmula de (5,95), ahora podemos hacer la siguiente
declaración
La capacidad de información de un canal continuo de ancho de

banda B Hertz, perturbado por AWGN de poder espectral
Densidad N0/2 y limitado en ancho de banda a B, se da por la
fórmula
Donde P es el promedio de potencia transmitida.
Lla Ley de capacidad de información12 De (5,95) es uno de los resultados más

notables de la teoría de la información de Shannon. En una sola fórmula,
destaca más vívidamente la interacción entre tres parámetros clave del
sistema: ancho de banda del canal, potencia transmitida media y densidad
espectral de potencia del ruido de los canales. Nota, sin embargo, que la
dependencia de la capacidad de información C en el ancho de banda del
canal B Es Lineal, mientras que su dependencia de la relación
señal/ruido P/(N0B) se Logarítmica. En consecuencia, podemos hacer otra
declaración perspicaz:
Es más fácil aumentar la capacidad de información de un canal de

comunicación continuo expandiendo su ancho de banda que
aumentando la potencia transmitida para una variación de ruido
prescrita.
La fórmula de la capacidad de la información implica que, para la energía

transmitida media dada P y ancho de banda del canal B, podemos transmitir
información a la tasa de C bits por segundo, como se define en (5,95), con la
probabilidad arbitrariamente pequeña del error empleando un sistema
suficientemente complejo de la codificación. No es posible transmitir a un
ritmo superior a C bits por segundo por cualquier sistema de codificación sin
una probabilidad definida de error. Por lo tanto, la ley de capacidad del canal
define el límite fundamental en la tarifa permitida de la transmisión sin error
para un poder-limitado, venda-limitado canal de Gauss. Para acercarse a este
límite, sin embargo, la señal transmitida debe tener propiedades estadísticas
que aproximen las del ruido blanco de Gauss.
EMBALAJE DE LA ESFERA
Para proporcionar un argumento plausible que apoye la ley de capacidad de
información, suponga que usamos un esquema de codificación que
rinde K Codewords, uno para cada muestra de la señal transmitida.
Dejar n denotan la longitud (es decir, el número de pedacitos) de cada
antirracista. Se presume que el esquema de codificación está diseñado para
producir una aceptablemente baja probabilidad de error de símbolo. Además,
el Codewords satisface la restricción de la energía; Esto es, la potencia media
contenida en la transmisión de cada antirracista con nbits Es EgDonde P es la
potencia media por bit.
Suponga que cualquier antirracista en el código es transmitido. El vector
recibido de n bits es de Gauss distribuido con una media igual a la antirracista
transmitida y una varianza igual a nσ2Donde σ2 es la variación de ruido. Con
una alta probabilidad, podemos decir que el vector de señal recibido en la
salida del canal está dentro de una esfera de radio ; Esto es, centrado en el
antirracista transmitido. Esta esfera está contenida en una esfera más grande
de radio Donde n(P + σ2) es la potencia media del vector de señal

recibido.
Así podremos visualizar el embalaje de la esfera13 como se describe en Figura
5,14. Con todo dentro de una pequeña esfera de radio asignado a la
antirracista en la que se centra. Por lo tanto, es razonable decir que, cuando
se transmite este antirracista en particular, la probabilidad de que el vector de
la señal recibida se encuentra dentro de la esfera correcta de "descodificación"
es alta. Lla Clave Pregunta Es:
Figura 5,14 El problema de la esfera-embalaje.
¿Cuántas esferas de decodificación se pueden empaquetar

dentro de la esfera más grande de los vectores de señal recibidos?
En otras palabras, ¿cuántos Codewords podemos elegir de
hecho?
Para responder a esta pregunta, queremos eliminar el solapamiento entre las

esferas de descodificación como se muestra en Figura 5,14. Por otra parte,
expresando el volumen de un n-esfera dimensional del
radio r Como Anr Donde Anes un factor de escalamiento, podemos seguir
n
haciendo dos afirmaciones:

1. El volumen de la esfera de los vectores de señal recibidos es An[n(P + σ2)]n/2.
2. El volumen de la esfera de decodificación es An(nσ2)n/2.
En consecuencia, se deduce que el número máximo de no intersección las
esferas de descodificación que se pueden empaquetar dentro de la esfera de
los posibles vectores de señal recibidas son dadas por
Tomando el logaritmo de este resultado en la base 2, vemos fácilmente que el
número máximo de bits por transmisión para una baja probabilidad de error
es efectivamente como se define anteriormente en (5,94).
Un comentario final está en orden: (5,94) es una manifestación idealizada del
teorema de la codificación del canal de Shannon, ya que proporciona un límite
superior a la capacidad de información físicamente realizable de un canal de
comunicación.
5,11 Implicaciones de la ley de capacidad de

información
Ahora que tenemos una buena comprensión de la ley de capacidad de
información, podemos seguir discutiendo sus implicaciones en el contexto de
un canal de Gauss que está limitado tanto en potencia como en ancho de
banda. Sin embargo, para que la discusión sea útil, necesitamos un marco ideal
contra el cual se pueda evaluar el desempeño de un sistema de comunicación
práctico. Con este fin, introducimos la noción de un sistema ideal, definido
como un sistema que transmite datos a una velocidad de bits Rb igual a la
capacidad de información C. Podemos entonces expresar el promedio de
potencia transmitida como
Donde Eb es el energía transmitida por bit. En consecuencia, el sistema ideal se

define por la ecuación
Reordenando esta fórmula, podemos definir el energía de la señal-por-

pedacito al cociente de densidad espectral de la energía del ruido, Eb/N0, en
términos de la relación C/BPara el sistema ideal de la siguiente manera:
Una trama de la eficiencia del ancho de banda Rb/B Versus Eb/N0 se llama
el diagrama de eficiencia de ancho de banda. Se muestra un formulario
genérico de este diagrama en Figura 5,15, donde la curva marcada como
"límite de capacidad" corresponde al sistema ideal para el cual Rb = C.
Figura 5,15 Diagrama de eficiencia de ancho de banda.
Basándose en Figura 5,15, podemos hacer tres observaciones:

1. Para ancho de banda de canal infinito, la relación Eb/N0 se aproxima al valor
límite
donde loge representa el logaritmo natural LN. El valor definido

en (5,100) se llama el Shannon LímitePara un canal AWGN,
asumiendo una tasa de código de cero. Expresado en decibelios,
el límite de Shannon es igual a – 1,6 Db. El valor limitador
correspondiente de la capacidad del canal se obtiene dejando el
ancho de banda del canal B En (5,95) infinito de aproximación, en
cuyo caso obtenemos
2. Lla límite de capacidad se define por la curva de la tasa de bits crítica Rb = C.
Para cualquier punto en este límite, podemos voltear una moneda justa (con
probabilidad de 1/2) si tenemos transmisión sin errores o no. Como tal, el
límite separa combinaciones de parámetros del sistema que tienen el
potencial para apoyar la transmisión sin errores (Rb > C) de aquellos para los
que no es posible la transmisión sin errores (Rb < C). Esta última región se
muestra sombreada en Figura 5,15.
3. El diagrama destaca el potencial trade-offs entre tres cantidades: el Eb/N0,
la relación Rb/B, y la probabilidad de error de símbolo Pe. En particular, se
puede ver el movimiento del punto de operación a lo largo de una línea
horizontal como el comercio Pe Versus Eb/N0 para un fijo Rb/B. Por otro lado,
podemos ver el movimiento del punto de operación a lo largo de una línea
vertical como el comercio Pe Versus Rb/B para un fijo Eb/N0.
Ejemplo 10 Capacidad del canal AWGN de entrada binaria
En este ejemplo, investigamos la capacidad de un canal AWGN
usando Codificado señalización binaria de antipodales (i.e., niveles – 1 y + 1
para los símbolos binarios 0 y 1, respectivamente). En particular, abordamos
la cuestión de determinar la tasa mínima alcanzable de errores de bit en
función de Eb/N0 para la tarifa de código diversa r. Se asume que los símbolos
binarios 0 y 1 son equiprobables.
Deje que las variables aleatorias X Y Y denotan la entrada del canal y la salida
del canal respectivamente; X es una variable discreta, mientras que Y es una
variable continua. A la luz de la segunda línea de (5,81), podemos expresar la
información mutua entre la entrada del canal y la salida del canal como
El segundo término, h(Y|X), es la entropía diferencial condicional de la salida

del canal Y, dada la entrada de canal X. En virtud de (5,89) Y (5,93), este
término es sólo la entropía de un Gauss Distribución. Por lo tanto,
usando σ2 para denotar la varianza del ruido del canal, escribimos
A continuación, el primer término, h(Y), es la entropía diferencial de la salida

del canal Y. Con el uso de la señalización binaria de antipodales, la función de
la densidad de probabilidad de YDado X = x, es una mezcla de dos
distribuciones de Gauss con varianza común σ2 y valores promedio – 1 y + 1,
como se muestra en
Por lo tanto, podemos determinar la entropía diferencial de Y uso de la
fórmula
Donde fY(yi | x) se define por (5,102). De las fórmulas de h(Y|X) y h(Y), está
claro que el la información mutua es sólo una función de la variación de
ruido σ2. Usando M(σ2) para denotar esta dependencia funcional, por lo tanto
podemos escribir
Desafortunadamente, no hay una fórmula cerrada que podamos derivar

para M(σ2) debido a la dificultad de determinar h(Y). Sin embargo, la entropía
diferencial h(Y) puede ser bien aproximado usando Integración Monte Carlo;
Ver Apéndice E para más detalles.
Porque los símbolos 0 y 1 son equiprobables, sigue que la capacidad del
canal C es igual a la información mutua entre X Y Y. Por lo tanto, para la
transmisión de datos sin errores sobre el canal de AWGN, la tarifa del
código r debe satisfacer la condición
Una medida robusta de la relación Eb/N0Es
Donde P es el promedio de energía transmitida y N0/2 es la densidad espectral

de potencia de dos lados del ruido del canal. Sin pérdida de generalidad,
podemos establecer P = 1. Podemos entonces expresar la variación del ruido
como
Sustituyendo la ecuación (5,104) En (5,103) y reordenando los términos,

conseguimos la relación deseada:
Donde M– 1(r) es el InversaDe la información mutua entre la entrada de canal y
Putput, expresado en función de la tasa de código r.
Usando el método de Monte Carlo para estimar la entropía diferencial h(Y) y
por lo tanto M– 1(r), las parcelas de Figura 5,16 se calculan.14 Figura 5.16 a traza
el mínimo Eb/N0 versus la tasa de código r para la transmisión sin
errores. Figura 5.16 b traza la tasa de error de bit alcanzable mínima
versus Eb/N0 con la tarifa del código r como parámetro en ejecución. De Figura
5,16 Que Puede Dibujar Lla Siguientes Conclusiones:
 Para codificar señalización binaria (i.e., r = 1), un infinito Eb/N0 se

requiere para la comunicación sin errores, que está de acuerdo con lo
que sabemos sobre codificar transmisión de datos sobre un canal
AWGN.
 El mínimo Eb/N0, disminuye con la disminución de la tasa de código r,
que es intuitivamente satisfactorio. Por ejemplo, para r = 1/2, el valor
mínimo de Eb/N0 es ligeramente menor que 0,2 Db.
 Como r enfoques de cero, el mínimo Eb/N0 aproxima el valor límite de –
1,6 dB, que está de acuerdo con el limite de Shannon derivado
anteriormente; Ver (5,100).
Figura 5,16 Señalización binaria de antipodales sobre un canal AWGN. (a) mínimo Eb/N0 versus
la tasa de código r. (b) tasa mínima de error de bit versus Eb/N0 para la tarifa de código diversa r.
5,12 Información Capacidad del canal ruidoso
coloreado
El teorema de la capacidad de información formulado en (5,95) se aplica a un
canal de ruido blanco con banda limitada. En esta sección extendemos la ley
de capacidad de información de Shannon al caso más general de
un blancosO Color, canal ruidoso.15 Para ser específico, considere el modelo de
canal mostrado en Figura 5.17 a donde la función de transferencia del canal es
denotada por H(f). El ruido del canal n(t), que aparece aditivamente en la
salida del canal, se modela como la función de la muestra de un proceso
inmóvil de Gauss de la densidad espectral media y de la energía cero SN(f). El
requisito es doble:
1. Encontrar el conjunto de entrada, descrito por la densidad espectral de
potencia SXx(f), que maximiza la información mutua entre la salida del canal y(t)
y la entrada de canal x(t), sujeto a la restricción de que la potencia media
de x(t) se fija en un valor constante P.
2. Por lo tanto, determine la capacidad de información óptima del canal.
Figura 5,17 (a) modelo del canal ruidoso venda-limitado, energía-limitado. (b) modelo
equivalente del canal.
Este problema es un problema de optimización restringido. Para resolverlo,

procedemos de la siguiente manera:
 Debido a que el canal es lineal, podemos reemplazar el modelo de Figura

5.17 a con el modelo equivalente que se muestra en Figura 5.17 b.
Desde el punto de vista de las características espectrales de la señal más
el ruido medido en la salida del canal, los dos modelos de Figura
5,17 son equivalentes, siempre que la densidad espectral de potencia
del ruido Hay(t), en Figura 5.17 b se define en términos de la densidad
espectral de potencia del ruido n(t), en Figura 5.17 a Como
donde |H(f)| es la respuesta de magnitud del canal.
 Para simplificar el análisis, usamos el "principio de divide y vencerás"

para aproximar lo continuo |H(f)| descrita en función de la
frecuencia f en forma de escalera, como se ilustra en Figura 5,18.
Específicamente, el canal se divide en un gran número de ranuras de
frecuencia contiguas. Cuanto más pequeño hagamos el intervalo de
frecuencia incremental Δf de cada subcanal, mejor es esta
aproximación.
El resultado neto de estos dos puntos es que el modelo original de Figura 5.17
a se sustituye por la combinación paralela de un número finito de
subcanales, N, cada uno de los cuales está corrompido esencialmente por
"ruido blanco banda limitada de Gauss".
Figura 5,18 Staricase aproximación de una respuesta de magnitud arbitraria |H(f)|; sólo se
muestra la parte de la frecuencia positiva de la respuesta.
Lla ksubcanal en la aproximación al modelo de Figura 5.17 b es descrita por
La potencia media del componente de señal xk(t) se

Donde SX(fk) es la densidad espectral de la energía de la señal de entrada
evaluada en la frecuencia f = fk. Lla Varianza De Lla Ruido Componente nk(t) Es
Donde SN(fk) y |H(fk)| son la densidad espectral del ruido y la respuesta de

magnitud del canal evaluada en la frecuencia fkRespectivamente. Lla
Información Capacidad De Lla kTH Subcanal Es
donde el factor 1/2 explica el hecho de que Δƒ se aplica a las frecuencias

positivas y negativas. Todas las N los subcanales son independientes el uno del
otro. Por lo tanto, la capacidad total del canal total se da aproximadamente
por la suma
El problema que tenemos que abordar es maximizar la capacidad de

información general C sujeto a la restricción
El procedimiento habitual para resolver un problema de optimización

restringido es utilizar el método de multiplicadores de
Lagrange(véase Apéndice D para una discusión de este método). Para
continuar con esta optimización, primero definimos una función objetiva que
incorpore tanto la capacidad de información C y la restricción (es
decir, (5,111) Y (5,112)), como se muestra en
Donde λ es el multiplicador de Lagrange. A continuación, diferenciar la función
objetiva J(Pk) con respecto a Pk y estableciendo el resultado igual a cero,
obtenemos
Para satisfacer esta solución optimizadora, imponemos el siguiente requisito:
Donde K es una constante que es la misma para todos k. La constante K se

elige para satisfacer la restricción de potencia media.
Insertar los valores definitorios de (5,108) Y (5,109) en la condición de
optimización de (5,114), simplificando y reordenando los términos que
conseguimos
Dejar indicar el rango de frecuencias para el que la constante K satisface la

condición
Entonces, como el intervalo de frecuencia incremental Δƒ se permite acercarse

a cero y el número de subcanales N va al infinito, podemos
usar (5,115) declarar formalmente que la densidad espectral de potencia del
conjunto de entrada que alcanza la capacidad óptima de información es una
cantidad no negativa definida por
Porque la energía media de un proceso al azar es el área total bajo curva de la

densidad espectral de la energía del proceso, podemos expresar la energía
media de la entrada del canal x(t) como
Para una prescripción P y se especifica SN(f) y H(f), la constante K es la solución
para (5,117).
Lo único que nos queda por hacer es encontrar la capacidad óptima de
información. Sustituyendo la solución optimizadora de (5,114) En (5,111) y
luego usando los valores definitorios de (5,108) Y (5,109), obtenemos
Cuando el intervalo de frecuencia incremental Δƒ se le permite acercarse a

cero, esta ecuación toma la forma limitante
donde la constante K se elige como la solución para (5,117) para una potencia
de señal de entrada prescrita P.
INTERPRETACIÓN DE LLENADO DE AGUA DE LA LEY DE

CAPACIDAD DE INFORMACIÓN
Ecuaciones (5,116) Y (5,117) sugerir la imagen retratada en Figura 5,19.
Específicamente, Que Hacer Lla Siguientes Observaciones:
 La potencia de entrada apropiada densidad espectral SX(f) se describe

como las regiones inferiores de la función SN(f)/|H(f)|2 que yacen por
debajo del nivel constante K, que se muestran sombreados.
 La potencia de entrada P se define por el área total de estas regiones
sombreadas.
La imagen de dominio espectral representado aquí se llama el interpretación

del agua-relleno (que vierte), en el sentido de que el proceso por el cual la
energía de entrada se distribuye a través de la función SN(f)/ |H(f)|2 es idéntica
a la forma en que el agua se distribuye en un buque.
Considere ahora el caso idealizado de una señal limitada de banda en el canal
AWGN de la densidad espectral de potencia N(f) = N0/2. La función de
transferencia H(f) es el de un filtro de paso de banda ideal definido por
Donde fc es el banda frecuencia y B es el ancho de banda del canal. Para Este
Especial Caso (5,117) Y (5,118) Reducir Respectivamente Para
Por lo tanto, eliminar K entre estas dos ecuaciones, conseguimos la forma

estándar del teorema de capacidad de Shannon, definido por (5,95).
Ejemplo 11 Capacidad del próximo canal dominado
Líneas de suscriptores digitales (DSLs) refieren a una familia de diversas
tecnologías que funcionan sobre un lazo cerrado de la transmisión; se
discutirán en Capítulo 8, Sección 8,11. Por el momento, basta con decir que un
DSL está diseñado para proporcionar la transmisión de datos entre un terminal
de usuario (por ejemplo, ordenador) y la oficina central de una compañía
telefónica. Un deterioro importante del canal que surge en el despliegue de un
DSL es el cercano-hablar cruzado (siguiente). La densidad espectral de la
energía de este diafonía se puede tomar como
Figura 5,19 Interpretación del agua-Teorema de la capacidad de información para un canal

ruidoso de color.
Donde SX(f) es la densidad espectral de potencia de la señal transmitida
y HPróxima(f) es la función de transferencia que empareja pares trenzados
adyacentes. La única restricción que tenemos para satisfacer en este ejemplo
es que la función de densidad espectral de potencia SX(f) se no negativo para
todos f. Sustituyendo (5,119) En (5,116), encontramos fácilmente que esta
condición es satisfecha resolviendo para K Como
Finalmente, usando este resultado en (5,118), encontramos que la capacidad

del próximo canal de suscriptores digitales está dada por
Donde es el conjunto de frecuencias positivas y negativas para las que SX(f)

> 0.
5,13 Tasa Teoría de la distorsión

En Sección 5,3 Introdujimos el teorema de la fuente-codificación para una
fuente memoryless discreta, según la cual la longitud antirracista media debe
ser por lo menos tan grande como la entropía de la fuente para la codificación
perfecta (es decir, representación perfecta de la fuente). Sin embargo, en
muchas situaciones prácticas hay restricciones que obligan a la codificación a
ser imperfectas, por lo tanto, resulta inevitable Distorsión. Por ejemplo, las
restricciones impuestas por un canal de comunicación pueden situar un límite
superior en la tasa de código admisible y, por tanto, en una longitud media de
antirracista asignada a la fuente de información. Como otro ejemplo, la fuente
de información puede tener una amplitud continua como en el caso del habla,
y el requisito es cuantificar la amplitud de cada muestra generada por la fuente
para permitir su representación por un antirracista de longitud finita como en
el código de pulso modulación que se discutirá en Capítulo 6. En tales casos, el
problema se denomina codificación de código fuente con un criterio de
fidelidad, y la rama de la teoría de la información que se ocupa de ella se
llama Teoría de la distorsión.16 La teoría de la distorsión de la tarifa encuentra
aplicaciones en dos tipos de situaciones:
 Código fuente donde el alfabeto de codificación permitido no puede
representar exactamente la fuente de información, en cuyo caso nos
vemos obligados a hacer pérdidas compresión de datos.
 Transmisión de información a una velocidad superior a la capacidad del
canal.
Por consiguiente, la teoría de la distorsión de la tarifa se puede considerar

como extensión natural del teorema de la codificación de Shannon.
FUNCIÓN DE DISTORSIÓN DE VELOCIDAD

Considere una fuente de memoria discreta definida por un M-Ary Alfabeto :
{xi|i = 1, 2,...,M}, que consiste en un conjunto de símbolos estadísticamente
independientes junto con las probabilidades de símbolo asociado {pi|i =
1,2,...,M}. Dejar R ser la tasa de código promedio en bits por antirracista. La
representación Codewords se toma de otro alfabeto :{yj| j = 1, 2,...,N}. El
teorema de código fuente indica que este segundo alfabeto proporciona una
representación perfecta de la fuente siempre que R > HDonde H es la entropía
de la fuente. Pero si nos vemos obligados a tener R < H, entonces hay una
distorsión inevitable y, por lo tanto, pérdida de información.
Dejar p(xi, yj) denota la probabilidad conjunta de ocurrencia del símbolo de
origen xi y símbolo de representación yj. De Probabilidad Teoría, Que Hve
Donde p(yj| xi) es una probabilidad de transición. Dejar d(xi, yj) denota una
medida del costo incurrido en la representación del símbolo de origen xi por el
símbolo yj; la cantidad d(xi, yj) se conoce como un una sola letra medida de la
distorsión. El promedio estadístico de d(xi, yj) sobre todos los símbolos posibles
de la fuente y símbolos de la representación es dado por
Tenga en cuenta que la distorsión media es una función continua no negativa

de las probabilidades de transición p(yj| xi) que son determinadas por el par
codificador-decodificador de origen.
Una asignación de probabilidad condicional p(yj| xi) se dice que es D-
Admisible Si, y sólo si, la distorsión media es menor o igual a algún valor
aceptable D. El conjunto de todos D-las asignaciones de probabilidad
condicional admisibles son denotadas por
Para cada conjunto de probabilidades de transición, tenemos una información

mutua
Un función de la distorsión de la tarifa R(D) se define como la tarifa de

codificación más pequeña posible para la cual la distorsión media está
garantizada para no exceder D. Dejar denotar el conjunto al que la
probabilidad condicional p(yj| xi) pertenece para un prescrito D. Entonces,
para un fijo D escribimos17
Asunto Para Lla Restricción
La función de distorsión de velocidad R(D) se mide en unidades de brocas si se

utiliza el logaritmo base-2 en (5,123). Intuitivamente, esperamos que la
distorsión D para disminuir como la función de distorsión de velocidad R(D) se
aumenta. Podemos decir a la inversa que tolerar una gran distorsión D permite
el uso de una tarifa más pequeña para la codificación y/o la transmisión de la
información.
Figura 5,20 Resumen de la teoría de la distorsión.
Figura 5,20 resume los parámetros principales de la teoría de la distorsión del

índice. En particular, dados los símbolos de origen {xi} y sus probabilidades {pi},
y dada una definición de la medida de distorsión de una sola letra d(xi, yj), el
cálculo de la función de la distorsión de la tarifa R(D) implica encontrar la
asignación de probabilidad condicional p(yj|xi) sujeto a ciertas limitaciones
impuestas a p(yj|xi). Se trata de un problema de variación, cuya solución
lamentablemente no es directa en general.
Ejemplo 12 Fuente de Gauss
Considere una fuente de Gauss sin memoria y de tiempo discreto con media y
varianza cero σ2. Dejar x denota el valor de una muestra generada por dicha
fuente. Dejar y denota una versión cuantificada de x eso permite una
representación finita de ella. Lla Cuadrado-error Distorsión
proporciona una medida de distorsión que es ampliamente utilizada para

alfabetos continuos. La función de la distorsión de la tarifa para la fuente de
Gauss con la distorsión del cuadrado-error, según lo descrito adjunto, es dada
por
En este caso, vemos que R(D) → ∞ Como D → 0, y R(D) = 0 para D = σ2.

Ejemplo 13 Establecer de fuentes de Gauss paralelas
Considere a continuación un conjunto de N variables aleatorias
independientes de Gauss Donde Xi tiene cero media y varianza .
Usando Lla Distorsión Medida
y basándose en el resultado de Ejemplo 12, podemos expresar la función de

distorsión de velocidad para el conjunto de fuentes de Gauss paralelas
descritas aquí como
Donde Di está definida por
y la constante λ se elige para satisfacer la condición
En comparación con Figura 5,19, (5,128) Y (5,129) puede ser interpretado

como una especie de "relleno de agua en reversa", como se ilustra en Figura
5,21. Primero, elegimos una constante λy sólo el subconjunto de variables
aleatorias cuyas varianzas exceden la constante λ, No se utilizan bits para
describir el subconjunto restante de variables aleatorias cuyas varianzas son
inferiores a la constante λ.
Figura 5,21 Cuadro reverso del agua-relleno para un sistema de procesos paralelos de Gauss.
5,14 Resumen y discusión

En este capítulo establecimos dos límites fundamentales en diferentes
aspectos de un sistema de comunicación, los cuales están encarnados en el
teorema de codificación de código fuente y el teorema de codificación de
canales.
Lla Teorema de código fuente, El primer teorema de Shannon, proporciona la
herramienta matemática para evaluar compactación de datos; Es
decir compresión sin pérdida de datos generados por una fuente de memoria
discreta. El teorema nos enseña que podemos hacer que el número promedio
de elementos de código binario (bits) por símbolo de fuente sea tan pequeño
como, pero no menor que, la entropía de la fuente medida en bits.
Lla Entropía de una fuente es una función de las probabilidades de los
símbolos de origen que constituyen el alfabeto de la fuente. Dado que la
entropía es una medida de incertidumbre, la entropía es máxima cuando la
distribución de probabilidad asociada genera incertidumbre máxima.
Lla Teorema de codificación de canales, El segundo Teorema de Shannon, es el
resultado más sorprendente y único de la teoría de la información. Fora canal
simétrico binario, el teorema de codificación de canales nos enseña que, para
cualquier tasa de código r inferior o igual a la capacidad C del canal, existen
códigos tales que la probabilidad media de error es tan pequeña como la
queramos. Un canal simétrico binario es la forma más simple de un canal
discreto de memoria. Es simétrica, ya que la probabilidad de recibir el símbolo
1 si se envía el símbolo 0 es la misma que la probabilidad de recibir el símbolo
0 si se envía el símbolo 1. Esta probabilidad, la probabilidad de que se produzca
un error, se denomina probabilidad de transición. La probabilidad de
transición p es determinado no sólo por el ruido aditivo en la salida del canal,
pero también por la clase de receptor utilizado. El valor de p define de forma
única la capacidad del canal C.
Lla Ley de capacidad de información, una aplicación del teorema de
codificación de canales, nos enseña que hay un límite superior a la velocidad a
la cual cualquier sistema de comunicación puede funcionar confiablemente (es
decir, libre de errores) cuando el sistema está limitado en el poder. Esta tasa
máxima, denominada capacidad de información, se mide en bits por segundo.
Cuando el sistema funciona a una velocidad mayor que la capacidad de
información, se condena a una alta probabilidad de error,
independientemente de la elección del conjunto de señal utilizado para la
transmisión o el receptor utilizado para procesar la salida del canal.
Cuando la salida de una fuente de información se comprime de forma sin
pérdida, la secuencia de datos resultante suele contener bits redundantes.
Estos bits redundantes se pueden eliminar utilizando un algoritmo sin pérdida,
como la codificación Huffman o el Lempel –Ziv algoritmo para datos
Compactación. Podemos hablar así de la compresión de datos seguida por la
compactación de datos como dos componentes de la disección de codificación
de código fuente, que se llama así porque se refiere exclusivamente a las
fuentes de información.
Concluimos este capítulo sobre la teoría de la información de Shannon
señalando que, en muchas situaciones prácticas, hay restricciones que obligan
a la codificación de fuentes a ser imperfectas, lo que resulta en
inevitable Distorsión. Por ejemplo, las restricciones impuestas por un canal de
comunicación pueden situar un límite superior en la tasa de código admisible
y, por tanto, la longitud media de antirracista asignada a la fuente de
información. Como otro ejemplo, la fuente de información puede tener una
amplitud continua, como en el caso del habla, y el requisito es Cuantificar la
amplitud de cada muestra generada por la fuente para permitir su
representación por un antirracista de la longitud finita, como adentro
modulación del pulso-código discutido en Capítulo 6. En estos casos, el
problema teórico de la información se denomina codificación de código fuente
con un criterio de fidelidad, y la rama de la teoría de la información que se
ocupa de ella se llama Teoría de la distorsión, que puede ser vista como una
extensión natural del teorema de la codificación de Shannon.
PROBLEMAS
Entropía
5,1 Dejar p denota la probabilidad de algún evento. Trazar la cantidad de
información obtenida por la ocurrencia de este evento para 0 ≤ p ≤ 1.
5,2 Una fuente emite uno de los cuatro símbolos posibles durante cada
intervalo de señalización. Los símbolos ocurren con las probabilidades
p0 = 0,4
p1 = 0,3
p2 = 0,2
p3 = 0,1
que suman a la unidad como deberían. Encuentre la cantidad de

información obtenida observando la fuente que emite cada uno de estos
símbolos.
5,3 Una fuente emite uno de los cuatro símbolos s0, s1, s2Y s3 con
probabilidades 1/3, 1/6, 1/4 y 1/4, respectivamente. Los símbolos sucesivos
emitidos por la fuente son estadísticamente independientes. Calcule la
entropía de la fuente.
5,4 Dejar X representan el resultado de un solo rollo de un dado justo. ¿Cuál
es la entropía de X?
5,5 La función de la muestra de un proceso de Gauss de la media cero y de la
variación de unidad se muestrea uniformemente y después se aplica a un
cuantificador uniforme que tiene la característica de la amplitud de la entrada-
salida mostrada en Figura p 5.5. Calcular Lla Entropía De Lla Cuantificador
Salida.
Figura p 5.5
5,6 Considere una fuente sin memoria discreta con alfabeto de origen S =
{s0, s1,...,sK – 1} y las estadísticas de origen {p0, p1,...,pK – 1}. Lla nla extensión del TH
de esta fuente es otra fuente sin memoria discreta con alfabeto de la
fuente S(n) = {σ0, σ1,...,σM – 1}, donde M = Kn. Dejar P(σi) denota la probabilidad
de σi.
Un. Demostrar que, como era de esperar,
B. Mostrar Que
Donde pik es la probabilidad de símbolo sik Y H(S) es la entropía de la fuente

original.
C. AhíMostrar Que
5,7 Considere una fuente sin memoria discreta con alfabeto de origen S =
{s0, s1, s2} y las estadísticas de origen {0,7, 0,15, 0,15}.
Un. Calcule la entropía de la fuente.
B. Calcule la entropía de la extensión de segundo orden de la fuente.

5,8 Puede ser una sorpresa, pero el número de bits necesarios para
almacenar el texto es mucho menor que el requerido para almacenar su
equivalente hablado. ¿puede explicar la razón de esta declaración?
5,9 Que una variable aleatoria discreta X asuma valores en el conjunto
{x1,x2,...,xn}. Muestran que la entropía de XSatisface la desigualdad
H(X) ≤ log n
y con la igualdad si, y sólo si, la probabilidad pi = 1/n para todos i.

COMPRESIÓN DE DATOS SIN PÉRDIDA
5,10 Considerar una fuente inmemorial discreta cuyo alfabeto consiste
en K símbolos equiprobables.
Un. Explique por qué el uso de un código de longitud fija para la

representación de tal fuente es tan eficiente como cualquier código puede ser.
B. ¿Qué condiciones tienen que ser satisfechas por K ¿y la longitud de

antirracista para que la eficacia de la codificación sea 100%?
5,11 Considere los cuatro códigos que se enumeran a continuación:
Un. Dos de estos cuatro códigos son códigos de prefijo. Identificarlos y

construir sus árboles de decisión individuales.
B.Aplicar la desigualdad de Kraft a los códigos I, II, III, y IV. Analice sus
resultados a la luz de los obtenidos en la parte a.
5,12 Considere una secuencia de letras del alfabeto inglés con sus
probabilidades de ocurrencia
Carta a i l m n o p
Probabilidad 0,1 0,1 0,2 0,1 0,1 0,2 0,1

Calcule dos códigos Huffman diferentes para este alfabeto. En un caso, mueva
un símbolo combinado en el procedimiento de codificación lo más alto posible;
en el segundo caso, muévalo lo más bajo posible. Por lo tanto, para cada uno
de los dos códigos, encontrar la longitud media de antirracista y la variación
de la longitud media de antirracista sobre el conjunto de letras. Comente sus
resultados.
5,13 Una fuente inmemorial discreta tiene un alfabeto de siete símbolos cuyas
probabilidades de ocurrencia son las descritas aquí:
Símbolo s0 s1 s2 s3 s4 s5
Probabilidad 0,25 0,25 0,125 0,125 0,125 0,0625

Calcule el código Huffman para este origen, moviendo un símbolo
"combinado" lo más alto posible. Explique por qué el código fuente calculado
tiene una eficiencia de 100%.
5,14 Considere una fuente sin memoria discreta con alfabeto {s0, s1, s2} y las
estadísticas {0,7, 0,15, 0,15} para su salida.
Un. Aplique el algoritmo Huffman a este origen. Por lo tanto, muestre que la
longitud promedio de antirracista del código Huffman equivale a 1,3
bits/símbolo.
B. Que la fuente se extienda a la orden dos. Aplique el algoritmo Huffman a la

fuente extendida resultante y muestre que la longitud media de antirracista
del nuevo código equivale a 1,1975 bits/símbolo.
C. Extienda el orden de la fuente extendida a tres y reaplique el algoritmo

Huffman; por lo tanto, calcule la longitud media de antirracista.
D. Compare la longitud de antirracista promedio calculada en las partes b y c

con la entropía de la fuente original.
5,15 Figura p 5.15 muestra un árbol Huffman. ¿Cuál es el antirracista para
cada uno de los símbolos a, B, C, D, E, F y G representados por este árbol
Huffman? Qué Son Su Individuales antirracista Longitudes?
Figura p 5.15
5,16 Un ordenador ejecuta cuatro instrucciones que son designadas por el
Codewords (00, 01, 10, 11). Asumiendo que las instrucciones se utilicen de
forma independiente con probabilidades (1/2, 1/8, 1/8, 1/4), calcule el
porcentaje por el cual el número de bits utilizados para las instrucciones puede
reducirse mediante el uso de un código fuente óptimo. Construya un código
Huffman para realizar la reducción.
5,17 Considere la siguiente secuencia binaria
11101001100010110100...
Utilice el Lempel –Ziv algoritmo para codificar esta secuencia, asumiendo que
los símbolos binarios 0 y 1 ya están en el libro de cocina.
CANAL SIMÉTRICO BINARIO
5,18 Considere el diagrama de probabilidad de transición de un canal binario
simétrico que se muestra en Figura 5,8. Los símbolos binarios de entrada 0 y 1
ocurren con igual probabilidad. Encuentra las probabilidades de los símbolos
binarios 0 y 1 que aparecen en la salida del canal.
5,19 Repita el cálculo en Problema 5,18, asumiendo que los símbolos
binarios de entrada 0 y 1 ocurren con probabilidades 1/4 y 3/4,
respectivamente.
INFORMACIÓN MUTUA Y CAPACIDAD DE CANAL
5,20 Considerar un canal binario simétrico caracterizado por la probabilidad
de transición p. Trazar la información mutua del canal en función de p1, la
probabilidad a priori del símbolo 1 en la entrada del canal. Haga sus cálculos
para la probabilidad de transición p = 0, 0,1, 0,2, 0,3, 0,5.
5,21 Revisar (5,12), exprese la información mutua I(X;Y) en términos de la
entropía relativa
D(p(x, y)||p(x)p(y))
5,22 Figura 5,10 representa la variación de la capacidad de canal de un canal
simétrico binario con la probabilidad de transición p. Utilizar los resultados
de Problema 5,19 para explicar esta variación.
5,23 Considere el canal binario simétrico descrito en Figura 5,8.
Dejar p0 denota la probabilidad de enviar el símbolo binario x0 = 0 y dejar p1 =
1 – p0 denota la probabilidad de enviar el símbolo binario x1 = 1. Dejar p denota
la probabilidad de transición del canal.
Un. Muestran que la información mutua entre la entrada del canal y la salida
del canal
Donde Lla Dos Entropía Funciones
B. Muestran que el valor de p0 que maximiza I(X; Y) es igual a 1/2.
C. Por lo tanto, mostrar que la capacidad del canal es igual a

C = 1 – H(p)
5,24 Dos canales simétricos binarios están conectados en cascada como se
muestra en Figura p 5.24. Encontrar la capacidad de canal total de la conexión
en cascada, asumiendo que ambos canales tienen el mismo diagrama de
probabilidad de transición de Figura 5,8.
Figura p 5.24
5,25 Lla canal de borrado binario tiene dos entradas y tres salidas como se
describe en Figura p 5.25. Las entradas están etiquetadas como 0 y 1 y las
salidas están etiquetadas como 0, 1 y e. Una fracción α de los bits entrantes es
borrado por el canal. Encontrar Lla Capacidad De Lla Canal.
Figura p 5.25
5,26 Considere un sistema de comunicación digital que utilice un código de

repetición para la codificación/descodificación de canales. En particular, cada
transmisión se repite n veces, donde n = 2m + 1 es un entero impar. El
decodificador funciona de la siguiente manera. Si en un bloque de n los
pedacitos recibidos el número de 0s exceden el número de 1s, después el
decodificador decide a favor de a 0; Si no, decide a favor de un 1. Se produce
un error al m + 1 o más transmisiones de n = 2m + 1 son incorrectos. Asuma un
canal binario simétrico.
Un. Para n = 3, muestran que la probabilidad media de error se da por
Donde p es la probabilidad de transición del canal.
B. Para n = 5, muestran que la probabilidad media de error se da por

C. Por lo tanto, para el caso general, deducir que la probabilidad media de
error se da por
5,27 Dejar X, YY Z ser tres variables aleatorias discretas. Para cada valor de la
variable aleatoria Z, representado por la muestra zDefinir
Muestran que la entropía condicional H(X | Y) satisface la desigualdad
Donde es la expectativa Operador.

5,28 Considerar dos variables aleatorias discretas correlacionadas X Y Y, cada
uno de los cuales toma un valor en el conjunto . Suponga que el valor
tomado por Y se conoce. El requisito es adivinar el valor de X. Dejar PeDenotar
la probabilidad de error, definida por
Demuestran que Pe está relacionado con la entropía condicional

de X Dado Y por la desigualdad
Esta desigualdad se conoce como La desigualdad de Fano. Pista: Utilice el

resultado derivado en Problema 5,27.
5,29 En este problema exploramos el Convexidad de la información
mutua I(X;Y), que implica el par de variables aleatorias discretas X Y Y.
Considere un canal discreto, para el cual la probabilidad de transición p(y|x)
se fija para todos xY y. Dejar X1 Y X2 ser dos variables aleatorias de entrada,
cuyas distribuciones de probabilidad de entrada son respectivamente
denotadas por p(x1) y p(x2). La distribución de probabilidad correspondiente
de X se define por la combinación convexa
p(x) = a1p(x1) + a2 p(x2)
Donde a1 Y a2 son constantes arbitrarias. Demostrar la desigualdad
I(X; Y) ≥ a1I(X1;Y1) + a2I(X2;Y2)
Donde X1, X2Y X son las entradas de canal, y Y1, Y2Y Y son las salidas de canal
correspondientes. Para la prueba, puede utilizar la siguiente forma de La
desigualdad de Jensen:
ENTROPÍA DIFERENCIAL
5,30 La entropía diferencial de una variable aleatoria continua X se define por
la integral de (5,66). Del mismo modo, la entropía diferencial de un vector
aleatorio continuo X se define por la integral de (5,68). Estas dos integrales
pueden no existir. Justificar esta afirmación.
5,31 Muestran que la entropía diferencial de una variable aleatoria
continua X es invariante a la traducción; Es decir
h(X + c) = h(X)
para algunos constantes c.
5,32 Dejar X1, X2,...,Xn denota los elementos de un vector de Gauss X. Lla Xi son
independientes con media miY Varianza , i = 1, 2,...,n. Muestran que la
entropía diferencial del vector X se da por
donde e es la base del logaritmo natural. ¿Qué hace h(X) reducir a si las
varianzas son todas iguales?
5,33 Una variable aleatoria continua X se limita a una magnitud máxima M; Es
decir
–M < X < M
Un. Muestran que la entropía diferencial de X es máximo cuando se distribuye

uniformemente, como se muestra en
B. Determinar la entropía diferencial máxima de X.

5,34 Refiriéndose a (5,75), haga lo siguiente:
Un. Verificar que la entropía diferencial de una variable aleatoria de Gauss de

media μ y varianza σ2 se da por 1/2 log2(2π Y σ2), donde e es la base del
algoritmo natural.
B. Por lo tanto, confirme la desigualdad de (5,75).

5,35 Demostrar las propiedades de la simetría, la no negatividad y la expansión
de la información mutua I(X;Y) descrita en Sección 5,6.
5,36 Considere la variable aleatoria continua Y, definido por
Y=X+N
donde las variables aleatorias X Y N son estadísticamente independientes.
Muestran que la entropía diferencial condicional de YDado XIguales
h(Y | X) = h(N)
Donde h(N) es la entropía diferencial de N.
LEY DE CAPACIDAD DE INFORMACIÓN
5,37 Un canal de voz de la red telefónica tiene un ancho de banda de 3,4 kHz.
Un. Calcule la capacidad de información del canal telefónico para una relación
señal/ruido de 30 Db.
B. Calcule la relación mínima señal/ruido requerida para soportar la

transmisión de información a través del canal telefónico a una velocidad de
9600 bits/s.
5,38 Los datos alfanuméricos se ingresan en un ordenador desde un terminal
remoto a través de un canal telefónico de nivel de voz. El canal tiene un ancho
de banda de 3,4 kHz y la relación señal-ruido de salida de 20 Db. El terminal
tiene un total de 128 símbolos. Supongamos que los símbolos son
equiprobables y las transmisiones sucesivas son estadísticamente
independientes.
Un. Calcule la capacidad de información del canal.
B. Calcule la velocidad máxima del símbolo para la cual es posible una

transmisión sin errores sobre el canal.
5,39 Una imagen en blanco y negro de la televisión se puede considerar como
consistir en aproximadamente 3 × 105elementos, cada uno de los cuales puede
ocupar uno de 10 niveles de brillo distintos con igual probabilidad. Asuma que
(1) el índice de transmisión es 30 marcos por segundo y (2) el cociente de la
señal-a-ruido es 30 Db.
Utilizando la ley de capacidad de información, calcule el ancho de banda
mínimo requerido para soportar la transmisión de la señal de vídeo resultante.
5,40 En Sección 5,10 hemos hecho la afirmación de que es más fácil aumentar
la capacidad de información de un canal de comunicación mediante la
ampliación de su ancho de banda B que el aumento de la potencia de
transmisión para una variación de ruido prescrita N0B. Esta afirmación supone
que la densidad espectral del ruido N0 varía inversamente con B. ¿por qué esta
relación inversa es el caso?
5,41 En este problema, revisitamos Ejemplo 5,10, que se ocupa de la
señalización binaria codificada del antipodales sobre un canal aditivo blanco
del ruido de Gauss (AWGN). Comenzando por (5,105) y la teoría subyacente,
desarrollar un paquete de software para calcular el mínimo Eb/N0 necesario
para una tasa de error de bit dada, donde Eb es la señal de energía por bit, y
N0/2 es la densidad espectral del ruido. Por lo tanto, calcule los resultados
trazados en partes a Y b De Figura 5,16.
Como se mencionó en Ejemplo 5,10, el cómputo de la información mutua
entre la entrada del canal y la salida del canal es bien aproximado usando la
integración de Monte Carlo. Para explicar cómo funciona este método,
considere una función g(y) que es difícil de probar aleatoriamente, lo que es
en efecto el caso para el problema en cuestión. (para este problema, la
función g(y) representa el integrando complicado en el fórmula para la
entropía diferenciada de la salida del canal.) Para Lla Cómputo, Proceder Como
Sigue:
 Encontrar un área A que incluye la región de interés y que es fácilmente

muestreada.
 Elegir N puntos, uniformemente al azar dentro de la zona A.
Entonces el Teorema de integración de Monte Carlo indica que la integral de

la función g(y) con respecto a y es aproximadamente igual a la
zona A multiplicado por la fracción de puntos que residen por debajo de la
curva de g, como se ilustra en Figura p 5.41. Lla Precisión De Lla Aproximación
Mejora Con Aumento N.
Figura p 5.41
Notas
1. Según Lucky (1989), la primera mención del término Teoría de la
información por Shannon ocurrió en un memorándum de 1945 titulado "una
teoría matemática de la criptografía". Es bastante curioso que el término
nunca se usó en el papel clásico de Shannon (1948), que sentó las bases de la
teoría de la información. Para un tratamiento introductorio de la teoría de la
información, vea la parte 1 del libro de McEliece (2004), Capítulos 1–6. Para un
tratamiento avanzado de este tema, visto en un contexto bastante amplio y
tratado con rigor, y claridad de presentación, ver Cover y Thomas (2006).
Para una colección de papeles en el desarrollo de la teoría de la información
(incluyendo el papel clásico 1948 de Shannon), vea Slepian (1974). Para una
colección de los documentos originales publicados por Shannon, ver Sloane y
Wyner (1993).
2. El uso de una medida logarítmica de la información primero fue sugerido
por Hartley (1928); sin embargo, Hartley usó logaritmos en base 10.
3. En la física estadística, la entropía de un sistema físico se define por
(Llamado, 1965:147)
Donde kB Es Constante de Boltzmann, Ω es el número de Estados accesibles al

sistema, y Ln denota el logaritmo natural. Esta entropía tiene las dimensiones
de la energía, porque su definición implica la constante kB. En particular,
proporciona una medida cuantitativa del grado de aleatoriedad del sistema.
Comparando la entropía de física estadística con la de la teoría de la
información, vemos que tienen una forma similar.
4. Para la prueba original del teorema de la codificación de la fuente, vea
Shannon (1948). Una prueba general del teorema de la codificación de la
fuente también se da en cubierta y Thomas (2006). El teorema de codificación
de la fuente también se refiere en la literatura como el Teorema de
codificación silenciosa, silencioso en el sentido que establece la condición para
la codificación error-libre para ser posible.
5. Para la prueba de la desigualdad de Kraft, vea la cubierta y Thomas (2006).
La desigualdad de Kraft también se refiere como la desigualdad de Kraft-
McMillan en la literatura.
6. El código Huffman lleva el nombre de su inventor D.A. Huffman (1952). Para
obtener una descripción detallada de la codificación Huffman y su uso en la
compactación de datos, consulte Cover y Thomas (2006).
7. Los papeles originales en el Lempel –Ziv algoritmo son Ziv y Lempel (1977,
1978). Para el tratamiento detallado del algoritmo, vea la cubierta y Thomas
(2006).
8. También es de interés notar que una vez que una subsecuencia "padre" es
unida por sus dos hijos, esa subsecuencia de padres puede ser reemplazada en
la construcción de la Lempel –Ziv Algoritmo. Para ilustrar esta buena
característica del algoritmo, suponga que tenemos la siguiente secuencia de
ejemplo:
01, 010, 011,...
donde 01 juega el papel de un padre y 010 y 011 juegan los roles de los hijos
de los padres. En este ejemplo, el algoritmo elimina el 01, reduciendo así la
longitud de la tabla a través del uso de un puntero.
9. En Cover y Thomas (2006), se demuestra que el método de dos etapas,
donde la codificación de la fuente y la codificación del canal se consideran por
separado según lo representado en Figura 5,11, es tan bueno como cualquier
otro método de transmitir información a través de un canal ruidoso. Este
resultado tiene implicaciones prácticas, ya que el diseño de un sistema de
comunicación puede ser abordado en dos partes separadas: codificación de
fuente seguida por codificación de canales. Específicamente, Que Puede
Proceder Como Sigue:
 Diseñar un código fuente para la representación más eficiente de los
datos generados por una fuente de información discreta y
desmemoriada.
 Por separado e independientemente, diseñe un código de canal que sea
apropiado para un canal discreto y que no tenga memoria.
La combinación de codificación de fuente y codificación de canal diseñadas de

esta manera será tan eficiente como cualquier cosa que pueda ser diseñada
considerando los dos problemas de codificación conjuntamente.
10. Para probar el teorema de codificación de canales, Shannon usó varias
ideas que eran nuevas en ese momento; sin embargo, fue un tiempo después
cuando la prueba se hizo rigurosa (cover y Thomas, 2006:199). Tal vez la
prueba más rigurosa de este teorema básico de la teoría de la información se
presenta en Capítulo 7 del libro por Cover y Thomas (2006). Nuestra
afirmación del teorema, aunque ligeramente diferente de la presentada por
Cover y Thomas, en esencia es la misma.
11. En la literatura, la entropía relativa también se conoce como el Kullback–
Leibler Divergencia (KLD).
12. Ecuación (5,95) también se menciona en la literatura como el Ley Shannon-
Hartley en reconocimiento del trabajo temprano de Hartley en la transmisión
de información (Hartley, 1928). En particular, Hartley mostró que la cantidad
de información que se puede transmitir a través de un canal determinado es
proporcional al producto del ancho de banda del canal y al tiempo de
operación.
13. Una exposición lúcida del embalaje de la esfera se presenta en cubierta y
Thomas (2006); Ver también Wozencraft y Jacobs (1965).
14. Partes a y b de Figura 5,16 Siga las partes correspondientes de Figura
6,2 en el libro de Frey (1998).
15. Para un tratamiento riguroso de la capacidad de la información de un canal
ruidoso coloreado, vea Gallager (1968). la idea de reemplazar el modelo de
canal de Figura 5.17 a con la de Figura 5.17 b se discute en Gitlin, Hayes, y
Weinstein (1992)
16. Para un tratamiento completo de la teoría de la distorsión de la tarifa, vea
el libro clásico de Berger (1971); este tema también se trata en un poco menos
de detalle en la cubierta y Thomas (1991), McEliece (1977), y Gallager (1968).
17. Para la derivación de (5,124), véase Cover y Thomas (2006). Un algoritmo
para el cómputo de la función de la distorsión de la tarifa R(D) definido
en (5,124) se describe en Baa (1987) y Cover y Thomas (2006).

Teoría de La Información

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Teoría de La Información

Încărcat de

Drepturi de autor:

Formate disponibile

Teoría de la información

Por supuesto, este conjunto de probabilidades debe satisfacer la propiedad de

que a menudo se denomina "auto-información" del evento S = sk. Esta

Obviamente, si estamos absolutamente Ciertos del resultado de un evento,

Es decir, el ocurrencia de un evento S = sk proporciona o no información, pero

Esta característica aditiva sigue de la definición logarítmica descrita en (5,4).

Cuando pk = 1/2, tenemos I(sk) = 1 bit. Por lo tanto, podemos decir:

Un bit es la cantidad de información que ganamos cuando se

Tenga en cuenta que la información I(sk) es positivo, porque el logaritmo de un

tomados por la variable aleatoria S se da por

La entropía de una variable aleatoria discreta, que representa la

Tenga en cuenta que la entropía H(S) es independiente del alfabeto ;

Donde K es el número de símbolos en el alfabeto .

donde loge es otra forma de describir la logaritmo natural, comúnmente

Figura 5,1 Gráficas de las funciones x – 1 y log x Versus x.

Por lo tanto, cambiando al logaritmo natural y utilizando la desigualdad

En palabras, (5,13) Estados:

La entropía relativa de un par de diversas distribuciones discretas es

Supongo Que Próxima Poner

que corresponde a un alfabeto de origen Con equiprobables Símbolos.

de la cual observamos lo siguiente:

Nos referimos a H(p0) como el función de la entropía. La distinción

EXTENSIÓN DE UNA FUENTE INMEMORIAL DISCRETA

Ilustramos la validez de esta relación por medio de un ejemplo.

Considere siguiente la extensión de segundo orden de la fuente. Con el

5,3 Teorema de código fuente

Figura 5,3 Codificación de origen.

En términos físicos, el parámetro representa la número medio de bits por

Con ≥ LMin, claramente tenemos η ≤ 1. Se dice que el codificador de origen

Dada una fuente de memoria discreta cuya salida se denota por la

De acuerdo con este teorema, la entropía H(S) representa una límite

donde como antes de que tengamos η ≤ 1.

5,4 Algoritmos de compresión de datos sin pérdida

Un código de prefijo se define como un código en el que no

Los códigos del prefijo se distinguen de otros códigos únicamente decodable

Tabla 5,2 Ilustración de la definición de un código de prefijo

Esta secuencia se descifra fácilmente como la secuencia de origen s1s3s2s0s0....

donde el factor 2 se refiere al número de símbolos en el alfabeto binario. La

 El código I viola la desigualdad de Kraft; por lo tanto, no puede ser un

El límite de la mano izquierda de (5,23) está satisfecho con la igualdad bajo la

Bajo esta condición, la desigualdad de Kraft (5,22) confirma que podemos

y la entropía correspondiente de la fuente es

Por lo tanto, en este caso especial (en lugar de prostituida), encontramos

un código extendido. Dejar denotan la longitud antirracista media del

código de prefijo extendido. Para un código de decodable única, es lo más

En el límite, como n tiende a infinito, los límites inferiores y superiores

Por lo tanto, podemos hacer la declaración:

Al hacer la orden n de un codificador extendido de la fuente del

En otras palabras, la longitud promedio de antirracista de un código de prefijo

La entropía de la fuente de memoria discreta especificada se calcula de la

Cabe destacar que el proceso de codificación Huffman (es decir, el árbol

Donde p0, p1,...,pK – 1 son las estadísticas de origen y lk es la longitud del

La secuencia de datos de origen se analiza en segmentos que son

Para ilustrar esta idea sencilla pero elegante, considere el ejemplo de la

Datos Para Ser Analiza: 000101110010100101...

Datos Para Ser Analiza: 0101110010100101...

Datos Para Ser Analiza: 01110010100101...

Datos Para Ser Analiza: 10010100101...

En la práctica, se utilizan bloques fijos de 12 bits de largo, lo que implica un

5,5 Canales de memoria discretos

Lla Cardinalidad de los alfabetos Y , o cualquier otro alfabeto para esa

para lo cual, de acuerdo a la teoría de la probabilidad, naturalmente tenemos

Cuando el número de símbolos de entrada JY el número de símbolos de

Lla JporK Matriz P se llama el matriz de canalesO matriz estocástica. Tenga en