Wuolah-Ps. Aprendizaje Cap. 5

TEMA 5 PROGRAMAS Y TEORAS DEL REFORZAMIENTO
Los programas de reforzamiento determinan las condiciones en las que se refuerza una
respuesta.
Los programas de razn estipulan un nmero de respuestas necesarias para poder reforzar
la siguiente.
Los programas de intervalo, en lugar de un nmero de respuestas, estipulan un tiempo
determinado. En ambos casos siempre desde la ocurrencia del ltimo reforzador.
Existen cuatro programas bsicos de reforzamiento:
IF o Intervalo fijo: se refuerza la primera respuesta que ocurra despus de un tiempo
determinado desde el anterior reforzador. Con este programa suele haber una pausa post
reforzamiento ms o menos prolongada en funcin del intervalo y luego una progresiva
aceleracin a medida que se acerca el fin del intervalo (festoneado)
IV o Intervalo variable: en este caso vara la cantidad de tiempo en torno a un valor
promedio, antes de reforzar una respuesta. Con estos programas se obtienen tasas
constantes de respuesta, aunque normalmente inferiores a las de los programas RV. Indice
de perseverancia muy elevado.
RF o razn fija: El nmero de respuestas requerido para que se administre el reforzador
es siempre el mismo (Ej. RF30, significa que se deben dar 30 respuestas para obtener el
reforzador). Con este programa inicialmente hay una tasa elevada de respuestas desde la
primera respuesta que obtiene el reforzador hasta la siguiente respuesta reforzada, si la
razn es pequea Por el contrario, cuando la razn es mayor, suele haber una pausa
despus del refuerzo, a la que le sigue una nueva tasa alta de respuestas (Carrera de la
razn). Con lo que la duracin de la pausa depende del valor de la razn. Si la razn es
muy alta, la pausa puede ser total (tensin de la razn).
RV o razn variable: el nmero de respuestas vara de forma irregular alrededor de un
nmero promedio. (ej.RV50, significa que a veces se reforzar despus de 48 respuestas,
otras despus de 52, etc.). Con estos programas se obtienen tasas de respuesta muy altas
y constantes y un ndice de perseverancia muy elevado.
La diferencia fundamental entre los programas fijos RF e IF y los variables, es que en los
fijos suele aparecer una pausa de reforzamiento (no as en los variables). En los programas
RF se pasa de la pausa post reforzamiento a una tasa alta y estable de respuestas. En los
de IF se pasa de la pausa a una aceleracin gradual en la tasa de respuesta. Por otra parte
en ambos programas, cuanto ms alta la razn o el intervalo, mayor es la pausa.
Cada uno de estos programas produce una ejecucin diferente. Las respuestas de los
sujetos se pueden registrar automticamente con un "registrador acumulativo" donde se
mide el nmero de respuestas, el de pausas, el tiempo transcurrido entre una respuesta y
la siguiente (TER), el tiempo total empleado o la perseverancia. La observacin de la
forma como se distribuyen las respuestas en un registro acumulativo permite una lectura
fcil de la tasa de respuesta y de los cambios asociados a ella que ocurren en funcin del
tiempo. Tambin existen mediciones informatizadas.
Programas de razn frente a programas de intervalo.
1
Cuando se igualan las tasas y patrones de reforzamiento, suele haber una mayor tasa de
respuesta en los programas de razn que en los de intervalo.
Explicacin molecular:
una primera explicacin podra ser porque los de intervalo tienden a reforzar TER largos,
porque el mero paso del tiempo incrementa la posibilidad de reforzamiento con lo cual
los intervalos se reforzaran, reduciendo as la tasa de respuestas (
Explicacin molar:
otra explicacin podra ser que en los programas de RV existe una correlacin directa
entre la tasa de respuestas y la tasa de reforzamiento (la tasa de R tiende a aumentar para
maximizar la tasa de reforzamiento, en cambio en el IV, el que se aumente la tasa de R
no tiene relacin con obtener antes el reforzador)
A las correlaciones entre la tasa de R y la tasa de reforzamiento se las denomina
"funciones de retroalimentacin", que es una forma de describir cmo acta el ambiente
(como la frecuencia del reforzamiento, la magnitud del reforzador o su demora) en
funcin de algn aspecto de la ejecucin conductual.
Programas de reforzamiento diferencial de tiempos entre respuestas (TER)

Para comprobar la primera de las explicaciones anteriores se disearon programas de
reforzamiento especficos de TER largos y TER cortos. Para esto se elige un tiempo y
luego:
- si se refuerzan nicamente los TER ms largos que el tiempo elegido: se denominan
programas RDB (reforzamiento diferencial de tasas bajas de respuesta).
- si se refuerzan nicamente los TER mas cortos que el tiempo elegido: se denominan
RDA (reforzamiento diferencial de tasas altas de respuesta).
En los programas RDB solo se refuerza la respuesta si ha transcurrido un tiempo
especfico desde la anterior respuesta, (en los programas de IF es desde el anterior
reforzador, no desde la anterior respuesta), con lo que si responden antes de ese tiempo,
se reinicia el intervalo de tiempo especificado (castigo). Para obtener el reforzador deben
contener la respuesta hasta pasado el intervalo de tiempo especificado.
De forma inversa, en los programas RDA, los reforzadores se dan si las respuestas ocurren
antes de un tiempo determinado, con lo que se refuerzan TER cortos. Las respuestas que
ocurran despus de ese intervalo fijado, reinician el intervalo (castigo). Con esto
programas se suelen obtener altas tasas de respuesta.
Teora del reforzamiento diferencial de los tiempos entre respuestas (TER)
Como se ha visto los reforzadores no slo refuerzan ejecutar una determinada respuesta
sino tambin el hacerlo a un determinado ritmo con un espacio entre respuestas.
La teora del reforzamiento diferencial de los TER se basa en lo anterior para afirmar que
en todos los programas de condicionamiento operante se refuerzan especficamente TER
de una duracin determinada.
Los programas RDB y RDA refuerzan TER largos y cortos respectivamente, pero en los
programas de reforzamiento operante el sujeto puede responder libremente en los
perodos entre reforzadores. An as, el patrn y la tasa de respuesta se adaptan al
programa de reforzamiento que esta en funcionamiento:
En los programas de RV e IV la tasa de R es constante, sin pausas, con lo que la duracin
de los TER es muy homognea.
En los programas de RF e IF, la tasa de R es menos homognea y generalmente aparecen
prolongadas pausas post reforzamiento.
Para explicar las pausas post reforzamiento, la teora dice que Los sujetos son capaces de
discriminar con bastante eficacia el momento de entrega del reforzador, con lo que, en los
programas de RF/IF, una vez obtenido un reforzador la posibilidad de conseguir otro es
altamente improbable.
Programas compuestos de reforzamiento
Los programas bsicos (RF, IF, IV, RV), se pueden combinar dando lugar a programas
compuestos. Los programas se pueden presentar secuencialmente, uno detrs de otro, o
simultneamente.
Programas alternantes:
1. Mixto: dos o ms programas bsicos alternndose al azar, independientemente de
la conducta del sujeto. Se suelen utilizar para el estudio del control estimular.
2. Mltiple: igual que el anterior, pero el cambio de programa se seala con una
clave (luz, sonido...). Al igual que el anterior, se suele utilizar para el estudio del
control estimular.
Programas simultneos
1. Programas tndem: dos o ms programas que se presentan siempre en el mismo
orden, donde el sujeto debe completar el primero para poder pasar al segundo y
al completar todos, consigue el reforzador.
2. Programa encadenado: igual que el tndem, pero cada uno de los programas va
sealizado. Los programas tndem y encadenado se utilizan para la investigacin
del reforzamiento condicionado.
Programa compuestos simultneos

1. Concurrentes: se dispone de dos o ms programas bsicos a la vez y se puede
cambiar de uno a otro sin que sea necesario completar un tiempo o dar un nmero
3
de R determinado. Por ejemplo, dos palancas que responden a un programa

diferente cada una, para luego calcular la proporcin en la que se distribuyen las
R en cada una. Se suelen utilizar para estudiar las conductas de eleccin.
2. Otros programas menos utilizados son el alternativo, el conjuntivo y el
entrelazado.
CONDUCTA DE ELECCION
En los programas concurrentes se miden las preferencias de los sujetos por dos fuentes
alternativas de reforzamiento, pero para cuya consecucin se requieren respuestas
operantes semejantes, por ejemplo presionar la palanca A o presionar la palanca B. La
eleccin o preferencia entre las alternativas de respuesta se calcula por la tasa relativa de
respuesta que se representa:
Ra
Ra+Rb.
(Respuestas en a y respuestas en b)
La ley de igualacin
Hernstein observ que en los programas concurrentes, los sujetos distribuan sus
respuestas en funcin de la frecuencia de reforzamiento en cada una de las alternativas y
de ah postul la ley de igualacin que afirma que la tasa relativa de respuesta entre dos
alternativas de respuestas concurrentes es igual a la tasa relativa de reforzamiento
asociada con cada una de dichas alternativas de respuesta. Segn esto, la proporcin entre
las respuestas emitidas en las alternativas debe ser igual a la proporcin de los
reforzadores obtenidos en dichas alternativas.
Posteriormente se ha encontrado que tambin se iguala la tasa de respuestas con otros
parmetros como la magnitud del reforzador o su inmediatez. De esta manera se establece
que todos los factores de reforzamiento influyen de forma igual en la eleccin y de forma
multiplicativa, de modo que cualquiera de estos factores (frecuencia, magnitud o demora)
puede reducir la eleccin por una alternativa, aunque los otros sean favorables.
Hernstein investig con programas de intervalo, pero otros investigadores lo hicieron con
programas de razn (RF o RV). En estos casos, los sujetos tienden a elegir la alternativa
de respuesta que tiene una razn ms baja, a lo que se llama maximizacin.
En la maximizacin se elige entre programas concurrentes de razn.
Igualacin temporal
Se ha demostrado que los organismos no slo igualan la tasa relativa de respuesta con la
tasa relativa de reforzamiento, sino que, al mismo tiempo, igualan el tiempo de estancia
en las alternativas de respuesta con la tasa relativa de reforzamiento en dichas alternativas
de respuesta.
Ley generalizada de la igualacin
Teniendo en cuenta las limitaciones de la ley de igualacin y la nueva investigacin, hoy
se opta por la ley generalizada de la igualacin. Segn esta formulacin, la distribucin
de la conducta entre dos alternativas de respuesta se iguala a la distribucin del
4
reforzamiento obtenido en dichas alternativas, con la consideracin de que, en la eleccin,

pueden intervenir sesgos de respuestas y una sensibilidad diferencial a los parmetros de
reforzamiento de las alternativas de respuesta.
Por sesgos de repuestas entendemos tendencias de respuesta o fuentes influenciables, no
deseables y que no se deben al reforzamiento, como la conducta de alternancia (cambiar
de una alternativa a otra intermitentemente), la disposicin espacial de las alternativas
(izquierda/derecha), el color o iluminacin de esas alternativas, etc.
Las frmulas matemticas que se proponen para considerar todos estos factores no dan
resultados exactos, porque son puramente matemticas y no tienen en cuenta otros
factores como la sensibilidad, las expectativas o las experiencias previas con los
reforzadores.
Es posible que la valoracin de una de las alternativas de respuesta dependa no slo de su
valor objetivo, sino del valor que ofrece la otra alternativa. Muchas veces se encuentra
que una alternativa de respuesta es sobrevalorada cuando la otra alternativa es
significativamente peor y a veces, es infravalorada si la otra alternativa es mejor.
Se llama sobreigualacin cuando la mejor alternativa es valorada por encima de la
preferencia establecida por la igualacin perfecta. Se llama infraigualacin cuando la
mejor alternativa es valorada por debajo de la preferencia establecida por la igualacin
perfecta. Es ms comn encontrar infra igualacin que sobre igualacin.
Teoras de la igualacin
Como hemos visto, las diferentes versiones de la ley de igualacin intentan establecer
relaciones o correlaciones entre diferentes aspectos de la conducta y los reforzadores. Son
explicaciones descriptivas. La forma en que los animales llegan a la igualacin puede ser
variada y explicada por diferentes mecanismos:
Teora molecular: afirma que el cambio de una alternativa de respuesta a otra ser
realiza en el momento en que la probabilidad momentnea de reforzamiento es
mayor en la otra alternativa.
Basa su anlisis en el clculo de las probabilidades relativas de reforzamiento en
cada momento, por eso se llama molecular.
Teora molar: contrariamente a la teora molecular, afirma que los animales

distribuyen su respuesta de acuerdo a un clculo global de las tasas relativas de
reforzamiento entre las dos alternativas, eligiendo ms aquella alternativa que
proporciona una mayor tasa de reforzamiento. Normalmente la teora molecular
predice mejor los resultados que la molar.
Teora del mejoramiento: es una mezcla de las dos anteriores. Aqu se elige entre
dos fuentes de premio de manera que se igualen las tasas locales de reforzamiento,
respondiendo a la alternativa que en un momento dado presenta una mejor tasa
local de reforzamiento. La diferencia se establece en trminos de tasa local de
reforzamiento, ms que en trminos de probabilidad momentnea de
reforzamiento. Se tiene en cuenta la igualacin temporal. Al elegir la alternativa
que proporciona un mejor reforzamiento, se da una mayor tasa de respuestas y,
por ende, se obtendr una mayor tasa de reforzamiento, pero tambin se
5
permanecer ms tiempo. Como consecuencia, el nmero de respuestas por

tiempo de permanencia en cada alternativa ser muy parecido, puesto que se
responder menos a la alternativa menos favorable, pero tambin se dedicar
menos tiempo.
Impulsividad y autocontrol: la eleccin con compromiso
Hasta ahora, hemos visto los estudios de eleccin sobre diferentes reforzadores o
respuestas, pero existe otro procedimiento, adems de los anteriores, que mide la eleccin
entre diferentes fuentes de premio llamado "Cadenas concurrentes de respuesta".
En los programas concurrentes simples vistos hasta ahora, se daba a elegir a los animales
entre dos alternativas, cada una acompaada de un programa de reforzamiento diferente.
En los programas concurrentes encadenados (ver fig. 5.8 pg. 255) existen varios pasos.
Primero los sujetos tienen que elegir entre dos alternativas idnticas (blanco o blanco, por
ejemplo) y luego en otro eslabn se darn los reforzadores por responder a la alternativa
de respuesta elegida en el primer paso. Por ejemplo, si en el primer paso se ha elegido la
tecla izquierda, ahora en el segundo eslabn, se iluminar la tecla central de rojo y se
acompaa de un programa de refuerzo particular. Si se hubiese elegido la tecla derecha,
ahora la tecla central se iluminar de verde y se acompaar de otro programa de refuerzo.
Finalmente despus de un tiempo determinado se vuelve a presentar el eslabn inicial.
Con este procedimiento permite separar el aprendizaje de responder para conseguir el
reforzador en los eslabones terminales del aprendizaje en la eleccin en el eslabn inicial.
Los resultados suelen mostrar que los sujetos cumplen la ley de igualacin, es decir,
igualan la tasa relativa de respuesta en los eslabones terminales con la tasa relativa de
reforzamiento, pero tambin igualan la tasa relativa de respuestas en el eslabn inicial
con la tasa relativa de reforzamiento en terminales. Los programas concurrentes
encadenados se asemejan a las elecciones en la vida cotidiana, donde optar por una
alternativa nos compromete por un tiempo hasta poder cambiar de opcin.
Normalmente, con programas concurrentes simples cuando se da a elegir entre una
recompensa pequea, pero inmediata, frente a otra mayor, pero demorada, los animales
tienden a elegir la inmediata. En cambio, en estudios con programas concurrentes
encadenados, se ha observado que al introducir una pequea demora entre la eleccin y
la respuesta reforzada, la fuerza de la inmediatez del reforzador se debilita y la eleccin
se gua ms por la magnitud del reforzador.
Se denomina impulsividad a la preferencia por una recompensa inmediata pequea, frente
al autocontrol, definido como la preferencia por un reforzador mayor, pero demorado.
La nocin de valor de los reforzadores
Otra aproximacin alternativa a la ley de igualacin es la que intenta integrar los distintos
factores del reforzamiento bajo el concepto de valor de la alternativa. El valor de una
alternativa de respuesta aumentar con la magnitud del reforzador y disminuir cuanto
mayor sea la demora para su entrega.
La tasa de respuestas en relacin a la ley de igualacin

Hernstein ampli la ley de igualacin, al considerar que incluso cuando slo hay una
alternativa de respuesta, se debe elegir entre responder o no. Los animales pueden elegir
responder como requiere el experimentador o seguir haciendo lo que estaban haciendo.
Por tanto, el reforzamiento total de la situacin comprendera los reforzadores
explcitamente programados y los que no. De este hecho teoriz que la tasa total de la
conducta debera ser una constante, puesto que los organismos siempre estn haciendo
algo. Por tanto, la suma de la tasa de respuesta que estudiamos, ms la de cualquier otra
actividad debe ser siempre igual. Si una baja, la otra sube necesariamente y viceversa. Si
queremos aumentar la primera, tendremos que reforzarla.
LA NATURALEZA DE LA ASOCIACIN EN EL APRENDIZAJE
INSTRUMENTAL
Para explicar por qu se realizan o fortalecen las respuestas a travs del proceso de
reforzamiento ha habido dos aproximaciones generales que son histricas y que continan
en la actualidad.
Por una parte, se ha pensado que los reforzadores participan de alguna manera en la
formacin de asociaciones entre los estmulos y las respuestas, bien sea directamente a
travs de asociaciones E-R o a travs de asociaciones entre estmulos (E-E). Es la
explicacin ms tradicional y extendida. Es la defendida por Throrndike y luego por Hull,
quien representa la teora de que el aprendizaje es fruto de la formacin de asociaciones
E-R. Segn esta postura, los estmulos ambientales elicitan respuestas y su asociacin se
ve fortalecida por el reforzador. Para investigadores como Guthrie, la funcin del
reforzador es facilitar la asociaciones E-R, sin embargo Hull crea que las asociacin se
daba porque el reforzador reduca el impulso (introduce el trmino motivacin). As, para
que los animales ejecuten una conducta, es necesario que tengan una necesidad (impulso)
que se reducir al conseguir el reforzador y, en consecuencia, incrementar la fuerza de
la asociacin.
A Edward Tolman se le suele asociar como defensor del esquema E-E. Para Tolman es
necesario distinguir entre aprendizaje y ejecucin. Para Tolman, el reforzador es
necesario para la ejecucin, pero no para el aprendizaje.
REGLAS DE EJECUCIN OPERANTE
Una alternativa a la postura asociacionista es la que considera que el reforzamiento acta
sobre la conducta a travs de un proceso de seleccin, de manera que se seleccionan
respuestas concretas porque en el pasado resultaron ventajosas.
Ejemplo de este tipo de explicaciones es la teora de la probabilidad diferencial (principio
de Premack) y la teora de la privacin de respuestas. Ambas defienden que una actividad
funcionar como reforzador si est restringida en comparacin a situaciones donde se
presente sin limitaciones.
Teora de la probabilidad diferencial o principio de Premack.
Se basa en la idea de que los reforzadores no tienen caractersticas intrnsecas en s

mismos y que cualquier evento, estmulo o respuesta, puede convertirse en reforzador.
Para predecir si una conducta reforzar a otra simplemente basta con medir sus
probabilidades bajo una condicin de lnea base, donde las dos conductas estn libremente
disponibles en ausencia de limitacin alguna. Evaluadas despus en un programa de
reforzamiento, una actividad reforzar la otra si, y slo si, sta era ms probable que la
otra en la situacin de lnea base. No importa si la conducta provoca placer, reduce una
necesidad, provoca una activacin fisiolgica o simplemente es caracterstica de la
especie, lo nico importante es que sea ms probable que la otra conducta en condiciones
de libre acceso.
Teora de la privacin de respuesta
Como vimos, la respuesta reforzadora tiene que ser ms probable que la instrumental y
estar restringida. Premack se dio cuenta de que no bastaba con la probabilidad diferencial,
sino que tambin era necesario que las probabilidades de ejecutar esa respuesta estuvieran
restringidas.
La hiptesis de la privacin de respuesta cuestiona lo anterior. Segn esta teora, para que
una actividad pueda funcionar como reforzador, solo es necesario restringir la realizacin
de dicha actividad con respecto a la linea base, pero no es necesario que dicha actividad
tenga que ser preferida o ms probable.

Wuolah-Ps. Aprendizaje Cap. 5

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Wuolah-Ps. Aprendizaje Cap. 5

Încărcat de

Drepturi de autor:

Formate disponibile

TEMA 5 PROGRAMAS Y TEORAS DEL REFORZAMIENTO

Programas de reforzamiento diferencial de tiempos entre respuestas (TER)

Programa compuestos simultneos

de R determinado. Por ejemplo, dos palancas que responden a un programa

reforzamiento obtenido en dichas alternativas, con la consideracin de que, en la eleccin,

Teora molar: contrariamente a la teora molecular, afirma que los animales

permanecer ms tiempo. Como consecuencia, el nmero de respuestas por

La tasa de respuestas en relacin a la ley de igualacin

Se basa en la idea de que los reforzadores no tienen caractersticas intrnsecas en s

S-ar putea să vă placă și