Sunteți pe pagina 1din 18

Programas de reforzamiento y conducta de eleccin

Domjan, Captulo 6

Programas de reforzamiento En la vida real, no siempre que damos una respuesta aparecer el reforzador. El programa de reforzamiento determina cundo la ocurrencia de la respuesta va a ir seguida de un reforzador.

n1, n2, n3...

Programas de reforzamiento

Programa de reforzamiento continuo: Cada respuesta correcta es reforzada.

Ej: Interruptor de la luz, botn del mando a distancia

Ref

Ref

Ref

Programas de reforzamiento

Programa de reforzamiento continuo: Cada respuesta correcta es reforzada. Programa de reforzamiento parcial o intermitente: No todas las respuestas correctas son reforzadas.

Y estos pueden ser de varios tipos...

Programas de reforzamiento Programas de RAZN: El reforzador se otorga en funcin del nmero de respuestas. Razn Fija: El nmero de respuestas necesarias para obtener un reforzador es siempre el mismo. Ej: RF5 = Cada 5 respuestas, me dan un premio. El programa de RF1 es un programa de reforzamiento continuo. Produce pausas post-reforzamiento. Razn Variable: El nmero de respuestas necesarias para obtener un reforzador va variando. Ej: RV5 = Cada 5 respuestas de media, me dan un premio.

Programas de reforzamiento
Pausas post-reforzamiento

RV10 RF10
Respuestas

Carrera de razn: el animal mantiene una tasa de respuesta alta y estable hasta que lo refuerzan. Tensin de la razn: Si la razn aumenta mucho de golpe, el animal puede dejar de responder. Estaba acostumbrado a responder X por un reforzador, y cuando le pedimos mucho ms, desiste.

Tiempo

Programas de reforzamiento Programas de INTERVALO: El reforzador se otorga en funcin del tiempo que ha transcurrido desde el ltimo reforzador (Pero todava hay que responder al menos 1 vez para obtener el reforzador).

00:05 00:04 00:03 00:02 00:01 00:00

Reforzador

Programas de reforzamiento Programas de INTERVALO: El reforzador se otorga en funcin del tiempo que ha transcurrido desde el ltimo reforzador (Pero todava hay que responder al menos 1 vez para obtener el reforzador). Intervalo Fijo: El tiempo que pasa entre dos reforzamientos es siempre el mismo. Ej: IF5 = Cada 5 segundos, el reforzador est disponible (cada 5 segundos, si respondo me dan un premio). Produce pausas post-reforzamiento y aceleracin prereforzamiento (Patrn festoneado). Intervalo Variable: El tiempo que pasa entre dos reforzadores va variando. Ej: IV5 = Cada 5 segundos de media, el reforzador est disponible.

Programas de reforzamiento

Aceleracin de la Respuesta
Respuestas

Patrn festoneado

IF10 IV10
Pone a prueba la capacidad de contar el tiempo.
Tiempo

Programas de reforzamiento

Pregunta: Los exmenes de la universidad, qu tipo de programa de reforzamiento seran? Solucin: Un programa de Intervalo Fijo. La conducta es la esperada en este tipo de programas: se responde slo al final del intervalo, y de forma acelerada.

Programas de reforzamiento

Pregunta: Las mquinas tragaperras Qu programa de reforzamiento utilizan? Solucin: Un programa de Razn Variable. Por eso son tan adictivas, producen una tasa de respuesta estable y persistente.

Programas de reforzamiento

Pregunta: Un vendedor de frutos secos que saca un beneficio por cada bolsa de pipas vendida. Qu programa de reforzamiento sera? Solucin: Un programa de Razn Fija, de hecho es un programa de reforzamiento continuo.

Programas de reforzamiento

RV IF IV RF

Tiempo

Programas de reforzamiento Cul produce ms respuesta? Los programas que ms respuestas producen son los de razn (porque en los de intervalo el reforzador se obtiene por esperar al momento idneo, no por dar un nmero determinado de respuestas).

Programas de reforzamiento Cul produce ms respuesta? Los programas fijos producen menos respuestas que los variables porque son ms predecibles. Adems son ms fciles de extinguir (tema 9). De modo que el programa ms efectivo para crear respuesta es el de razn variable (ej: mquina tragaperras, por eso son tan adictivas y peligrosas).

Programas de reforzamiento Adems de las respuestas independientes, tambin podemos reforzar la tasa de respuesta (la velocidad a la que se dan las respuestas). Ejemplo: quiero que un animal d, como mnimo, 12 respuestas por minuto. Entonces, le doy el reforzador slo si produce una respuesta en los 5 segundos siguientes a la anterior respuesta. Si responde cada 5 segundos o menos, tiene una tasa de 12 respuestas por minuto, lo que yo quera. Si tarda ms de 5 segundos en responder, no es reforzado aunque responda. Eso har que se vuelva ms rpido en el futuro.

Programas concurrentes Ahora queremos investigar la conducta de eleccin. Si te dejan elegir, qu prefieres hacer? En los programas concurrentes se deja elegir al animal entre dos programas de reforzamiento.

Programa A: IV 60 seg. A

Programa B: RF 10. B

Programas concurrentes ?

Programa A: IV 60 seg. A

Programa B: RF 10. B

Para saber qu programa prefiere seguir la paloma, recurrimos a la tasa relativa de respuesta. Tasa relativa de respuesta de la tecla A = RA RA+RB

Si la paloma no tiene ninguna preferencia en especial, la tasa relativa se queda en 0,5.

Programas concurrentes ?

Programa A: IV 60 seg. A

Programa B: RF 10. B

Para saber qu programa administra ms reforzadores a la paloma, recurrimos a la tasa relativa de reforzamiento. Tasa relativa de reforzamiento de la tecla A = rA rA+rB

Si la paloma recibe reforzadores con la misma frecuencia en cada lado, la tasa relativa se queda en 0,5.

Programas concurrentes Ley de la igualacin (Herrnstein) La tasa de respuesta = tasa de reforzamiento. O sea, que la paloma responde ms en el programa que ms reforzadores le proporciona. Si te dejan escoger entre pasar una tarde en el cine o paseando con un amigo, escogers probablemente la actividad ms reforzante.

RA RA+RB

rA rA+rB

10

Programas concurrentes
Infraigualacin, supraigualacin y sesgo de respuesta A veces la ley de la igualacin no se cumple, y en esos casos se cumple esta norma: r RA = b( A )s rB RB
El parmetro s es la sensibilidad de la conducta de eleccin a las tasas de reforzamiento (cunto me afecta la tasa de reforzamiento de este programa). Una buena comida es reforzante, pero si no me gustan los pescados a lo mejor no eligira ese men (sensibilidad).

El parmetro b es el sesgo (bias) de respuesta. Es una preferencia por uno de los dos programas en particular, incluso aunque proporcione la misma tasa de reforzamiento que el otro (por ejemplo, la respuesta en s puede ser ms cmoda). Ir al gimnasio podra ser ms reforzante que ver la televisin (porque produce un beneficio a largo plazo), pero como la respuesta es costosa, puede que prefiramos quedarnos en casa (sesgo de respuesta).

Programas concurrentes
Infraigualacin, supraigualacin y sesgo de respuesta r RA = b( rA )s RB B Infraigualacin: El animal tiene una tasa de respuesta menor que la tasa de reforzamiento (recibe muchos reforzadores, pero no responde mucho), es como si los reforzadores obtenidos no produjeran mucho efecto en su eleccin. El parmetro sensibilidad (s) es < 1. Supraigualacin: El animal responde ms de lo que le correspondera en funcin de su tasa de reforzamiento La sensibilidad es >1.

En realidad, en estas relaciones influyen tanto la cantidad como la calidad del reforzador: si es un reforzador valioso, unos poquitos bastan para que el animal prefiera ese programa a otro.

11

Programas concurrentes

En el deporte del zapping tenemos un ejemplo de programas concurrentes.

Programas concurrentes

RA r = b( A ) s R A + RB rA + rB

Abuelita A

Abuelita B

12

Programas concurrentes

RA r = b( A ) s R A + RB rA + rB

Abuelita A

Abuelita B

Programas concurrentes
La ley de la igualacin tambin puede aplicarse a programas sencillos de reforzamiento (no a la eleccin en programas concurrentes): Realizar cualquier conducta supone una eleccin (elegimos realizar esa conducta en vez de hacer cualquier otra cosa). Si una conducta no me refuerza ms que cualquier otra alternativa, si no es atractiva, es poco probable que la realice.

13

Programas concurrentes
Qu determina los cambios de un programa a otro? -Teoras de la maximizacin molecular: El animal hace un cambio de programa para obtener un reforzador determinado. -Teoras de la maximizacin molar: El animal hace los cambios precisos para obtener el mximo de reforzadores a la larga. -Teora del mejoramiento: El animal cambia para obtener una tasa local de reforzamiento mejor que la actual. Tasa local de reforzamiento en el programa A: Nmero de reforzadores obtenidos durante el tiempo que se ha dedicado al programa A. La alternancia de programas contina hasta que las tasas locales se igualan.

Programas concurrentes Mecanismo del Mejoramiento


Programa A: IV1min En una sesin de 30 min, entre los 2 programas hay un mximo de 40 reforzadores posibles (30+10). Si la paloma se queda slo en el programa A, no obtiene ms que 30 reforzadores. 2. Prueba por azar a responder un par de veces en la tecla B, y como las respuestas estn espaciadas consigue reforzadores. 4. El proceso se repite hasta que las tasas locales de A y B se igualan. Ya no hay un programa mejor que otro. (Esto es la ley de la igualacin).

Programa B: IV3min

1. La paloma empieza con el programa A, porque ofrece la mayor tasa de reforzamiento (30/30). 3. Eso eleva mucho la tasa local de reforzamiento en B: le ha dedicado poco tiempo y ha obtenido muchos reforzadores. Por eso cambia a B.

14

Programas concurrentes
Eleccin con compromiso: Una vez tomada una decisin, no se puede cambiar. Programas concurrentes encadenados:

Programa de reforzamiento 1

Eslabn terminal

B
Eslabn de eleccin

Programa de reforzamiento 2

Programas concurrentes
Programas concurrentes encadenados:
1

A A
2

Si le damos a escoger as entre un programa de RF y otro de RV, la paloma se queda en el de RV, incluso aunque tenga que dar ms respuestas.

En realidad lo que se refuerza es la respuesta en el eslabn inicial (A vs B), y es un reforzamiento condicionado.

15

Autocontrol
Autocontrol: Normalmente, es una decisin entre una recompensa importante demorada o una ms pequea pero inmediata.

Maana

Hoy

Autocontrol
Autocontrol: Rachlin y Green (1972)

Recompensa pequea e inmediata Recompensa grande y demorada

Programa concurrente: la paloma prefiere el beneficio inmediato.

16

Autcontrol
Autocontrol: Rachlin y Green (1972)

Recompensa pequea e inmediata

Programa concurrente encadenado: la paloma se controla. Ya puestos a esperar

Recompensa grande y demorada

Autocontrol
Autocontrol: El valor del reforzador se reduce cuanto ms hay que esperar para obtenerlo. Funcin descontadora del valor: V=M/(1+KD) V = Valor del reforzador. M = Magnitud de la recompensa. D = Demora. K = Tasa descontadora (cunto se devala el reforzador por cada unidad de tiempo que nos separa de l). Indica el grado de impulsividad. Ejemplo de los heroinmanos (pg. 186 del libro). Entrenamiento del autocontrol: Usando demoras largas para el reforzamiento.

17

Autocontrol
Recompensa mayor demorada

Valor de la recompensa

Recompensa pequea inmediata

Tiempo
Si la demora es ms larga, entonces el valor de la recompensa grande es mayor. Si la demora es corta, entonces el valor de la recompensa pequea e inmediata es mayor.

Y esto se acab, Muchas gracias!

Diapositivas de Fernando Blanco


http://www.labpsico.com/pers/blanco/FernandoBlanco.htm

18

S-ar putea să vă placă și