Sunteți pe pagina 1din 6

TEMA 6.

CONDICIONAMIENTO INSTRUMENTAL
Se trata de un aprendizaje en el que el sujeto realiza la conducta para conseguir algo que le interesa o para surimir y
evitar algo que le molesta, es decir, la conducta del sujeto tiene un objetivo y establece una relacin entre su conducta y
las consecuencias de esta (relacin respuesta-resultado) en presencia de un E ambiental (Ed) que seala la posibilidad
del refuerzo.
Diferencias entre los procedimientos CC y CI
CC

CI

Relacion de contingencia EC

R-Res(Er)

Control de la
consecuencia
La aparicion de la
consecuencia depende
de la presentacion
anterior de

No

Si

ECEI

REr

Semejanzas y diferencias entre EI y Er


Son equivalentes: son estmulos biolgicamente relevantes y cualquiera de los dos puede utilizarse como EI o Er
Son funcionalmente diferentes:
el EI es contingente al EC que le precede (relacin E-Er) y el sujeto no puede controlaar su aparicin
el Er es contingente a la R que tambin le precede (relacin R-Er) y el sujeto s tiene el control sobres u
aparicin o no.

ANTECEDENTES HISTRICOS
Thorndike: Utilizaba gatos como sujetos a los que introduca en unas cajas problema en las que tenian que salir
manipulando algun artilugio. Consideraba que los animales asociaban el E y la R de una forma gradual, mediante
ensayo y error. La funcin del reforzamiento era fortalecer la relacin que se estableca entre la situacin (E) y la
respuesta correcta (R). Su idea era que el reforzamineto crea un estado de satisfaccin que sella la relacin E-R.
Estableci la LEY DEL EFECTO las consecuencias de la R solo sirve ara fortalecer o debilitar la asoc E-R
Skinner: condicionamiento operante proceso por el cual una conducta queda modificada por sus consecuencias.
Desarroll tambin instrumentos para estudiar este condicionamiento: la caja de Skinner. Una de las caractersticas
de esta caja es que permite estudiar la conducta de forma continua durante un periodo de tiempo,frente a los
procedimientos en los que se usan ensayos discretos como las cajas problema o los laberintos. Este procedimiento
de operante libre refleja mejor lo que ocurre en el medio natural.

ELEMENTOS DEL CI
Ed R Er

Estmulo discriminativo (Ed): la respuesta instrumental se realiza en un contexto o ante un estmulo uqe seala la
ocasin para recibir el refuerzo. es un estimulo que seala la disponibilidad de refuerzo. Slo si el sujeto emite la
respuesta en presencia del Ed recibir el refuerzo.
Tono + refuerzocomida el animal aprendera a darle a la palanca solo cuando este el tono
1

Respuesta instrumental (RO): respuesta motora que se define en funcion de los efectos que tienen en el ambiente. Es
una accion que controla el Er ya que puede hacerlo aparecer o desaparecer. Las respuestas controladas por el sistema
nervioso autnomo como el ritmo cardiaco, presin sangunea, etc. Que son involuntarias, normalmente no se
consideran como instrumentales.
Mediante el condicionamiento instrumental se puede aprender una respuesta nueva que no existe en el
repertorio de un organismo, se puede potenciar una respuesta ya existente o se pueden cambiar algunos de sus
parmetros como la latencia, la velocidad, frecuencia,etc.
Estmulo reforzador (Er): estimulo que sigue a la respuesta y aumenta su fuerza(frec,prob..) de la R. Lo que tiene interes
para el sujeto es lo que refuerza. Se define en funcion de los efectos sobre la conducta.
Tipos de refuerzo
A) en funcion de la relacion de contingencia entre R-Er: o repercusion funcional.
Er+: estimulo resforzador positivo.
Contingencia positiva entre R-refuerzo(Rr)
Es un estmulo que el organismo busca conseguir (E apetitivo)
Aade algo a la situacin
Er-: estimulo reforzador negativo:
Contingencia negativa R-refuerzo (Rausencia de refuerzo)
Es un estmulo cuya eliminacin aumenta la fuerza de la R
La emisin de la respueta da lugar a la retirada o a la evitacin de un estmulo aversivo (el refurzo
negativo)
El efecto de Er+ y Er- es el mismo: aumentar la fuerza de la R. (pregunta examen)
Hay que distinguir entre el refuerzo negativo refuerzo negativo y el castigo:
REFUERZO NEGATIVO
CASTIGO
relacin de contingencia negativa Si el sujeto emite
relacin de contingencia positiva Siempre que el
la respuesta, no se presenta el estmulo aversivo
sujeto da la respueta, se presenta el estmulo aversivo.
aumento de la fuerza de respuesta
Disminucin de la fuerza de respuesta
B) otra clasificacion (innato-adquirido)
Refuerzos primarios o incondicionados (innatos): son estmulos biolgicamente significativos cuya
capacidad reforzante es innata( comida, agua..)
Refuerzos secundarios o condicionados(aprendidos): estmulos cuya capacidad reforzante viene
dado a travs de la experiencia por asociacin con algn refuerzo primario mediante
condicionamiento clsico.
Refuerzos generalizados: son ref secundarios que se hallan asociados a mas de un E primario (dinero
y otras monedas). Son idiosincrticos de cada cultura y de cada tiempo y no representan formas fijas
de estimulacin.
Refuerzos sociales: son reforzadores que tienen que ver con aspectos sociales.
C) otra clasificacin (por su origen)
Extrinsecos: exteriores al organismo
Intrinsecos: interiores al organismo: autoestima, motivacin de logro, autonoma, posibilidad de
aprender, creatividad..

PRINCIPIOS BSICOS DEL CI

1. Adquisicin de la conducta instrumental (REr+)


La emisin de una respuesta seguida de un estmulo reforzador da lugar a la adquisicin de una respuesta nueva o poco
frecuente. El reforzador de una respuesta produce una asociacin entre la respuesta y el reforzador, lo que aumenta la
probabilidad de que la respuesta se repita. Cuanto ms emparejamientos haya entre los dos elementos asociados (R-Er)
mayor ser la fuerza de esa asociacin y mayor la fuerza de la respuesta.
2

Fases preliminares del condicionamiento Preparacin de los animales: conseguir la motivacin adecuada.
Adaptacin a la caja de experimentacin (caja de skinner). Entrenamiento de acercamiento al comedero.
Establecer una jerarqua de respuestas.
Procedimientos de adquisicin de un nueva RI:
a) MOLDEAMIENTO: procedimiento para conseguir crear respuestas instrumentales de una forma
ms rpida y eficaz o la construccin de una nueva unidad conductual a partir de los componentes de R preexistentes en
su repertorio. Es la consecucin gradual de una conducta final o meta. Se logra mediante el reforzamiento diferencial de
aquellas conductas que suponen aproximaciones sucesivas a la conducta meta y no reforzamiento de las conductas
iniciales.
Pasos para moldear de una manera efectiva:
- Especificar la RI final
- Especificar RR iniciales e intermedias
- Especificar Er a utilizar
- Reforzar diferencialmente la R inicial hasta que ocurra de forma consistente
- Reforzar la R siguiente y la siguiente etc
Inconvenientes del procedimiento de moldeamiento: Exige presencia del experimentador. La rapidez del aprendizaje
depende del experimentador.
b) AUTOMOLDEAMIENTO: procedimiento rpido de instauracin de RR (sobre todo cuando stas son
una reaccin especfica de la especie y se asocia con un E relevante).

MEDIDA DE LA RI: tasa de respuesta (n de respuestas por unidad de tiempo)


2. Extincin
Operacionalmente consiste en la retirada del refuerzo por lo que se interrumpe la reaccin previa R-Er. Da lugar a un
descenso gradual de la fuerza de la R. La velocidad de extincin depende del programa de reforzamiento utilizado en la
fase previa. La respuesta de suprime de una forma lenta y puede reaparecer la respuesta con cierta facilidad
(recuperacin espontanea de la RI). Si se quiere que la supresin de la respuesta sea eficaz, habra que reforzar adems
las respuestas incompatibles con la respuesta a suprimir.
3. Discriminacin
Se presentan varios estmulos y slo uno de ellos sealiza la disponibilidad del reforzador. La RI puede estar bajo el
control de un Ed. Ejemplo.: La paloma slo obtiene comida cuando picotea el disco VERDE, pero no cuando picotea al
ROJO o AZUL. El Ed es igual que el EC? EC seala la presentacin futura de un estmulo (EI) y el Ed seala cuando y bajo
qu condiciones se reforzara la RI (verde).
4. Generalizacin
Cuando se ha establecido una RI ante un determinado Ed, tambin otros estmulos semejantes adquieren la capacidad
de controlar la R o de sealar la disponibilidad del Er.
5. RELACION RESPUESTA-REFUERZO
- REL TEMPORAL: RELACION DE CONTIGUIDAD r-r. En la adquisicin: el reforzamiento debe ser inmediato. Si se demora
el refuerzo, pueden interponerse otras respuestas que dificulten la relacin entre la R delimitada y el refuerzo. Se
prefiere el refuerzo inmediato al demorado.
- REL DE CONTINGENCIA: hace referencia a la relacin de probabilidad que hay entre la realizacin de la R y la
consecucin del reforzador. Se refiere a la relacin predictiva R-Er. Un ndice habitual de contingencia es la relacin que
hay entre dos probabilidades condicionales. Existe cuando ambas probabilidades son distintas.

- Experimento de la conducta supersticiosa (Skinner): se presentaba un refuerzo cada 15 segundos independientemente


de lo que hicieran los sujetos (programa de tiempo fijo). Entonces lo que se observ es que al cabo de media hora, los
animales estaban haciendo cosas muy distintas: uno daba vueltas sobre si mismo, otro andaba de lado a lado y trat de
explicar estas conductas (conductas supersticiosas la presencia del refuerzo no influye en la respuesta).
Skinner lleg a la conclusin de que si el animal realizaba una determinada conducta justo antes de recibir el refuerzo,
luego el animal repeta la conducta para conseguir el refuerzo. Estos resultados le hicieron considerar que el aprendizaje
poda establecerse por la simple ocurrencia accidental de la respuesta y el refuerzo en contigidad temporal. Segn
Skinner, el condicionamiento estaba determinado ms por la relacin de contigidad respuesta-reforzador que por la
relacin de contingencia.
Reinterpretacin del experimento de supersticin: (Staddon y Silmmelhag) cuestionaron el experimento. Y
registraron de forma pormenorizada las distintas respuestas que realizaban las palomas durante toda la sesin
experimental. Midieron la frecuencia de cada una de las respuetas durante el intervalo comida-comida y observaron
que haba dos tipos de respuesta:
- Terminales: que aumentaban su frecuencia al final del intervalo. Las conductas terminales son tpicas de
la especie que se desencadenan cuadno se acerca el momento de recibir la comida.
- Interin: que lo hacan tras el Er. Tienen otras fuentes de motivacin. Estas respuestas pueden variar de
unas palomas a otras, aunque una misma paloma pareca persistir ms en unos movimientos que en
otros.
Las respuestas terminales y las de interin no eran especficas de cada paloma, sino que eran comunes entre ellas. Las
conductas supersticiosas demostraron que estaban provocadas por la predicidad de la entrega (cada 15 segs), no por el
reforzamiento accidental. El paso del tiempo actuaba como un EC de la comida(EI), porque cuando se acerca el final del
intervalo (EC), se suscitan las respuestas terminales.

TIPOS DE CI
Apetitiva

Aversiva

Contingencia + (R- consecuendia)


presetnacion de la consecuencia

Reforzamiento positivo (+)


REr+
Consec.: aumenta la fuerza de la R

Castigo (+)
R E punitivo
Consec: disminucion de la fuerza de R

Contingencia (r- consecuencia)


eliminacion de la cosnecuencia

Omision( )
R retirada Er+
Consec.: reduccion fuerza de la R
Ej con la multa te retiran 1000 euros
del banco

Reforzamiento negativo (-)


(Escape/evitacion)
R retirada ErConsec.: aumenta la fuerza de la R
Ej interrumpe algo desagradable
como el frio

1. Entrenamiento de reforzamiento positivo o recompensa


La realizacin de la respuesta produce la presentacin del refuerzo positivo y, como resultado, un aumento de la misma.
Procedimientos:
- Ensayo discreto: Cada ensayo de entrenamiento acaba con la retirada del animal del aparato (corredor recto
puzzle box.
- Procedimiento de operante libre: Permite que el sujeto repita la RI una y otra vez sin restricciones (caja de
Skinner). Como ocurre en el medio natural, una conducta sigue a otra. Se utiliza una R que no existe en el
repertorio del sujeto y sta se aprende mediante el moldeamiento.
2. Omisin
Relacin de contingencia negativa. La realizacin de la respuesta hace que se quite una consecuencia positiva, es
decir, la omisin del refuerzo, aunque en algunos momentos del experimento pueda recibir el reforzador (cuando no
est realizando la R).Tambin se considera una forma de castigo porque el sujeto lo vive como tal.
4

Hay otros modos de realizar el procedimiento de omisin en los cuales se produce una mayor supresin de la
respueta que en la extincin convencional EJ. Administrar el reforzador tras una respuesta alternativa especifica (en
lugar de darlo solo tras la ausenca de R). Esta es una forma de contracondicionamiento porque se refuerza la respuesta
que se opone o es antagnica respecto a la respuesta criterio.
3. Castigo
Hay una relacin de contingencia positiva entre la respuesta instrumental y la consecuencia. Cuando el sujeto
emite la respuesta recibe un estmulo punitivo. El resultado de este tratamiento es que disminuye la frecuencia de
respuesta.
4. Entrenamiento de reforzamiento negativo
Hay una relacin de contingencia negativamente la respuesta instrumental y la consecuencia. La ejecucin de la
respuesta interrumpe o impide que se presente el estmulo aversivo. El estimulo aversivo hace funciones de refoador
negativo que aumenta la frecuencia de las respuestas que le preceden. As pues, en los procedimientos de escape y
evitacin aumenta la fuerza de la respuesta.

VARIABLES

1. Caractersticas del organismo elegido


Tipo de organismo: constitucin fsica, aparato sensorial, SN, sistema motor.
Experiencia previa
Estado motivacional: Cuanto ms aumenta el nivel de motivacin interna, ms rpida es la adquisicin y mayor
la tasa de respuestas conseguida. A nivel experimental, se controla el estado de privacin para aumentar su
motivacin, se les priva de una necesidad bsica. Cuanto ms se le prive de comida al animal, ms hambre
tendr y ms motivado estar para aprender. El estado de motivacin interna limita el tipo de actividades que
este puede realizar
2. Caractersticas de la respuesta instrumental
En el condicionamiento instrumental se dan relaciones de pertinencia o relevancia R-refuerzo. Thorndike
propuso el concepto de pertinencia para explicar fallos en el aprendizaje de determinadas RR (rascarse, bostezar..). La
relevancia causal en el CI se refiere a que ciertas RR tienen una relacin natural con ciertos reforzadores.
Ej. Silvester: experimento con el pez espinoso macho la tarea era morder la barra para tener acceso al reforzador. Er:
acceder a un macho intruso o acceder a una hembra el celo. Resultados: mayor tasa de respuestas al Er primero los
(acceder a un macho intruso) que al segundo (hembra en celo).
Los autores llamaron a estas conductas maladaptativas (misbehavior) porque iban en contra de los principio del
reforzamiento. Consideraban que estas conductas eran similares a las mostradas por los animales de forma instintiva
ante la comida. Explicaron que el entrenamiento con comida suscitaba una serie de conductas instintivas en los animales
que dominaban sobre a conducta reforzada por el experimentador.
La explicacin actual es que se produce un aprendizaje nuevo que interfiere con el viejo. Las respuestas
maladaptativas son conductas apetitivas condicionadas clsicamente, es decir, sean estas conductas innatas o
condicionadas, el condicionamiento clsico interfiere en el condicionamiento instrumental.
3. Magnitud del refuerzo: a mayor magnitud del estmulo reforzador, mayor fuerza de la respuesta (tasa de respuestas)
4. Demora del refuerzo: es el periodo de tiempo que transcurre desde que el sujeto realiza la respuesta hasta que recibe
el refuerzo (R-demora-Er). Cuanto son cortas, ms se facilita el condicionamiento y cuanto ms larga ms se dificulta
debido a que deteriora la contigidad R-Er y al interactuar con otros sucesos durante este periodo de demora.