Tema 14, Cond. Op. Paradigmas y Modelos

TEMA 14: EL CONDICIONAMIENTO OPERANTE PARADIGMA Y MODELOS EL ENSAYO Y ERROR.
LA LEY DEL EFECTO En el condicionamiento clsico, el refuerzo (EI) apareca antes de la RC y, as, la causalidad era lineal. Ahora el refuerzo aparece despus de la RC y, por tanto, la causalidad es circular: esto es, hay un feedback o retroalimentacin. No todo el aprendizaje se reduce a condicionamiento clsico, hay otro componente simple de aprendizaje, aunque a nivel algo mas superior: el condicionamiento operante. Antes se sola explicar el aprendizaje de un modo anecdtico, esto es, por ensayo error. El animal, ante una situacin problemtica, ensayaba muchas conductas, erraba la mas de las veces, pero cuando acertaba azarosamente aprenda. Un psiclogo norteamericano, Thorndike, realiz una labor experimental con esta base y en 1911 formul la ley del afecto, que ser la primera apoyadura terica del aprendizaje por ensayo error. Thorndike construa cajas problemas cuya puerta tenia que abrir el animal, manipulando un resorte, para salir y conseguir la comida que se le colocaba en el exterior. Thorndike encontr que haba una correlacin entre el numero de veces que tenia al animal en la caja problema y la rapidez con que el animal abra la puerta y consegua la comida. Entonces penso que se produca una conexin, esta vez E-R (estimulo respuesta) en lugar de la conexin E-E del condicionamiento clsico. Y penso que esta conexin se produca a nivel neural. La funcin por la que se produca esta conexin la defini claramente mediante la ley del efecto: de varios movimientos hechos en la misma situacin, aquellos que van acompaados o seguidos de cerca por satisfaccin del animal, permaneciendo otras cosas iguales, se conectaran mas firmemente con la situacin, de modo que cuando esto sucede ser mas probable que vuelvan a tener lugar. Aquellos que van acompaados o seguidos de cerca por desagrado para el animal, siendo otras cosas iguales, debilitaran sus conexiones con la situacin, de modo que cuando ello suceda ser menos probable que vuelvan a tener lugar. Cuanto mayor es la satisfaccin o desagrado, mayor ser el fortalecimiento o debilitacin del vnculo. El propio Thorndike cayo en la cuenta de que la segunda parte de la ley no era cierta: la consecuencia de desagrado no produce debilitacin de la conexin. As que permaneci solo la primera parte. Finalmente, Skinner (1938) hara la critica fundamental de la ley del efecto y la convertira en la ley del refuerzo. Lo primero que critica Skinner es que lo que se refuerce sea la conexin E-R. En primer lugar esta conexin no es algo observable pblicamente en la conducta. Por eso, lo nico que le interesa aqu es la respuesta, no la conexin. En segundo lugar, Skinner define la respuesta como una operante. La operante es un acto del organismo que produce un efecto especifico en el ambiente; por ejemplo, presionar una palanca. As pues, lo que define a la operante no son los movimientos especficos que realiza el animal, sino el efecto producido en el ambiente. Thorndike defina la respuesta por los movimientos especficos del animal y, en consecuencia, aprender se concibe como reforzamiento de la conexin E-R. En Skinner, en cambio, aprender es aumentar la probabilidad de que el organismo emita la respuesta y, lo que se refuerza es la respuesta directamente, no la conexin E-R. La ley del efecto se convierte as en ley del refuerzo. El aprendizaje se produce por refuerzo de la respuesta, no por una conexin que es efecto del refuerzo. Los dos vienen a decir lo mismo, ya que la conexin es la respuesta, efecto ambos del refuerzo.
CONDICIONAMIENTO INSTRUMENTAL O CONDICIONAMIENTO OPERANTE? Ahora se trata de que cuando un organismo emite una respuesta (una conducta) se sigue una consecuencia. Por ejemplo, el bebe llora y su madre lo atiende. Pero esto hace que esa conducta se convierta en instrumento para conseguir una consecuencia. El llanto del bebe se convierte en instrumento que llama la atencin de la madre. En este sentido, el condicionamiento de la conducta (respuesta) por la consecuencia se llama condicionamiento instrumental, porque convierte a esa respuesta en instrumento. Pero cuando queremos experimentar con una conducta para condicionarla a ser instrumento que haga aparecer la consecuencia, nos encontramos con que la situacin es muy distinta de la del condicionamiento clsico, donde bastaba con mostrar el estimulo que elicitaba una conducta para que esta se produjera y el experimentador puede provocar esa conducta segn le convenga. Esto no ocurre con la conducta instrumental, ya que esta no es elicitada, sino emitida. La emite el organismo espontneamente y nada mas: es como una conducta voluntaria. En el caso de la respuesta elicitada la iniciativa la tiene el estimulo, en el caso de la respuesta emitida, la iniciativa la tiene el organismo. Ahora bien, el hecho de que la respuesta instrumental sea emitida creaba problemas metodolgicos, ya que ahora hay que esperar a que el organismo emita la respuesta espontneamente. En un principio se utilizo la tcnica de los ensayos discretos, que ya utilizo Thorndike. Pona una y otra vez al gato en la caja problema en la misma situacin. Pero con el mtodo de los ensayos directos, las posibilidades de emitir una conducta espontneamente son limitadas. El animal solamente puede emitir una vez en cada ensayo y solo podemos medir el tiempo que tarda en realizarla o los aciertos y esto no es la forma natural en que el animal admite su conducta. Por ello, Skinner ide la tcnica de operante libre, que permite estudiar una conducta de una manera continua Skinner llamo a cada realizacin de una especie de conducta una operante. As, la conducta de pulsar una palanca espontneamente es una operante, cada picoteo de una paloma en el estimulo determinado es una operante. Con esto, tcnicamente se ganaban se ganaban dos cosas muy importantes: el poder estudiar la conducta de una manera continua como es lo natural y el tener dividida a esa conducta en unidades significativas que se pueden medir. Ahora bien, una operante es la emisin de una respuesta especifica. Cmo definimos cada conducta especifica? Skinner lo hizo por el efecto que esa respuesta tiene sobre el ambiente. La operante de bajar la palanca se define en la bajada de dicho instrumento hasta que se abre el dispositivo que suministra la comida. Se da por aceptado que todas las conductas que consiguen bajar la palanca son funcionalmente equivalentes. El estudio de la conducta operante, de las respuestas operantes, se convirti en la situacin normal de estudiar el condicionamiento instrumental y, generalizando, se comenz a utilizar el nombre de condicionamiento operante. Es conveniente tener claro que Skinner, al estudiar el condicionamiento operante, modifica la situacin experimental tradicional de los estudios de condicionamiento instrumental, ya que ideo una situacin experimental especial mediante la creacin de su celebre caja de Skinner. La caja de Skinner tiene en su interior una palanca que cuando el animal la presiona hace que un dispositivo automtico suministre en su comedero una cantidad fija de comida. Cada vez que el animal presiona la palanca, la conducta es registrada por un aparato llamado registrador acumulativo. En un registro de este tipo, podemos observar que cuando no hay respuestas la lnea que marca la aguja es recta, pero con cada respuesta se produce un escaln, as, cuando hay varias respuestas, la lnea aparece escalonada.
As, pues, en la caja de Skinner, no hay numero de ensayos sino tasa de respuestas. La influencia de la psicologa cognitiva y la reaccin antiskinneriana actual de algunos psiclogos cognitivos, hace que hoy vuelva a utilizarse mucho por algunos autores la denominacin de condicionamiento instrumental, hasta el extremo, incluso, de evitar la palabra respuesta. REFORZADOR, REFUERZO Y REFORZAMIENTO Hoy se llama reforzador al estimulo apetitivo o premio que aparece, o al estmulo aversivo que desaparece, cuando se ejecuta una conducta operante. Si el estimulo no es una recompensa, sino un estimulo aversivo, entonces acta como reforzador desapareciendo cuando se ejecuta una conducta operante. Se llama refuerzo y reforzar al proceso de que a una operante le siga un reforzador; tambin a la situacin y procedimiento experimental de presentar o hacer desaparecer un reforzador si se emite una operante determinada. A este proceso es a lo que normalmente nos referimos en el estudio del condicionamiento operante. As, utilizar la palabra refuerzo es no tomar partido sobre si interiormente se produce una conexin, entre el estimulo y la respuesta, que se fortalece; o si interiormente se produce una representacin de las relaciones entre conductas y consecuencias agradables o desagradables, como interpreta la orientacin cognitiva actual. En consecuencia, se dice reforzamiento al proceso subyacente de fortalecer la conexin entre un estimulo y la respuesta. Pero en el conductismo radical nunca se relaciono la presencia de un reforzador con el fortalecimiento de una conexin, mucho menos de una representacin mental. El conductismo de Skinner utiliz el concepto de refuerzo solamente como una descripcin de una situacin o procedimiento observable. Por eso Tudela seala que reforzamiento se refiere a proceso subyacente de lacrado que se supone que fortalece o aumenta la probabilidad de una respuesta. As pues, reforzador se refiere al estimulo, refuerzo a la situacin o procedimiento experimental y reforzamiento al fortalecimiento de un proceso interior, sea la pura conexin E-R o sea una representacin cognitiva de las relaciones entre conductas o actuaciones y consecuencias. Otra confusin que se da es la de creer que el refuerzo negativo se refiere al castigo. Hay refuerzo positivo o negativo siempre que el resultado es un reforzamiento de la respuesta. En el refuerzo positivo se fortalece la respuesta porque se da una contingencia positiva de la respuesta con la aparicin de un estimulo recompensa. En el refuerzo negativo se produce un reforzamiento de la respuesta porque no se da contingencia entre la respuesta y un estimulo aversivo (dar la respuesta es seguido de la desaparicin de estimulo aversivo). Sin embargo en el castigo no hay fortalecimiento de la respuesta ya que no hay proceso de refuerzo. En el castigo se debilita la respuesta o se anula. CONTIGIDAD Y CONTINGENCIA En el estudio del condicionamiento clsico hemos defendido que tal tipo de aprendizaje es por asociacin y, entonces, se expresa en trminos de contigidad. En el condicionamiento operante el aprendizaje es por refuerzo de la respuesta y que entonces este modo de aprendizaje se expresa en trminos de contingencia. Se dice que dos sucesos son contiguos cuando ocurren simultneamente o en rpida sucesin dentro de un determinado periodo temporal. Se dice que dos sucesos son contingentes cuando ocurren conjuntamente segn una cierta probabilidad. En la contigidad solo se dice que cuando ocurre A entonces ocurre B. En la contingencia no basta con eso. Hay que expresar la probabilidad de que cuando ocurre A ocurra tambin
B, o no ocurra tambin B, la probabilidad de que no ocurra A ni B o de que ocurra B solamente. EL PARADIGMA DEL CONDICIONAMIENTO OPERANTE Thorndike conceba el condicionamiento instrumental como una conexin E-R. Posteriormente, Skinner no trata explcitamente la conexin, sino que concibe el condicionamiento operante como un aumento de la probabilidad de una respuesta. Pero tambin hemos dicho que condicionamiento instrumental y condicionamiento operante son la misma cosa en realidad. Si hemos sealado algunas diferencias, se refieren a modos de conceptuar una misma realidad. Cuando Skinner nos dice que la rata ha aprendido a presionar una palanca, nos lo dice porque ha aumentado el numero de veces que la rata presiona la palanca, pero implcitamente no puede negar que la rata ve la palanca y la presiona. Thorndike nos dira que se ha producido un aprendizaje porque se ha producido una conexin entre ver la palanca y presionarla, pero esto lo sabe porque la rata aumenta el numero de veces que presiona la palanca. Es decir, los hechos reales son los mismos, Skinner no puede negar implcitamente la conexin E-R. Todos los estudiosos del condicionamiento instrumental u operante lo admiten segn el paradigma E-R Es decir, aprendizaje por relacin de un estimulo con una respuesta. Si esa relacin es de contigidad o de contingencia es otro problema. Segn el paradigma del condicionamiento operante, este puede hacer una de dos cosas: reforzar y con ello aumenta la probabilidad de una respuesta, o castigar y con ello disminuye la probabilidad de una respuesta. En cualquier caso el condicionamiento operante es aprendizaje porque es un cambio de la conducta como fruto de la experiencia. Este paradigma general del condicionamiento operante presenta cuatro modelos o subparadigmas: Recompensa, omisin, castigo y evitacin. Una interpretacin superficial puede pensar que los dos primeros se dan cuando el refuerzo es positivo. Pero los trminos positivo y negativo no se refieren a que el reforzador sea u premio o un estimulo aversivo. Tanto el refuerzo como el castigo pueden ser positivos o negativos. El termino negativo expresa mas bien la no presencia de un estimulo, sea premio o aversivo (contingencia negativa). El termino positivo significa que est presente el estimulo premio o el estimulo aversivo (contingencia positiva). As, es el tipo de reforzador (premio o aversivo) y la presencia o ausencia de l lo que determina los cuatro modelos del condicionamiento operante. En cuanto al estimulo, el reforzador agradable o premio s recibe el nombre de estimulo positivo, pero no se usa el termino negativo para el estimulo aversivo para no dar confusin con el modelo de la evitacin. 1. Condicionamiento de recompensa: es un proceso que se llama refuerzo positivo o simplemente refuerzo. Es la funcin que define el aumento en numero de veces o en vigor de una respuesta por ser esta contingente con un premio o reforzador positivo. Es el caso de procedimiento de ensayo y error en que el sujeto es premiado cada vez que realiza la respuesta correcta. 2. Castigo: es el condicionamiento operante con estimulo aversivo presente. Es la funcin que define la supresin de una respuesta por ser esta contingente con un estimulo aversivo 3. Condicionamiento de evitacin: se llama tambin refuerzo negativo, porque se refuerza la aparicin o vigor de una conducta negativamente, esto es, por evitacin de un estimulo que es contingente con ella. El condicionamiento de evitacin presenta dos modalidades: la evitacin propiamente dicha, en que la
emisin de la respuesta hace que no aparezca el estimulo aversivo, y el escape, en que la emisin de la respuesta hace que desaparezca el estimulo aversivo. 4. Condicionamiento de omisin: recibe tambin el nombre de castigo negativo, porque la emisin de la respuesta es contingente con la desaparicin o ausencia del premio. En la situacin de omisin el reforzador positivo esta presente en el ambiente y la emisin de la respuesta lo omite. Por ello, el resultado es la debilitacin de la respuesta y decrece la probabilidad de que la respuesta vuelva a repetirse, por eso decimos que la respuesta es castigada negativamente. VARIABLES DEL CONDICIONAMIENTO OPERANTE Las variables fundamentales del condicionamiento operante son el reforzador y la respuesta. Adicionalmente suelen existir otras variables como son el estimulo discriminativo y el tiempo de privacin. 1. El reforzador: es cualquier estimulo que hace aumentar la probabilidad de emisin de una respuesta o el vigor de la misma. Cuando el refuerzo consiste en la desaparicin de un estimulo aversivo, entonces a lo que se llama refuerzo negativo es a la situacin de condicionamiento, la situacin que termina en el reforzamiento de la respuesta de escape o evitacin. La razn es que la evitacin del estimulo aversivo o el escape de l hace de refuerzo, o sea, aumenta la probabilidad de dichas conductas. Modernamente se tiende a una nueva conceptualizacin del refuerzo mas en consonancia con la teora de la evolucin, donde el principio de variacin explicaba aquellas caractersticas que el medio seleccionaba como mas adaptativas. De la misma manera, aqu, el principio de variacin determina el conjunto de conductas que un individuo puede realizar en una situacin determinada, el principio de seleccin determina cual de ellas se realiza de hecho. Bajo esta concepcin, el refuerzo no se concibe como el proceso que aumenta la probabilidad de una conducta fortaleciendo la conexin E-R, sino como el proceso seleccionador que elimina las respuestas que no son contingentes con la aparicin del reforzador. 2. La respuesta: en la conducta operante el sujeto es activo, se trata de una conducta que emite espontneamente el sujeto. La respuesta, pues, es una conducta espontanea, no es una conducta respondiente. Si consideramos el refuerzo como estimulo incondicional, la conducta que se condiciona nada tiene que ver con la conducta que el estimulo reforzador produce. Si el refuerzo es comida, la respuesta que provoca innatamente es comer, y la que establece (diramos la RC), apretar, por ejemplo, una palanca, nada tiene que ver con la conducta de comer, contrariamente a lo que ocurra en el condicionamiento clsico, donde la RC era muy parecida a la RI. Esto no es ilimitado, como en un principio pudiera pensarse. Seligman seala las limitaciones filogenticas del aprendizaje y seala el concepto de preparacin o disposicin. Dicho en pocas palabras, hay una preparacin filogentica para el picoteo en el repertorio conductual de una paloma, pero no hay una preparacin filogentica para presionar una palanca en la conducta de una rata. Esto lleva a dos consecuencias: primero, que la conducta que tiene preparacin se condiciona con mayor facilidad, y segunda, que las respuestas que pueden condicionarse tienen su limite, hay conductas tan extraas a la disposicin especifica del animal que no pueden condicionarse.
3. Estimulo discriminativo: es una clave explicita, que se destaca en la situacin. De ordinario, en los experimentos es una luz o un sonido, que indica nicamente cuando esta o no disponible el refuerzo. As por ejemplo, una luz puede sealar que, cuando esta encendida, si se aprieta entonces la palanca, recibiremos comida y, cuando esta apagada, no recibiremos comida aunque presionemos la palanca. As, el estimulo discriminativo no provoca la respuesta, solo la ocasin de que la respuesta espontneamente se emita. Es necesario sealar que la conexin E-R es la conexin de la percepcin de la palanca con la respuesta de presionarla. Y esta conexin es la que se refuerza en el condicionamiento operante. El estimulo discriminativo es solo informativo. 4. Tiempo de privacin: para que un estimulo reforzante cumpla con su condicin de ser refuerzo muchas veces son necesarias muchas circunstancias. Estas circunstancias constituyen lo que se llama estado de motivacin. Ni nosotros ni los animales aprendemos si no estamos motivados. Dicho con un ejemplo, la comida no ser un refuerzo para un animal saciado. La variable mas generalmente medida para indicar esta situacin orgnica del animal es el tiempo de privacin. LA MEDIDA DE LA RSPUESTA EN EL CONDICIONAMIENTO OPERANTE En la medida de la respuesta en el condicionamiento operante se miden dos parmetros fundamentalmente: la tasa de respuestas mediante un tiempo determinado y la latencia de la respuesta. 1. la tasa de respuestas en un periodo de tiempo dado: el concepto de tasa de respuesta es un concepto genrico y, en general, depende del tipo de situacin experimental en que se efecta la medida del condicionamiento. El concepto mas especifico de tasa de respuesta es el numero de veces que una respuesta se repite durante un periodo de tiempo determinado. Tambin es tasa de respuesta la medida de velocidad con que un sujeto ejecuta una operacin. Por ejemplo, en el corredor recto, la tasa de respuesta es el tiempo que tarda el animal en recorrer el pasillo hasta llegar a la meta. Cuando se trata de medir una respuesta continua, como la actividad de deambular un animal, la tasa de respuesta viene dada por el espacio recorrido por el animal en un periodo de tiempo dado. El instrumento mas usual en esta situacin es la rueda de actividad. 2. latencia de la respuesta: genricamente, la latencia de la respuesta en el condicionamiento instrumental es el tiempo que pasa desde que el sujeto se encuentra en la situacin hasta que emite la respuesta. Con respecto a la medida de la latencia de la respuesta, son muy importantes los estmulos discriminativos. As, en la caja de Skinner, la latencia viene dada por el tiempo que transcurre desde la aparicin del estimulo discriminativo hasta que el animal emite la respuesta. En el condicionamiento operante se miden tambin otros parmetros, como el numero de ensayos, el intervalo entre ensayos, magnitud y demora del refuerzo, etc. Pero no son los parmetros esenciales con los que se mide la respuesta condicionada operantemente. PROGRAMAS DE REFUERZO O CASTIGO El programa de refuerzo o castigo es la pauta segn la cual se presenta el premio o el estimulo aversivo. Hasta ahora hemos tratado del refuerzo continuo, pero existen programas de refuerzo que se llaman de refuerzo parcial, donde a cada respuesta no se
sigue un refuerzo. Tanto con el refuerzo continuo como con el refuerzo parcial, la respuesta es contingente con el refuerzo. Lo que es contingente es una respuesta especifica (presionar la palanca), no cada respuesta. Tradicionalmente, se admiten cuatro tipos de refuerzo: programa de razn fija, programa de razn variable, programa de intervalo fijo y programa de intervalo variable. Programa de razn fija: es una pauta de suministrar el refuerzo, segn la cual se refuerzan las respuesta en relacin a un ndice de razn. Por ejemplo, el ndice puede ser un tercio. Esto quiere decir que se suministra el refuerzo cada tres respuestas. El programa de razn fija se simboliza con las letras RF, a las que se les aade un numero que indica la respuesta que en la proporcin es reforzada: si ponemos RF 3, quiere decir que se refuerza siempre la respuesta numero 3, desde el ultimo refuerzo suministrado. El efecto que produce el programa de razn fija es que se aumenta la velocidad con que se emite la respuesta. Programa de razn variable: ahora no se da una pauta fija de reforzar la respuesta, el programa de razn variable es una pauta de suministrar el refuerzo segn un ndice de razn tambin, pero ahora, la razn no es fija, sino una serie aleatoria con una razn media definida. Por ejemplo, ahora no se refuerza siempre la respuesta numero 3 desde la ultima reforzada, sino que cada tres respuestas, una de ellas se refuerza, pero puede reforzarse unas veces la primera, otras la segunda y otras la tercera. El ndice medio sigue siendo as un tercio, pero la respuesta reforzada cambia aleatoriamente. El programa de razn variable se simboliza con las letras de RV, a las cuales se aade el ndice de razn media. El efecto de este programa es producir una tasa de respuestas alta y estable. Alta, porque, como en el caso anterior, cuanto mas rpido se responde, mas pronto se recibe el refuerzo. Estable, porque la variabilidad del programa hace que sea difcil descubrir la respuesta que ser premiada. Programa de intervalo fijo: es una pauta de suministrar el refuerzo segn la cual se refuerza la primera respuesta que ocurre despus de un intervalo fijo de tiempo transcurrido a partir del ultimo refuerzo suministrado. El programa de intervalo fijo se simboliza con las letras IF, se le aade un numero que indica, normalmente en minutos, el tiempo que transcurre desde el primer refuerzo suministrado hasta que esta de nuevo disponible el refuerzo. El efecto de este programa es producir una pausa en la emisin de la respuesta despus de haber conseguido el refuerzo y un aumento significativo de la tasa de respuestas cuando se acerca al final del intervalo. As, la tasa de respuestas varia significativamente a lo largo del intervalo porque el sujeto aprende el tiempo en que el refuerzo esta disponible. Programa de intervalo variable: es una pauta de suministrar el refuerzo despus de transcurrido un tiempo, cuya duracin es aleatoria, pero cuyo valor medio es constante. Se simboliza con las letras IV y se aade un numero que indica el valor medio de los intervalos. Por ejemplo, IV 5 significa que el intervalo medio entre dos refuerzos es de cinco minutos, pero los intervalos reales son diferentes (tres, cinco, nueve, etc.) El efecto de este programa de refuerzo es que no se puede averiguar el momento en que el refuerzo esta disponible, por lo que la tasa de respuestas es constante pero relativamente baja. La razn es que los tiempos entre respuesta y respuesta se hacen mucho mas largos, aunque la tasa sea regular.
Todas estas pautas o programas de suministrar el refuerzo se utilizan tambin para suministrar el castigo. Por otra parte, existen otros programas de refuerzo que no son simples como estos, sino mltiples y que adquieren mucha mayor complejidad. PROGRAMAS DE REFUERZO CONCURRENTES Y ENCADENADOS. EL ESTUDIO DE LAS CONDUCTAS DE ELECCIN Los programas de refuerzo en situaciones complejas Las situaciones experimentales en que se estudian los programas de refuerzo son quiz demasiados simples, comparadas con las situaciones normales con la que nos encontramos los humanos en nuestra vida diaria. Lo normal es que nos encontremos en situaciones en que se den programas de refuerzo concurrentes y encadenados. Estos tipos de programas complejos de refuerzo se han estudiado mediante el estudio de la conducta de eleccin, un ejemplo de situacin de programas de refuerzo concurrentes es cuando elegimos entre leer un libro o charlar con nuestros familiares en casa. Un ejemplo de programa de refuerzo encadenados es cuando elegimos estudiar una carrera. La conducta de eleccin El estudio de la conducta de eleccin es una tema fundamental para comprender la conducta de los animales y del hombre. La situacin experimental tpica es aquella en que se deja al animal elegir entre varias opciones, que una vez elegidas, llevan cada una a un programa de refuerzo por un tiempo determinado. La finalizacin de este tiempo permite al animal realizar una nueva eleccin. Programas concurrentes Una situacin tpica experimental para el estudio de la conducta de eleccin con programas concurrentes de refuerzo es la caja de Skinner en que una paloma puede picotear en una de dos teclas. El picoteo en una lleva necesariamente a conseguir comida segn un programa de refuerzo de intervalo variable, el picotear en la otra lleva a conseguir comida segn un programa de refuerzo de razn fija. Los picotazos en cada una de las teclas se registran separadamente. As se pueden estudiar dos cosas importantes: la eleccin mas frecuente que hace el animal y la influencia que tiene el programa de refuerzo en la eleccin del animal. Puesto que el reforzador es el mismo y las otras circunstancias ambientales son las mismas, parece que la nica variable que puede influir en la eleccin del animal es el programa de refuerzo con el que se consigue el alimento picoteando en una tecla u otra. La tasa relativa de respuestas a una tecla se suele medir por la razn de la tasa total de respuestas a esa tecla dividida por la suma de las tasas totales de respuestas a las dos teclas. Tambin es importante la medida de la tasa relativa de refuerzos, la cual se mide por la razn de la tasa total de refuerzos que se recibe en una alternativa, dividida por la suma de las tasas totales de refuerzo recibida en las dos alternativas. Ley de igualacin: segn esta ley la conducta de eleccin se realiza segn las tasas relativas de refuerzo. La tasa relativa de respuestas a una alternativa es igual a la tasa relativa de refuerzos que se recibe en esa alternativa. Con ello queda descrito el comportamiento de eleccin, pero no se explica porque el animal hace una eleccin en un momento dado. Esto es as, porque tampoco se explica cual es el mecanismo que subyace a la conducta de eleccin. Dar una solucin a esta cuestin ha llevado a que se formule una serie de hiptesis. Entre esas hiptesis podemos mencionar la optimizacin del refuerzo (el animal busca
la mayor cantidad de refuerzos) que se ha formulado de dos maneras: optimizacin global y optimizacin molecular. La optimizacin global o molar es una optimizacin de todo el conjunto en una situacin determinada. El animal atiende a conjuntos de conductas, que se realizan en un periodo de tiempo, mas que a respuestas de eleccin individuales. Se trata de una maximizacin global. Segn esta teora, se escoge distribuyendo las respuestas entre las varias alternativas, de tal manera que, globalmente, en un periodo de tiempo, se obtenga la mayor cantidad de refuerzo. La optimizacin momentnea o molecular es una hiptesis donde la conducta de eleccin obedece a una optimizacin en cada eleccin, como si fuese en cada momento una decisin de todo o nada. Se trata de una maximizacin momentnea. Segn esta teora se escoge siempre la alternativa con mas probabilidad de ser reforzada en ese momento. La ley de igualacin parece tener mayor fuerza predictiva que la optimizacin. Esto ha hecho que se piense que la optimizacin funciona mas bien como un objetivo del que hace la eleccin, mientras que la ley de igualacin obedece a un mecanismo subyacente que dara su explicacin. Este mecanismo seria difcil que fuese la optimizacin. Entonces, por lo que hay que preguntarse es por el mecanismo de la conducta de eleccin. Hernstein y otros autores han desarrollado la hiptesis de la mejora. Lo que hace que el animal cambie de alternativa entre una conducta y otra es la mejora de la tasa puntual de refuerzo que esta recibiendo. La hiptesis de la mejora defiende que el animal distribuye sus respuestas entre las elecciones posibles, segn el rendimiento que recibe en cada una de ellas. La mejora se refiere a todo acto que mejore la situacin de refuerzo. El animal dedica mas tiempo a las alternativas que le producen mejores tasa de refuerzo por respuesta. El animal va ajustando sus elecciones entre las diversas alternativas hasta que obtiene la misma tasa puntual de refuerzo en todas las alternativas. Segn el autor, de esta manera, con la mejora, el animal cumple la ley de igualacin, pero consigue el mayor beneficio en trminos de refuerzo. La hiptesis de la mejora explicara as el mecanismo que subyace a la ley de igualacin. Programas encadenados Hay elecciones que encadenan y no permiten cambiar a otra alternativa durante un tiempo prolongado. Decidirse entre triunfar en un trabajo propio o realizar unas oposiciones, son elecciones que llevan consigo una persistencia durante un largo periodo de tiempo. La investigacin de este tipo de conducta de eleccin con programas de refuerzo encadenados en el laboratorio es mas complicada que el estudio de la eleccin con `programas concurrentes. Una situacin es aquella en que la paloma elige picotear una tecla entre dos. Esto hace que lo que funcione sea un programa en otro dispositivo de eleccin (que recibe el nombre de dispositivo terminal) y no sea posible en este dispositivo cambiar a otro programa. Los resultados muestran que la paloma elige en el primer dispositivo la eleccin que le lleva al dispositivo terminal que proporciona el programa que ofrece mayor cantidad de refuerzo o que suministre el refuerzo con mas frecuencia. Estos estudios han puesto de manifiesto que la inmediatez o la larga duracin en obtener el refuerzo es importante, porque se ha encontrado que si la entrega del reforzador es inmediata, la paloma se inclina por ese programa de refuerzo, aunque el otro programa lleve, a la larga, a mayor tasa de refuerzo. Estos tipos de estudios han sido utilizados para el conocimiento cientfico de cmo funciona el autocontrol de la conducta. Es fcil
elegir una dieta para el da siguiente, pero es muy difcil seguir esa dieta en el momento de comer. ALGUNA CONSIDERACIN SOBRE LAS TEORAS DEL REFUERZO Ahora se plantea una cuestin terica por qu refuerza el refuerzo? A esta pregunta han contestado las diferentes teoras sobre el refuerzo. Entre estas esta la teora de la reduccin del impulso de Hull ( 1943), donde la conducta de la rata de correr por el corredor recto se debe a que la consecucin de la comida reduce su impulso de hambre. En paralelo con la teora de Hull, esta la teora de la expectativa de Bolles (1972) donde no se atiende al impulso de la motivacin, sino al incentivo que la mayor cantidad de comida o mejor calidad de esta produce en el animal. Es esta fuente de motivacin la que hace que el refuerzo refuerce. Frente a todas ellas esta la teora de la prepotencia de la respuesta de Premack (1965). Solo vamos a detenernos en ella por la aceptacin general que ha tenido y por las aplicaciones practicas que sugiere. Premack sostienen que lo que refuerza no es la comida, sino la respuesta de comer. Por tanto, frente alas concepciones del reforzador como un estimulo, Premack defiende que el reforzador es una respuesta. En segundo lugar, Premack rechaza la hiptesis de que hay una categora de eventos reforzantes y otra categora de eventos no reforzantes, sino reforzables. Lo que Premack defiende es que el reforzador es una respuesta que tienen mas probabilidad de ser emitida que la respuesta reforzable. La respuesta de comer en una rata novata hambrienta es mas probable de ser emitida que la de pulsar una palanca. Comer reforzara el pulsar la palanca, porque comer tiene mayor probabilidad de ser emitida. Como ahora la respuesta reforzante no se define por ningn valor absoluto (como serian valores biolgicos) sino relativos, que tenga mayor probabilidad de ser emitida que la respuesta reforzable, nada impide que se tornen los papeles. As, el comer tienen mayor probabilidad de ser emitida por la rata que el apretar la palanca, por lo tanto, el comer refuerza la conducta de apretar. Pero pueden cambiarse las tornas: supongamos que se pusiera de moda entre las ratas presionar la palanca, hasta el extremo que la emisin de esta respuesta fuese mas probable, en el repertorio conductual de la rata, que el comer. Entonces, apretar la palanca reforzara la conducta de comer.

Tema 14, Cond. Op. Paradigmas y Modelos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tema 14, Cond. Op. Paradigmas y Modelos

Încărcat de

Drepturi de autor:

Formate disponibile

TEMA 14: EL CONDICIONAMIENTO OPERANTE PARADIGMA Y MODELOS EL ENSAYO Y ERROR.

S-ar putea să vă placă și