Sunteți pe pagina 1din 17

El mito de la fiabilidad de los DSM

por Stuart A, Kirk y Hierbas Kutchins


Introduccin
Desde 1974, cuando el desarrollo se inici en la tercera edicin del best seller de
la Asociacin Americana de Psiquiatra, el Manual Diagnstico y Estadstico de
los Trastornos Mentales [DSM] (APA, 1980), ha habido un esfuerzo concertado
para hacer hincapi en el lenguaje, los smbolos y costumbres de la ciencia en el
proceso de continua revisin de DSM. Hay buenas razones para este
nfasis. DSM representa una forma importante de organizacin del
conocimiento psiquitrico. los esfuerzos de investigacin y los enfoques de
tratamiento. Al mismo tiempo, el DSM es un intento importante por los
psiquiatras para la legitimidad profesional y la influencia (Thornton, 1992).
Tal esquema clasificatorio importante no debe basarse en la fantasa o capricho,
sino en cualquiera que sea la evidencia cientfica disponible. Adems, las
revisiones continuas de DSM deberan justificarse por los principales avances
cientficos. Y, de hecho, los revisores de DSM desde 1968 todos afirmaron que
cada revisin es mucho ms cientfica que la de su predecesor. Precisamente por
el DSM-III ha sido descrito como un "documento de cuencas", "un logro
impresionante", "una revolucin cientfica" y por haber dado lugar a una
"transformacin de la psiquiatra americana" (Wilson, 1993), los reclamos de
sus desarrolladores merecen escrutinio cuidadoso.
A menudo es muy difcil de evaluar tales afirmaciones porque las revisiones del
DSM no implican uno o unos pocos cambios centrales, pero cientos de
ellos. Una sola persona no puede, posiblemente, evaluar toda la evidencia
cientfica pertinente para cada uno de estos cambios. Cuando se hace referencia
a las pruebas que se pretenda justificar los cambios, a menudo viene a partir de
datos obtenidos en el estudio de campo especiales que son rara vez a disposicin
del pblico hasta que se han hecho la mayora de las decisiones importantes. En
el caso del desarrollo del DSM-IV, que se publicar en 1994, ha habido
frecuentes referencias a nuevos anlisis especiales de los conjuntos de datos no
publicados que son tambin no est fcilmente disponible (cf. APA, 1993). Por
lo tanto, la integridad cientfica del proceso de revisin no se puede evaluar
hasta mucho tiempo despus de un DSM revisada se publica. Para entonces, la
prxima revisin est en marcha y la crtica de la ltima revisin parece
insignificante o irrelevante o ambos. Pero, a menos que las reclamaciones en el
pasado por los proponentes de DSM son examinadas a la luz de la evidencia
cientfica que se utiliz en el momento, no somos capaces de evaluar el grado en
que la ciencia y la evidencia sistemtica apoyan el proceso de revisin continua.
Fiabilidad de Diagnstico como un problema resuelto
Entre los cientos de afirmaciones cientficas realizadas por los desarrolladores
de cada revisin del manual, algunas afirmaciones son especficas a una sola
categora de diagnstico, mientras que otros reclamos son mucho ms
amplios. Tal vez la afirmacin ms amplio realizado sobre el DSM-III fue que
era mucho ms fiable que las versiones anteriores. La fiabilidad es el grado en
que los mdicos se ponen de acuerdo en los mismos diagnsticos al evaluar de
forma independiente una serie de pacientes. La falta de fiabilidad de diagnstico
se consideraba explcitamente por los desarrolladores del DSM-III como un
problema cientfico central de que el DSM-III, con sus criterios de diagnstico y
la confianza en la ciencia, se supona que deba resolver (Kirk y Kutchins, 1992;
Wilson, 1993).Debido a que esta afirmacin era amplia, clara, sustancialmente
significativa, con frecuencia hecha por los desarrolladores y pareca ser
empricamente verificable, se opt por examinar con cierto detalle.
La afirmacin de que el DSM-III reduce el problema de la fiabilidad se hizo tan
eficazmente que se ha dado forma a cmo la fiabilidad del DSM se ha
interpretado desde 1980. Por ejemplo, un reciente presidente de la Asociacin
Americana de Psicologa (Matarazzo, 1983), al examinar la fiabilidad de DSM-
III indic que, a diferencia del DSM-I y 11, el DSM-III era un sistema mucho
ms fiable para la clasificacin de los trastornos psiquitricos. Qued
impresionado con el progreso que l pensaba que haba hecho. Lleg a la
conclusin de que el DSM-III fue "un esquema de clasificacin muy fiable" (p.
131). El difunto Gerald Klerman, un prominente psiquiatra, elogi la fiabilidad
del DSM y escribi varias veces (Klerman, 1984, 1986): "en principio, el
problema de la fiabilidad se ha resuelto" (1984, p 541.). Incluso los crticos del
DSM se apresuraron a reconocer que se ha mejorado en gran medida la
fiabilidad (Michels, 1984; Vaillant, 1984). Recientemente, un psiclogo (Carson,
1991), en un nmero especial de la revista Journal of Abnormal Psychology, en
una discusin de otra manera crtica del desarrollo del DSM, declar que "el
DSM-III arregl ese problema [fiabilidad] una vez y (posiblemente) para todo ...
y que el DSM-III ... dado pulg .. niveles sin precedentes de la coincidencia de
diagnstico "(p. 304). Estas conclusiones son an ms magnfico que la retrica
original de los desarrolladores del DSM-III, que, como es lgico, no dijo nada
para disuadir a los defensores o detractores de DSM de esta hiprbole. Estas
declaraciones audaces son ilustrativos de lo extendido y firme es la creencia de
que la fiabilidad del DSM ya no es un problema grave, aunque cabe sealar que
unos pocos observadores han cuestionado estas reclamaciones (Eysenck, 1986;
Scheff, 1986).
Otros signos indirectos sugieren que la fiabilidad no es visto ya como una
cuestin cientfica importante. Cuando empez a trabajar en la revisin del
DSM-III, no hay planes oficiales se anunciaron que no habra pruebas de campo
de la fiabilidad del nuevo sistema. Por otra parte, nadie lleg a sugerir que estas
pruebas podran ser tiles. Desde la revisin, conocida como DSM-III-R (APA,
1987), slo se supone que mejora el manual, que fue ampliamente considerada
como fiable, se pensaba que no hay nuevos estudios de fiabilidad necesarias. No
haba percibido la necesidad de revisar un problema que ya se ha
"resuelto". (Como se ver ms adelante, sin embargo, un estudio de
confiabilidad relacionados del DSM-III-R se realiz como una prueba de un
protocolo de entrevista estructurada, pero no se public hasta cinco aos
despus.)
Los desarrolladores del DSM-IV aaden tardamente un estudio de
confiabilidad muy limitado a sus muchos tipos de pruebas de campo. Cuando el
DSM-IV se fue a travs de su proceso de aprobacin final dentro de la APA en
1993, sin embargo, no hay resultados de estos haban sido publicados. De hecho,
los estudios de confiabilidad para el DSM-I ~ mientras planeaba, nunca fueron
destinados a tener una influencia apreciable en su desarrollo (Kirk y Kutchins,
1992; Kutchins y Kirk, 1993). Los estudios previstos son los que van a arrojar
casi ninguna luz sobre la fiabilidad del sistema global de clasificacin y usadas
por los mdicos en ejercicio, en circunstancias normales (Spitzer, 1991). Cuando
se public el DSM-IV, a la fiabilidad de los clnicos utilizan en su prctica
regular ser visto como una cuestin irrelevante. Si su uso real se encuentra ms
adelante a ser poco fiables, los desarrolladores probablemente argumentan que
se debe a los errores de los profesionales, no por el diseo del sistema de
diagnstico en s.

El surgimiento del problema de fiabilidad
El consenso actual de que la fiabilidad de diagnstico no es un problema grave
para el DSM marca un cambio dramtico de la opinin desde los aos
1970. Melvin Sabshin, el largo tiempo Director Mdico de la APA, describi
recientemente la dcada de 1960 como que constituyen una .. crisis "de la
psiquiatra americana (Sabshin, 1990). Durante los aos 1950 y 1960, la
psiquiatra y de las profesiones de salud mental se enfrentaron a muchas crticas
serias : la eficacia de la psicoterapia fue cuestionada; psiquiatras fueron
acusados de exceso de confianza en el compromiso involuntario y de violar las
libertades civiles de los ciudadanos; profesionales de salud mental fueron
criticados por no responder a las necesidades de salud mental de los pobres y de
las minoras y por ser desatento a la calidad de la atencin institucional.
Ningn desafo era tan fundamental, sin embargo, como los desafos para el
concepto mismo de la enfermedad mental. Estos retos procedan de los
psiquiatras como Szasz (1960, 1961), quien argument que la enfermedad
mental es un mito utilizado para disfrazar el trago amargo de los conflictos
morales; de socilogos como Goffman (1961) y Scheff (1966), quien sugiri que
la enfermedad mental no era ms que otro ejemplo de cmo las etiquetas de la
sociedad y controla a los que no se comportan; de los psiclogos del
comportamiento que desafiaron la dependencia fundamental de la psiquiatra
en fenmenos observables intrapsquicos; y de los activistas homosexuales que
cuestionaron la oferta de la APA de la homosexualidad como un trastorno
mental (Bayer, 1981). Un ejemplo de tal desafo que recibi publicidad
embarazosa fue un estudio publicado en Science por Rosenhan (1973), que fue
visto como un ataque contra el significado y la prctica del diagnstico
psiquitrico.
Todos estos ataques plantearon serias dudas sobre la psiquiatra y sobre su
legitimidad como una profesin con base cientfica. Aunque muchos de estos
ataques fueron sobre la validez del diagnstico, fue la fiabilidad del diagnstico
que se convirti en el foco de atencin sostenida entre algunos psiquiatras de
investigacin. En la superficie, la fiabilidad del diagnstico pareca que el
problema que haba que resolver primero, porque la fiabilidad de un sistema de
clasificacin establece un lmite sobre su validez potencial. Si los diagnsticos
no se podran hacer constantemente, poco se puede avanzar en las cuestiones de
validez emprica. Adems, la fiabilidad como un problema pareca ms fcil de
entender y apareci, en el momento, a ser un problema relativamente fcil de
resolver.
Estos desafos para el diagnstico psiquitrico fueron, de hecho, utilizados por
los psiquiatras de investigacin que queran reforzar la legitimidad del
diagnstico psiquitrico, renovando el manual de diagnstico. Por el argumento
de que un sistema de clasificacin que no es confiable seguramente no poda ser
vlida (Spitzer y Fleiss, 1974, p. 341), los promotores del DSM-III incautaron en
un tema que pareca exigir atencin. Podran afirmar que un sistema de
diagnstico fiable amenaz psiquiatra de una manera profunda. Muchos de los
primeros estudios de fiabilidad diagnstica se haban llevado la cuestin a la luz
(cf. Ash, 1949; Sandifer, Hordern, Timbury, y Green, 1968; Sandifer, Pettus, y
Quade, 1964) y aunque los autores cejado en sus conclusiones (vase Beck ,
1962 para un ejemplo), hubo una creciente sospecha de que la coincidencia de
diagnstico entre los mdicos fue baja (para revisiones posteriores, ver
Blashfield, 1984; Grove, 1987; Matarazzo, 1983).
La documentacin de la falta de fiabilidad. Sea cual sea la duda acerca
de si los expertos tenan la fiabilidad es un problema grave 'desapareci poco
despus de la publicacin de un artculo de gran influencia titulado "Un nuevo
anlisis de la fiabilidad de Diagnstico Psiquitrico" (Spitzer y Fleiss, 1974). En
este artculo se cita con frecuencia, quizs ms que cualquier otra falta de
fiabilidad de diagnstico establecido con fuerza, como un problema
importante. Se hizo efectiva el caso de que el estado de la fiabilidad del
diagnstico era an peor de lo que pareca. Este trabajo desempe un papel
fundamental que ha demostrado ser durable durante dos dcadas en la
recomposicin del pasado. Con frecuencia, la referencia a este artculo es la
nica cita requerida cuando los autores hacen afirmaciones acerca de la
psiquiatra escasa fiabilidad antes de la DSM-III.
La principal contribucin del artculo consista en el uso de la estadstica kappa
(k) para volver a calcular los resultados de seis estudios de fiabilidad
anteriores. Kappa es una medida del grado de acuerdo entre dos clnicos
diagnstico de los mismos pacientes. La medida va de 0 a 1. Su novedad es que
los factores de la proporcin de acuerdo que se podra esperar por azar. Kappa
se define como la proporcin de mejora realmente obtenida por los mdicos, por
encima de la posibilidad de acuerdo. 0 es slo los niveles de oportunidad de
acuerdo, 1 es un acuerdo perfecto. Por ejemplo, 0.50 es un medio camino entre
el nivel de acuerdo de nivel de azar y perfecto acuerdo (Cohen, 1960; Spitzer,
Cohen, Fleiss y Endicott, 1967).
En un cuadro sinptico en el artculo, Spitzer y Fleiss (1974, p. 344) dispuestas
valores kappa para cada uno de los seis estudios previos por los 18 principales
categoras diagnsticas. Los valores kappa vari 0,10 a 0,90 con una media de
0,52. De primordial importancia es que este trabajo introduce normas para la
interpretacin de esta estadstica fiabilidad. Con este artculo, kappa se
convirti en la mtrica con la que se mide el progreso en el frente fiabilidad
diagnstica.
Interpretaciones de la tabla de resumen de estudios de fiabilidad previas de los
autores fue directa.
"No hay categoras de diagnstico para los que la fiabilidad es . uniformemente
altafiabilidad parece ser slo satisfactoria para tres categoras: deficiencia
mental, sndrome cerebral orgnico (pero no sus subtipos). y el alcoholismo, el
nivel de fiabilidad no es mejor que justo para la psicosis y la esquizofrenia y es
pobre para el resto de categoras "(p, 344. cursivas en el original.)
Llegaron a la conclusin, "La fiabilidad del diagnstico psiquitrico, ya que se
ha practicado por lo menos desde la dcada de 1950 no es bueno" (p.
345). Terminaron el artculo haciendo referencia a su propia investigacin ", que
puede dar soluciones a estos problemas" (p. 345).
Interpretacin kappa . Ms importante an, el artculo se convirti en el
primero en ofrecer normas de interpretacin para kappa. Al contar la historia de
escasa fiabilidad, el artculo vinculado kappa resultados especficos con el
lenguaje interpretativo. Cuatro normas interpretativas se ofrecieron en el texto:
uniformemente alta, slo satisfactorio, no es mejor que justo, y pobres.Mediante
el examen de los kappas en su mesa y su adecuacin a su lenguaje
interpretativo. podemos aclarar sus normas interpretativas (ver Figura 1).


Como se puede ver en la Figura 1, cada nivel de interpretacin contena una
amplia gama y la superposicin de las puntuaciones. Por ejemplo, una
puntuacin de 0,60 para cualquier categora diagnstica podra caer en
cualquiera de los rangos. Ms importante an, las interpretaciones de los datos
presentados fueron redactadas negativamente. La redaccin negativa es
importante para el significado completo del artculo 1974.
Al afirmar que no hay categoras tienen confiabilidad que es "elevado y
uniforme", Spitzer y Fleiss pudieron salir de la mxima calificacin, sin
ocupantes. Al afirmar que ninguno era alto, que fueron capaces de hacer el
juicio general de que la fiabilidad del diagnstico psiquitrico, ya que se haba
practicado durante dcadas "no era bueno". La etiqueta interpretativa "slo
satisfactorio" es condenatorio por un dbil elogio. Etiquetado como algo "nico
satisfactorio" es un reconocimiento dbil de un intento que logra un xito
mnimo cuando ms se debe esperar. "No hay mejor que justo" es
despectivo. No hay mejor que justo es peor que justo. Intenta describir
investigacin o docencia habilidades de alguien que no es mejor que justo y la
reaccin le ayudar a reconocer rpidamente la naturaleza de su
evaluacin. "Pobre", en este esquema interpretativo, es todo lo que es menos
bueno, menos satisfactoria o menos aceptable que el resto. En la parte inferior
es donde los autores colocan mayora de las categoras de diagnstico.
A pesar de la variacin en la terminologa, hubo cierta coherencia estructural en
estas interpretaciones. Por ejemplo, cada una de las tres categoras tuvieron un
rango de puntuaciones kappa que se dio un paso-escalera en trminos de sus
extremos inferiores (aproximadamente 0,1 para "pobres", 0,3 para "no es mejor
que justo" y 0.6 de "slo satisfactorio "), sus altos extremos (0.6, 0.7, y 0.9,
respectivamente), y sus medios (0,4, 0,5 y 0,7, respectivamente). As, sin
deliberadamente tratando de proporcionar un conjunto coherente de normas
para la interpretacin, el artculo implcitamente lo hizo.
Cabe sealar que no hay nada inherente a los valores kappa que sugeran estas
etiquetas interpretativas. Estos datos podran haber sido agrupados de manera
diferente y las categoras podran haber sido descritos de manera muy diferente,
ya que Spitzer y Fleiss no se vieron limitados por las agrupaciones anteriores o
normas interpretativas. Por ejemplo, tenan sus propsitos sido diferentes,
Spitzer y Fleiss podran haber descrito el estado de la fiabilidad como bastante
bueno. O podran haber hecho hincapi en que en cada categora diagnstica
nica en todos los estudios, el acuerdo psiquitrica fue considerablemente
mejor que el azar. Esta observacin podra haber sido descrito como un logro de
diagnstico, oscurecido antes, pero ahora revelado por el advenimiento de
Kappa.
Spitzer y Fleiss podran haber utilizado diferentes sistemas de clasificacin. Por
ejemplo, "muy satisfactorio, satisfactorio, insatisfactorio y muy insatisfactorio",
y, con la relativa libertad de los creadores, se podra haber colocado los
resultados de los primeros estudios en cualquiera de estas categoras, ya sea
inflar o desinflar la aceptabilidad de los datos.
En ese momento, sin embargo, haciendo hincapi en lo negativo, los autores
destacaron la amenaza y la inaceptabilidad de la situacin actual de la fiabilidad
de diagnstico con el fin de hacer una llamada a la accin efectiva. Al afirmar
que la consistencia de los diagnsticos fue dbil y, lo que implica que este
sistema de diagnstico fiable careca de validez, que reforzaron su argumento de
que algo dramtico se debe hacer o psiquiatra estara gravemente amenazada.
Igualmente importante, Spitzer y Fleiss pensaban que las posibles soluciones al
problema fueron en la mano. Por lo tanto, la crtica de la prctica anterior era
una forma de promover ciertas innovaciones que los autores y sus colegas
estaban desarrollando activamente. Una de estas innovaciones fue "criterios de
diagnstico." Debido a que el DSM-II contena descripciones vagas de muchos
trastornos, estos investigadores psiquitricos estaban tratando de corregir este
dficit mediante el desarrollo de listas de indicadores o criterios que deben estar
presentes cuando se usa cada etiqueta diagnstica importante especficos. Los
artculos que describen estas innovaciones orientadas a la investigacin (es
decir, los "criterios Feighner" y los "criterios diagnsticos de investigacin") se
convirtieron en algunos de los artculos ms citados en la literatura psiquitrica
(Feighner et al, 1972;. Spitzer, Endicott y Robins, 1978 ). Al mismo tiempo, que
estaban desarrollando una segunda innovacin: los protocolos de entrevista
estructurada para guiar a los investigadores clnicos en la obtencin de
informacin de los pacientes. Los productos de estos esfuerzos incluyen la Lista
de los Trastornos Afectivos y la Esquizofrenia (SADS), la Entrevista Diagnstica
(DIS), la Entrevista de Diagnstico Renard (RDI), y ms tarde la Entrevista
Clnica Estructurada para el DSM-III (SCID).
Por ltimo, el Grupo de Trabajo para el Desarrollo de DSM-III se estaba
formando en exactamente el mismo tiempo que apareci el artculo de
1974. Este grupo de trabajo se convirti en una de las comisiones ms
importantes de la psiquiatra en el siglo XX, y es de destacar que el autor
principal de este trabajo influyente, Spitzer, fue designado como presidente de
ese grupo de trabajo (Wilson, 1993). Un nuevo ataque sobre las debilidades del
DSM-II, e indirectamente sobre el estado de la psiquiatra norteamericana, se
podra esperar para dar a los encargados de desarrollar el DSM-III
apalancamiento adicional en la lucha por la renovacin de la nosologa
psiquitrica.
En este amplio contexto, el artculo 1974 sirvi como una afirmacin importante
de los problemas de fiabilidad en el pasado, al tiempo que sent las bases para la
solucin propuesta. A mediados de la dcada de 1970 las revistas psiquitricas
estaban vivos con diversos informes acerca de los criterios de diagnstico (ver
Helzer, Clayton et al, 1977;.. Helzer, Robins y otros, 1977; Spitzer, Endicott y
Robins, 1978) como la forma de resolver el problema de fiabilidad, un enfoque
que los desarrolladores del nuevo manual indicaban que iba a ser incorporado
en el DSM-III.
Acrecentar la fiabilidad de DSM-III
Cuando el DSM-III se public en 1980, los desarrolladores hicieron
declaraciones sobre la fiabilidad del sistema radicalmente nuevo diagnstico
que haban ideado (APA, 1980; Spitzer y Forman, 1979; Spitzer, Forman y Nee,
1979). Los datos se presentaron provino de los ensayos de campo especiales,
que, en este caso, consista en las respuestas a las solicitudes de los
desarrolladores DSM-III a los investigadores y mdicos de todo el pas para
colaborar con un colega en el diagnstico de forma independiente varios
pacientes. Se pidi a los participantes a enviar los resultados a los
desarrolladores. Este ensayo de campo realizado en dos etapas y tambin
incluy un estudio con vietas (Hyler, Williams, y Spitzer, 1982). Aunque hay
problemas y ambigedades metodolgicas con los estudios que se han descrito
en detalle en otra parte (Kutchins y Kirk, 1986), stos no aqu nos conciernen.
El documento se centra en cmo los datos de los ensayos de campo fueron
interpretadas por los desarrolladores. Los datos de los ensayos de campo se
ofrecieron como prueba para las reclamaciones de los desarrolladores de gran
fiabilidad mejorada en varias tablas de datos en una pgina oscura de seis
apndice en el manual de 500 pginas (APA, 1980) y en varios otros artculos de
revistas breves (Hyler , Williams, y Spitzer, 1982; Spitzer y Forman, 1979;
Spitzer, Forman y Nee, 1979). Las grandes tablas de nmeros y valores de kappa
no eran fcilmente interpretable por la mayora de profesionales de la salud
mental. La mayora de los usuarios de DSM no estaban particularmente
preocupados por la fiabilidad o conocedores de las formas de medirlo. En
consecuencia, no eran particularmente crtico de los estudios sobre los que se
basan estos nmeros.Ellos ignoraron estos estudios o dependan de los
desarrolladores del impresionante nuevo manual para explicar el significado de
estos nmeros.
Qu hicieron los desarrolladores afirman sobre estos datos? En la
introduccin, el manual no es la afirmacin de que no es "mucho mayor
fiabilidad que previamente haba sido obtenida con el DSM-II (APA, 1980, p. 5,
nfasis aadido). En el Apndice F del Manual, existe una demanda que "la
confiabilidad para la mayora de las clases en las dos fases es muy bueno" (p.
468, cursivas en el original) y "en general, es ms alto que el conseguido
anteriormente utilizando el DSM-I y DSM-II.Estos resultados fueron mucho
mejor de lo que esperbamos. .. "(P. 468). Los desarrolladores tambin
afirmaron que" Es particularmente alentador que la fiabilidad de categoras
tales como la esquizofrenia y los trastornos afectivos mayores es tan alto "(p.
468, nfasis aadido). En un artculo public dos aos ms ms tarde,
sealaron que ". .. La fiabilidad de las principales clases de diagnstico del
DSM-III era extremadamente bueno "(Hyler, Williams, y Spitzer, 1982, p. 1276,
nfasis aadido).
Por estas y otras declaraciones similares transmitieron fue que la fiabilidad
ahora era bueno, ms alto que antes, y claramente muy alentadores. Haba una
expresin de alivio y sorpresa incrustado en los trminos "particularmente
alentadores" y "tan alto". Spitzer y sus asociados estaban orgullosos de los
resultados. Este fue un anuncio de la buena, no preocupante, noticias. La
brevedad de los primeros informes, as como las declaraciones interpretativas
sugirieron que los datos requieren poca elaboracin-que hablaban por s solos y
se llevan un mensaje muy positivo.
Cuando los desarrolladores afirmaron que la fiabilidad, en general, fue mayor
que el conseguido anteriormente (en el DSM-I y DSM-II), que estaban haciendo
una comparacin que pareca ser concretos y verificables. Sorprendentemente,
ninguna cita especfica se ofreci para esta conclusin;se supone que el lector
supiera lo que se logr anteriormente y aceptara fcilmente estos nuevos
hallazgos en lo mejor. El estilo de presentacin invita al lector a ser admitido en
el crculo interno de expertos con conocimientos mediante la aceptacin de
estas afirmaciones de una gran mejora.Irnicamente, ningn estudio del
manual jams compararse directamente con el DSM-III con versiones
anteriores.
En lambasting DSM-II, los desarrolladores del DSM-III argumentaron a gritos
que si un sistema de clasificacin no era fiable, seguramente podra no ser
vlida (Spitzer y Fleiss, 1974, p. 341) y, por tanto, la falta de fiabilidad del
sistema de diagnstico de edad fue una profunda amenaza a la integridad de la
psiquiatra, una amenaza que podra ser gestionado por un nuevo sistema de
diagnstico basado en principios diferentes, que se ofrecieron. No es de
extraar, entonces, que cuando se public el DSM-III, los desarrolladores
afirmaron que el problema que se propuso resolver - fiabilidad - fue de hecho
enormemente mejoradas.

Cmo los datos presentados se comparan con los datos de los estudios de
confiabilidad pre-DSM-III, los estudios que se utilizaron para documentar que
la fiabilidad se encontraba en un estado terrible antes de la DSM-
III? Comparemos estos resultados, utilizando las mismas normas de
interpretacin. Figura 2 organiza los datos para realizar esta comparacin.
Podemos sacar varias conclusiones sobre la fiabilidad de DSM-III de la Figura 2.
(Eje I contiene las categoras de Sndromes clnicos y Eje II contiene las
categoras de trastornos de la personalidad y trastornos especficos del
desarrollo.) En primer lugar, los rangos de confiabilidad para las principales
categoras de diagnstico (como medido por Kappa) son muy amplio y en
algunos casos variar de 0 a 1 - todo el espectro de oportunidad de perfeccionar
acuerdo. En segundo lugar, en tres de las cuatro comparaciones que se pueden
hacer, parece que hay un patrn de fiabilidades medias ms bajas en la segunda
fase posterior, que en la primera fase ms preliminar de los ensayos
mantenidos. En tercer lugar, el estudio resumen del caso, un mtodo de
asegurar un mayor control mediante el uso de vietas escritas, produjo niveles
de fiabilidad ms bajos. En cuarto lugar, los kappas para DSM-III son
tremendamente desigual e inestable.
Parte de la inestabilidad es el resultado de problemas metodolgicos y
estadsticos que estn enterrados en estas cifras (vase Kirk y Kutchins, 1992;
Zimmerman, 1993). Por ejemplo, seis de los 13 kappas para nios (en la primera
fase, el Eje Uno, tal como se presenta en el DSM-III, p. 471) son perfectos,
1.0. Pero de los seis, tres se basan en un solo paciente, se basa en dos pacientes,
y dos se basan en cuatro pacientes. Por otra parte, en los estudios de campo del
DSM-III, kappas no se basaban en los trastornos especficos, sino en clases
amplias de trastornos. Por ejemplo, si dos observadores entrevistaron a un
paciente y uno estaba seguro de que el paciente tena un trastorno paranoide de
la personalidad, pero el otro observador era igual de seguro que el paciente tena
un trastorno de la personalidad narcisista, que, sin embargo, lograron un
acuerdo perfecto (y un kappa de 1,0 ) en la amplia clase de diagnstico de
trastorno de la personalidad.
A pesar de todas las limitaciones de los datos, el DSM-III se introdujo en el
mundo mediante el lenguaje audaz de xito (Kirk y Kutchins, 1992). La
fiabilidad real del DSM-III se podra haber descrito ms modestamente como
"acerca de lo que esperbamos". 'Similar a los estudios anteriores "," no es peor
que en los aos 1950 y 60, y posiblemente algo mejor "," desigual, pero
prometedor "y as sucesivamente. Esto habra sido una lengua de xito parcial y
limitada, sino que el lenguaje no habra sido muy potente y sin duda no era lo
que la gente quera escuchar. El lanzamiento del DSM-III despus de cinco aos
de amarga lucha no era un tiempo para que permita dudar de su fiabilidad, el
mismo problema que se supona que el DSM-III de resolver.
Es el DSM-III-R algo mejor?
Aunque desigual y muy modesto, los niveles de fiabilidad obtenidos en las
pruebas de campo del DSM-III tienden a ser ms altos que la mayora de los
otros estudios que se han hecho posteriormente (vase Kirk y Kutchins, 1992
para una revisin). No hay estudios sobre la fiabilidad de DSM en su conjunto
cuando se utiliza en entornos clnicos naturales (a diferencia de una o dos
categoras en la configuracin de la especialidad) han demostrado
uniformemente alta fiabilidad. El importante estudio publicado ms
recientemente es muy instructivo, ya que se llev a cabo por algunos de los
principales participantes en el desarrollo del DSM-III y el DSM-III-R (Williams,
Gibbon y col., 1992) y utilizado todas las tcnicas que haba sido desarrollado
para mejorar la fiabilidad diagnstica.
El estudio se realiz en seis sitios en los Estados Unidos y una en
Alemania. Profesionales de salud mental con experiencia en los siete sitios
fueron seleccionados para ser los entrevistadores. Hubo varias rondas de
capacitacin proporcionados por el personal del proyecto de alto nivel que
incluye el uso de entrevistas grabadas, teleconferencias mensuales, capacitacin
en el lugar y una sesin de capacitacin de dos das de los entrevistadores de
todos los sitios. Adems, los entrevistadores realizaron una serie de entrevistas
piloto que se grabaron y se envan a la sede del proyecto para la
retroalimentacin. Despus de este entrenamiento y prctica, 592 personas
fueron entrevistadas por pares de personal altamente capacitado. Los temas
consistieron en 390 pacientes psiquitricos y 202 personas de una poblacin de
pacientes no psiquitricos.


Este estudio utiliza todos los elementos importantes que se han desarrollado
ms de dos dcadas para mejorar la fiabilidad del diagnstico psiquitrico: un
sistema de clasificacin bien afinado (DSM-III-R) desarrollado durante un
perodo de diez aos por los investigadores psiquitricos pendientes;criterios de
diagnstico orientadas sobre comportamientos especficos; una entrevista
estructurada cuidadosamente desarrollada (SCID); cuidadosa seleccin y
capacitacin de entrevistadores profesionales experimentados; y la supervisin
competente por un equipo de investigacin que es quizs el ms experimentado
en la realizacin de estudios de diagnstico en el mundo. Este tipo de estudio es
la envidia de los investigadores que tratan de llevar a cabo estudios rigurosos en
el mbito clnico. Se debe esperar que el cuidado y la competencia de los
encargados de realizar este estudio para producir la ms alta fiabilidad
diagnstica que es posible en los entornos de investigacin tutelados (en
entornos clnicos normales, se espera que la fiabilidad a ser menor).
Los hallazgos de este estudio de fiabilidad elaborado fueron decepcionantes,
incluso a los investigadores. Los valores kappa no son tan diferentes a los de los
estudios de pre-DSM-III, y en algunos casos parecen ser peor (ver Figura
3). Entre la muestra del paciente, con agregacin en los cinco sitios, los kappas
vari desde 0,40 hasta 0,86 y tena un kappa promedio ponderado de
0.61.Entre la muestra de la comunidad no paciente en dos sitios, los kappas
vari 0,19 a 0,59 y un promedio de 0.37. A pesar de las afirmaciones cientficas
de gran xito, aparece la fiabilidad ha mejorado muy poco en tres dcadas.
Conclusin
El proceso de revisin del DSM est envuelto cada vez ms en la retrica de la
ciencia. Pero si uno mira intensamente en lo que fue identificado como el
problema cientfico bsico de diagnstico en la dcada de 1970, la falta de
fiabilidad, se descubre que los datos cientficos utilizados para reclamar el xito
y la gran mejora simplemente no apoyan la reclamacin. De hecho, parece que
el problema de fiabilidad es mucho el mismo como lo fue hace 30 aos. Slo que
ahora, los desarrolladores actuales del DSM-IV han desenfatizadas el problema
de fiabilidad y reclamo que se deba resolver cientficamente otros problemas.
Veinte aos despus de que el problema de fiabilidad se convirti en el foco
central de la DSM-III, todava no hay un solo estudio multi-sitio que muestra
que el DSM (cualquier versin) se utiliza de forma rutinaria con alta fiable por
los mdicos regulares de salud mental. Tampoco hay ninguna evidencia creble
que cualquier versin del manual se ha incrementado enormemente su
fiabilidad ms all de la versin anterior. Existen importantes problemas
metodolgicos que limitan la generalizacin de la mayora de los estudios de
confiabilidad. Cada estudio de fiabilidad se ve limitada por la formacin y la
supervisin de los entrevistadores, su motivacin y compromiso con la exactitud
del diagnstico, su habilidad previa, la homogeneidad de la prctica clnica en
cuanto a mezcla de pacientes y tipos de base, y el rigor metodolgico logrado por
el investigador en asegurar que los evaluadores hacen diagnsticos "de forma
independiente." Igualmente importante, la mayora de los estudios de
confiabilidad se han llevado a cabo en los entornos de investigacin
especializados y pueden tener poco que ver con el uso real de DSM por los
mdicos en escenarios clnicos no controlados normales, donde las exigencias
burocrticas externos, las probabilidades de reembolso y el potencial estigma
influyen en sus juicios (Kirk y Kutchins , 1988; Kutchins y Kirk, 1988). El uso
del DSM en entornos de investigacin puede ser una actividad muy diferente a
su uso en el mbito clnico para fines prcticos.
Si, como los desarrolladores del DSM-III insistieron, un sistema de diagnstico
poco fiable no puede ser vlida, hay muchas razones para concluir que las
ltimas versiones del DSM como una herramienta clnica no son confiables y
por lo tanto de dudosa validez como sistema de clasificacin.Si las
interpretaciones de los datos con respecto a este, el problema fundamental
subyacente han sido un tanto engaosa, cunta confianza debemos tener en los
cientos de otros cambios en el DSM que han sido y sern justificados por las
afirmaciones de que se basan en la ciencia y los datos?
DSM est ahora bajo revisin amplia y el resultado, el DSM-IV, se dar a
conocer en 1994. La fiabilidad del DSM-IV ha sido una vez ms ignorado en
gran medida. El nico estudio de fiabilidad que est previsto consiste en pedir a
los mdicos individuales para hacer diagnsticos de vietas grabadas en vdeo
que se varan sistemticamente en su grado de ambigedad clnica. Este
enfoque limitado ha sido criticado por Spitzer (1991), el autor principal de los
estudios anteriores del DSM, porque es poco probable que produzca alguna
informacin acerca de la fiabilidad real del DSM-IV. En cambio, el nuevo
estudio puede simplemente confirmar lo obvio: que la fiabilidad es menor para
los casos clnicos ambiguos. Los vastos recursos de la Asociacin Americana de
Psiquiatra no tienen que moviliz para probar esto.
Aunque el estudio propuesto puede tener un valor cientfico limitado, los videos
podran tener un gran potencial econmico. Las vietas escritas utilizadas para
una parte de las pruebas de campo de fiabilidad DSM-III fueron luego recogidos
y vendidos por la Asociacin Americana de Psiquiatra. Las ventas y la
rentabilidad de la coleccin resultante, el DSM-III-R Casebook (Spitzer, Gibbon
et al., 1989), se han superado slo por las del propio manual. Los cincuenta
propuestas vietas grabadas en vdeo se pueden vender por la APA a las
universidades y centros psiquitricos para capacitar a profesionales de salud
mental en todo el mundo en el uso del DSM-IV. La produccin de estas cintas de
video como parte de un proyecto de investigacin ser til en otro sentido. A
pesar de que harn poco para mejorar el documento o la fiabilidad del nuevo
manual, que pueden llamar la atencin sobre una oleada de actividades de los
investigadores que dan las revisiones del DSM una ptina cientfica necesaria.

Referencias
Asociacin Americana de Psiquiatra. (1980). Manual diagnstico y estadstico
de los trastornos mentales (tercera edicin). Washington, DC: Autor.
Asociacin Americana de Psiquiatra. (1987). Manual diagnstico y estadstico
de los trastornos mentales (tercera edicin, revisada). Washington, DC: Autor.
Asociacin Americana de Psiquiatra. (1993). Actualizacin del DSM-IV (enero /
febrero).Washington, DC: Autor.
Ceniza, P. (1949). La fiabilidad del diagnstico psiquitrico. Journal of
Abnormal Psychology y Social, 44,272-277.
Bayer, R. (1981). La homosexualidad y la psiquiatra americana: La poltica de la
diagnosis. Nueva York: Bsico.
Beck, A. (1962). La fiabilidad de los diagnsticos psiquitricos: I: Una crtica de
los estudios sistemticos. American Journal of Psychiatry, 119, 210-216.
Blashfield, RK (1984). La clasificacin de la psicopatologa. Nueva York:
Plenum.
Carson, RC (1991). Dilemas en la va del DSM-IV. Journal of Abnormal
Psychology, 100, 302-307.
Cohen, J. (1960). Un coeficiente de concordancia para las escalas
nominales. Educativo y Psicolgico Medicin, 20,37-46.
Eysenck, H. (1986). Una crtica de la clasificacin actual y diagnstico. En T.
Millon y G. Klerman (Eds.), direcciones contemporneas de la psicopatologa:
Hacia el DSM-IV (pp. 73-98). Nueva York: Guilford.
Feighner, J., Robin, E., Guze, S., Woodruff, R., Winokur, G., y Muoz, R.
(1972). Los criterios de diagnstico para su uso en la investigacin
psiquitrica. Archives of General Psychiatry, 26, 57-63.
. Goffman, E. (1961) Asilos: Ensayos sobre la situacin social de los enfermos
mentales y otros reclusos. Garden City, Nueva York: Anchor Books.
Grove, WM (1987). La fiabilidad del diagnstico psiquitrico. En CG ltima y
M. Hersen (Eds.), Problemas de la investigacin diagnstica (pp. 99-119). Nueva
York: Plenum.
Helzer, JE, Clayton, PJ, Pambakian, R., Reich, T., Woodruff, RA, y Reveley, MA
(1977). La fiabilidad del diagnstico psiquitrico: II. La fiabilidad test / retest de
clasificacin diagnstica. Archives of General Psychiatry, 34,136-141.
Helzer, JE, Robins, LN, Taibleson, M., Woodruff, RA, Reich, T., y Wish, ED
(1977). La fiabilidad del diagnstico psiquitrico: I. Una revisin
metodolgica. Archives of General Psychiatry, 34, 129-133.
Hyler, S., Williams, J., y Spitzer, R. (1982). La fiabilidad en las pruebas de
campo del DSM-III.Archives of General Psychiatry, 39,1275-1278.
Kirk, SA, y Kutchins, H. (1988). Diagnstico errneo deliberado en la prctica
de la salud mental.Social Service Review, 62, 225-237.
Kirk, SA, y Kutchins, H. (1992). La venta de DSM: la retrica de la ciencia de la
psiquiatra.Hawthorne, Nueva York: Aldine de Gruyter.
Klerman, G. (1984). Las ventajas de DSM-III. American Journal of Psychiatry,
141, 539-542.
Klerman, G. (1986). Perspectivas histricas sobre las escuelas contemporneas
de la psicopatologa.En T. Millon y G. Klerman (Eds.), direcciones
contemporneas de la psicopatologa: Hacia el DSM-IV (pp. 3-28). Nueva York:
Guilford.
Kutchins, H., y Kirk, SA (1986). La fiabilidad del DSM-III: Una revisin
crtica. Investigacin Social Work and Abstracts, 22,3-12.
Kutchins, H., y Kirk, SA (1988). El negocio del diagnstico: DSM-III y el trabajo
social clnico.Trabajo Social, 33,215-220.
Kutchins, H., y Kirk, SA (1993). DSM-IV y la bsqueda de oro: una revisin del
mapa del tesoro.Investigacin sobre la Prctica del Trabajo Social, 3, 219-235.
Matarazzo, JD (1983). La fiabilidad del diagnstico psiquitrico y
psicolgico. Revisin Psicologa Clnica, 3, 103-145.
Michels, R. (1984). Primera refutacin. American Journal of Psychiatry,
141,548-551.
Rosenhan, DI (1973, 19 de enero). Estar cuerdo en un manicomio. Science, 179,
250-258.
Sabshin, M. (1990). Puntos de inflexin en la psiquiatra americana del siglo
XX. American Journal of Psychiatry, 147, 1267-1274.
Sandifer, M., Hordern, A., Timbury, G., y Green, L. (1968). El diagnstico
psiquitrico: Un estudio comparativo en Carolina del Norte, Londres y
Glasgow. British Journal of Psychiatry, 114, 1-9.
Sandifer, M., Pettus, B., y Quade, D. (1964). Un estudio de diagnstico
psiquitrico. Journal of Nervous y Mental Disease, 139, 350-356.
Scheff, TJ (1966). Estar enfermo mental: Una teora sociolgica. Chicago:
Aldine.
Scheff, TJ (1986). Rendicin de cuentas en el diagnstico psiquitrico: una
propuesta. En T. Millon y G. Klerman (Eds.), direcciones contemporneas de la
psicopatologa: Hacia el DSM-IV (pp. 265-278).Nueva York: Guilford.
Spitzer, R. (1991). Una vista del outsider-insider sobre la revisin de los
DSM. Journal of Abnormal Psychology, 100, 294-296.
Spitzer, R., Cohen, J., Fleiss, J., y Endicott, J. (1967). Cuantificacin de acuerdo
en el diagnstico psiquitrico. Archives of General Psychiatry, 17, 83-87.
Spitzer, R., Endicott, J., y Robins, E. (1978). Investigacin criterios
diagnsticos: fundamentos y fiabilidad Archives of General Psychiatry, 35, 773-
782.
Spitzer, R., y Fleiss, J. (1974). Un nuevo anlisis de la fiabilidad del diagnstico
psiquitrico. British Journal of Psychiatry, 125, 341-347.
Spitzer, R., y Forman, J. (1979). Pruebas de campo del DSM-III: II. La
experiencia inicial con el sistema multiaxial. American Journal of Psychiatry,
136, 818-820.
Spitzer, R., Forman, J., y Nee, J. (1979). Pruebas de campo del DSM-III: I.
interrater inicial fiabilidad diagnstica. American Journal of Psychiatry, 136,
815-417.
Spitzer, R., Gibbon, M., Skodal, A., Williams, J., y Primera, M. (1989). El libro
de casos del DSM-IIIR. Washington, DC: American Psychiatric Press.
Szasz, TS (1960). El mito de la enfermedad mental. American Psychologist, 15,
113-118. Szasz, TS (1961). El mito de la enfermedad mental. Nueva York: Harper
Hoeber-.
Thornton, PH (1992) El diagnstico psiquitrico como signo y smbolo:.
Nomenclatura como una estrategia de legitimacin de la organizacin
y. Perspectivas sobre Problemas Sociales, 4, 155-176.
Vaillant, G. (1984). Las desventajas del DSM-III son mayores que sus
ventajas. American Journal of Psychiatry, 141, 542-545.
Williams, JB, Gibbon, M., En primer lugar, M., Spitzer, R. Davies, M., Borus, J.,
Howes, M. Kane, J., El Papa, H., Rounsaville, B., y Wittchen, H. (1992). La
entrevista clnica estructurada para el DSM-III-R (SCID) II: Multi-sitio de la
fiabilidad test-retest. Archives of General Psychiatry, 49, 630-636.
Wilson, M. (1993). DSM-III y la transformacin de la psiquiatra americana:
Una historia. American Journal of Psychiatry, 150, 399-410.
Zimmerman, M. (1993). Un problema tasa base no detectada de kappa con los
estudios multi-sitio.Manuscrito presentado para su publicacin.
Las solicitudes de separatas deben enviarse a Stuart A. Kirk, DSW, Escuela de
Bienestar Social de la Universidad de California, 405 Hilgard Avenue, Los
Angeles, California 90024-1452.

Este artculo se public originalmente en la revista Journal of Mind and
Behavior, 15 (1 y 2), 1994, p.71-86 y ha sido reimpreso con el permiso de la
revista y los autores.

Stuart A. Kirk es profesor y director del doctorado programa del Departamento de Bienestar
Social, Escuela de Polticas Pblicas e Investigacin Social de la UCLA.

S-ar putea să vă placă și