Progresos en la evaluación de actitudes relacionadas con la Ciencia mediante el cuestionario de opiniones CTS

27 de diciembre de 2020

Frente a la tradición psicométrica, en el artículo se contrapone el escalamiento psicofísico como técnica para evaluar las actitudes relacionadas con la ciencia desde un punto de vista CTS. Se describe la metodología utilizada, que se aplica mediante un panel de jueces expertos utilizando el Cuestionario de Opiniones sobre Ciencia, Tecnología y Sociedad (COCTS) como instrumento de evaluación. (1) (2)

Ángel Vázquez Alonso(3), José Antonio Acevedo Díaz(4), María Antonia Manassero Mas(5)

La medida de actitudes relacionadas con la ciencia

A lo largo del tiempo han existido dos tradiciones básicas para medir las actitudes en Psicología Social: el escalamiento psicofísico y la evaluación psicométrica. El escalamiento psicofísico se basa en graduar los estímulos aplicados a las personas evaluadas (p.ej., frases sobre creencias, afectos o conductas) en una dimensión psicológica; en una segunda fase, se observan las respuestas o reacciones de las personas a esos estímulos para clasificarlas en un continuo de actitud. La evaluación psicométrica se basa en aplicar tests, respondiéndose a una serie de cuestiones, cada una de las cuales pretende valorar el atributo común que se pretende medir, para construir una puntuación que clasifica la actitud de la persona sobre un continuo. Las conocidas escalas tipo Likert y de diferencial semántico caerían dentro de esta segunda tradición, cuya validez radica en la supuesta capacidad de cada cuestión para representar adecuadamente el constructo actitudinal que se mide. La mayoría de los instrumentos aplicados hasta ahora para evaluar actitudes relacionadas con la ciencia son instrumentos psicométricos cuya validez siempre se da por supuesta, no habiendo existido demasiada preocupación entre los investigadores por confirmarla, de donde se han derivado la mayoría de los problemas métricos y defectos que se han puesto de manifiesto en la literatura sobre el tema. En este estudio se presenta el desarrollo de una metodología de evaluación de actitudes relacionadas con la ciencia, basada en el instrumento COCTS, que hace uso de medidas psicofísicas que pasan por un escalamiento de estímulos.

El instrumento: COCTS

El cuestionario VOSTS (Views on Science-Technology-Society) es un conjunto de 114 cuestiones de opción múltiple empíricamente desarrolladas, cuyo objetivo principal es superar las deficiencias metodológicas de los instrumentos tradicionales (Aikenhead y Ryan, 1992). La estructura conceptual del VOSTS abarca los temas siguientes: definiciones de ciencia y tecnología, interacciones mutuas entre la ciencia, la tecnología y sociedad, sociología externa de la ciencia, sociología interna de la ciencia (características de los científicos, construcción social de la tecnología y conocimiento científico) y naturaleza del conocimiento científico. Adaptando y refundiendo algunas de las cuestiones originales y añadiendo otras nuevas con el mismo formato, sugeridas por Rubba y Harkness (1993), se ha construido una versión en español denominada COCTS (Cuestionario de Opiniones sobre Ciencia, Tecnología y Sociedad) con 100 cuestiones (Vázquez y Manassero, 1998).

El Modelo de Respuesta Única (MRU) propuesto por sus autores para el VOSTS consiste en seleccionar una única opción, la que mejor se ajusta a la opinión de la persona que responde. Este MRU es muy limitado, pues sólo permite hacer comparaciones centradas en cada cuestión particular y no las típicas comparaciones test-retest o las pruebas de verificación de hipótesis, procedimientos básicos de la estadística inferencial. El MRU tiene aún una limitación inherente puesto que no usa toda la información disponible para cada cuestión en todas las alternativas disponibles; lo único que permite saber es que el enunciado elegido es la que más le gusta a la persona que responde, pero se desconoce su opinión sobre las demás frases. Para superar este inconveniente, manteniendo las ventajas métricas (fidelidad de las medidas y discriminación de respuestas), es obvio que un Modelo de Respuesta Múltiple (MRM), donde cada persona valora el grado de acuerdo con todas y cada una de las opciones presentes en la cuestión sobre una escala de nueve puntos, resultaría más adecuado. El MRM maximiza pues la información disponible para cada cuestión del COCTS y alcanza el mayor grado de precisión en la evaluación de la actitud (Vázquez y Manassero, 1999).

Una métrica para el COCTS

Para aplicar el MRM e interpretar las respuestas directas como medidas actitudinales se requiere el escalamiento o baremación previa de las frases u opciones de cada cuestión y la propuesta de una métrica adecuada para normalizar las puntuaciones. La baremación se centra en clasificar las frases alternativas en tres categorías:

Adecuada (A): si la frase expresa una opinión adecuada sobre la actitud.
Plausible (P): aunque no sea totalmente adecuada, la frase expresa algunos aspectos apropiados.
Ingenua (I): la frase expresa un punto de vista que no es ni adecuado ni plausible.

En este contexto, “adecuada” debe entenderse como coherente con los conocimientos de historia, epistemología y sociología de la ciencia. La baremación de las frases de cada cuestión mediante las categorías señaladas define un sistema local de significados que no sólo mejoran la eficiencia del COCTS (máxima información, medidas de alta fidelidad y posibilidad de realizar estadística inferencial) sino que, además, evitan la objeción de la multidimensionalidad que suele hacerse contra los instrumentos actitudinales, ya que todas las medidas se efectúan sobre las valoraciones de cada alternativa dentro de la misma cuestión.

Esta métrica permite obtener una valoración global y sintética de la actitud en cada cuestión a través del índice global actitudinal (rango -1, +1), construido sobre la base del carácter adecuado, plausible e ingenuo de cada una de las posiciones. Para las frases clasificadas como adecuadas, la actitud más valiosa (rechazable) será aquella que reconoce un ajuste o acuerdo total (bajo) con este tipo de posiciones asignando puntuaciones directas altas (bajas). Para las frases clasificadas como ingenuas, la actitud más valiosa (rechazable) será aquella que muestra un ajuste o acuerdo nulo (total) con este tipo de posiciones asignando puntuaciones directas bajas (altas). Para las frases plausibles, caracterizadas por una adecuación parcial de su contenido, las actitudes más valiosas (rechazables) serían aquellas que muestran un ajuste parcial o mediano (extremo) con estas posiciones, expresado en puntuaciones intermedias (extremas, altas o bajas). Para obtener el índice de actitud global del MRM se transforman las puntuaciones directas sobre la escala de nueve puntos en puntuaciones finales de la actitud global siguiendo un determinado algoritmo.

Técnica de escalamiento de los estímulos mediante jueces

Para hacer operativa la técnica anterior se hace necesario disponer de una clasificación o escalamiento fiable de los estímulos actitudinales del cuestionario, representados por las frases que constituyen las diferentes alternativas en cada cuestión. Para realizar el escalamiento de estas alternativas en una de las tres categorías se ha seguido un procedimiento de evaluación por jueces similar a los sugeridos en los modelos de escalamiento psicofísico de Thurstone o Guttman, que bareman cada uno de los estímulos (Eagly y Chaiken, 1993), aunque aquí no es tan sofisticado estadísticamente porque la naturaleza del problema en ambos casos es muy diferente. Los métodos clásicos anteriores gradúan estímulos referidos a temas actitudinales muy amplios (p.ej., actitudes sobre la pena de muerte, aceptación de minorías étnicas, energía nuclear, etc.) que permite disponer de gran número de jueces capacitados para emitir sus juicios y un amplio número de estímulos (no suele superar el centenar) de los que se seleccionan los mejores estadísticamente.

En nuestro caso, para las actitudes relacionadas con la ciencia, éstas son muchas y muy diversas (definición de ciencia, de tecnología, influencia social, características de los científicos, naturaleza del conocimiento científico, etc.), por lo que se ha propuesto una taxonomía para poder resumirlas (Vázquez y Manassero, 1995); además, en algunas de estas actitudes, los acuerdos son difíciles y controvertidos. Estos rasgos tienen consecuencias que limitan poderosamente la capacidad del escalamiento mediante jueces. En primer lugar, las actitudes relacionadas con la ciencia no son saberes simples o intuiciones de sentido común, sino que requieren conocimientos especializados sobre filosofía, sociología e historia de la ciencia, entre otros muchos, de modo que pocas personas reúnen la competencia necesaria para juzgar válida y fiablemente las proposiciones. En segundo lugar, dado el elevado número de cuestiones y el escaso margen que hay en cada una de ellas para obtener enunciados diferentes, la posible selección estadística resulta inaplicable en este caso. En tercer lugar, la naturaleza intrínsecamente dialéctica de la mayoría de estas cuestiones dota de provisionalidad al escalamiento conseguido, lo que en absoluto debe confundirse con ineficacia, sino que debe entenderse como distanciamiento de cualquier juicio absoluto o definitivo sobre la clasificación de una frase, a la espera de un mejor juicio del escalamiento realizado.

Se contactó con una veintena de personas con experiencia y capacitación profesional adecuada para ejercer como jueces baremando todas las cuestiones del COCTS. Además, se seleccionaron de tal forma que respondieran a una diversidad de procedencias (investigadores en didáctica de las ciencias, filósofos de la ciencia, asesores de educación y profesores de ciencias) para dar variabilidad de perspectivas a los juicios y reflejar la interdisciplinariedad característica de este área en la baremación. Se explicó sucintamente la finalidad de investigación a los jueces mediante instrucciones escritas estandarizadas, para evitar sesgos inducidos por diferente comprensión de la tarea. Se les pidió que juzgasen las frases sobre una escala de nueve puntos (1 a 9) cuyo valor creciente significa que están más de acuerdo con su adecuación respecto a los conocimientos de historia, filosofía y sociología de la ciencia (1 a 3, ingenuas, inadecuadas; 4 a 6 plausibles, parcialmente aceptables; 7 a 9, adecuadas, apropiadas).

Una muestra válida de 16 expertos respondió a los investigadores con sus juicios normalizados sobre las cuestiones. El análisis estadístico descriptivo global de las valoraciones personales obtenidas detectó la existencia de algunos sesgos en sus respuestas, tales como, por ejemplo, la tendencia a puntuar excesivamente alto, excesivamente bajo o centrado en unos pocos valores del rango propuesto (varianza baja). Otros análisis estadísticos de las dimensiones subyacentes en las respuestas de estos jueces (análisis factorial de componentes principales, análisis de cluster y análisis discriminante) permitieron profundizar en sus estilos de respuesta. El análisis de componentes principales aplicado a cada una de las nueve dimensiones del COCTS, tomando cada juez como variable independiente, reveló que algunos de ellos aparecían sistemáticamente disgregados respecto al factor principal en las distintas dimensiones. Sendos análisis de clusters y discriminantes (basado en la previa estructura cluster) permitieron cotejar la estabilidad de las clasificaciones de las frases en cada una de las tres categorías. A la luz de los resultados de estos análisis, se decidió tomar como referencia central del escalamiento las respuestas producidas por 11 de los 16 jueces, los que mostraban una cierta homogeneidad, la cual no debe entenderse como igualdad o identidad, y una coherencia mutua global en la distribución de sus puntuaciones directas. En ningún caso los criterios aplicados para la selección han sido específicos o personales, sino globales; es decir, basados en el análisis del conjunto de los 637 juicios emitidos sobre otras tantas frases evaluadas por cada juez. De hecho, la modificación de la clasificación de las frases como consecuencia de eliminar a estos cinco jueces apenas ha sido perceptible (inferior al 10%).

Las puntuaciones de las respuestas directas de los 11 jueces se han utilizado para clasificar todas las frases en cada una de las tres categorías señaladas (A/P/I) conforme a una sucesión de criterios relativos, que se basan en la distribución de las puntuaciones globales. Aunque la escala original aplicada tenía ocho intervalos y nueve puntos (1 a 9), la distribución general de puntuaciones otorgadas por los jueces sobre las frases evaluadas está ligeramente sesgada entre un valor mínimo de 1,18 puntos y un valor máximo de 8,18 puntos; es decir, una distancia que corresponde a siete puntos lo que supone la contracción de un punto de la escala original. Además, en general los jueces valoraron globalmente las frases con un mayor sesgo hacia el rechazo y con una cierta resistencia a las puntuaciones altas, de manera que la clasificación final debería tener en cuenta este sesgo. Así, por ejemplo, si se distribuyese homogéneamente este intervalo entre las tres categorías debería corresponder a cada una de ellas un intervalo de 2,33 puntos de amplitud, de modo que una posible clasificación basada en las puntuaciones medias de cada frase podría atenerse al siguiente criterio de intervalos homogéneos:

Ingenua < 3.52
3.51 < Plausible < 5.86.
Adecuada > 5.85

La aplicación de este criterio conduciría a una clasificación simple y precisa de las frases, pero posiblemente todavía incompleta porque no recoge los numerosos matices que tienen los juicios expresados en las puntuaciones dadas. El primer matiz a tener en cuenta se deriva de considerar las categorías asignadas con las puntuaciones directas de los jueces a cada una de las frases como si de una votación se tratase, de modo que las frases con mayoría absoluta (6 jueces o más) o relativa (5 jueces) de las puntuaciones favorables a una categoría, parece razonable que deban asignarse a esa categoría mayoritaria. Otras situaciones menos claras de elucidar serían las que corresponden a juicios relativas igualadas (4 jueces en una y 4 jueces en otra), en cuyo caso el criterio principal debería ser el promedio de las puntuaciones de los jueces anteriormente explicitado.

El segundo matiz a tener en cuenta es un sesgo derivado de la propia estructura adoptada de tres categorías, la cual produce una inflación en la central (Plausible) simplemente como consecuencia de ser topológicamente intermedia. En efecto, las potenciales desviaciones de las puntuaciones más bajas que corresponderían a una frase ingenua (puntuaciones 1, 2, 3) se pueden producir sólo por arriba (porque algunos jueces valoren la frase con puntuaciones mayores), arrastrando las puntuaciones medias de las frases ingenuas siempre hacia arriba, de modo que se favorece el aumento de frases plausibles. En el otro extremo, el de las puntuaciones elevadas (7, 8, 9, correspondientes a la categoría Adecuada), las potenciales desviaciones de estas puntuaciones más altas se pueden producir sólo por abajo (porque algunos jueces valoren la frase con puntuaciones menores), arrastrando las puntuaciones medias de las frases adecuadas siempre hacia abajo, favoreciendo así el aumento de frases plausibles. Por el contrario, para las potenciales frases plausibles las posibles desviaciones se pueden producir tanto por exceso, con puntuaciones más altas, como por defecto, con puntuaciones más bajas, cuyo efecto neto medio debería ser nulo, puesto que se trata de desviaciones aleatorias. En suma, los efectos netos de las desviaciones aleatorias sobre la categorización de las frases van a favorecer el incremento neto de frases en la categoría Plausible, tanto por la desviación de frases de las categorías Ingenua o Adecuada hacia ellas como por no perderse frases de la propia categoría. La corrección de este defecto estructural reclama una compensación para conseguir un escalamiento más realista y libre de sesgos, cuya dirección está muy clara a partir del análisis realizado: disminuir el número de frases plausibles o aumentar el número de ingenuas y adecuadas. Sin embargo, como se desconoce la magnitud del efecto global, resulta difícil limitar la intensidad de la compensación, aunque previsiblemente las frases desviadas hacia la zona central Plausible estarán presumiblemente en las zonas límites superior e inferior de esta zona central.

Conclusiones

Una forma de compensar este sesgo podría consistir, por ejemplo, en disminuir la zona de puntuaciones medias asignadas a la zona central Plausible o lo que es igual, ensanchar ligeramente el intervalo de las dos categorías extremas, hacia arriba de la categoría inferior y hacia abajo en la categoría superior. Se trata, por tanto, de decidir las puntuaciones medias de corte más idóneas para definir la categoría asignada a cada frase. Respecto al modelo de puntos de corte de intervalos homogéneos definido más arriba (1,18-3.52-5.85-8.18), supondría aumentar el valor del punto de corte de la categoría Ingenua (por encima de 3.52) y disminuir el punto de corte límite de la categoría Adecuada (por debajo de 5.85). En el primer caso no existe ningún problema conceptual, pero en el segundo caso, teniendo en cuenta que la puntuación 6 está formalmente asignada a la categoría intermedia Plausible en las instrucciones entregadas a los jueces, un alejamiento de esta puntuación para compensar el sesgo estructural produciría también la importante dificultad conceptual de asignar puntuaciones correspondientes a la categoría Plausible (inferiores a 6 puntos) a otra categoría diferente (Adecuada).

Esta complicada situación en las dos zonas fronterizas de la categoría central de frases plausibles, por encima con las adecuadas y en la parte inferior con las ingenuas, requiere una solución de compromiso entre las necesidades y requerimientos contrapuestos señalados. Dada la complejidad manifestada, una solución flexible, que tenga en cuenta simultáneamente en estas zonas la puntuación media como criterio director y la votación mayoritaria de los jueces, parece más razonable que una única solución basada rígidamente en puntos de corte fijos y determinantes de una posibilidad exclusiva.

Teniendo en cuenta todas estas consideraciones, para asignar las categorías Ingenua/Plausible/Adecuada se han aplicado los siguientes criterios sucesivamente:

1º. Asignar categorías de acuerdo con los siguientes puntos de corte fijos:

Categoría Ingenua: puntuaciones medias inferiores a 3.52.
Categoría Plausible: puntuaciones medias superiores a 4 puntos e inferiores a 6.
Categoría Adecuada: puntuaciones medias iguales o superiores a 6 puntos.

2º En la zona fronteriza entre las categorías Ingenua y Plausible, definida por el punto de corte del criterio anterior (3.52) y la primera puntuación entera plausible (4), se asignan a la categoría Ingenua aquellas frases para las que la mayoría de los jueces conceden puntuaciones de la zona de ingenuas. Con este criterio 17 frases adquieren la condición de ingenuas.

3º En la zona fronteriza entre las categorías Adecuada y Plausible, definida por las puntuaciones inferiores al punto de corte correspondiente a la mayor puntuación entera plausible (6), se asignan a la categoría Adecuada aquellas frases para las que la mayoría de los jueces otorgan puntuaciones de la zona de adecuadas. Con este criterio también 17 frases adquieren la condición de adecuadas.

Con estas normas se han asignado las tres categorías a las 637 frases que constituyen las alternativas de opinión en el centenar de cuestiones que constituyen el COCTS. La aplicación de estos criterios asigna razonablemente las categorías previstas de clasificación como ingenuas (220), plausibles (274) y adecuadas (143) a las frases que describen el COCTS.

Referencias

AIKENHEAD, G.S. y RYAN, A.G. (1992). The development of a new instrument: ‘Views on Science-Technology-Society’ (VOSTS). Science Education, 76(5), 477-492.

EAGLY y, A.H. y CHAIKEN, S. (1993). The Psychology of attitudes. Forth Worth: Harcourt B.C.P.

RUBBA, P.A. y HARKNESS, W.L. (1993). Examination of preservice and in-service secondary science teachers’ beliefs about Science-Technology-Society interactions. Science Education, 77, 407-431.

MANASSERO, M.A., VÁZQUEZ, A. y ACEVEDO, J.A. (2001). Avaluació dels temes de ciència, tecnologia i societat. Palma de Mallorca: Conselleria d’Educació i Cultura del Govern de les Illes Ballears.

VÁZQUEZ, A., ACEVEDO, J.A. y MANASSERO, M.A. (2000). Progresos en la evaluación de actitudes relacionadas con la ciencia mediante el Cuestionario de Opiniones CTS. En I.P. Martins (Coord.): O Movimento CTS na Península Ibérica. Seminário Ibérico sobre Ciência- Tecnologia-Sociedade no ensino-aprendizagem das ciências experimentais, pp. 219-230. Aveiro: Universidade de Aveiro.

VÁZQUEZ, A. y MANASSERO, M.A. (1995). Actitudes relacionadas con la ciencia: una revisión conceptual. Enseñanza de las Ciencias, 13(3), 337-346.

VÁZQUEZ, A. y MANASSERO, M.A. (1998). Opinions sobre ciència, tecnologia i societat. Palma de Mallorca: Conselleria d’Educació, Cultura i Esports.

VÁZQUEZ, A. y MANASSERO, M.A. (1999). Response and scoring models for the ‘Views on Science-Technology-Society’ instrument. International Journal of Science Education, 21(3), 231-247.

Notas

(1) Este trabajo fue presentado en el Seminário Ibérico sobre Ciência-Tecnologia-Sociedade no ensino-aprendizagem das ciências experimentais. O Movimento CTS na Península Ibérica, celebrado los días 6, 7, y 8 de julio de 2000 en la Universidade de Aveiro (Portugal). Se publicó originalmente en Vázquez, A., Acevedo, J.A. y Manassero, M.A. (2000). Los autores agradecen a la profesora Dra. Isabel P. Martins, organizadora del Seminario, su autorización y las facilidades dadas para divulgarlo en versión digital en la Sala de Lecturas CTS+I de la OEI.

(2) Con posterioridad los autores han publicado los principales resultados de la investigación completa en Manassero, M.A., Vázquez, A. y Acevedo, J.A. (2001)

(3) Conselleria d’Educació i Cultura del Govern de les Illes Ballears. Dpt. Inspecció. Palma de Mallorca (Islas Baleares) - España.
Correo electrónico: avazquez@dgform.caib.es

(4) Consejería de Educación de la Junta de Andalucía. Servicio de Inspección, Delegación Provincial de Huelva - España.
Correo electrónico: ja_acevedo@airtel.net

(5) Departamento de Psicología, Universidad de las Islas Baleares - España.
Correo electrónico: dpsamm0@ps.uib.es

Más de José Antonio Acevedo-Díaz en Formación Ib

Facebook de Controversias en la historia de la ciencia y la cultura cientifica

Volver