Libro blanco de eXaminator

Revisiones automáticas

La revisión automática de la accesibilidad web es un área de trabajo en la que me considero una voz autorizada por prepotencia de trabajo, como dice Arlt [1]. Creo que eXaminator fue -a fines de agosto de 2005- la primera herramienta en línea y abierta al público que usó una métrica cuantitativa para sus resultados. Es decir, no usó los niveles de conformidad de las WCAG (A, AA y AAA) sino una escala entre 1 y 10 para medir la accesibilidad de una página.

A partir de entonces hice innumerables cambios y probé muchas soluciones para cada problema. También mudé muchas veces de idea hasta encontrar las razones que justifican el uso de un método de evaluación controvertido y de resultados nunca bien comprobados. Encontré que las respuestas no están en la propia herramienta sino en su entorno de uso, que la utilidad de un programa depende más del lugar que ocupe dentro del largo y complejo proceso de hacer un sitio web accesible que de su relativa efectividad como instrumento de calificación.

Medir la accesibilidad

Lo que no se define no se puede medir.
Lo que no se mide no se puede mejorar.
Lo que no se mejora se degrada siempre. (Lord Kelvin [2])

Esta cita de Lord Kelvin da pie para algunas reflexiones sobre la accesibilidad. En primer lugar, las WCAG (u otras normas técnicas similares) definen lo que entendemos por accesibilidad. Aunque no existen términos absolutos en accesibilidad, creo que la conformidad con las WCAG es el patrón de medida válido y estas pautas son el único modo de llegar a un acuerdo sobre el significado y alcance de la accesibilidad. Podrán ser insuficientes pero nos proporcionan un acuerdo básico necesario para poder evaluar las páginas y los sitios web.

He leído expresiones como "la accesibilidad no es sólo el cumplimiento de una norma" pero no siempre usadas en el sentido correcto. Es verdad que el cumplimiento de una norma no garantiza que una página sea plenamente accesible para todo el mundo, pero eso no significa sea un motivo para ignorarla. Las WCAG indican claramente que, aún en el nivel más alto de conformidad, el contenido no será accesible para individuos con cualquier tipo, grado o combinación de discapacidades y alientan a usar cualquier técnica más allá de los criterios de conformidad que el autor considere adecuada para mejorar la accesibilidad.

Pero son técnicas que vayan "más allá de" y no "en reemplazo de" las técnicas recomendadas por las pautas. Es muy fácil asumir el papel de transgresor inventando soluciones propias con la excusa de que las pautas son insuficientes. Lo correcto es asegurarse de cumplir las directrices y, si luego se descubriera que el contenido sigue presentando dificultades para algunos usuarios, deberían aplicarse las técnicas adicionales necesarias para eliminar esas dificultades. Y en un caso así, lo aconsejable es enviar un comentario al WAI para que esas soluciones sean tenidas en cuenta en futuras modificaciones a las WCAG.

Para medir la conformidad, las WCAG usan una escala ordinal [3], es decir, se jerarquizan los criterios de conformidad de acuerdo a un rango (no accesible y niveles A, AA y AAA). Esta escala resulta la más apropiada porque en accesibilidad es posible establecer diversos grados entre los criterios de conformidad (están los que, de no cumplirse, pueden provocar que ciertos grupos de usuarios no puedan acceder a la información, los que pueden hacer muy difícil el acceso y los que pueden crear algunas dificultades) pero es muy difícil usar otra graduación más precisa debido a la naturaleza abarcadora y compleja de la accesibilidad.

No hay un criterio válido para decir que la falta de un texto alternativo es el doble de grave que un texto con poco contraste o que entre estos dos errores existe la misma diferencia que entre un marco sin título y el uso de texto justificado porque los errores afectan en distinto grado a cada grupo de usuarios. Cualquier fórmula que aplicáramos resultaría completamente arbitraria. Sería distinto si nos estuvieramos refiriendo a un tipo de usuario específico porque podríamos establecer un rango de medidas más preciso entre los diversos criterios de conformidad. El problema es que eso ya no sería accesibilidad.

Entonces, tenemos definida la accesibilidad y contamos con un modo de medirla pero (siempre hay un pero) los procedimientos para hacer las mediciones son muy difíciles. Se necesita al menos un experto que revise las páginas y el trabajo lleva tanto tiempo que sólo se pueden evaluar una pocas páginas de cada sitio. Entonces, debemos recurrir a otros métodos para comprobar la accesibilidad que demanden menos recursos aunque resulten menos eficientes.

Revisiones automáticas

Las herramientas automáticas son muy ventajosas porque pueden revisar una página en cuestión de segundos, de modo que es posible revisar en pocas horas grandes grupos de páginas de muchos sitios. Esto permitiría actualizar con frecuencia los controles para seguir la evolución de la accesibilidad en el tiempo y hacer comparaciones entre los sitios. El problema es que las herramientas automáticas sólo pueden revisar apenas una parte de los criterios de conformidad.

Es una limitación importante pero, así como podemos mirar la mitad vacía del vaso y quejarnos de que los textos alternativos sólo pueden ser revisados por un humano, también podemos ver la otra mitad y aprovechar la oportunidad de comprobar si todas las imágenes de un sitio con miles de páginas tienen el imprescindible atributo alt. Y si hay imágenes sin alternativas textuales (se sorprenderían de saber cuántos sitios tienen esa clase de errores) podemos hacer, por ejemplo, que la herramienta envíe un mensaje de aviso al webmaster, que nos informe si éste se tomó el trabajo de hacer las correcciones y en qué fechas las hizo, entre muchas otras interesantes opciones.

Estas facilidades que ofrecen las herramientas automáticas no tienen por qué ser un obstáculo para realizar las evaluaciones heurísticas con expertos. En todo caso, pueden ayudar a decidir cuál es el mejor momento para hacer estas evaluaciones manuales (que sería cuando el responsable del sitio efectuó todas las correcciones necesarias detectadas por una revisión automática). Al menos, tendríamos la seguridad de que una parte del trabajo ya está cumplida y el proceso manual resultaría menos costoso.

La clave es llevar un control constante y organizado de las páginas porque de otro modo perdemos una de las principales ventajas de las herramientas automáticas. Basta con guardar la información y actualizar cada tanto las revisiones para poder hacer un seguimiento del estado de las páginas. Para esto, la escala ordinal de las WCAG es un inconveniente porque resulta poco sensible a los cambios. Necesitamos una escala más amplia para que cada modificación en una página se vea reflejada inmediatamente en los resultados. También necesitamos sintetizar los resultados en un dato único que nos permita comparar y ordenar los resultados individuales sin ambigüedades.

Resultados automáticos

eXaminator usa una escala entre 1 y 10 con un espacio decimal. Sería lo mismo usar una escala entre 1 y 100 pero perdería esa reminiscencia escolar que espero actúe como factor de presión psicológica para los responsables de los sitios web. Es una escala exageradamente precisa pero la idea es que cualquier cambio que se produzca en el contenido de una página provoque un cambio en los resultados y esto sirva de estímulo a quienes usan la herramienta para mejorar su trabajo.

Ahora bien, hay que advertir que se necesita cierto descaro para traducir una escala ordinal como la de las WCAG a una escala numérica. Entiendan que la decisión no tiene que ver con una intención de cambiar las reglas sino con la necesidad de sortear un inconveniente que provoca la escala ordinal en la comparación y monitoreo de los resultados.

Pero, como la herramienta pone una nota a cada página, la pregunta que muchos se hacen es ¿en qué medida esa nota representa la accesibilidad? Bueno, como las pruebas se basan en las técnicas recomendadas por las WCAG y los resultados miden el desempeño de la página con respecto a esas técnicas, la nota refleja necesariamente la accesibilidad del contenido. Pero es apenas eso: un reflejo parcial medido con una escala discutible que sólo nos puede proporcionar indicios sobre el grado de aproximación con las pautas de accesibilidad.

Un proyecto siempre pendiente es el estudio del grado de aproximación entre los resultados automáticos y los resultados heurísticos. No creo que los resultados de ese eventual estudio -sin importar cuáles puedan ser- modifiquen sustancialmente la valoración de las herramientas automáticas pero nos darían una idea más clara de lo que se puede esperar de ellas. Tengo especial interés en medir la regularidad entre ambos resultados porque esa relación, por diversos motivos, no es constante y me parece que representa la principal debilidad de los sistemas automáticos.

La batería de pruebas de eXaminator no está conformada por las pruebas más representativas o más importantes sino por aquellas que se pueden resolver automáticamente. Entonces, coexisten pruebas muy significativas con otras de menor valor. Esto se resuelve parcialmente ponderando cada test de acuerdo a su nivel dentro de las WCAG y la confianza que merecen pero hay un problema adicional provocado por el número de pruebas que se pueden realizar en cada página.

En la web encontramos páginas de gran tamaño, con muchos elementos, junto a pequeñas páginas, con unas pocas líneas de código. La estructura de cada página determina cuántas pruebas se pueden hacer sobre ella, de modo que hay documentos que reciben más de veinte pruebas y otros donde se pueden efectuar sólo cuatro o cinco. El problema con esto es que un mismo error tendrá mayor influencia en el promedio general a medida que disminuya el número total de pruebas posibles.

Por otra parte, ya no es común la elaboración por parte de un diseñador de todas y cada una de las páginas de un sitio sino que se usan gestores de contenidos u otros sistemas con plantillas prefabricadas hechas por otros diseñadores. En sitios de cierta envergadura trabajan equipos de personas y hay muchas manos añadiendo o modificando contenidos. Todo esto hace que las páginas tengan una calidad de diseño variable entre sus secciones y las pruebas automáticas pueden coincidir en mayor medida con una u otra sección.

Entonces hay muchos motivos para tomar con pinzas los resultados automáticos, especialmente cuando revisamos de a una página por vez. En general se obtienen buenos indicios sobre la accesibilidad pero en algunos casos se puede dar una combinación de factores que desvirtúen esos resultados. Nunca tendremos la seguridad de que el 8 en una página representa el mismo grado de accesibilidad que la misma nota en otra página. Aunque la experiencia me demuestra que las diferencias no son tan significativas, las casualidades existen y debemos tenerlas siempre en cuenta.

Entonces...?

  • Debemos prestar más atención al informe de los errores que a la nota. La calificación es sólo un indicador cuyo objetivo es, principalmente, ordenar y comparar las evaluaciones de grupos de páginas y sitios. La nota de una página individual puede estar más o menos acertada pero no es posible conocer exactamente el grado de acierto a menos que se haga una revisión completa de la página.
  • Debemos verificar los resultados. En eXaminator hay mucho esfuerzo destinado a identificar y señalar los elementos revisados en cada prueba para saber dónde se deben efectuar las correcciones. También para comprobar si la herramienta no se ha equivocado (ya sabemos que se pueden producir falsos positivos o falsos negativos en los resultados automáticos).
  • Debemos usar los resultados para aprender. Cada prueba de eXaminator está relacionada directamente con una técnica o fallo de las WCAG 2.0 (a pesar de que sería posible considerar otros parámetros de buenas prácticas, como el peso de las páginas). La intención es darle un carácter didáctico a los resultados y estimular la lectura de la amplia documentación de las pautas de accesibilidad.

La verdadera razón de ser de una herramienta automática es la evaluación masiva. En el sitio de eXaminator es posible revisar páginas individuales pero esa opción tiene fines demostrativos y es el lugar donde pruebo y ajusto el motor de revisión. Se puede ver también que existen tres fórmulas para calcular los resultados (una en el modo estándar y dos en el denominado modo estricto) que también tienen un propósito experimental.

Al promediar los resultados de varias o muchas páginas, las excepciones y desproporciones que podemos encontrar individualmente pierden su relevancia y las estadísticas generales permiten detectar claramente algunas tendencias en el diseño que deberían ser ajustadas. Las evaluaciones masivas pueden poner en evidencia ciertos errores habituales, procedimientos erróneos y situaciones que pasan desapercibidas al trabajar con páginas individuales.

Referencias

  1. Wikipedia Roberto Arlt
  2. Wikipedia Lord Kelvin
  3. Wikipedia Medida ordinal

Siguiente: Información técnica

Anterior: Problemas con la accesibilidad

Fecha de publicación: 01/06/2012