SESGOS COGNITIVOS EN LA CIENCIA DE DATOS Y COMO EVITARLOS

Siguiendo con la importancia de las competencias digitales para un auditor, los otros días encontré el siguiente artículo:

https://www.lanacion.com.ar/economia/cuales-son-empleos-del-futuro-que-efectos-nid2375264

En el mismo se expone un análisis de cuales serían las “Profesiones del Futuro” es decir aquellas que en próximos años podemos estar viendo como más demandadas, un apartado del artículo hizo referencia al de Auditor de Sesgos de Algoritmos y realmente es importante este concepto, en otros artículos hemos referido a la importancia y la necesidad que el auditor pueda conocer sobre ciencia de datos precisamente porque parte del descubrimiento y detección de anomalías está relacionado con una correcta extracción de datos y del conocimiento de esta ciencia.

Y cuando uno comienza a analizar esta ciencia se encuentra con el concepto de sesgo que podemos definir “como el peso desproporcionado a favor o en contra de una cosa, persona o grupo en comparación de otra” es decir en términos rápidos no ser ecuánime.  Y esto es muy importante en nuestra profesión de auditores, pues como auditores manejamos dato y podemos sacar conclusiones en función de esos datos, pero para esto, tenemos que asegurarnos que los datos son correctos sino podemos sacar conclusiones erróneas.

Y volviendo a la nueva profesión de Auditor de Sesgos que les comentaba, encontré un artículo de Abril de 2020 publicado por Rahul Agarwal, científico de datos de WalmartLabas quien describió de una forma amena y realmente entendible alguno de los más comunes sesgos cognitivos en la ciencia de datos.  Por lo tanto son aspectos que cualquier Auditor debe tener presente a la hora de trabajar con datos, a continuación les adjunto el artículo:

“…La ciencia de datos es, a pesar de la aparente objetividad de todos los hechos con los que trabajamos, sorprendentemente subjetiva en sus procesos. Como científicos de datos, nuestro trabajo es dar sentido a los hechos. Sin embargo, al realizar este análisis tenemos que tomar decisiones subjetivas. Por lo tanto, aunque trabajamos con datos y hechos concretos, la ciencia de datos tiene un fuerte componente interpretativo.

Como resultado, los científicos de datos debemos ser extremadamente cuidadosos, porque todos los seres humanos somos muy susceptibles a los sesgos cognitivos. No somos una excepción. De hecho, he visto muchos casos en los que los científicos de datos terminaron tomando decisiones basadas en creencias preexistentes, datos limitados o simplemente preferencias irracionales.

En este artículo, quiero señalar cinco de los tipos más comunes de sesgos cognitivos. También ofreceré algunas sugerencias sobre cómo los científicos de datos pueden trabajar para evitarlos y tomar decisiones mejores y más razonadas.

SESGO DE SUPERVIVENCIA

Durante la Segunda Guerra Mundial, a los investigadores del grupo de investigación sin fines de lucro Centro de Análisis Navales se les asignó un problema. Necesitaban reforzar los aviones de combate militares en sus puntos más débiles. Para lograr esto, recurrieron a los datos. Examinaron todos los aviones que regresaban de una misión de combate y tomaron nota de dónde habían alcanzado las balas. Con base en esa información, recomendaron que los aviones fueran reforzados en esos puntos precisos.

¿Ve algún problema con este enfoque?

El problema, por supuesto, era que solo miraban los aviones que regresaban y no los aviones que no lo hacían. Por supuesto, los datos de los aviones que habían sido derribados seguramente habrían sido mucho más útiles para determinar dónde era probable que se hubiera producido un daño fatal en un avión, ya que esos fueron los que sufrieron daños catastróficos.

El equipo de investigación sufría de un sesgo de supervivencia: simplemente miraba los datos que estaban disponibles para ellos sin analizar la situación más amplia. Esta es una forma de sesgo de selección en la que implícitamente filtramos datos basados en algunos criterios arbitrarios y luego tratamos de encontrarle sentido sin darnos cuenta o reconocer que estamos trabajando con datos incompletos.

Pensemos en cómo esto podría aplicarse a nuestro trabajo en ciencia de datos. Supongamos que comienza a trabajar en un conjunto de datos. Ha creado sus características y ha alcanzado una precisión decente en su tarea de modelado. Pero tal vez debería preguntarse si ese es el mejor resultado que puede lograr. ¿Ha intentado buscar más datos? Tal vez agregar datos de pronóstico del tiempo a las variables de ventas regulares que usa en sus modelos le ayudaría a pronosticar mejor sus ventas. O quizás algunas características relacionadas con las vacaciones pueden decirle a su modelo por qué sus compradores se están comportando de una manera particular en Acción de Gracias o Navidad.

Una forma de mitigar este sesgo es pensar de manera rigurosa y científica sobre el problema en cuestión y luego hacer una lluvia de ideas sobre cualquier tipo de datos que puedan ayudar a resolverlo (en lugar de simplemente comenzar con los datos). Estos enfoques pueden parecer similares, pero el segundo método restringe su visión porque no sabe lo que falta en su trabajo. Al utilizar el primer enfoque, sabrá qué datos no pudo obtener y terminará teniendo en cuenta eso en sus conclusiones.

FALACIA DEL COSTO HUNDIDO

Todos hemos visto la falacia del costo hundido en acción en algún momento, ya sea estar sentados a ver esa mala película porque ya la pagamos o terminar ese horrible libro porque ya estábamos a la mitad. Todos han estado en una situación en la que terminaron perdiendo más tiempo porque estaban tratando de salvar el tiempo que ya habían invertido. Un costo hundido, también conocido como costo retroactivo , es aquel en el que ya se ha incurrido y no se puede recuperar mediante ninguna acción adicional. La falacia del costo hundido se refiere a la tendencia de los seres humanos a tomar decisiones en función de la cantidad de inversión que ya han realizado, lo que conduce a una inversión aún mayor, pero sin retorno alguno. A veces, por difícil que sea, lo mejor que se puede hacer es dejarlo ir.

Esto sucede a menudo con proyectos de ciencia de datos. Un proyecto puede durar más de dos años sin resultados, pero un investigador continúa ejecutándolo porque ya se ha invertido mucho tiempo, dinero y esfuerzo. O un científico de datos podría defender su proyecto de todo corazón porque ha invertido mucho en él, sin darse cuenta de que poner más trabajo no la ayudará a ella ni a la empresa a largo plazo y que es mejor si el proyecto se desecha.

Una forma de salvarse de este sesgo cognitivo es centrarse en los beneficios y costos futuros en lugar de los costos pasados ya perdidos. Tienes que desarrollar el hábito, por difícil que sea, de ignorar la información de costos anterior. Por supuesto, nunca es fácil para nosotros, los científicos de datos, simplemente ignorar los datos. Por mi parte, he descubierto que una forma metódica funciona mejor en este caso. Tomo papel y lápiz para alejarme de todas las distracciones y trato de pensar en todos los costos adicionales necesarios para hacer un proyecto junto con los beneficios que podría obtener en el futuro. Si la parte del costo de la tarea parece demasiado significativa, entonces es hora de seguir adelante.

CAUSALIDAD FALSA

Como científicos de datos, siempre estamos en busca de patrones. La tendencia significa que a veces incluso encontramos patrones donde realmente no existe ninguno. Nuestros cerebros están tan entrenados de esta manera que incluso le daremos sentido al caos en la medida de lo posible.

Debido a que nuestro entrenamiento nos conecta a buscar patrones, es crucial recordar la máxima simple de que la correlación no implica causalidad. Esas cinco palabras son como el martillo de la caja de herramientas de la ciencia de datos sin el cual no se puede lograr nada. El hecho de que dos variables se muevan en conjunto no significa necesariamente que una cause la otra.

Este principio ha sido demostrado de manera divertida por numerosos ejemplos. Por ejemplo, al observar los datos del departamento de bomberos, se da cuenta de que, a medida que se envían más bomberos a un incendio, más daño se hace en última instancia a una propiedad. Por lo tanto, podría inferir que más bomberos están causando más daño. En otro ejemplo famoso, un académico que estaba investigando la causa del crimen en la ciudad de Nueva York en la década de 1980 encontró una fuerte correlación entre el número de delitos graves cometidos y la cantidad de helado vendido por los vendedores ambulantes.Pero, ¿deberíamos concluir que comer helado lleva a la gente a cometer delitos? Dado que esto tiene poco sentido, obviamente deberíamos sospechar que hubo una variable no observada causando ambos. Durante el verano, las tasas de criminalidad son las más altas, y es también cuando se vende la mayoría de los helados. Las ventas de helados no causan crimen, ni el crimen aumenta las ventas de helados. En ambos casos, mirar los datos de manera demasiado superficial conduce a suposiciones incorrectas.

Como científicos de datos, debemos tener en cuenta este sesgo cuando presentamos los hallazgos. A menudo, es posible que las variables que pueden parecer causales no se examinen más de cerca. También debemos tener especial cuidado para evitar este tipo de errores a la hora de crear variables de nuestros modelos. En cada paso del proceso, es importante preguntarnos si nuestra variable independiente posiblemente esté correlacionada con la variable dependiente.

SESGO DE DISPONIBILIDAD

¿Alguna vez ha dicho algo como: “Sé que [inserte una declaración genérica aquí] porque [inserte un solo ejemplo]”. Por ejemplo, alguien podría decir: “No puedes engordar bebiendo cerveza, porque Bob bebe mucha y es delgado”. Si es así, entonces ha sufrido un sesgo de disponibilidad. Estás tratando de darle sentido al mundo con datos limitados.

La gente tiende naturalmente a basar sus decisiones en información que ya está disponible para nosotros o en cosas de las que escuchamos con frecuencia sin buscar alternativas que puedan ser útiles. Como resultado, nos limitamos a un subconjunto de información muy específico.

Esto sucede a menudo en el mundo de la ciencia de datos. Los científicos de datos tienden a obtener y trabajar con datos que son más fáciles de obtener en lugar de buscar datos que son más difíciles de recopilar pero que podrían ser más útiles. Nos conformamos con modelos que entendemos y que están disponibles para nosotros en un paquete ordenado en lugar de algo más adecuado para el problema en cuestión pero mucho más difícil de conseguir.

Una forma de superar el sesgo de disponibilidad en la ciencia de datos es ampliar nuestros horizontes. Comprometerse con el aprendizaje permanente. Leer. Mucho. Sobre todo. Entonces lee un poco más. Conocer gente nueva. Discuta su trabajo con otros científicos de datos en el trabajo o en foros en línea. Sea más abierto a las sugerencias sobre los cambios que pueda tener que asumir en su enfoque. Al abrirse a nueva información e ideas, puede asegurarse de que es menos probable que trabaje con información incompleta.

SESGO DE CONFIRMACIÓN

Un viejo chiste dice que si torturas los datos el tiempo suficiente, te confesarán. Con suficiente trabajo, puede distorsionar los datos para que diga lo que quiere que diga.

Todos tenemos algunas creencias y eso está bien. Todo es parte del ser humano. Lo que no está bien, sin embargo, es cuando dejamos que esas creencias entren inadvertidamente en la forma en que formamos nuestras hipótesis.

Podemos ver esta tendencia en nuestra vida diaria. A menudo interpretamos nueva información de tal manera que se vuelve compatible con nuestras propias creencias. Leemos las noticias en el sitio que más se ajusta a nuestras creencias. Hablamos con personas que son como nosotros y tienen puntos de vista similares. No queremos obtener evidencia desconcertante porque eso podría llevarnos a cambiar nuestra visión del mundo, lo que podríamos tener miedo de hacer.

Por ejemplo, he visto un sesgo de confirmación en acción en la ciencia de datos durante la etapa de análisis de costo-beneficio de un proyecto. He visto personas aferrándose a los datos que confirman su hipótesis mientras ignoran toda la evidencia contradictoria. Obviamente, hacer esto podría tener un impacto negativo en la sección de beneficios del proyecto.

Una forma de combatir este sesgo es examinar críticamente todas sus creencias y tratar de encontrar evidencia desconcertante sobre cada una de sus teorías. Con eso, me refiero a buscar pruebas activamente yendo a lugares a los que normalmente no vas, hablando con personas con las que normalmente no hablas y, en general, manteniendo la mente abierta.

CONCLUSIÓN

En nuestra era de sobrecarga de información, estamos rodeados de tantos datos que nuestro cerebro intenta desesperadamente encontrarle sentido al ruido. A veces es útil poder encontrarle algún sentido al mundo basado en información limitada. De hecho, tomamos la mayoría de nuestras decisiones sin pensar mucho, siguiendo nuestros instintos. El daño potencial de la mayoría de nuestras acciones diarias es bastante pequeño. Sin embargo, permitir que nuestros prejuicios influyan en nuestro trabajo puede dejarnos en una situación desafortunada.   Podemos terminar perdiendo dinero o credibilidad si tomamos una decisión vital que resulta ser incorrecta.

Saber cómo funciona nuestro cerebro nos ayudará a evitar estos errores.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s