d0086bHacer encuestas en twitter es muy fácil y poco costoso, pero hay que tener cuidado con los resultados porque muy probablemente estén sesgados.

La primera distorsión viene por el lado de que ni Twitter es una muestra representativa de la población, ni nuestros seguidores son una muestra representativa de Twitter. Y no es un problema que dependa de la cantidad de seguidores. Una cuenta de un político famoso puede tener muchos seguidores, pero la mayoría de ellos piensan de manera similar, de modo que no sirve juntar muchas opiniones provenientes de una de esas cuentas, por la misma razón que nadie le preguntaría a un millón de hinchas de Boca, de que cuadro son.

Por supuesto que la semejanza de opiniones en un tema no implica que no pueda existir mucha heterogeneidad en otro. Los seguidores de @cfkArgentina casi con seguridad aprueban mayoritariamente su gestión, por ejemplo, pero bien puede que no logren ponerse de acuerdo respecto de quien tiene que ser el arquero de la selección. Para esta última pregunta, los seguidores de un político extremista bien podrían ser una muestra representativa que arroje un resultado insesgado de la opinión de toda la población

Por esta razón las encuestas hechas en las redes sociales son en el mejor de los casos, solo representativas del punto de vista de los usuarios activos de esas redes

Incluso más; puesto que no puede asegurarse que los que participan contestando piensen como los que no lo hacen, el resultado en rigor representa las posiciones de los que se enganchan con la propuesta.

Hechas estas salvedades,  uno de los mayores sesgos sobre el que quiero hablar en este artículo tiene que ver con la utilización del RT vs FAV para sondear opiniones.

Obviamente, la opción que aparezca con el RT tiene todas las chances de imponerse incluso cuando no sea la preferida de la población tuitera, por la simple razón de que los usuarios no tienen una muestra aleatoria de seguidores, sino que por lo general quienes siguen a una persona piensan más o menos de la misma manera, de suerte tal que al hacer RT multiplican la llegada de la encuesta a personas que opinan a favor de la opción que está bajo el RT, mientras que quien hace FAV no propaga la encuesta entre sus seguidores.

Para sortear este sesgo lo que corresponde hacer es balancear la encuesta repitiéndola con las opciones cambiadas, para darle chance a ambas opciones de reproducirse por igual a través de la red social.

El viernes pasado, para testear este efecto y medir el impacto del sesgo postee los siguientes dos tuits:

d0086g

Como puede verse, el resultado incluso se invierte;  cuando Larreta estaba bajo el efecto del RT le ganó a Lousteau 64,2 a 35,7 pero cuando Lousteau fue el beneficiado con el RT se impuso 53,1% a 46,8%

Bajo el supuesto de que las preferencias no difirieran entre los dos candidatos y que la estratificación de los seguidores de cada uno fuera similar, pues el resultado debería haber sido un espejo y la magnitud del sesgo sería obvia en cada caso.

Los interesados en las cuentas pueden seguir el razonamiento al pie del post, pero lo interesante en que balanceando los tuits como hicimos en este experimento, puede conocerse el sesgo de RT y por lo tanto obtener el resultado insesgado de la encuesta.

Con los números que salen de los RT y FAV de los 2 tuits, el sesgo de RT es del 1,429 por lo que los resultados del poseedor de la ventaja del RT están inflados un 42,9%. Ajustando por ese sesgo, en la muestra de los que participaron de mi experimento Horacio Rodriguez Larreta es favorito con el 55,7% de los votos, mientras que Martin Lousteau obtendría el 44,2% restante.

Por supuesto, esto no quiere decir que ese vaya a ser el resultado de la elección, puesto que mis seguidores no son una muestra representativa del electorado de la Ciudad de Buenos Aires, pero el número refleja sin sesgos de RT  la opinión de mis followers.

Apendice

Si la razón real entre los votos de uno y otro candidato fuera X, pero lo que observamos es el resultado con el sesgo de RT, pues tenemos que:

d0086c

Luego

d0086d
Por si suponemos que la estratificación de los tuiteros que prefieren a uno y otro candidato no difiere, en el sentido de que el sesgo de RT es similar para los dos, por lo tanto dividiendo 1 por 2 se obtiene que la razón entre los votos de Larreta y los de Lousteau, en el escenario donde Larreta lleva el RT, dividida por la razón entre los votos de Larreta y los de Lousteau, en el escenario donde ahora Lousteau lleva el RT, equivale al cuadrado del sesgo. Aplicando Raíz cuadrada se obtiene el sesgo

Luego dividiendo

d0086e

por el sesgo, se obtiene la razón real (insesgada) entre las preferencias, que por supuesto es similar al valor que se obtiene multiplicando

d0086f

por el sesgo.