lunes, 16 de diciembre de 2013

Extracto de un artículo sobre encuestas de opinión

En esta ocasión os cuelgo 4 páginas extraídas del siguiente artículo:

M.M.Rueda García (2013). Survey sampling: science or divination? Boletín de Estadística e Investigación Operativa 29, 246-265.

Aunque el título esté en inglés, el artículo está en español. No es obligatorio que lo leáis, aunque creo que os puede venir bien de cara al examen y para ver que, entre lo aprendido en el tema 1 de muestreo y en esta parte de las encuestas electorales, estáis entre los más expertos de la sociedad.

El texto se titula "Las encuestas de opinión en nuestro país" y lo podéis obtener pinchando aquí.

En él se comentan algunos fallos comunes de las encuestas sobre la base de dos ejemplos curiosos y llamativos: una encuesta de la Universidad de Granada según la que el 60% de los profesores declaran que hay acoso laboral, y un eurobarómetro según el que los dos países que más amenazan la paz mundial son Estados Unidos e Israel.

Veréis que los fallos suelen ser siempre los mismos, como ya vimos en ocasiones anteriores, especialmente:
-Que se diga haber hecho un muestreo aleatorio pero en realidad no sea así, porque hay individuos que no podrían haber sido elegidos o unos tienen más posibilidades que otros.
-Que no se diga haber hecho un muestreo aleatorio pero luego se dé la confianza y el margen de error calculados a partir de las fórmulas para muestreo aleatorio.
-Que se haya hecho un muestreo no probabilístico (p.ej. por cuotas, encuestas online, etc.) pero se intente "vender" que el estudio tiene las mismas garantías que un muestreo probabilístico.


Si tenéis alguna pregunta, podéis dejarla en los comentarios.

En el mes que queda hasta el examen, seguiré subiendo alguna ficha técnica más para que practiquéis.

lunes, 2 de diciembre de 2013

Sondeo de Metroscopia para El País (elecciones europeas)

Enlace a la noticia: PP y PSOE empatarían en las elecciones a la Eurocámara de mayo.

Ficha técnica: Pinchar con el ratón para aumentarla.


Comentarios:

Con "encuesta-tracking" se quiere decir que los datos se han tomado en varias tandas a lo largo de un periodo de tiempo mayor ("tracking" en español sería "seguimiento"; el que no sabe español tiene que decirlo en inglés).

La ficha nos dice que se han tomado estratos y finalmente se ha hecho en cada estrato un muestreo por cuotas de sexo y edad. No se dice que los individuos se seleccionen aleatoriamente, por lo que la frase "Partiendo de los criterios del muestreo aleatorio simple, el error es tal y cual" es incorrecta (es decir: lo que dice la frase es correcto en que el error sería ese si el muestreo hubiera sido aleatorio y no por estratos y cuotas, que es como realmente fue).

Por tanto, el margen de error y la confianza que nos dan no serían fiables pues no es realmente ese muestreo el que se ha hecho.

¿Qué significa que p=q=50? ¿Pueden p y q realmente valer 50? ¿Más bien debería decir p=q=50% o p=q=0'5?

¿Cuál sería el tamaño de la muestra?

Supongamos que el margen de error fuese fiable; según la ficha es el 1'7%. La intención de voto del PP es del 29% y la del PSOE del 27'9%. La noticia nos dice que "El sondeo muestra que si las elecciones se celebraran en este momento los populares ganarían solo por 1'1 puntos, lo que en la práctica equivale a un empate técnico por el margen de error del estudio". ¿Qué significa esto y qué relación tiene con los datos anteriores?

¿Cuál es entonces la conclusión de la encuesta respecto a quién ganará las elecciones?
a) Que ganará el PP.
b) Que ganará el PSOE.
c) Que al nivel de confianza utilizado no se puede afirmar cuál de los dos va a ganar.


---
Animaos a contestar a las preguntas añadiendo un comentario :)

miércoles, 20 de noviembre de 2013

Intención de voto 2013 (Sigma Dos para El Mundo)

Se ha dado una fotocopia en clase de esta encuesta publicada el pasado domingo 17 de noviembre.

Ficha técnica

Universo: Mayores de 18 años.

Ámbito: Nacional.

Muestra: 1000 entrevistas con un margen de error ±3'16% para los datos globales, con un nivel de confianza del 95'5% (dos sigma) y un p/q=50/50.

Selección: Polietápica, estratificada, aleatoria.
Entrevista: Telefónica.
Fecha del trabajo de campo: Del 12 al 14 de noviembre de 2013.


Comentarios:

Veo que el tamaño muestral es n=1000. Pero dice que la forma de seleccionar la muestra ha sido "polietápica, estratificada, aleatoria". ¿Qué quiere decir eso?

Por ejemplo, se puede haber tomado cada provincia de España como un estrato. Recordad que en el muestreo por estratos se divide la población y se coge una muestra dentro de cada estrato. A Asturias se pudo haber decidido, por fijar ideas, que le corresponde una muestra de 22 individuos. Polietápico quiere decir que no se cogieron esos 22 asturianos directamente al azar, sino que en una segunda etapa Asturias se habría dividido otra vez en estratos (p.ej. Gijón, Oviedo, Avilés, resto de la zona centro, zona oriental y zona occidental), resultando p.ej. 6 personas de Gijón, 5 de Oviedo, etc. Este muestreo sería polietápico porque se han aplicado estratos o conglomerados más de una vez. Finalmente, las 6 personas de Gijón se escogerían al azar porque nos dicen que la selección es aleatoria.

¿Por qué la confianza es justo del 95'5% y no del 95? ¿No es un poco caprichoso?

Al tomar una confianza del 95% para hacer un intervalo, en la tabla de la normal obtenemos un valor b=1'96. A veces se toma como confianza 95'5% porque es la que hace que salga b=2 y las cuentas quedan más sencillas.

Dios mío, ¿qué es "dos sigma"?

Es lo mismo que acabo de decir, en la fórmula del error aparece b multiplicado por la desviación típica. Para una confianza del 95'5% tenemos b=2 y entonces "b por sigma" es "dos sigma". De ahí viene el nombre de la empresa que ha hecho la encuesta (Sigma Dos).

¿Qué era p/q=50/50?

Como vimos en clase, el margen de error sería distinto para cada partido. Para estar seguros de que ese valor del margen de error es siempre válido, sea toma el p con el que hay mayor error (p=0'5) y entonces, como q=1-p, también q=0'5. Con p/q=50/50 lo que se dice es que se ha calculado el error tomando p=50% y q=50%.

¿Qué significa que el margen de error es ±3'16%?

Es lo que llamamos en clase el error máximo en la estimación e, más exactamente es un margen que garantiza que el valor de e para todos los partidos va a ser como mucho del 3'16%.

Entonces, vamos a ver, si yo calculo el error con la fórmula que vimos en clase, ¿me va a salir el e=3'16/100=0'0316, o no?

No, para cada partido nos saldría un e distinto que siempre sería como máximo del 3'16%, pero normalmente será menor. La ficha nos dice que el error siempre va a ser como máximo del 3'16%, sea cual sea el partido, pero no dice el error exacto para cada partido individual.

¿Esto último va a caer en el examen?

No, hombre, no.

(Pregunta para nota) Pero si el error verdadero es más pequeño, quiere decir que estamos usando un intervalo más largo de lo necesario, y nos dijiste que al alargar el intervalo aumenta la confianza. Entonces, ¿sería el 95'5% o no? Ay, qué lío.

Exacto, si formamos un intervalo de confianza usando ese margen de error, la confianza será del 95'5% o mayor, pero nunca menos del 95'5%. Lo que la encuesta garantiza es que el error va a ser del 3'16% o menos aún, y la confianza del 95'5% o más aún, para los datos de todos los partidos.

Por eso esta encuesta dice "margen de error ±3'16% para los datos globales" y la anterior de La Vanguardia "margen de error total posible de ±3'16%".

¿Y esto último va a caer?

No, tampoco.

Menos mal. ¿Y hay algo en esta ficha técnica que no sea correcto? Es que como nos dijiste que lo vas a preguntar en el examen...

Sí, hay algo incorrecto y es que encuestando por teléfono la muestra no es realmente aleatoria, es decir, no todas las personas tienen la misma probabilidad de ser seleccionadas. Por ejemplo, aún hay gente que no tiene teléfono, otros pueden tener tanto fijo como móvil, otros pueden tener varios móviles, o tener un teléfono personal y otro en la empresa. A mayor nivel económico es más fácil que uno disponga de más teléfonos, y por tanto podría aparecer en la encuesta algún sesgo a favor de los partidos con votantes de mayor nivel económico.

Lo que ocurre es que encuestar por teléfono es más rápido y barato que seleccionar a la gente en el censo e ir a entrevistarlos a su casa, por eso se hace así.

martes, 29 de octubre de 2013

Encuesta sobre medicamentos genéricos (Metroscopia para la Asociación Española de Medicamentos Genéricos)

Enlace a la nota de prensa: "Un 80% de los españoles confía ya en los medicamentos genéricos"




Ficha Técnica del Estudio de Conocimiento, Uso y Evaluación de Medicamentos Genéricos

Universo: individuos de 18 años en adelante residentes en el territorio español (incluyendo las islas y excluyendo Ceuta y Melilla).

Tamaño y distribución de la muestra: 1.003 entrevistas estratificadas por la intersección hábitat/Comunidad Autónoma y distribuidas de manera proporcional al total de la región. Se aplicaron cuotas de sexo y edad a la unidad última (persona entrevistada).

Error de muestreo: para un nivel de confianza del 95.5% (que es el habitualmente adoptado) y asumiendo los principios del muestreo aleatorio simple, en la hipótesis más desfavorable de máxima indeterminación (p=q=50%) es de ± 3.2 %.

Método de recogida de la información: entrevista telefónica asistida por ordenador (CATI) mediante cuestionario estructurado y precodificado, con selección aleatoria de la persona entrevistada. El trabajo ha sido realizado por el equipo de entrevistadores de campo telefónico de Metroscopia.

Fecha de realización del trabajo de campo: del 20 al 22 de febrero de 2012

Elecciones catalanas de 2012 (Feedback para La Vanguardia)

Enlace a la noticia: "CiU no alcanza la mayoría absoluta por el ascenso de ERC, ICV y CUP"



FICHA TÉCNICA

Universo: población mayor de 18 años empadronada en Cataluña y con derecho a voto el próximo 25 de noviembre.

Método: encuesta telefónica.

Muestra: 1.000 encuestas.

Cuotas: proporcionales para las variables edad, sexo y tamaño de hábitat, y sobrerrepresentación hasta 175 encuestas en el trabajo de campo para las demarcaciones de Tarragona, Gerona y Lérida, respectivamente, con la finalidad de asegurar una base mínima suficiente de encuestas para realizar proyecciones electorales, con posterior ponderación de los datos de acuerdo al peso real de la distribución de la población por provincias.

Condiciones estadísticas: margen de error total posible de ±3,16%, para una población infinita y con un nivel de confianza del 95,5%, donde K=2, y bajo el supuesto de máxima indeterminación donde p=q=50/50 (con márgenes de error parciales).

Trabajo de campo: las encuestas se han realizado entre los días 12 y 16 de noviembre del 2012.