Regresar a página principal de Diseño Muestral y Aplicación de Pesos de Análisis
Guía de Muestreo para las Encuestas de Salud Reproductiva con Asistencia Técnica de CDC
Este documento describe e ilustra las prácticas que generalmente se ha empleado para el diseño y selección de las muestras utilizadas en las Encuestas de Salud Reproductiva (RHS, por sus siglas en inglés), para las cuales se ha proporcionado asistencia técnica de parte de la División de Salud Reproductiva de los Centros para el Control y Prevención de Enfermedades (CDC) en los últimos 35 años. No pretende ser un manual de capacitación en la metodología de muestreo para las encuestas de hogares, que iría más allá del alcance de este manual, sino proporcionar la documentación de referencia para saber cómo se han realizado el diseño y selección de las muestras para las encuestas en el pasado y las razones de los procedimientos que se han utilizado.
La serie de encuestas de salud reproductiva es uno de varios programas de encuestas diseñadas para ofrecer estimaciones representativas a nivel nacional de indicadores de salud basados en entrevistas con individuos que son seleccionados de una muestra aleatoria de hogares. En particular, hay similitudes con la estrategia de muestreo que se ha utilizado para las Encuestas de Demografía y Salud (DHS) y las Encuestas de Indicadores Múltiples por Conglomerados (MICS), que son coordinadas por UNICEF. En el Anexo A de este documento se incluye links a los websites que contienen los manuales de muestreo utilizados por estas series de encuestas y algunas otras encuestas similares.
Este documento está dividido en tres secciones: Diseño de Muestras, Selección de Muestras y Cálculo de los Pesos de Análisis.
1. Diseño de Muestras:
Las principales decisiones que se debe tomar para el diseño de una muestra son el tamaño de la muestra y si la muestra va a requerir de estratificación. Antes de abordar estos temas es importante describir el proceso de selección de las tres etapas que se ha utilizado para seleccionar las muestras de las encuestas RHS.
- En la primera etapa, se seleccionan las unidades primarias de muestreo (UPM) dentro de dominios geográficos o estratos. Las UPM generalmente son las unidades geográficas más pequeñas en que se divide la cartografía censal en poder de la oficina nacional de estadísticas de un país. Por lo general, son grupos (segmentos o sectores) de entre 50 y 200 hogares dentro de límites naturales o artificiales bien definidos, así como los bloques o manzanas en un pueblo o ciudad. La selección de las UPM se hace generalmente con una probabilidad de selección proporcional al tamaño (PPT) de la UPM, donde el tamaño es el número de hogares (o viviendas)1 en la UPM de acuerdo al censo más reciente. Por ejemplo, una UPM con 180 hogares tiene tres veces la probabilidad de ser seleccionada en comparación con otra UPM que tiene sólo 60 hogares. Una alternativa a la selección de las UPM de un marco muestral como el censo, es reutilizar las UPM ya seleccionadas para otra encuesta o como parte de una muestra maestra (esto se discutirá más adelante en la sección sobre selección de muestras). Las encuestas RHS, DHS y MICS emplean el mismo método de selección de UPM con probabilidad proporcional al tamaño.
- En la segunda etapa, se selecciona los conglomerados o grupos de hogares incluidos en la muestra en cada una de las UPM que se seleccionaron en la primera etapa. Se recomienda crear listados actualizados de todos los hogares y viviendas en cada una de las UPM seleccionadas, antes de seleccionar los hogares que formarán parte de la muestra de la encuesta. Esto asegura que todas las viviendas existentes al momento de elaborar el listado tengan una probabilidad conocida de ser seleccionadas. Generalmente una vivienda (o estructura para vivir) corresponde a un hogar (o grupo de personas compartiendo comida y gastos). En los casos cuando hay más de un hogar en la vivienda seleccionada, el procedimiento utilizado para las RHS ha sido incluir todos los hogares como parte de esta misma vivienda en la muestra. De esta manera, los hogares tienen la misma probabilidad de selección que las viviendas en las cuales están localizados. La selección de hogares en cada conglomerado se realiza de tal manera que todos los hogares de la UPM tienen la misma probabilidad de ser seleccionados dentro del conglomerado. Por ejemplo, si la UPM contaba con 175 hogares de acuerdo a la lista y 25 hogares serían seleccionados dentro del conglomerado entonces cada hogar tendría una probabilidad de 1 en 7 (25/175) de ser seleccionado para la muestra. La información sobre el cambio en el tamaño de la UPM entre la fecha del censo y de la actualización cartográfica puede ser utilizada para calcular pesos de análisis que capten las probabilidades de selección de los hogares. Esto se presenta en más detalle en la sección sobre el cálculo de los pesos de análisis.
- En la tercera etapa, se selecciona a una mujer en edad fértil (MEF: de 15 a 49 o 15 a 44 años) para entrevista en cada hogar que fue seleccionado en la segunda etapa. Esta es una selección aleatoria que se realiza de tal manera que cada mujer elegible tenga la misma probabilidad de selección. Esta tercera etapa de la selección de una mujer generalmente no se hace en las encuestas DHS, donde todas las mujeres elegibles para entrevista en el hogar entran en la muestra. Una excepción en las encuestas de DHS es el módulo de violencia doméstica el que ha sido aplicado sólo a una mujer por hogar. El método de selección de una mujer por hogar se describe en la sección de selección de la muestra y las implicaciones para la ponderación de los datos se presenta en la sección de cálculo de los pesos. Se explica esto aquí, ya que afecta al cálculo del número de hogares que se requiere con el fin de lograr un número predefinido de entrevistas completas. En las RHS, a veces se ha incluido entrevistas cuesta con hombres (edades de 15-54 o 15-59 años), para lo cual se ha empleado el mismo procedimiento de selección de un hombre elegible por hogar.
El proceso de selección en las tres etapas descritas anteriormente representa un diseño muestral complejo, que difiere de una muestra aleatoria simple (MAS). Una muestra aleatoria simple de mujeres de 15 a 49 años de una población nacional sería aquella en la que las mujeres de alguna manera podrían ser seleccionadas directamente de una lista general de todas las mujeres en ese rango de edad. No existe dicha lista y si existiera el costo de localizar y entrevistar a todas estas mujeres a escala nacional sería prohibitivo. Una consecuencia de la utilización de un diseño muestral complejo es que las fórmulas para el cálculo de errores estándar e intervalos de confianza sobre las estimaciones de la encuesta también son complejos y requieren el uso de un paquete estadístico que tenga en cuenta el diseño de la muestra para el cálculo correcto de los errores estándar. Los paquetes estadísticos SAS, SPSS y STATA ahora incluyen rutinas para el cálculo de los errores estándar en una muestra compleja. En general, el error estándar de una estimación a partir de un diseño muestral complejo será más grande que el error estándar de una muestra aleatoria simple del mismo tamaño, N. El aumento proporcional en el error estándar de una estimación, debido a la utilización de un diseño complejo, se conoce como el efecto de diseño, o DEFF:
DEFF = EE(complejo tamaño N) / EE(MAS tamaño N) 2
Una implicación desfavorable de los efectos de diseño es que no hay un efecto de diseño que se aplique a todos los indicadores en un estudio. En un estudio dado puede haber una variación considerable en los efectos de diseño para diferentes indicadores, y entre los dominios diferentes efectos para un determinado indicador.
La mayoría de los indicadores claves en una RHS se calculan como una proporción, p (por ejemplo, la proporción de mujeres casadas que utilizan métodos anticonceptivos, la proporción de nacimientos atendidos en un centro de salud, o la proporción de niños con diarrea que recibieron tratamiento para la deshidratación). En una muestra aleatoria simple la fórmula para el error estándar de una proporción, ee(p), sería:
ee(p) = [p(1-p)/N]½ ,
donde N es el número de personas en el denominador de la proporción. En una muestra compleja se puede expresar como:
ee(p) = [p(1-p)/N]½ *DEFF.
Una práctica común es calcular un tamaño de muestra necesario para lograr un intervalo de confianza específico para una proporción. Por ejemplo, se puede estimar la tasa nacional de prevalencia de anticonceptivos con un intervalo de confianza del 95% de + / - 2 puntos porcentuales. Se puede expresar la precisión deseada, d, la mitad del intervalo de confianza para p, como:
d = 1.96*[p (1-p) / N]½ DEFF. (1)
La ecuación puede ser despejada para expresar el tamaño de muestra necesario, N, como una función de d, p y DEFF:
N=1.962 p(1-p)DEFF2 / d2 (2)3
Supongamos que queremos un N suficientemente grande para calcular una proporción con un intervalo de confianza de + / - 2 puntos porcentuales. Si se asume un efecto de diseño de 1.5 y un valor esperado de p alrededor de 50%, tenemos:
N=1.962 (.5)(1-.5)1.52 / .022 = 5,402.25 .
En otras palabras, habría que diseñar la muestra para obtener 5,402 sujetos en el denominador del indicador que estamos tratando de estimar. Establecer el valor de p como 0.5 es la hipótesis más conservadora respecto a la proporción (cualquier otra opción para p daría un valor menor para N). La elección de un valor apropiado para DEFF es un tema más complejo que se discutirá más adelante. Un informe que documenta los efectos del diseño para 37 variables diferentes en 48 encuestas de DHS la mayoría de los efectos de diseño fueron entre 1.0 y 2.0 y el efecto de diseño promedio fue de 1.49 (Le y Verma, 1997).
Continuando con el ejemplo anterior, supongamos que la muestra de 5,402 no es factible dado los recursos disponibles para el estudio y que se decidió que un intervalo de confianza de +/- 4 puntos porcentuales será suficiente. Usando la misma fórmula de arriba tenemos un requisito N de 1,351. Esto ilustra que doblando el intervalo de confianza con el que estamos dispuestos a "convivir" se reduce el tamaño de la muestra necesaria a un cuarto de la cantidad original. Una deducción lamentable es que la reducción del intervalo de confianza a la mitad requiere cuadruplicar el tamaño de la muestra.
El Cuadro 1, presenta un conjunto de tamaños de muestra, N, que corresponde a una variedad de valores de p, d, DEFF.
Haga click aquí para ver el Cuadro 1 en MS Excel
1.1 Muestreo Proporcional de los Dominios del Estudio
Como se indicó anteriormente, todas las muestras utilizadas para las RHS son complejas ya que emplean un proceso multi-etápico de selección (UPM, hogares o viviendas y mujeres). Empleando este proceso de selección el diseño de muestra más simple sería aquel que presenta una distribución proporcional entre los hogares de la muestra y de la población. Para seguir desarrollando el ejemplo anterior, supongamos que queremos diseñar una muestra en tres etapas para medir la prevalencia de anticonceptivos entre las mujeres en unión con un intervalo de confianza nacional de + / - 2.5 puntos porcentuales. Supongamos, además, que tenemos la siguiente información de una encuesta anterior:
Tasa de prevalencia de anticonceptivos fue: 62%
El efecto del diseño fue: 1.37
Razón de hogares con entrevista completa a hogares en la muestra = .93 4
Tasa de respuesta individual = 97%.
65% de los hogares tenían al menos una mujer en edad fértil (MEF)
60% de las MEF estaban casadas o unidas (en unión).
Al sustituir estos valores en la ecuación 2 se determina que se necesita una muestra del tamaño siguiente:
N = 1,962 (0.62) (1-0.62)1.372 / 0.0252 = 2,718 mujeres en unión
Esto, sin embargo, no es el número de hogares de la muestra. De la información anterior se puede calcular a continuación que la muestra debe tener:
a. 2,718/.60 = 4,530 mujeres con una entrevista completa (se divide por la proporción en unión)
b. 4,530 / 0.97 = 4,670 mujeres en la muestra (se divide por la tasa de respuesta individual)
c. 4,670 / 0.65 = 7,185 hogares con una entrevista completa (se divide por proporción de hogares con MEF)
d. 7,185 / 0.93 = 7,726 hogares en la muestra (se divide por la razón de hogares con entrevista completa a hogares en la muestra).
Con este dato de 7,726 hogares en la muestra se puede determinar la cantidad de UPM y hogares por UPM en la muestra.
La mayoría de las encuestas de salud reproductiva han fijado una meta de obtener entre 20 y 25 entrevistas completas, en promedio, por UPM en la muestra. Podemos ver que el número de entrevistas completas dependerá de la tasa de respuesta de los hogares, la proporción de hogares con una mujer en edad reproductiva y la tasa de respuesta individual de las mujeres seleccionadas en la muestra. Si nos fijamos un promedio de 20 entrevistas individuales realizadas por UPM, podemos utilizar la información de arriba para calcular el número promedio de hogares de la muestra por UPM:
Tamaño de UPM = 20 / [(0.93) (0.65) (0.97)] = 34.1 hogares por UPM.
Redondeando la cifra a 34, se puede calcular el número de UPM de 34 hogares que son necesarias para obtener el total deseado de hogares en la muestra.
Nº UPM = 7,726/34 = 227.2
Redondeando hacia arriba a 228, se deriva en un diseño muestral simple en el que primero se selecciona las 228 UPM, y a continuación los 34 hogares por UPM, resultando una muestra total de 7,752 hogares. Es común ampliar un poco el número de UPM para tomar en cuenta la posibilidad de seleccionar UPM no accesibles por razones de seguridad o condiciones geográficas. Se espera que esta muestra arroje 20 * 228 = 4,560 entrevistas individuales completas y que (0.60) (4,560) = 2,736 de estas mujeres estarán casadas o acompañadas. Si se asume un efecto de diseño de 1.37 para la tasa de prevalencia de anticonceptivos, esto debería producir un intervalo de confianza del 95% de +/- 2.5 puntos porcentuales para el valor estimado.
Supongamos que en este ejemplo que el costo de llevar a cabo una encuesta en 228 UPM PSU es más de lo que está disponible. Como medida de reducción de costos se podría decidir que los equipos de trabajo de campo completen un promedio de 25 entrevistas individuales por UPM. Esto daría como resultado un conglomerado de 25 / (0.93) (0.65) (0.97) = 42 hogares por UPM. Con 42 hogares por UPM, sólo 184 UPM (7,726/42) serían necesarias para obtener el tamaño de la muestra deseado. La reducción en el número de UPM implica menos costos relacionados a viajes, pero hay desventajas al aumentar el tamaño de las UPM. En general, una muestra con menos UPM y más hogares por UPM tendrá un efecto de diseño más grande que una muestra del mismo tamaño con más UPM y un tamaño de UPM más pequeño. Kish (1965) introdujo una medida sintética llamada el índice de homogeneidad (roh) que se define en términos del DEFF y el tamaño promedio de grupo:
DEFF2 = 1 + (b-1) roh.
Puede verse en esta ecuación que para un determinado índice de homogeneidad (roh) el efecto del diseño será más grande si el tamaño del conglomerado, b, es más grande. Aquí, b se refiere al número promedio de individuos por conglomerado que conforma el denominador para el indicador en referencia. En su estudio de efectos de diseño para las DHS en 1997, Le y Verma proporcionan estimaciones de roh para una diversidad variables, que fueron calculadas como el valor promedio en un grupo de 48 encuestas. Estos índices oscilan entre 0.22 para asistencia médica en atención de partos y 0.01 para tasas específicas de fecundidad por edad. Como consecuencia, al variar el tamaño del conglomerado, se tendrá un impacto diferencial sobre el efecto del diseño, en función del roh para una determinada variable. Si una característica tiene más homogeneidad dentro de UPM’s los valores de roh y DEFF serán más grandes para esa característica.
En el ejemplo anterior, se utilizó el usamos uso de anticonceptivos, que tiene un denominador de mujeres en unión, como indicador para determinar el tamaño de la muestra, N. En cada encuesta, sin embargo, existe una amplia variedad de indicadores y el número de casos en el denominador depende de la definición del indicador. En el Cuadro 2, se muestra el número de casos que representan el denominador en un grupo de indicadores clave, usando la RHS de El Salvador 2008 como ejemplo. La muestra contiene 617 UPM, con 35 hogares por UPM. De los 21,595 hogares visitados se obtuvo 12,008 entrevistas completas con mujeres en edad reproductiva, obteniendo un promedio de 19.2 entrevistas individuales por UPM. Para el grupo de indicadores que se incluye en el Cuadro 2, el tamaño de la muestra o número de casos del denominador varía desde sólo 470 para niños de 0 a 5 meses a 12,008 para indicadores basados en todas las mujeres. Las últimas dos columnas del cuadro 2, muestran el número promedio de casos por conglomerado, b, y el promedio por mujer de casos en el denominador para el indicador.
Haga click aquí para ver el Cuadro 2 en MS Excel
Tomando al ejemplo hipotético anterior, en El Salvador 2008 había 0.55 mujeres acompañadas por cada mujer con entrevista completa. Si hubiéramos usado la ecuación (2) para calcular el número de sujetos necesarios, N, para otro indicador, en el paso (a) se dividiría la N calculada con la fórmula, entre el valor para ese indicador en la última columna del Cuadro 2, para obtener el número necesario de entrevistas completas. Los pasos restantes (b, c y d) para calcular el número de hogares de la muestra serían los mismos.
1.2 Muestreo No Proporcional de los Dominios del Estudio
En la sección anterior, se calculó el número de hogares a muestrear para una situación ideal donde hay un tamaño de muestra definido para las estimaciones nacionales y tamaños de muestra para las estimaciones sub-nacionales, que se definen de manera proporcional a la distribución de los hogares en la población nacional. Se ha simplificado aún más por asumir un número constante de hogares por conglomerado tal que la decisión sobre el tamaño de la muestra se convierte en una decisión sobre al número de UPM a incluir en la muestra. En la gran mayoría de las RHS un segundo objetivo ha sido producir estimaciones para dominios sub-nacionales, de tal manera que hay un tamaño de muestra mínimo para cada unidad sub-nacional.
Aquí utilizamos el término “unidad sub-nacional” para describir dominios de estudio para los cuales intentamos presentar los resultados de la encuesta. Algunos ejemplos de dominios de estudio, incluyen: urbano / rural; capital / otras zonas urbanas y rurales, regiones de salud, departamentos o provincias, áreas de intervención de un proyecto, poblaciones de refugiados o de desplazados. En una muestra proporcional todos los dominios estarán sujetos a la misma fracción de muestreo. Si el tamaño de la muestra para un dominio donde se usa una distribución proporcional es demasiado pequeño para el cálculo de indicadores con la precisión deseada, entonces es común usar diferentes fracciones de muestreo para diferentes dominios. Si la muestra emplea diferentes fracciones de muestreo para diferentes dominios la muestra se conoce como "estratificada". En una muestra estratificada el universo o marco muestral de la muestra debe ser dividido en estratos separados y la muestra se selecciona de forma independiente para cada estrato. En vista que diferentes estratos tienen diferentes fracciones de muestreo (o probabilidades de selección) se debe utilizar pesos cuando se combinan las observaciones de diferentes estratos.
El Cuadro 3, contiene dos posibles diseños para la selección de una muestra de 9,000 hogares de un universo de 18 millones de hogares. Un diseño empleando una asignación proporcional tendría una fracción de muestreo constante de 1 por cada 2,000 hogares para los tres dominios, y no sería necesario estratificar la muestra. En un diseño con asignación igual de UPM cada dominio tendría 3,000 hogares y la fracción de muestreo varía según dominios, indicando que esta es una muestra estratificada. En el diseño de asignación igual, el dominio más pequeño, A, es "sobre-muestreado" en relación con la asignación proporcional y los dominios más grandes, B y C, que están "sub-muestreados".
Haga click aquí para ver el Cuadro 3 en MS Excel
El diseño de asignación igual tiene la ventaja de presentar errores estándar similares para todos los dominios del estudio. Los errores estándar están afectados por otros factores además del número de hogares en cada dominio. Aún cuando el número de hogares de la muestra es constante para los dominios, no se garantiza que el número de sujetos (N) que entran para el cálculo de un indicador (por ejemplo, los nacimientos en un período de 60 meses) será el mismo para todos los dominios. Además, el efecto de diseño (DEFF) asociado con el uso de un diseño complejo no es necesariamente el mismo para todos los dominios y la proporción (p) de los sujetos con la característica analizada no va a ser la misma para todos los dominios. Los tres factores, N, P y DEFF afectan el error estándar e intervalo de confianza, pero sólo el tamaño de la muestra puede ser fácilmente controlado en el diseño de la muestra.
Casi todas las muestras utilizadas para las RHS se han estratificado a fin de sobre-muestrear los dominios más pequeños. El Cuadro 4, muestra las características de las muestras de 22 encuestas realizadas en América Latina desde 1988. En la tercera columna se describen los estratos utilizados para cada encuesta y en casi todos los casos la muestra fue estratificada para permitir sobre-muestrear dominios pequeños. Para los países con varias encuestas se observa una tendencia a ampliar el número de dominios con resultados más desagregados y como consecuencia el tamaño de la muestra total también ha aumentado. Por ejemplo, la encuesta de Ecuador en 1989 fue diseñada para proporcionar estimaciones para 6 dominios (Quito, Guayaquil y 4 regiones), mientras que la encuesta de 1999 proporcionó estimaciones para 15 provincias y 2 regiones. La muestra pasó de 288 UPM con 7,863 hogares a 544 UPM con 21,760 hogares. Entre estas 22 encuestas, sólo la muestra de la encuesta de mujeres en Honduras 2001 utilizó una asignación proporcional y no estratificada.
Haga click aquí para ver el Cuadro 4 en MS Excel
No hay una indicación uniforme sobre la forma de asignar la muestra entre los estratos en un diseño muestral estratificado. El diseño más eficiente para minimizar el error estándar de las estimaciones nacionales es una asignación proporcional tal que se ha dado una tendencia a ajustar o aproximar una asignación proporcional por tener muestras más grandes para los dominios más grandes y muestras más pequeñas para dominios más pequeños. Probablemente la “regla de dedo” más consistente ha sido que los dominios más pequeños deberían tener un mínimo de 25 a 30 UPM cada uno. El método más sencillo es determinar un tamaño de muestra global basada en las necesidades para las estimaciones nacionales y ver que implicaciones tiene en los tamaños de muestra para cada dominio si se utiliza una asignación proporcional de UPM. Los dominios que son insuficientes en el tamaño de la muestra pueden ser aumentados para llegar a un tamaño mínimo. La parte superior del Cuadro 5, presenta un ejemplo de este procedimiento. En este ejemplo, se tiene información sobre cómo los 8.8 millones de hogares en el último censo de un país están distribuidos por los dominios del estudio (A a H). Suponiendo que se había fijado un objetivo de escoger 300 UPM a nivel nacional en la primera etapa de selección de la muestra, se puede ver en la tercera columna del cuadro 5 la distribución prevista de las 300 UPM, usando una asignación proporcional. En este escenario se observa que 5 de los 8 dominios tendrían menos de 30 UPM. Si aumentamos el número de UPM en los estratos deficientes a conseguir que todos tengan al menos 30, entonces tendríamos un total de 359 UPM distribuidos como se presenta en la siguiente columna del panel superior. La última columna muestra las fracciones de muestreo en cada estrato bajo el supuesto que 35 hogares serán seleccionados en cada UPM.
Haga click aquí para ver el Cuadro 5 en MS Excel
Una variación en el procedimiento anterior se demuestra en la segunda parte del Cuadro 5. Puede suceder que no haya fondos suficientes para agregar 59 UPM al costo de la encuesta. Entonces, es posible reasignar algunas UPM de los dominios más grandes a los más pequeños, sin aumentar el número total de UPM. Una forma mecánica de hacerlo es asignar la muestra de forma proporcional a la raíz cuadrada del número de hogares en cada dominio de estudio. La segunda columna de la parte inferior del Cuadro 5, muestra la raíz cuadrada del número de hogares en cada dominio. El valor total de esta columna es simplemente la suma de las raíces cuadradas de los distintos dominios. La tercera columna muestra la asignación de las 300 UPM si se distribuyen en proporción a las raíces cuadradas. Se puede ver que el mayor dominio, E, se ha reducido de 128 UPM en la parte superior a 76 UPM en la parte inferior y que el dominio menor, D, se ha aumentado de 8 a 18 UPM. Sin embargo, todavía hay tres dominios (A, D y H) con menos de 30 UPM, si se usa una asignación proporcional a la raíz cuadrada del tamaño del dominio. En la siguiente columna de la parte inferior del Cuadro 5, se ve la asignación que resulta si los dominios con menos de 30 UPM se aumentan a 30. Esto requeriría la adición de 19 UPM en total.
La decisión sobre la distribución de la muestra en un diseño estratificado, no se puede reducir a una fórmula o método. Se debe reflejar los objetivos del estudio. Si el objetivo principal es obtener intervalos de confianza similares para todos los dominios, entonces sería recomendable tener un número igual de UPM en todos los dominios, independientemente de la variación que existe en la población de estos dominios. Para las RHS realizadas hasta la fecha esto no ha sido el caso y el enfoque por lo general ha sido establecer un tamaño mínimo de la muestra para los más dominios pequeños, mientras los dominios más grandes tienen muestras mayores.
1.3 Número variable de hogares por UPM (tamaño de conglomerado)
En los ejemplos presentados hasta ahora hemos definido un número igual de hogares a ser incluidos por UPM. Como se puede observar en el Cuadro 4, para muchas de las RHS realizadas hasta la fecha el tamaño del conglomerado ha variado. Han surgido dos principales razones para variar el tamaño del conglomerado. Una de ellas es para economizar recursos en el trabajo de campo haciendo un número más reducido de UPM con un tamaño de conglomerado más grande en zonas de difícil acceso mientras se hace más UPM con un tamaño de conglomerado más pequeño en las zonas más fáciles de trabajar. Una segunda razón es para aprovechar la información existente en el sentido de obtener un determinado número de entrevistas para todos los dominios del estudio. El Cuadro 6, proporciona un ejemplo de ambas situaciones para el diseño de una muestra donde se ha establecido una meta de 1,000 entrevistas individuales en cada uno de los siguientes tres dominios: la capital, otras zonas urbanas y zonas rurales.
Haga click aquí para ver el Cuadro 6 en MS Excel
En la ciudad capital, hay una mayor concentración de viviendas y las UPM están tan cercanas que permiten un acceso más fácil por lo que podría establecerse una meta de sólo 15 entrevistas completas por UPM. En otras zonas urbanas y zonas rurales decidimos poner una meta de 22 mujeres por UPM. En la parte superior del cuadro 6 tenemos información de una fuente externa sobre las variaciones en las tasas de respuesta y la proporción de hogares con un informante elegible, que se puede utilizar para calcular el número de hogares que debe ser visitado en cada UPM. Calculamos el número necesario de hogares por UPM, como la meta de entrevistas completas por UPM, dividida entre el producto de las tres proporciones (columnas 4-6 parte superior):
N º HH = Meta completa / [(Razón de hogares completas a hogares seleccionados) (Proporción de hogares con elegible) (Tasa de respuesta mujer)]
Para la ciudad capital tenemos entonces: 15 / [(0.93) (0.55) (0.92)] = 31,9. Al redondear esta cifra se necesitaría 32 hogares por UPM para alcanzar un promedio de 15 entrevistas completas entre las mujeres. En otras zonas urbanas habría que visitar 40 hogares para entrevistar a 22 mujeres, mientras que en las zonas rurales sólo 35 hogares son necesarias para entrevistar a 22 mujeres. Con estos tamaños de UPM se establece que se necesitaría 67 UPM en la capital y 46 en cada uno de los otros 2 dominios para satisfacer la meta de realizar 1,000 entrevistas completas en cada dominio.
1En este documento se asume que la información disponible del censo o marco muestral provee conteos del número de hogares en las UPM, donde el concepto de hogar es un grupo de personas parientes o no que viven bajo el mismo techo y preparen en común su alimentos (comen de la misma olla). En la práctica, muchas veces la información disponible es un conteo de viviendas, donde el concepto de vivienda es un cuarto o grupo de cuartos estructuralmente separados e independientes porque se puede entrar y salir sin pasar por otras viviendas. Generalmente, 5 por ciento o menos de las viviendas contienen hogares múltiples tal que los dos conceptos son muy similares y se utiliza las mismas fórmulas en este documento para describir las dos situaciones.
2Cabe mencionar que en este documento definimos efecto de diseño como la razón de los errores estándares cuando estamos comparando muestras complejas y aleatorias simples del mismo tamaño. Esto es consistente con la definición utilizada en la documentación de las muestras de MICS y DHS. Es común en otras descripciones de diseños muestrales referirse al efecto de diseño como la razón de varianzas la cual puede causar confusión. En particular, algunos paquetes estadísticos calculan el DEFF como la razón de la varianza en la muestra compleja a la varianza en una MAS hipotética del mismo tamaño. Se debe tener cuidado en determinar cuál definición se utiliza antes de interpretar los efectos de diseño presentados por el paquete. Si el DEFF es la razón de errores estándares, como es utilizado aquí, indica el aumento proporcional en el intervalo de confianza debido al uso de una muestra compleja. Si DEFF es la razón de varianzas se interpreta como el aumento proporcional en el tamaño de muestra para dar la misma precisión que una MAS de un tamaño determinado.
3Note que, si el efecto de diseño DEFF es definido como la razón de varianzas entonces la ecuación 2 pasa a ser: N=1.962p(1-p)(DEFF)/d2.
4La razón de hogares con entrevista completa a hogares en la muestra es diferente a la tasa de respuesta para hogares. Esto es porque la tasa de respuesta para hogares excluye las viviendas desocupados del denominador. La razón incluye todos los hogares completos en el numerador y todos los hogares seleccionados más las viviendas desocupadas en el denominador.
Los enlaces a organizaciones no federales se ofrecen solamente como un servicio a nuestros usuarios. Estos enlaces no constituyen un respaldo de los CDC ni del gobierno federal a estas organizaciones o a sus programas, ni debe inferirse respaldo alguno. Los CDC no se hacen responsables por el contenido de las páginas web de organizaciones individuales que pueda encontrar en estos enlaces.
Reciba actualizaciones por correo electrónico
Para recibir actualizaciones de esta página, ingrese su correo electrónico:
Contáctenos:
- Centros para el Control y la Prevención de Enfermedades
1600 Clifton Rd
Atlanta, GA 30333 - 800-CDC-INFO
(800-232-4636)
TTY: (888) 232-6348
24 Horas/Todos los días - cdcinfo@cdc.gov