Una aplicación en el análisis de la importancia de las becas escolares






descargar 360.77 Kb.
títuloUna aplicación en el análisis de la importancia de las becas escolares
página1/6
fecha de publicación04.07.2016
tamaño360.77 Kb.
tipoDocumentos
e.exam-10.com > Literatura > Documentos
  1   2   3   4   5   6
Método de imputación de los valores no observados.

Una aplicación en el análisis de la importancia de las becas escolares

Mauro Mediavilla

Universitat de València & IEB & GIPE

(Mauro.Mediavilla@uv.es)
Segunda versión: abril 2012
Abstract
La estimación de una base de datos con observaciones faltantes (missings values) genera un fenómeno de attrition que puede cambiar el grado de significatividad de las variables, disminuir la robustez en términos de eficiencia de los resultados obtenidos e incrementar la posibilidad de una mala especificación del modelo final estimado. El objetivo del trabajo es comprobar la importancia de la imputación de las observaciones faltantes mediante dos metodologías (la imputación a la media y la imputación múltiple) como vías para obtener estimaciones más robustas. Para ello se realiza un análisis comparativo empleando los resultados obtenidos en el análisis descriptivo y de regresión logística.
Los resultados muestran el incremento en la eficiencia de la estimación en el caso de las bases imputadas entendida como una reducción del error estándar y una mejora en los indicadores de bondad del ajuste. Por otra parte, los cambios en los signos y la significatividad de algunas variables observadas son un claro ejemplo de las diferencias que se pueden llegar a producir como consecuencia de estimar con bases de datos imputadas o no. Estos resultados pueden provocar la estimación de un modelo no correctamente especificado. La principal conclusión que se deriva es que resulta recomendable imputar aquellas bases de datos con observaciones faltantes y, dentro de las metodologías de imputación aquí presentadas, la imputación múltiple da muestra de una mayor eficiencia. Asimismo, y sobre todo para bases no muy amplias (menos de 1000 observaciones, por ejemplo), la imputación no sólo permite una mayor precisión en los coeficientes sino que evita interpretaciones erróneas de los fenómenos económicos analizados fruto de una base de datos, efectivamente estimada, que sólo parcialmente refleja a la población objetivo.
Palabras Clave: observaciones perdidas, imputación múltiple, eficiencia en la estimación.

1. Introducción
Habitualmente, la literatura empírica en el campo de la economía aplicada basa sus estimaciones poblaciones que sólo contienen las observaciones con información válida para todas las variables implicadas, eliminando toda aquella información considerada parcial. Como consecuencia de esta pérdida de información se pueden originar dos problemas: una pérdida de eficiencia y un incremento en la probabilidad de llegar a una mala especificación del modelo. En el primer caso, se puede generar un incremento de la varianza y en los desvíos estándar, además de aumentar la probabilidad de realizar estimaciones a partir de una muestra escasamente representativa de la población analizada. En este sentido, si bien la potencial disminución de las observaciones no tiene por qué ser un problema en si misma, la representatividad se ve afecta cuando este fenómeno influye no aleatoriamente en las variables con valores no observados. En el segundo caso, se considera que un modelo estimado con bases de datos con problemas de información podría inducir al investigador a escoger una estructura modelística que no responda a la realidad de la muestra incurriendo en dos posibles problemas: omisión de variables relevantes (infraespecificación) y/o inclusión de variables irrelevantes (sobreespecificación). Las consecuencias directas implican calcular estadísticos t y F distorsionados (Maddala, 1996).
En un intento por mejorar las estimaciones realizadas, algunos autores han sugerido que la manera más adecuada para disminuir estos potenciales problemas era substituyendo los valores perdidos mediante algunas de las técnicas de imputación desarrolladas (Schafer, 1999; Acock, 2005).
Con el objeto de comprobar las ventajas de la imputación, en el presente trabajo se desarrollaran tres metodologías de imputación y su aplicabilidad según sea el patrón seguido por las variables con valores perdidos. Asimismo, se plantea un caso práctico -relevancia de las becas en el logro educativo de los individuos en el nivel secundario postobligatorio en España- que permite al lector observar las principales diferencias obtenidas a partir de una misma base de datos original que se ve modificada según sea la opción de imputación escogida siguiendo la idea planteada por Allison (Allison, 2000).
Los resultados obtenidos en el análisis descriptivo y en la regresión logística posterior indican que, en relación con la no imputación, las metodologías de imputación de datos faltantes mejoran la eficiencia en la estimación y obtienen una mayor bondad del ajuste. Resulta trascendente, desde el punto de vista de la interpretación de los propios resultados, algunos cambios de signo y de significatividad ocurridos. Los mismos implican que las metodologías de imputación, y especialmente aquella que emplea la imputación múltiple, al trabajar con toda la información disponible mejoran los resultados obtenidos y permiten al investigador obtener resultados más robustos.
El trabajo se inicia con una breve revisión teórica de las diferentes metodologías de imputación haciendo hincapié en la importancia de conocer el patrón por el cual se generan los valores perdidos. En el capítulo 3, se introduce el caso práctico con el cual se comparan las tres metodologías de imputación utilizadas. En el capítulo 4, se realiza la comparación de las estimaciones resultantes y, en el capítulo final, se introducen las principales conclusiones.
2. Análisis de los datos perdidos
La presencia de información faltante es un problema constante con el que deben lidiar los investigadores en las diferentes áreas de la economía aplicada. La misma se puede originarse por un registro defectuoso de la información, por la falta de respuesta a las preguntas del encuestador (sea la misma total o parcial) o, directamente, por la ausencia natural de la información (Allison, 2001; Perez, 2004). Su tratamiento estadístico obliga a la selección de una metodología de imputación que debe ser el resultado natural de un análisis previo sobre el patrón por el cual se generan los valores perdidos.
2.1 Patrones de comportamiento de los valores perdidos
En primer lugar, se puede determinar que el patrón seguido por los valores perdidos es totalmente aleatorio (MCAR, Missing Completely At Random) o establecer un supuesto no tan restrictivo indicando que su generación ha sido de manera aleatoria (MAR, Missing At Random). En este caso, los valores perdidos pueden ser determinados a partir de otras variables observables siguiendo la siguiente forma funcional:
,
donde hace referencia a los parámetros desconocidos. Desafortunadamente, no existe un test que categóricamente indique si el supuesto MAR se satisface, por lo que se deben optar por vías indirectas de control como la prueba de las correlaciones dicotómicas, el test conjunto de aleatoriedad de Little o el análisis de sensibilidad de la estabilidad de los resultados, inferidos a partir de diferentes modelos de imputación (Perez, 2004; Carpenter, 2007). Por último, se puede suponer que los valores perdidos fueron generados de manera no aleatoria (MNAR, Missings Not At Random), por lo que seguirían un patrón sistémico específico (Rubin, 1976).
En el siguiente apartado se detallan las principales opciones de imputación existente en la literatura y su aplicabilidad según el patrón que se suponga que siguen los valores perdidos.
2.2. Diferentes metodologías de imputación1
2.2.1 Imputación Listwise (eliminación)
En primer lugar, la eliminación directa es una técnica comúnmente empleada en el análisis empírico, en la cual se elimina la fila donde existe un vacío de información. Con el objeto de obtener una base completa sólo con valores originariamente válidos se provoca una reducción de la base de datos inicial (Perez, 2004). En caso de suponer un patrón MCAR, la eliminación directa de las observaciones generaría una muestra más pequeña pero aún representativa, lo que permitiría una estimación no sesgada de los estimadores. Aún así, este proceso conllevaría una pérdida de información y un incremento en los errores estándar. No obstante, si la base de datos no sigue un patrón MCAR, tal eliminación introduce un sesgo a la hora de la estimación de los parámetros, que afecta la eficiencia de la propia estimación y podría inducir a una mala especificación del modelo utilizado (Howell, 2007).
2.2.2 Imputación determinística: imputación a la media
En segundo lugar, la imputación determinística se basa en la sustitución del dato perdido por la media de las observaciones válidas. Si bien su aplicación es muy sencilla, tiene como desventaja que modifica la distribución de la variable reduciendo artificialmente su varianza, efecto que no debe sorprender dado que se incrementa artificialmente la muestra sin agregar información (Howell, 2007). El fundamento teórico para su empleo está basado en el hecho de que ambos parámetros serían un valor esperado en el caso de una observación seleccionada al azar de una distribución normal. En el caso de valores perdidos con un patrón no estrictamente al azar (MAR o MNAR), esta metodología genera valores que reflejan escasamente los valores originales.
Existen algunas variantes en su aplicación que intentan ajustar mejor los valores imputados mediante esta técnica. En primer lugar, dividiendo la base de datos por secciones con diferente media y a cada registro perdido imputándosele la media correspondiente. En segundo lugar, creando una variable dummy por cada variable que contenga valores perdidos que indiquen si la fila contiene alguna variable imputada. Las mismas se introducen en las estimaciones posteriores y sus coeficientes estarían indicando la existencia de un efecto missing en la estimación del parámetro de interés (Acock, 2005). Ambas opciones se pueden aplicar simultáneamente. Asimismo, en caso de existir valores extremos en las variables a imputar se deberían sustituir los valores ausentes por la mediana, estadístico más robusto para este caso en particular2.
2.2.3 Imputación estocástica: imputación múltiple3
La técnica de imputación múltiple, si bien es conocida desde la década de 1970 (Rubin, 1976), su desarrollo y aplicación se ha ido extendiendo en los últimos años como consecuencia, principalmente, de dos factores. En primer lugar, a causa de su introducción en los programas econométricos que han permitido su generalización entre la comunidad académica (Little y Rubin, 1987; Rubin, 1996; Van Buuren et al., 1999; Royston, 2004, 2005; Reiter y Raghunathan, 2007). En segundo lugar, a partir de la publicación de diferentes estudios que han demostrado las ventajas de la imputación múltiple frente a los procedimientos tradicionales de tratamiento de los valores perdidos (Gómez y Palarea, 2003; Acock, 2005; Ambler y Omar, 2007).
Esta técnica, de característica estocástica, permite hacer un uso eficiente de los datos, obtener estimadores no sesgados y reflejar la incertidumbre que la norespuesta parcial introduce en la estimación de los parámetros (Rubin, 1996). Su aplicación se basa en sustituir los datos no observados por m>1 valores posibles simulados4. La aplicabilidad de este método se ha visto potenciada con la incorporación, en su esquema general, de los métodos de Monte Carlo basados en cadenas de Markov, conocidos como algoritmos MICE (Multiple imputation by chained equations)5,6. Asimismo, a la imputación múltiple se la considera una metodología flexible que permite trabajar con datos multivariados y con distribuciones monótonas o arbitrarias de los valores perdidos. Su aplicabilidad requiere que el patrón de distribución de los valores perdidos sea aleatoria (MCAR o MAR).
El proceso de imputación múltiple consta de tres etapas. En la primera, cada valor perdido se reemplaza por un conjunto de m>1 valores generados por simulación, con los que se crean m matrices de datos completas. Para generar estos valores posibles se debe establecer un método de estimación particular para cada variable a imputar a partir de sus características propias. En la segunda etapa, el investigador debe aplicar a cada matriz simulada el análisis deseado que se hubiese aplicado a la base original en caso de no haber contenido observaciones perdidas. Por último, se combinan los resultados obtenidos en cada matriz para obtener una estimación del parámetro estimado que, según Rubin (1987), se llevaría a cabo a partir del cálculo de la media aritmética.
El número óptimo de bases de datos simuladas (m) depende del porcentaje de información perdida. Si bien, hasta hace unos años se consideraba correcto el empleo de no más de 10 bases imputadas para aproximar la incertidumbre asociada a la información no existente (Schafer, 1999), la literatura actual considera óptimo realizar entre 3 y 20 imputaciones en caso de tener una baja fracción de información perdida (un 20% como máximo de valores perdidos) y hasta 50 imputaciones en caso de proporciones altas de datos no observados (Van Buuren et al., 1999; Kenward y Carpenter, 2007). Por su parte, STATA recomienda realizar un mínimo de 20 imputaciones con el objetivo de reducir los posibles errores muestrales generados a partir de las propias imputaciones (StataCorp, 2009).
Para su uso empírico, esta metodología ha sido trasladada a los diferentes paquetes econométricos a partir de los trabajos de Van Buuren et al. (1999) y la implementación directa, en el caso de STATA 10, a través del comando elaborado por Royston (Royston, 2004, 2005) llamado ice, el cual permite realizar las estimaciones a partir de una distribución arbitraria de los datos perdidos o mediante toda una familia de comandos mi que se incorporan a partir de la versión 11. Asimismo, se han desarrollado otras aproximaciones en el caso del programa SOLAS, SAS y S-Plus (Horton y Lipsitz, 2001).
3. Caso aplicado: evaluación de la relevancia de las becas en el logro educativo en España
3.1 Base de datos empleada: Encuesta de Condiciones de Vida (ECV)
La Encuesta de Condiciones de Vida (en adelante, ECV7) es una base de datos novedosa dirigida a hogares que viene a reemplazar el Panel de Hogares de la Unión Europea (PHOGUE), realizado durante el periodo 1994-2001. El objetivo fundamental que se persigue con la ECV es disponer de una fuente de referencia sobre estadísticas comparativas de la distribución de ingresos y la exclusión social en el ámbito europeo. Aunque los datos se refieren tanto a la dimensión transversal como a la longitudinal, se da prioridad a la producción de datos transversales de alta calidad en lo que respecta a la puntualidad y a la comparabilidad.
La componente longitudinal permite seguir en el tiempo a las mismas personas, estudiar los cambios que se producen en sus vidas cuando las condiciones y las políticas socioeconómicas se modifican, y cómo reaccionan a estos cambios. Formalmente, la ECV comienza en 2004 (si bien algunos países comenzaron más tarde y otros en 2003) y los ficheros de microdatos (tanto transversales como longitudinales) se generan con una periodicidad anual. A partir del año 2005 se van introduciendo módulos adicionales en la componente transversal sobre diferentes temas de especial interés.
Especificidades técnicas
La población de referencia son los hogares y todas las personas mayores de 16 años que se encuentren residiendo en un hogar dentro del territorio de los estados miembros en el momento de realizarse la encuesta. Quedan excluidas las personas que viven en hogares colectivos (residencias para la tercera edad, por ejemplo) o en algunos territorios que no son incorporados por sus propios países en la base de datos (territorios franceses fuera de sus fronteras europeas, por ejemplo). Los datos son recogidos por cada país mediante una institución que, en España, es el Instituto Nacional de Estadística (INE). Estrictamente, la población objeto de investigación (población objetivo) son las personas miembros de hogares privados que residen en viviendas familiares principales. Aunque las personas de todas las edades forman parte de la población objetivo no todas las personas son encuestadas exhaustivamente, ya que sólo son seleccionables en este caso, los miembros del hogar con 16 o más años el 31 de diciembre del año anterior a la fecha de la entrevista.

La base de datos proporciona de microdatos transversales y longitudinales con información personalizada sobre ingresos, educación, salud, ocupación, entre otros, que permite conocer las condiciones en que viven los encuestados y las posibles situaciones de pobreza y exclusión social. En el caso de los ingresos, es de especial interés para este trabajo la información relacionada con las transferencias dinerarias recibidas por el individuo en concepto de becas y, en el caso de las variables educativas, aquellas que permiten seguir su evolución dentro del sistema educativo.
Caso español
En el caso de España, la encuesta es de tipo “panel rotante”, es decir, al ser un panel se investiga a las mismas unidades a lo largo de los años pero, a diferencia del PHOGUE en que las unidades panel eran fijas a lo largo de los ocho años de duración del estudio, en la ECV las unidades panel se encuestan durante cuatro años y luego son reemplazadas. La muestra se compone de 4 submuestras panel, de forma que cada año una de ellas se sustituye por una nueva submuestra. Para la selección de cada submuestra se sigue un diseño bietápico con estratificación de las unidades de primera etapa. La primera etapa la forman las secciones censales y la segunda etapa las viviendas familiares principales. Dentro de ellas no se realiza submuestreo alguno, investigándose a todos los hogares que tienen su residencia habitual en las mismas. La selección de la muestra se realiza a partir del Padrón Municipal de habitantes de 2003 (INE) y, por ejemplo, en la ECV 2007 la muestra transversal para España cuenta con información de 12.329 hogares y 34.635 individuos.
3.2. Selección de la muestra
Para el análisis empírico se emplean los datos correspondientes a la Encuesta de Condiciones de Vida (ECV)8, elaborada por EUROSTAT con datos longitudinales para el período 20042006, publicada en 2009. Los datos disponibles hacen referencia a los países de la Unión Europea y en el caso español, la muestra comprende 58.740 individuos. Para el estudio de impacto de las becas y ayudas al estudio en el logro educativo de los estudiantes, la variable dependiente hace referencia al nivel educativo que posee la persona a los 19 años (véase tabla 1).
Tabla 1. Variables utilizadas en el análisis empírico

Tipo de variable

Variable utilizada

Descripción

Individuo

Nivel educativo a los 19 años

Variable que indica el nivel educativo (ISCED-97) a los 19 años en 2006 (a). Se estructura como una dummy = 1 si la persona tiene un nivel educativo igual o superior al de secundaria postobligatoria (Post-oblig_con_19).




Beca

Dummy Becario. Percepción de una o más becas/ayudas al estudio en el nivel secundario post-obligatorio en el período 2004-2005 (Beca).




Género

Dummy género. Toma el valor 1 si el individuo es mujer (Mujer).




“Efecto calendario”

Dummy mes de nacimiento. Toma el valor 1 si el individuo nació en el último trimestre del año (Último_Tri).




Estado de salud

Dummy enfermedad crónica. Toma el valor 1 si el individuo padece una enfermedad o incapacidad crónica (Enf_Crónica).




Orden entre hermanos

Variable que hace referencia al orden que ocupa el individuo en relación con sus hermanos (Ejemplo: el hermano mayor tiene un número de orden igual a 1) (Posición).

Padre/Madre

Nivel educativo padre

Máxima educación lograda por el padre (ISCED97) (Educ_Padre).




Nivel educativo madre

Máxima educación lograda por la madre (ISCED97) (Educ_Madre).




Actividad padre

Dummy activo. Toma el valor 1 si el individuo se encuentra activo (Activo_Padre).




Actividad madre

Dummy activo. Toma el valor 1 si el individuo se encuentra activo (Activo_Madre).

Hogar

Número de hermanos

Variable que indica la cantidad de hermanos existentes en el hogar (Nro_Hermanos).




Nivel de ingresos (I)

Quintil de ingresos disponibles equivalentes (Quintil) (b).




Nivel de ingresos (II)

Dummy dificultades económicas. Toma el valor 1 si el hogar declara tener problemas para asumir los gastos habituales del mes (Dificultad_Econ).




Régimen de la vivienda

Dummy propietario de la vivienda. Toma el valor 1 si los habitantes del hogar son propietarios de la misma (Vivienda_Prop).




Problemas estructurales

Dummy problemas estructurales en la vivienda. Toma el valor 1 si existen problemas estructurales en la vivienda (Prob_Estructural).




Dimensiones del hogar

Dummy si el hogar posee más de cuatro ambientes (Mas_4_Dep).




Grado de urbanización

Dummy si el individuo vive en una zona de baja o media urbanización. (Baja_Media_Urb).









  1   2   3   4   5   6

Añadir el documento a tu blog o sitio web

similar:

Una aplicación en el análisis de la importancia de las becas escolares iconObjetivos generales capacitar al alumno en el análisis, comprensión...

Una aplicación en el análisis de la importancia de las becas escolares iconANÁlisis de la importancia de las pymes en la economía mexicana

Una aplicación en el análisis de la importancia de las becas escolares iconResumen el presente trabajo de investigación, consiste en el análisis...

Una aplicación en el análisis de la importancia de las becas escolares iconReseña historica una somera introducción al modelo bajo estudio ubicándolo...

Una aplicación en el análisis de la importancia de las becas escolares iconDirectrices y criterios para la aplicación de una sociedad diversificada....

Una aplicación en el análisis de la importancia de las becas escolares iconBoletíN 011 Directora de Educación inauguró las actividades escolares

Una aplicación en el análisis de la importancia de las becas escolares iconResumen con el presente escrito el autor llama la atención sobre...

Una aplicación en el análisis de la importancia de las becas escolares iconResumen la necesidad de las empresas de innovar para poder ser competitivas...

Una aplicación en el análisis de la importancia de las becas escolares iconLa importancia de una estrategia crm en una empresa

Una aplicación en el análisis de la importancia de las becas escolares iconLas plantas de emergencia son de vital importancia dentro de una...




Economía


© 2015
contactos
e.exam-10.com