Nociones En El Diseño De Estudios
Existe un gran espectro de diseño de estudios desde análisis exploratorio con datos aleatorios, hasta diseño de estudios con datos alineados a preguntas específicas. El diseño de estudio abarca toda la preparación de la investigación basada en datos. Igualmente, existen campos de estudio donde ya se han consolidado metodologías de estudio de datos de las cuales podemos aprender muchísimas experiencias.
- Ensayos Médicos: Grandes estudios para la creación de medicamentos.
- Industria manufacturera: Estudios de fiabilidad y garantía.
- Opinión pública, que incluyen mucha información.
- Otras.
La tarea es encajar de manera adecuada el diseño del estudio, entendiendo que en ocasiones el diseño puede responder a varias categorías.
Estudios Exploratorios vs Estudios Confirmatorios
Los estudios exploratorios de investigación están fundados en recoger o recopilar datos sin tener una pregunta previa o una hipótesis ya diseñada, y están encaminados a indagar y generar un acercamiento especifico con los datos o una variable especifica, para ir conociendo poco a poco el camino y hacernos una idea de los mismos. Por el contrario, los estudios confirmatorios están alineados con los métodos de investigación científica, por lo que se pre-diseñan hipótesis falseables (son sometidas a diferentes pruebas que puedan refutarlas o confirmarlas) para luego recoger la información y validar si la hipótesis es correcta o no, este método tiene el objetivo de responder a la hipótesis por medio de todo el conjunto de datos.
En las hipótesis falseables se pueden ver:
Hipótesis Nula, que básicamente refleja la situación ideal de ese proceso (evidencia muestral) y se representa con Ho y es contraría al proceso de investigación.
Hipótesis Alterna, que resumen nuestras sospechas o inferencias previas sobre el proceso, se presenta con Ha.
Ambos estudios pueden ser informativos, sin embargo, hay que tener precaución por problemas de sobreajuste:
P-HACKING: Crear valores estadísticos inexistentes o artificiales por un mal uso de los datos, es decir, se hace una hipotesis: Los osos de goma evitan el dolor de cabeza, sin embargo, al evaluar los datos estadísticos nos damos cuenta que el p-valor (probabilidad de que un estudio calculado suceda) es menor al 5% (0.05) lo que evidencia que no hay significación estadística, pero el investigador decide manipular los datos, teniendo solo en cuenta aquellos que tienen un p-valor menor al 5% lo que hará en definitiva que el metodo llegue a un error.
Overfitting: En palabras coloquiales y como he podido absorber este conocimiento, es entendiendo que el modelo estadístico esta teniendo en cuenta otros datos (ruido que asocia a la incertidumbre) de sobremanera, lo que impide que el proceso no sea adecuado. Sin embargo, para mí este es un primer abordaje a este concepto.
Multiple testing: Se puede llegar al error cuando testeamos de manera incorrecta. Me encuentro entendiendo aún este elemento en estadística.
Estudios Comparativos vs Estudios No Comparativos
Los estudios No Comparativos tienen el objeto de predecir cantidades absolutas, por ejemplo, predecir el aumento de ingresos de una empresa en un año, o el aumento de valor de acciones de una empresa, o la valorización de un terreno, y por el contrario, el comparativo quiere tomar un elemento de referencia y ver las diferencias de los mismos en contextos diferentes, por ejemplo, la producción de manzanas por hectárea utilizando determinado fertilizante, la preferencia de los votantes por un candidato entre otras.
Estudios de Observación vs Estudios Experimentales
Las investigaciones de observaciones están sustentadas en la auto-selección de las unidades en grupos, y en las experimentales el investigador puede tratar a las unidades de diferentes maneras, pudiendo incluir elementos de manipulación o asignación de los sujetos a un tratamiento.
Para estudios de observación se podrían ver estudios que comparen el promedio de vida de las personas que fuman vs las que no, o el estado de una patología cancerosa en pulmón de una persona que fuma vs otra que no.
Para estudios de experimentación, se puede observar el rendimiento de una legumbre modificada genéticamente vs una legumbre sin modificar, dividiendo en las mismas parcelas cada espacio, y que aleatoriamente se siembre la semilla modificada y la que no, o también, se use en la misma semilla fertilizante y en otras aleatoriamente no.
En los experimentales existe un factor de aleatoriedad en los que se incluye un tratamiento diferente, y en las investigaciones por observación, los sujetos están expuestos a una condición (general) por lo tanto es más pasivo
Tipo de Hipótesis:
Comparación: Como su nombre indica, está comparando dos elementos, por ejemplo, ¿El salario medio en Europa es menor que el salario medio en EEUU?
Relación o Asociación: Asocia un elemento con un resultado ¿Beber frecuentemente alcohol está relacionado con padecer cáncer?
Causalidad: ¿Las visitas en una web es la causa de éxito en un proyecto?
P VALOR
El P-VALOR es la probabilidad error que existe en el proceso y bajo esta incertidumbre se puede elegir la hipótesis.
Si la incertidumbre es muy grande, significa que hay una mayor probabilidad de fallar en ese estudio.
P-VALOR = 0.08 significa que el estudio fallara 8 de cada 100 veces cada de vamos y es una incertidumbre demasiado alta.
Entonces nos vamos a quedar con el Ho si el valor es P-VALOR es mayor al 5% (0.05)
H1 > 0.05
o nos vamos a quedar con el Ha (hipótesis alternativa) si el P-VALOR es menor al 5%.
H1 < 0.05
Estudio de potencia
Permite evaluar si el diseño de un estudio puede producir resultados significativos, y su calculo depende del análisis que se va a ejecutar.
Sesgo
Las mediciones están sistemáticamente fuera del objetivo de investigación, o la muestra no es representativa en el foco de estudio, los sesgos pueden aparecer en todos los diseños de los estudios, pero los estudios observacionales tienden a ser más vulnerables a estos.
Conclusiones
Entre más datos más información se genera, pero también es muy importante saber cómo se recogen esos datos, porque si en una investigación se obtienen muchos datos pero no se relacionan directamente con los focos de interés, pues los resultados no serán concluyentes. Igualmente, durante los procesos del diseño de estudios deben tenerse en cuenta los posibles errores y el sesgo que aporta o puede aportar el grupo investigador, con el fin de prevenir estos errores.