Estadística

ESTADÍSTICA

V.Abraira

Referencia bibliográfica

A.Pérez de Vargas, V.Abraira. Bioestadística. Centro de Estudios Ramón Areces. Madrid. 1996.

Definiciones

Conjunto de métodos científicos ligados a la toma, organización, recopilación, presentación y análisis de datos, tanto para la deducción de conclusiones como para tomar decisiones razonables de acuerdo con tales análisis.

Arte de la decisión en presencia de incertidumbre.

Ciencia que sirve para demostrar que dos personas han comido 1/2 pollo cada una, cuando en realidad una ha comido uno y la otra ninguno.

¿Por qué la estadística?

¿Usaron la estadística Galileo, Newton y Einstein?

En ciertas ciencias (Biología, Ciencias Humanas, algunos campos de la Física, ...) aparece el concepto de experimento aleatorio (experimento que repetido en las "mismas condiciones" no produce el mismo resultado) y asociado al mismo el de variable aleatoria.

Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo resultado) está caracterizada por un valor para cada condición.

Una variable aleatoria está caracterizada por la llamada función densidad de probabilidad, a partir de la cual se obtienen las probabilidades para sus posibles valores para cada condición.

Los objetivos de la investigación científica se pueden entender, de un modo muy general, en términos de encontrar y describir las variables de interés y las relaciones entre ellas, para el problema en estudio.

La estadística es la ciencia que estudia los métodos que permiten realizar este proceso para variables aleatorias. Estos métodos permiten resumir datos y acotar el papel de la casualidad (azar).

Se divide en dos áreas:

Estadística descriptiva: Trata de describir las variables aleatorias en las "muestras".

Estadística inductiva o inferencial: Trata de la generalización hacia las poblaciones de los resultados obtenidos en las muestras y de las condiciones bajo las cuales estas conclusiones son válidas. Se enfrenta básicamente con dos tipos de problemas:

Estimación, que puede ser puntual o por intervalos.

Contraste de hipótesis.

ESTADISTICA DESCRIPTIVA

La descripción completa de una variable aleatoria está dada por su función densidad de probabilidad (fdp).

Afortunadamente una gran cantidad de variables de muy diversos campos están adecuadamente descritas por unas pocas familias de fdps: binomial, Poisson, normal, gamma, etc.

Dentro de cada familia, cada fdp está caracterizada por unos pocos parámetros, típicamente dos: media y varianza.

Por tanto la descripción de una variable indicará la familia a que pertenece la fdp y los parámetros correspondientes.

Ejemplo: (hipotético) la concentración de glucosa en sangre en individuos no diabéticos, medida en mg/dl, es normal con media 98 y varianza 90.

El problema es ¿cómo averiguar la fdp de una variable de interés?

La familia, generalmente, se sabe por resultados de la teoría de la probabilidad, aunque, en cada caso, conviene verificarlo. Para conocer los parámetros se deberían conocer los resultados de todos los posibles experimentos (población: conjunto de todos los valores de una variable aleatoria). Generalmente la población es inaccesible, bien es infinita, o aunque finita suficientemente grande para ser inabordable. En consecuencia, se estudian muestras (subconjuntos de la población) que, en caso de ser aleatorias, permiten realizar estimaciones tanto de la familia como de los parámetros de las fdps.

Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la misma probabilidad.

Métodos gráficos de representación de muestras: El método gráfico más frecuente es el histograma, que puede adoptar distintas formas. Véanse algunos ejemplos.

Advertencias:

1ª Estos diagramas tienen un fin descriptivo: deben ser fáciles de leer.
2ª El convenio es que la frecuencia sea proporcional al área (es proporcional a la altura sólo si las barras tienen la misma anchura).
3ª Para fines comparativos es mejor usar frecuencias relativas.
4ª El número de clases (barras), cuando la variable no es cualitativa, no debe ser ni muy grande ni muy pequeño. Generalmente se recomiendan entre 5 y 20 clases de igual tamaño. Otro criterio es usar la raíz cuadrada del número de datos.
5ª Los límites de las clases no deben ser ambiguos, p.e. no deben coincidir con valores posibles de los datos (una cifra decimal más).