En esta oportunidad se presenta una de las disciplinas de las matemáticas.
La estadística (la forma femenina del término alemán Statistik, derivado a su vez del italiano statista, "hombre de Estado"),1 es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo leyes de probabilidad
. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal. En ocasiones, las ciencias fácticas necesitan utilizar técnicas estadísticas durante su proceso de investigación factual, con el fin de obtener nuevos conocimientos basados en la experimentación y en la observación. En estos casos, la aplicación de la estadística permite el análisis de datos provenientes de una muestra representativa, que busca explicar las correlaciones y dependencias de un fenómeno físico o natural, de ocurrencia en forma aleatoria o condicional.
La estadística es útil para una amplia variedad de ciencias fácticas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Además, se usa en áreas de negocios o instituciones gubernamentales con el objetivo de describir el conjunto de datos obtenidos para la toma de decisiones, o bien para realizar generalizaciones sobre las características observadas.
En la actualidad, la estadística aplicada a las ciencias fácticas permite estudiar una determinada población a partir de la recopilación de información, el análisis de datos y la interpretación de resultados. Del mismo modo, también es una ciencia esencial para el estudio cuantitativo de los fenómenos de masa o colectivos.
La estadística se divide en dos grandes áreas:
Estadística descriptiva: Se dedica a la descripción, visualización y resumen de datos originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o gráficamente. Su objetivo es organizar y describir las características sobre un conjunto de datos con el propósito de facilitar su aplicación, generalmente con el apoyo de gráficas, tablas o medidas numéricas.
Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar.
Ejemplos gráficos son: histograma, pirámide poblacional, gráfico circular, entre otros.
Estadística inferencial: Se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas sí/no (prueba de hipótesis), estimaciones de unas características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen análisis de varianza, series de tiempo y minería de datos. Su objetivo es obtener conclusiones útiles para lograr hacer deducciones acerca de la totalidad de todas las observaciones hechas, basándose en la información numérica.
Ambas ramas (descriptiva e inferencial) se utilizan en la estadística aplicada. La estadística inferencial, por su parte, se divide en estadística paramétrica y estadística no paramétrica.
Existe también una disciplina llamada estadística matemática que establece las bases teóricas de las técnicas estadísticas. La palabra «estadísticas» se refiere al resumen de resultados estadísticos, habitualmente descriptivos, como en estadísticas económicas, estadísticas criminales, etcétera.
Origen
El término alemán Statistik, introducido originalmente por Gottfried Achenwall en 1749, se refería al análisis de datos del Estado, es decir, la «ciencia del Estado» (o más bien, de la ciudad-estado). También se llamó aritmética política de acuerdo con la traducción literal del inglés. No fue hasta el siglo XIX cuando el término estadística adquirió el significado de recolectar y clasificar datos. Este concepto fue introducido por el militar británico sir John Sinclair (1754-1835).
En su origen, por tanto, la estadística estuvo asociada a los Estados o ciudades libres, para ser utilizados por el gobierno y cuerpos administrativos (a menudo centralizados). La colección de datos acerca de estados y localidades continúa ampliamente a través de los servicios de estadística nacionales e internacionales. En particular, los censos comenzaron a suministrar información regular acerca de la población de cada país. Así pues, los datos estadísticos se referían originalmente a los datos demográficos de una ciudad o Estado determinados. Y es por ello que en la clasificación decimal de Melvil Dewey, empleada en las bibliotecas, todas las obras sobre estadística se encuentran ubicadas al lado de las obras de o sobre la demografía.
Ya se utilizaban representaciones gráficas y otras medidas en pieles, rocas, palos de madera y paredes de cuevas para controlar el número de personas, animales o ciertas mercancías. Hacia el año 3000 a. C. los babilonios usaban ya pequeños envases moldeados de arcilla para recopilar datos sobre la producción agrícola y de los géneros vendidos o cambiados. Los egipcios analizaban los datos de la población y la renta del país mucho antes de construir las pirámides en el siglo XI a. C. Los libros bíblicos de Números y Crónicas incluyen en algunas partes trabajos de estadística. El primero contiene dos censos de la población de la Tierra de Israel y el segundo describe el bienestar material de las diversas tribus judías. En China existían registros numéricos similares con anterioridad al año 2000 a. C. Los antiguos griegos realizaban censos cuya información se utilizaba hacia el 594 a. C. para cobrar impuestos.
En Egipto: La estadística comienza con la Dinastía I, en el año 3050 a. C. Los faraones ordenaban la realización de censos con la finalidad de obtener los datos sobre tierras y riquezas para poder planificar la construcción de las pirámides.
En China: Año 2238 a. C. el emperador Yao elabora un censo general sobre la actividad agrícola, industrial y comercial.
En la Antigua Grecia: Se realizaron censos para cuantificar la distribución y posesión de la tierra y otras riquezas, organizar el servicio militar y determinar el derecho al voto.
En la Antigua Roma: Durante el Imperio romano se establecieron registros de nacimientos y defunciones, y se elaboraron estudios sobre los ciudadanos, sus tierras y sus riquezas.
En México: Año 1116, durante la segunda migración de las tribus chichimecas, el rey Xólotl ordenó que fueran censados los súbditos.
En el Oriente Medio, bajo el dominio sumerio, Babilonia tenía casi 6000 habitantes. Se encontraron en ella tablillas de arcilla que registraban los negocios y asuntos legales de la ciudad.
El censo en el pueblo judío sirvió, además de propósitos militares, para calcular el monto de los ingresos del templo.
En la Edad Media
Artículo principal: Edad Media
Durante la Edad Media, la estadística no presentó grandes avances, pero destaca el trabajo de Isidoro de Sevilla, quien recopiló y clasificó datos de diversa naturaleza cuyos resultados se publicaron en la obra Originum sive Etymologiarum.
En la Edad Moderna
Artículo principal: Edad Moderna
En España, destacan: el censo de Pecheros (1528), el de los Obispos (1587), el Censo de los Millones (1591) y el Censo del conde de Aranda (1768).
En Inglaterra, la peste de la década de 1500 provocó un aumento en la contabilización de los datos sobre defunciones y nacimientos.
Orígenes en probabilidad
Los métodos estadístico-matemáticos emergieron desde la teoría de probabilidad, la cual data desde la correspondencia entre Pascal y Pierre de Fermat (1654). Christian Huygens (1657) da el primer tratamiento científico que se conoce a la materia. El Ars coniectandi (póstumo, 1713) de Jakob Bernoulli y la Doctrina de posibilidades (1718) de Abraham de Moivre estudiaron la materia como una rama de las matemáticas.3 En la era moderna, el trabajo de Kolmogórov ha sido un pilar en la formulación del modelo fundamental de la Teoría de Probabilidades, el cual es usado a través de la estadística.
Pierre-Simon Laplace (1774) hace el primer intento de deducir una regla para la combinación de observaciones desde los principios de la teoría de probabilidades. Laplace representó la Ley de probabilidades de errores mediante una curva y dedujo una fórmula para la media de tres observaciones. También, en 1871, obtiene la fórmula para la ley de facilidad del error (término introducido por Lagrange, 1744) pero con ecuaciones inmanejables. Daniel Bernoulli (1778) introduce el principio del máximo producto de las probabilidades de un sistema de errores concurrentes.
Siglo XX
Karl Pearson, un fundador de la estadística matemática.
El campo moderno de la estadística se emergió a los principios del siglo XX dirigida por la obra de Francis Galton y Karl Pearson, quienes transformaron la estadística a convertirse en una disciplina matemática rigurosa usada por análisis, no solamente en la ciencia sino en la manufactura y la política. Las contribuciones de Galton incluyen los conceptos de desviación típica, correlación, análisis de la regresión y la aplicación de estos métodos al estudio de la variedad de características —la altura, el peso entre otros—.4 Pearson desarrolló el coeficiente de correlación de Pearson, definió como un momento-producto,5 el método de momentos por caber las distribuciones a las muestras y la distribuciones de Pearson, entre otras cosas.6 Galton y Pearson se fundaron Biometrika como su primera revista de la estadística matemática y la bioestadística (en aquel entonces conocida como la biometría). Pearson también fundó el primer departamento de estadística en University College de Londres.7
Durante el siglo XX, la creación de instrumentos precisos para asuntos de salud pública (epidemiología, bioestadística, etc.) y propósitos económicos y sociales (tasa de desempleo, econometría, etc.) necesitó de avances sustanciales en las prácticas estadísticas.
La segunda ola de los años 1910 y 1920
se inició William Gosset, y se culminó en la obra de Ronald Fisher, quién escribió los libros de texto que iban a definir la disciplina académica en universidades en todos lados del mundo. Sus publicaciones más importantes fueron su papel de 1918 The Correlation between Relatives on the Supposition of Mendelian Inheritance, lo cual era el primero en usar el término estadístico varianza, su obra clásica de 1925 Statistical Methods for Research Workers y su 1935 The Design of Experiments,891011 donde desarrolló los modelos rigurosos de diseño experimental. Originó el concepto de suficiencia y la información de Fisher.12 En su libro de 1930 The Genetical Theory of Natural Selection aplicó la estadística a varios conceptos en la biología como el Principio de Fisher13 (sobre el ratio de sexo), el Fisherian runaway,141516171819 un concepto en la selección sexual sobre una realimentación positiva efecto hallado en la evolución.
Estado actual
Hoy el uso de la estadística se ha extendido más allá de sus orígenes como un servicio al Estado o al gobierno. Personas y organizaciones usan la estadística para entender datos y tomar decisiones en ciencias naturales y sociales, medicina, negocios y otras áreas. La estadística es una sub-área de las matemáticas cuya aplicación en el ámbito de las ciencias fácticas es útil para el avance del conocimiento científico factual, considerándose como una ciencia formal «aliada» de la ciencia fáctica. Muchas universidades tienen departamentos académicos de matemáticas (con especialización en estadística) o de estadística separadamente. La estadística se enseña en departamentos tan diversos como psicología, sociología, educación y salud pública.20
Métodos estadísticos
Estudios experimentales y observacionales
Un objetivo común para un proyecto de investigación es investigar la causalidad, y en particular extraer una conclusión en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios para estudiar causalidad: estudios experimentales y observacionales. En ambos tipos de estudios se observa el efecto de una o varias variables independientes en el comportamiento de una variable dependiente. La diferencia entre los dos tipos es la forma en la que el estudio es conducido. Cada uno de ellos puede ser muy efectivo y la estadística juega un papel muy importante en el análisis de la información.
Niveles de medición
Hay cuatro tipos de mediciones o escalas de medición en estadística: niveles de medición (nominal, ordinal, intervalo y razón). Tienen diferentes grados de uso en la investigación estadística. Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos. Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado (como las mediciones de coeficiente intelectual o de la temperatura en grados Celsius). Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. Las medidas nominales no tienen ningún rango interpretable entre sus valores.
La escala de medida nominal, puede considerarse la escala de nivel más bajo. Se trata de agrupar objetos en clases. La escala ordinal, por su parte, recurre a la propiedad de «orden» de los números. La escala de intervalos iguales está caracterizada por una unidad de medida común y constante. Es importante destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta escala, además de poseer las características de la escala ordinal, permite determinar la magnitud de los intervalos (distancia) entre todos los elementos de la escala. La escala de coeficientes o Razones es el nivel de medida más elevado y se diferencia de las escalas de intervalos iguales únicamente por poseer un punto cero propio como origen; es decir que el valor cero de esta escala significa ausencia de la magnitud que estamos midiendo. Si se observa una carencia total de propiedad, se dispone de una unidad de medida para el efecto. A iguales diferencias entre los números asignados corresponden iguales diferencias en el grado de atributo presente en el objeto de estudio.
Técnicas de análisis estadístico
Algunas pruebas (tests) y procedimientos para la investigación de observaciones son:
análisis de frecuencia acumulada
análisis de regresión
análisis de varianza (ANOVA)
análisis factorial confirmatorio
análisis factorial exploratorio
correlación: coeficiente de correlación de Pearson y coeficiente de correlación de Spearman
frecuencia estadística
gráfica estadística
iconografía de las correlaciones
prueba de χ² o prueba de chi cuadrada o prueba de ji cuadrada
prueba de la diferencia menos significante de Fisher
prueba t de Student
U de Mann-Whitney
Lenguaje y simbología
Población y muestra
tica aplicada a las ciencias de la salud)
ciencias actuariales
cienciometría
confiabilidad estadística
control de calidad
cultura estadística
demografía
econometría (estadística aplicada a la economía)
estadística computacional
estadística de la educación, la enseñanza, y la formación
estadística de negocios
estadística del medio ambiente
estadística en comercialización
estadística en epidemiología
estadística en ingeniería
estadística en ciencias de la salud
estadística en medicina
estadística en medicina veterinaria y zootecnia
estadística en nutrición
estadística en agronomía
estadística en planificación
estadística en investigación
estadística en psicología (psicometría)
estadística en restauración de obras
estadística en literatura
estadística en astronomía (astroestadística)
estadística en antropología (antropometría)
estadística en historia
estadística espacial
estadística industrial
estadística militar
estadísticas de consultoría
estadísticas deportivas
estadísticas sociales
encuestas por muestreo
física estadística
geoestadística
geografía decisiones en situaciones de incertidumbre. En todas estas aplicaciones es una ciencia clave.
Computación estadística
El incremento rápido y sostenido en el poder de cálculo de la computación desde la segunda mitad del siglo XX ha tenido un sustancial impacto en la práctica de la ciencia estadística. Viejos modelos estadísticos fueron casi siempre de la clase de los modelos lineales. Ahora, complejos computadores junto con apropiados algoritmos numéricos han causado un renacer del interés en modelos no lineales (especialmente redes neuronales y árboles de decisión) y la creación de nuevos tipos tales como modelos lineales generalizados y modelos multinivel.
El incremento en el poder computacional también ha llevado al crecimiento en popularidad de métodos intensivos computacionalmente basados en remuestreo, tales como tests de permutación y de bootstrap, mientras técnicas como el muestreo de Gibbs han hecho los métodos bayesianos más accesibles. La revolución en computadores tiene implicaciones en el futuro de la estadística, con un nuevo énfasis en estadísticas «experimentales» y «empíricas». Un gran número de paquetes estadísticos está ahora disponible para los investigadores. Los sistemas dinámicos y teoría del caos, desde hace una década, empezaron a interesar en la comunidad hispana, pues en la anglosajona de Estados Unidos estaba ya establecida la «conducta caótica en sistemas dinámicos no lineales» con 350 libros para 1997 y empezaban algunos trabajos en los campos de las ciencias sociales y en aplicaciones de la física. También se estaba contemplando su uso en analítica.
Mal uso de la estadística
A veces hay una percepción de que el conocimiento estadístico es mal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli,21 es: «Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes y estadísticas». El popular libro How to lie with statistics (Cómo mentir con las estadísticas en la edición española) de Darrell Huff discute muchos casos de mal uso de la estadística, con énfasis en gráficas malinterpretadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden estar sesgados; por ejemplo, mediante la eliminación selectiva de valores atípicos (outliers). Este puede ser el resultado tanto de fraudes como de sesgos no intencionados por parte de investigadores con escaso conocimiento estadístico (Darrel Huff22). Lawrence Lowell (decano de la Universidad de Harvard) escribió en 1909 que las estadísticas, «como algunos pasteles, son buenas si se sabe quién las hizo y se está seguro de los ingredientes». Por este motivo es fundamental que el análisis estadístico de datos sea realizado por profesionales cualificados, siendo cada vez más necesario que la estadística se convierta en una profesión regulada por el Estado.2
Algunos estudios contradicen resultados obtenidos previamente y la población comienza a dudar en la veracidad de tales estudios. Se podría leer que un estudio dice (por ejemplo) que «hacer X reduce la presión sanguínea», seguido por un estudio que dice que «hacer X no afecta la presión sanguínea», seguido por otro que dice que «hacer X incrementa la presión sanguínea». A menudo los estudios se hacen siguiendo diferentes metodologías, o estudios en muestras pequeñas que prometen resultados maravillosos que no son obtenibles en estudios de mayor tamaño. Sin embargo, muchos lectores no notan tales diferencias, y los medios de comunicación simplifican la información alrededor del estudio y la desconfianza del público comienza a crecer.