ESTADÍSTICA EN FENÓMENOS NATURALES Y PROCESOS SOCIALES: QUINTA SEMANA DE ACTIVIDADES

SINDICATO NACIONAL DE TRABAJADORES DEL SEGURO SOCIAL

COMISIÒN NACIONAL DE CAPACITACIÒN TÈCNICA Y SUBPROFESIONAL

CENTRO NACIONAL DE EDUCACIÒN CAPACITACIÒN SINDICAL.

ESTADÍSTICA EN FENÓMENOS NATURALES Y PROCESOS SOCIALES

Plan de Trabajo de la quinta semana

EXAMEN FINAL

Distribución de probabilidad de Poisson

(Condiciones y características)

La Distribución de Poisson es una distribución de probabilidad discreta que expresa a partir de una frecuencia de ocurrencia media, la probabilidad de que ocurra un determinado número de eventos durante cierto período de tiempo. Concretamente se especializa en la probabilidad de ocurrencia de sucesos con probabilidades muy pequeñas o sucesos "raros".

Características:

En este tipo de experimentos los éxitos buscados son expresados por unidad de área, tiempo, pieza, etc, etc,:

- # de defectos de una tela por m²

- # de aviones que aterrizan en un aeropuerto por día, hora, minuto, etc, etc.

- # de bacterias por cm² de cultivo

- # de llamadas telefónicas a un conmutador por hora, minuto, etc, etc.

- # de llegadas de embarcaciones a un puerto por día, semana o mes, etc, etc.

Para determinar la probabilidad de que ocurran x éxitos por unidad de tiempo, área, o producto, la fórmula a utilizar sería:

FORMULA DE POISSON

x _入
P(X, λ )  =   λ   e
x  !

donde: x ! factorial

5! = 5.4.3.2.1 = 120

3! = 3.2.1 = 6

p(x, λ ) = probabilidad de que ocurran x éxitos, cuando el número promedio de ocurrencia de ellos es λ.
x = variable que nos denota el número de éxitos que se desea que ocurra

λ = media o promedio de éxitos por unidad de tiempo, área o producto

e = 2.718

Hay que hacer notar que en esta distribución el número de éxitos que ocurren por unidad de tiempo, área o producto es totalmente al azar y que cada intervalo de tiempo es independiente de otro intervalo dado, así como cada área es independiente de otra y cada producto es independiente de otro.

Distribución de Poisson

Ejemplos:

Si un banco recibe en promedio 6 cheques sin fondo por día, ¿cuáles son las probabilidades de que reciba?: a) 4 cheques sin fondo en un día dado, b) 10 cheques sin fondos en cualquiera de dos días consecutivos.

Solución:

x = 4 (variable que nos define el número de cheques sin fondo que llegan al banco en un día cualquiera = 0, 1, 2, 3, )

λ = 6 cheques sin fondo por día

e = 2.718

x= 10 ( variable que nos define el número de cheques sin fondo que llegan al banco en dos días consecutivos = 0, 1, 2, 3, ...)

λ = 6 . 2 = 12, cheques sin fondo en promedio que llegan al banco en dos días consecutivos.

Nota: λ siempre debe de estar en función de x siempre, o dicho de otra forma, debe “hablar” de lo mismo que x.

En la inspección de hojalata producida por un proceso electrolítico continuo, se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar: a) una imperfección en 3 minutos b) al menos dos imperfecciones en 5 minutos c) cuando más una imperfección en 15 minutos.

Solución:

x = 1 (variable que nos define el número de imperfecciones en la hojalata por cada 3 minutos = 0, 1, 2, 3, )

λ = 0.2 x 3 = 0.6 imperfecciones en promedio por cada 3 minutos en la hojalata

x = 2, 3, 4.... (variable que nos define el número de imperfecciones en la hojalata por cada 5 minutos = 0, 1, 2, 3, ).

λ = 0.2 x 5 = 1 imperfección en promedio por cada 5 minutos en la hojalata

=1- (0.367918+0.367918) = 0.26416

x = 0 y 1 (variable que nos define el número de imperfecciones en la hojalata por cada 15 minutos = 0, 1, 2, 3, )

λ = 0.2 x 15 = 3 imperfecciones en promedio por cada 15 minutos en la hojalata

= 0.0498026 + 0.149408 = 0.1992106

ACTIVIDAD 12

Resuelve los siguientes ejercicios de probabilidad de distribución de Poisson, tu puedes porque eres el mejor. :

1.- En pruebas realizadas a un amortiguador para automóvil se encontró que el 0.04 presentaban fuga de aceite. Si se instalan 150 de estos amortiguadores, hallar la probabilidad de que,

a) 4 salgan defectuosos,

b) más de 5 tengan fuga de aceite.

c) de 3 a 6 amortiguadores salgan defectuosos.

d) Determine el promedio y la desviación estándar de amortiguadores con defectos.

La pregunta “b” debe sumar las probabilidades desde P(x=6) en adelante.

En la “c” debe sumar P(x=3) + P(x=4) + P(x=5) + P(x=6).

2.- Un ingeniero que labora en el departamento de control de calidad de una empresa eléctrica, inspecciona una muestra al azar de 200 alternadores de un lote. Si el 2% de los alternadores del lote están defectuosos. ¿Cuál es la probabilidad de que en la muestra¿:

a) ninguno esté defectuoso,

b) uno salga defectuoso,

c) al menos dos salgan defectuosos

d) más de tres estén con defectos

Para la pregunta “d” puede realizar

la siguiente operación:

1 – [P(x=0) + P(x=1) + P(x=2)]

3.- La probabilidad de que un CD de música dure al menos un año sin que falle es de 0.95, calcular la probabilidad de que en una muestra de 15,

a) 12 duren menos de un año,

b) a lo más 5 duren menos de un año,

c) al menos 2 duren menos de un año.

4.- Si 8 de 100 viviendas violan el código de construcción. ¿cuál es la probabilidad de que un inspector de viviendas, que selecciona aleatoriamente a 50 de ellas, descubra que:

a) ninguna de las casas viola el código de construcción

b) una viola el código de construcción

c) dos violan el código de construcción

d) al menos tres violan el código de construcción

Modelo de Regresiòn y de Correlaciòn Lineal, como medidas para describir la asociaciòn entre variables

Competencia.- Manejar la correlación entre dos variables ( x, y), para evaluar el grado de asociación entre las mismas, a través del coeficiente de correlación muestral de Pearson.

Correlaciòn Lineal entre dos variables (x, y).

Las gràficas de dispersiòn de dos variables, son instrumentos con los que se obtiene una imagen de la tendencia con la que los valores de las observaciones de (x, y) se relacionan, sin embargo tenemos que utilizar el coeficiente de correlaciòn muestral, el cual nos da una evaluaciòn numèrica de la tendencia del grado de asociación entre las dos variables en un conjunto de datos, el coeficiente de correlación muestral màs utilizado es el de Pearson.

COEFICIENTE DE CORRELACIÒN MUESTRAL DE PEARSON.

Este coeficiente es el más utilizado y mide la fuerza de una relaciòn lineal entre dos variables numéricas mediante el uso de las puntuaciones z, se basa en la suma de los productos de Z x y Z y para cada observaciòn en el conjunto de observaciones pareadas. su notaciòn algebraica es ∑ Zx Z y.. ( 0 ≤ r ≤ 1 )

El coeficiente de correlación muestral de Pearson ( r )

Se obtiene dividiendo r = ∑ Zx Z y

( n - 1 )

Ejemplo:
Las tasas de titulación, así como el costo en pesos invertidos por estudiante durante el último año en las 7 universidades públicas se registraron de la siguiente manera:

Universidad	Tasa de titulación (%) ( Y )	Gasto por estudiante ( X )
1	66.1	8,810
2	52.4	7,780
3	48.9	8,112
4	48.1	8,149
5	42.0	8,477
6	38.3	7,342
7	31.3	7,984

Total

∑ 327.1

∑ 56, 654

Si  x  representa el gasto por estudiante, así mismo y denota la tasa de graduación por año, entonces tenemos: desarrollo del algoritmo.

a) Calcular la media de de X, Y
___
X = 56, 654 / 7 = 8, 093.43      __
Y = 327.1 / 7 = 46.73

b) Calcular la desviación estándar de x, y (Sx, Sy).

Al valor de x así como de y, se le resta su media y

después se eleva al cuadrado, posteriormente se suman

los 7 valores y al total se divide entre n-1 ( 6) y al

resultado se le saca la raíz cuadrada.

   $s^2 = \frac{\displaystyle \sum_{i=1}^n \left( x_i - \overline{x} \right) ^ 2 }{n-1}$

Sx = 472.39   Desviación estandar Sy = 11.15

Para calcular el coeficiente de correlación, se empieza por el cálculo de las puntuaciones z para cada par (x, y) en el conjunto de datos.

Por ejemplo la primera observación es:

(8810, 66.1), (7780, 52.4), (8112,48.9), y así sucesivamente...., para representar el diagrama de dispersión.

Para calcular las puntuaciones Zx.Zy, se hace lo siguiente:

  zx = puntuación - media de x
Desviación estándar de x

Zx1 = 8810 - 8093.43 / 472.39 = 1.52   Zy1 = 66.1 - 46.73 / 11.15 = 1.74
  Zx2 = 7780 - 8093.43 / 472.39 = - 0.66 Zy2 = 52.4 - 46.73 / 11.15 =   0.51

Zx3 = 8112 - 8093.43 / 472.39 = 0.04 Zy3 = 48.9 - 46.73 / 11.15 = 0.20

Zx4 = 8149 - 8093.43 / 472.39 = 0.12 Zy4 = 48.1 - 46.73 / 11.15 = 0.12

Zx5 = 8477 - 8093.43 / 472.39 = 0.81 Zy5 = 42.0 - 46.73 / 11.15 = - 0.42

Zx6 = 7342 - 8093.43 / 472.39 =- 1.59 Zy6 = 38.3 - 46.73 / 11.15 = - 0.76

Zx7 = 7984 - 8093.43 / 472.39 =- 0.23 Zy7 = 31.3 - 46.73 / 11.15 = - 1.38

La siguiente tabla muestra las puntuaciones z, el producto Zx Z y para cada observación, así como la suma total de los productos
Zx Z y ( ∑ Zx Z y ):

Y	X	ZX	ZY	ZX. ZY
66.1	8,810	1.52	1.74	2.64
52.4	7,780	-0. 66	0.51	- 0.34
48.9	8,112	0.04	0.20	0.008
48.1	8,149	0.12	0.13	0.01
42.0	8,477	0.81	- 0.42	- 0.34
38.3	7,342	- 1.59	- 0.75	1. 20
31.3	7,984	- 0.23	- 1.38	0. 32
				∑ zx.zy = 3.52

El coeficiente de correlación ( r ) se calcula de la siguiente manera:

r = ∑ zx.zy = 3.52 = 3.52 / 6 = 0. 587

    n -1     7-1

Con este valor podemos concluir que existe una moderada relación lineal positiva entre el gasto por estudiante y la tasa de titulación en estas 7 universidades.

  Propiedades del coeficiente de correlación (r)

1.- El valor de ( r ) no depende de la unidad de medida de cada variable; así, si X es la altura, la correspondiente puntuación Z es la misma; es decir, que si la altura se expresa en centímetros, metros o kilómetros el valor del coeficiente de correlación no se afecta.

2.- Existe asociación débil si:
a). El coeficiente de correlación se encuentra entre los valores de:  0.5 y -0.5
Existe asociación moderada si:
a). El coeficiente de correlación se encuentra entre los valores de: 0.5 y 0.8 o - 0.5 y - 0.8
Existe asociación fuerte si:
a) El coeficiente de correlación se encuentra entre los valores de: 0.8 y 1.0 o - 0.8 y -1.0

  ACTIVIDAD 13

  Actividad para resolver:

Tenemos las siguientes puntuaciones en las variables X (inteligencia) e Y (rendimiento académico):

X: 105, 116, 103, 124, 137, 126, 112, 129, 118, y 105
Y: 4, 8, 2, 7, 9, 9, 3, 10, 7 y 6

  De acuerdo a los datos proporcionados Calcular el coeficiente de correlación de Pearson, para determinar que grado de asociación o relación existe entre las dos variables ( fuerte, moderada o débil ). ¡ tu puedes porque eres el mejor! :)

  Cálculo del coeficiente de correlación lineal de Pearson

ACTIVIDAD 14
Después de ver el ejercicio anterior y el vídeo, resolver la página 131 de tu libro de texto, tu puedes porque eres el mejor.

Regresión lineal
ajuste de una recta a los datos bivariados.

Características de las relaciones lineales.

y = a + bx
b = Se denomina pendiente de la recta y representa la cantidad en que se incrementa la variable Y, cuando X se incrementa en una unidad.

a = Es la intersección de la recta con el eje Y, representa la altura que toma la linea por encima del valor de x = 0.

Ajuste de una linea recta por el principio de mínimos cuadrados.

Para calcular el ajuste global de una linea (bondad de ajuste), en un conjunto de (n) mediciones, necesitamos una manera de combinar las (n) desviaciones en una sola medida de ajuste. Este método consiste en tomar los cuadrados de las desviaciones, para obtener un número no negativo y luego considerar la suma de los cuadrados de estas desviaciones.

La medida más utilizada de la bondad de ajuste de una linea de un conjunto de datos, se representa como: (x1, y1), (x2 , y2),...(xn , yn)

Suma de los cuadrados de las desviaciones alrededor de la linea

∑ [ y - (a + bx)]² = [ y1 - (a + bx1)]² + [ y2 - (a + bx2)]² + .....+ [ yn - (a + bxn)]²

La linea de mínimos cuadrados, también llamada linea de regresión muestral, es la que minimiza la suma de los cuadrados de las desviaciones.

Fórmulas para calcular la pendiente (b) y la intersección de la linea de mínimos cuadrados (a):

    PENDIENTE INTERSECCIÓN

_ _
    b = ∑ (x - x)(y - y) a = ȳ - b
  ∑ ( x -  )²

Ecuación de mínimos cuadrados:

y^ = a + bx

Donde y^ se lee y gorro, que indica que es la predicción de y, que resulta de sustituir un valor particular de x en la ecuación.

Fórmula para calcular la pendiente y la intersección a mano.

Fórmula para calcular la pendiente (b) de la linea de mínimos cuadrados.

        ∑ xy - (∑ x)(∑y )
b = ________ n____
∑  x² - (∑x)²

Ejemplo: 24 ratones fueron inyectados con células cancerígenas y se dividieron en 3 grupos de tratamiento, un grupo de 8 ratones tomó agua potable normal, el segundo grupo bebió agua potable complementada con 0.1% de estracto de fruta de granada (EFG), y el tercer grupo recibió agua potable complementada con 0.2% de EFG. el volumen tumoral promedio de los ratones en cada grupo se registró en varios puntos en el tiempo.

Los datos para las variables son:

x = número de días después de la inyección de las células cancerosas en los ratones que recibieron el agua potable normal.

y = el volumen promedio del tumor en mm³

X	11	15	19	23	27
Y	150	270	450	580	740

La gráfica de dispersión muestra que la relación entre el número de días después de la inyección de las células cancerosas y el volumen tumoral promedio, se representa mediante una linea recta.

x	y	x²	y²	xy
11	150	121	22 500	1 650
15	270	225	72 900	4 050
19	450	361	202 500	8 550
23	580	529	336 400	13 340
27	740	729	547 600	19 980
Total 95
∑ x = 95	∑ y = 2190	∑ x² = 1965	∑ Y²=1 181900	∑XY= 47 570

 = 95 / 5 = 19      ȳ = 2190 / 5 = 438   (∑x)² = (95)² = 9 025

Sustituyendo valores en la fórmula obtenemos el valor de la pendiente.

        ∑ xy - (∑ x)(∑y ) 47 570 - (95)(2190)
  b = ________ n____    = _____________5____
∑  x² - (∑x)² 1965 -   (95)²

n 5

b = 47 570 - 208 050 47 570 - 41 610 = 5 960 = 37.25

5 1 965 - 1 805 160

__________________ =

1 965 - 9 025
5

Intersección

  a = ȳ - b

Sustituyendo valores en esta fórmula tenemos:

a = 438 - (37.25)(19)
a = 438 - 707. 75
a = - 269. 75

La linea de mínimos cuadrados es entonces:

    y^ = a + bx

    y^ = - 269.75 + 37.25 x

Si queremos predecir el volumen promedio del tumor 20 días después de la inyección de las células cancerosas, sustituimos el valor de x por 20 en la linea de mínimos cuadrados:

   y^ = - 269.75 + 37.25 x
  y^ = - 269.75 + 37.25 (20) = 475.25 mm³

Podemos hacer predicciones para el rango comprendido entre 11 a 27

ACTIVIDAD 15
Actividad para resolver:

Con los datos de la siguiente tabla sobre la altura en centímetros (X) y los pesos en kilogramos (Y) de una muestra de 8 estudiantes varones tomada al azar del segundo semestre de la preparatoria , resuelve lo que se te pide utilizando la linea de mínimos cuadrados.

X	152	157	162	167	173	178	182	188
Y	56	61	67	72	70	72	83	92

Elaborar:

1.- El diagrama de dispersión.

2) Ajustar la recta de mínimos cuadrados para Y como variable dependiente empleando las fórmulas de la pendiente y de la intersección. Recuerda que debes entregar tu actividad en hoja anexa, ¡ tu puedes porque eres el mejor! :)

b  =  0.86

a  =   - 74.46

La linea de mínimos cuadrados es:

  y^ = - 74.46 + 0.86 x

Regresión lineal a través de mínimos cuadrados

ACTIVIDAD 16
Después de ver el ejemplo anterior y el vídeo, resolver la página 141 de tu libro de texto, tu puedes porque eres el mejor.

ESTADÍSTICA EN FENÓMENOS NATURALES Y PROCESOS SOCIALES

viernes, 15 de enero de 2021

QUINTA SEMANA DE ACTIVIDADES