Predicción de la puntuación de Apgar

1. Introducción :

En este proyecto abordaremos datos sobre el estudio y el cálculo de la puntuación de Apgar en infantes recién nacidos.

El exámen de Apgar es el primer diagnóstico que se realiza a un recién nacido, en distintos periodos de tiempo. La primera y la segunda observación se realizan un minuto y cinco minutos posteriores al nacimiento del feto. Mediante este examen, se determina de la manera más rápida el estado físico y salud general del recién nacido como también si es que requiere de alguna intervención posterior al nacimiento.

Para lograr de manera exitosa una predicción de esta puntuación, se obtiene un dataset con los antecedentes socioeconómicos de ambos padres del infante, por lo que se busca alguna correlación entre las actividades diarias y malas prácticas de los padres frente a su descendencia.

A partir de las metodologías vistas en clases, se busca generar estadísticas y correlaciones relevantes a las costumbres pecaminosas de la sociedad y nuestra futura generación. De esta forma, abordaremos una postura crítica y disuasiva, con una finalidad de generar el cambio necesario para cuidar y preservar nuestro futuro.

La segunda postura frente a este trabajo es dar un mayor lapso temporal a los potencialmente padres. Esto quiere decir, a partir de nuestro trabajo se podrá identificar problemáticas en algún recién nacido, sin si quiera tener la etapa del embarazo completa. De manera más clara, conociendo los datos socioeconómicos, tales como ingreso, estrato social, estudios, escolaridad, empleo, hogar geográfico, por mencionar algunos, se llegará a una noción del estado de salud de una futura guagua.

La problemática que se presenta en un inicio es la incertidumbre de la generalización de nuestras predicciones acerca del examen de Apgar. Si bien, se logrará predecir esta puntuación en base a numerosos factores, ¿qué tan generalizable es la salud de un recién nacido? ¿Se puede concluir al respecto de su vida completa? O ¿sólo es una advertencia al momento de dar a luz? ¿Se podrán tomar decisiones como por ejemplo, no tener un bebé porque existe conocimiento que nacerá con algún defecto? Siendo esta la gran problemática, nos enfocaremos en estudiar relaciones del estado de salud inicial de un bebé con los aspectos socio-económicos de los padres, para posteriormente relacionar la puntuación de Apgar con la calidad de vida de una persona.

2. Descripción de los datos :

Atributos con los que trabajaremos:

    * OCNTYPOP: Población del sector geográfico de la persona en medición.
    * BFacil3: Institución en donde se dio el parto.*
               Posibles valores: Hospital, ~Hospital, No se sabe.
    * Mager14: Escala de edad de la madre en intervalos pequeños.
    * Mager9: Escala de edad de la madre en intervalos generales.
    * MRACEHISP: Raza de la madre según origen Hispáno.
                Algunos valores: Mexicana, Puerto Riqueña, Cubana, América del centro/sur
    * MAR: Estatus de matrimonio. Valores: Sí, No, No se sabe.
    *MEDUC: Escolaridad de la madre.
    *CIG_REC: Dato que representa si la madre fuma o no.
    *APGAR5: Puntuación Apgar del recién nacido. Este es el valor que deseamos predecir.
    *Sex: Género del recién nacido.

3.Exploración inicial:

In [23]:
    import pandas as pd
    df2=pd.read_csv("nchs_birth_2011.csv")
    cnt = df2.count()
    print (cnt)
/home/marco/anaconda2/envs/py36/lib/python3.6/site-packages/IPython/core/interactiveshell.py:2717: DtypeWarning: Columns (27) have mixed types. Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)
FILLER1           41130
REVISION          41130
FILLER2           41130
DOB_YY            41130
DOB_MM            41130
FILLER3           41130
DOB_WK            41130
OTERR             41130
FILLER4           41130
OCNTY             41130
OCNTYPOP          41130
BFACIL            41130
UBFACIL           41130
FILLER5           41130
BFACIL3           41130
FILLER6           41130
MAGE_IMPFLG       41130
MAGE_REPFLG       41130
MAGER             41130
MAGER14           41130
MAGER9            41130
MBCNTRY           41130
FILLER7           41130
MRTERR            41130
FILLER8           41130
MRCNTY            41130
FILLER9           41130
RCNTY_POP         41130
FILLER10          41130
RECTYPE           41130
                  ...  
F_URF_ECLAMP      41130
FILLER70          41130
F_UOB_INDUCT      41130
FILLER71          41130
F_UOB_TOCOL       41130
FILLER72          41130
F_ULD_MECONIUM    41130
FILLER73          41130
F_ULD_PRECIP      41130
FILLER74          41130
F_ULD_BREECH      41130
FILLER75          41130
F_U_VAGINAL       41130
F_U_VBAC          41130
F_U_PRIMAC        41130
F_U_REPEAC        41130
F_U_FORCEP        41130
F_U_VACUUM        41130
FILLER76          41130
F_UCA_ANEN        41130
F_UCA_SPINA       41130
FILLER77          41130
F_UCA_OMPHALO     41130
FILLER78          41130
F_UCA_CLEFTLP     41130
FILLER79          41130
F_UCA_HERNIA      41130
FILLER80          41130
F_UCA_DOWNS       41130
FILLER81          41130
Length: 314, dtype: int64

Como se puede observar el dataset contiene 314 atributos y 41130 tuplas. Se redimensionó quitando los atributos que no serían importantes para nuestro estudio como ser los datos del bebé al nacer(peso, largo, dimensiones físicas) ya que la idea del proyecto es predecir el estado del bebé con los datos de los padres; y en ese momento no es posible saber más información del bebé.

Además este dataset contaba con la peculiaridad de que varios atributos como ser la edad, el estrato social, nivel de escolaridad, entre otros, aparecían en la tabla con diferentes escalas, por ejemplo:

El campo MAGER es la edad de la madre como tal, pero además está el campo MAGER9 que  también es la edad de la mamá  solo que están agrupadas en 9 clases (menos 15 años,15-19 años,20-24 años, …) , igual está MAGER14 (edad de la madre en 14 clases) por lo que solo se considera uno de estos campos, ya que son el mismo atributo en un escalado diferente. 
In [4]:
    import pandas as pd
    df1=pd.read_csv("reducción .csv")
    cnt = df1.count()
    print("Campos Finales")
    print (cnt)
Campos Finales
OCNTY        41130
OCNTYPOP     41130
BFACIL3      41130
MAGER14      41130
MAGER9       41130
MRACEHISP    41130
MAR          41130
MEDUC        41130
CIG_REC      41130
APGAR5       41130
APGAR5R      41130
SEX          41130
dtype: int64

4.Estadísticas y Gráficos:

In [15]:
%matplotlib inline
import matplotlib.pyplot as plt
df1[(df1['APGAR5'] != 99)].groupby('MEDUC').mean().loc[:,['APGAR5']].plot()
plt.show()

Gráfico que muestra la relación entre la escolaridad de la madre y la medida del examen APGAR del bebé. Podemos observar a mayor escolaridad, más saludable nacen los bebés.

In [16]:
%matplotlib inline
import matplotlib.pyplot as plt
df1[(df1['APGAR5'] != 99)].groupby('MAGER9').mean().loc[:,['APGAR5']].plot()
plt.show()

Gráfico que muestra que entre los 15 a 34 años de edad de la madre, aumenta la puntuación de Apgar, sin embargo en el intervalo de 35 a 44 años, la puntuación disminuye considerablemente y finalmente retoma en el intervalo 45 a 50 años.

In [18]:
%matplotlib inline
import matplotlib.pyplot as plt
df1[(df1['APGAR5'] != 99)].groupby('MRACEHISP').mean().loc[:,['APGAR5']].plot()
plt.show()

Gráfico que muestra que las madres cubanas son las que dieron a luz a los bebes más saludables, y que las madres no hispanas negras son las tienen la peor calificación.

5.Trabajos Relacionados:

Objetivo

Evaluar si la puntuación de Apgar sigue siendo pertinente en la práctica contemporánea después de más de 50 años de amplio uso y evaluar el valor de la puntuación de Apgar en la predicción de la supervivencia infantil, expandiéndose desde el período neonatal hasta el post-neonatal.

Métodos

Se utilizó el conjunto de datos sobre nacimientos vivos y mortalidad infantil, que incluía 25.168.052 nacimientos únicos y 768.305 partos gemelos. El resultado del interés fue la muerte del bebé dentro de un año después del nacimiento. Se utilizó el modelo de riesgo proporcional de Cox para estimar la razón de riesgo de mortalidad infantil con diferentes puntuaciones de Apgar.

Resultados

Entre los nacimientos con una puntuación de Apgar muy baja a los cinco minutos (1-3), las tasas de mortalidad neonatal y post neonatal permanecieron altas hasta el término (≥ 37 semanas). Por otro lado, entre los nacimientos con alto puntaje de Apgar (≥7), la tasa de mortalidad neonatal y post neonatal disminuyó progresivamente con la edad gestacional. Los blancos no hispanos tuvieron una mortalidad neonatal consistentemente mayor que la de los no hispanos negros tanto en nacimientos prematuros como de término. Sin embargo, para la mortalidad post-neonatal, el negro tenía una tasa significativamente mayor que el blanco. El patrón de los cambios en la mortalidad neonatal y post-neonatal por puntuación de Apgar en nacimientos gemelos es esencialmente el mismo que en los nacimientos únicos.

Conclusiones

El sistema de puntuación de Apgar tiene un valor continuo para predecir los resultados adversos neonatales y posneonatales tanto en el término como en los prematuros, y es aplicable a gemelos y en varios grupos raciales o étnicos.

referencia: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3726736/