Una columna con datos uniformemente o normalmente distribuidos se puede escalar de una vez con el método Min-max, y dejarlo en intervalo ...

Manuel Espitia

Manuel Espitia

Pregunta
studenthace 4 años

Una columna con datos uniformemente o normalmente distribuidos se puede escalar de una vez con el método Min-max, y dejarlo en intervalo -1,1? Y una columna con datos sesgados hay que transformarla a una normal o uniforme con la función lambda y la tan(h), para luego escalarla al intervalo -1,1? Es así?

7 respuestas
para escribir tu comentario
    Esmeralda Palacios

    Esmeralda Palacios

    studenthace 4 años

    gracias Alex por resolver nuestras dudas y por la recomendación del curso y del libro

    Manuel Espitia

    Manuel Espitia

    studenthace 4 años

    Genial, gracias Alex!!

    Miguel Rodríguez

    Miguel Rodríguez

    studenthace 4 años
    • Como lo menciona el profesor, también se puede usar una función sigmoid, es muy parecida a tanh, en el Curso Profesional de Machine Learning con Scikit-Learn se tocan esos temas de escalamiento, y tratamiento de datos sesgados, depende el problema que estés tratando es el tratamiento que debas darle.

    • También puedes consultar el libro "Hands-on machine learning", en el capitulo 2 puedes ver como es el proceso de tratamiento de datos.

    Manuel Espitia

    Manuel Espitia

    studenthace 4 años

    Gracias Alex. Había entendido que eran dos procedimientos diferentes. El uso de tanh(h) se hace siempre que una distribución sea sesgada? Sirve para encontrar correlaciones también? Donde puedo encontrar un tutorial de este tipo de transformaciones para hacer análisis exploratorio de datos? Gracias de nuevo por tu ayuda

    Miguel Rodríguez

    Miguel Rodríguez

    studenthace 4 años

    Cuando usas tanh(x) para el escalamiento se busca que los datos tengan una forma normal o uniforme y al mismo tiempo estén en un rango entre -1 y 1, ósea que seria todo en un paso.

    Por cierto como observación, cuando escribes tan(h), haces referencia a calcular la tangente del argumento h y tanh(h) calcula la tangente hiperbólica del argumento h, son funciones que arrojan resultados diferentes.

    Aquí puedes notar la diferencia entre una y otra. tan_tanh.png

    Manuel Espitia

    Manuel Espitia

    studenthace 4 años

    La otra pregunta es si también se puede normalizar una columna con el método log() para encontrar correlaciones con otras variables y para escalarla con alguno de los métodos mencionados. Si es así, en qué caso debe hacerse y en qué casos no? Dónde podemos guiarnos para esto? Ayuda por favor que acá tenemos sed de conocimiento.

    Esmeralda Palacios

    Esmeralda Palacios

    studenthace 4 años

    dejo un . para entrerarme de la respuesta jaja, pero si, creo es lo que se supone hay que hacer

Curso de Estadística Descriptiva

Curso de Estadística Descriptiva

Entiende y aplica estadísticas descriptivas para analizar datos en data science. Desde diferenciar estadísticas descriptivas e inferenciales hasta el uso de visualizaciones y reducción de dimensionalidad con PCA. Mejora tus análisis.

Curso de Estadística Descriptiva
Curso de Estadística Descriptiva

Curso de Estadística Descriptiva

Entiende y aplica estadísticas descriptivas para analizar datos en data science. Desde diferenciar estadísticas descriptivas e inferenciales hasta el uso de visualizaciones y reducción de dimensionalidad con PCA. Mejora tus análisis.