Una forma más sencilla de cargar los datos al DataFrame sería:
x = pd.DataFrame(iris.data, columns=iris.feature_names)
Fundamentos prácticos
Aplica Platzidoro en este curso y asegura el éxito de tu aprendizaje
Los fundamentos de machine learning que aprenderás
Introducción a Numpy
Introducción y manipulación de datos con Pandas
Introducción a ScikitLearn
Comandos básicos de las librerías usadas en el curso (Numpy, Pandas y ScikitLearn)
Regresión Lineal y Logística
¿Qué es la predicción de datos?
Sobreajuste y subajuste en los datos
Regresión lineal simple y regresión lineal múltiple
Regresión lineal simple con Scikit-Learn: división de los datos
Regresión lineal simple con Scikit-Learn: creación del modelo
Regresión logística con Scikit-Learn: definición y división de datos
Regresión logística con Scikit-Learn: evaluación del modelo
Matriz de confusión
PlatziDoro Cápsula 1
Árboles de decisión
¿Qué es un árbol de decisión y cómo se divide?
Comprendiendo nuestro data set para la creación de un árbol de decisión
Creando un clasificador con Scikit-Learn
Entrenamiento del modelo de clasificación
Visualización del árbol de decisión
K-Means
¿Qué es K-Means?
Cargando el data set de Iris
Construcción y evaluación del modelo con K-Means
Graficación del modelo
PlatziDoro Cápsula 2
Aprendizaje profundo
Introducción al aprendizaje profundo
Conceptos básicos de Tensor Flow
Red neuronal convolucional
Conociendo el set de datos para la creación de la red neuronal
Crea y entrena tu primera red neuronal convolucional con Tensor Flow
Evaluación de la red convolucional
PlatziDoro Cápsula 3
Despedida
Recomendaciones para analizar correctamente tu problema
Siguientes pasos para continuar aprendendiendo de Machine Learning
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 20
Preguntas 2
Una forma más sencilla de cargar los datos al DataFrame sería:
x = pd.DataFrame(iris.data, columns=iris.feature_names)
Aqui estan el codigo para el que guste lo pueda usar a su voluntad.
from sklearn.cluster import KMeans
from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
iris = datasets.load_iris()
X_iris = iris.data
Y_iris = iris.target
x = pd.DataFrame(iris.data, columns = ['Sepal Lenght', 'Sepal Width', 'Petal Length', 'Petal Width'])
y = pd.DataFrame(iris.target, columns = ['Target'])
x.head(5)
Sepal Lenght Sepal Width Petal Length Petal Width
0 5.1 3.5 1.4 0.2
1 4.9 3.0 1.4 0.2
2 4.7 3.2 1.3 0.2
3 4.6 3.1 1.5 0.2
4 5.0 3.6 1.4 0.2
plt.scatter(x['Petal Length'], x['Petal Width'], c = 'blue')
plt.xlabel('Petal Length', fontsize = 10)
plt.ylabel('Petal Width', fontsize = 10)
Text(0, 0.5, 'Petal Width')
No habria necesidad de escribir las columnas, ya viene en el set de datos, bastaria con hacer: columns= iris.feature_names
Acá dejo los dos grupos: Pétalos y Sépalos
plt.scatter(x['Petal Length'], x['Petal Width'], c='blue')
plt.scatter(x['Sepal Length'], x['Sepal Width'], c='red')
plt.xlabel('Petal - Sepal Length', fontsize=10)
plt.ylabel('Petal - Sepal Width', fontsize=10)
plt.show()
Ejemplo de aplicación:
Dataset iris: Presenta los datos de flores: virginica, versicolor y setosa (50 muestras de cada especie), estos datos son: largo y ancho del petalo y del sépalo.
Para ello importamos el módulo KMeans desde sklearn.cluster (from sklearn.cluster import KMeans
)
Para cargar los datos de iris importamos el módulo datasets (from sklearn import datasets
), luego cargamos el dataset a una variable (<var>=datasets.load_iris()
)
Una forma mucho más rápida de separar los conjuntos X_iris y Y_iris es con la siguiente línea:
X_iris, Y_iris = datasets.load_iris(return_X_y=True, as_frame=True)
Ese data set es muy simple, seria interesante usar un mejor ejemplo para demostrar las funcionalidades del kmeans
Esta es la manera en la que yo cargue el Dataset a un DataFrame
import pandas as pd
from sklearn import datasets
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target
target_dict = { index : name for index, name in enumerate(iris.target_names) }
df['target name'] = df['target'].apply(lambda x: target_dict[x])
jajajajjajajaj es el que esta en la introducion de este curso
Para saber que columnas o características tienen los data sets de la librería Sklearn ,EL objeto que instanciamos (en este caso el dataset con nombre “iris”) se le agrega .feature_names como se peude observar a continuación.
iris.feature_names
EL resultado son los nombres de las características o features, la profe en el video se lo sabe pero no es lo habitual
Aquí la explicación de lo que es el target y de donde viene, la maestra re-nombro las columnas para darles un mejor formato.
El tipo sklearn.utils.Bunch
y tiene los siguientes metodos.
Este curso ayuda a sacar lo mejor de cada uno de los que queremos hacer Machine Learning.
para ver la realcion entre todas las variables realize un pariplot con seaborm
data = pd.concat([x,y],axis=1)
sns.pairplot(data=data, hue='species')
Ejemplo
Para obtener una muestra aleatorio de 5 datos de dataframe:
x.sample(n=5)
El agrupamiento (clustering) es una técnica de Machine Learning que consiste, en pocas palabras, en dividir cierta población en grupos con la consecuencia de que los datos en un grupo sean más similares entre ellos que comparado con los otros grupos.
iris = datasets.load_iris()
x = pd.DataFrame(iris.data, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])
y = pd.DataFrame(iris.target, columns=['Target'])```
En un ejemplo aplicado a un proceso de compra venta, dependiendo del objetivo solo cambiaria el data set?
Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.