
資料內(nèi)容:
1-1,結(jié)構(gòu)化數(shù)據(jù)建模流程范例
一,準備數(shù)據(jù)
titanic 數(shù)據(jù)集的目標是根據(jù)乘客信息預(yù)測他們在 Titanic 號撞擊冰山沉沒后能
否生存。 結(jié)構(gòu)化數(shù)據(jù)一般會使用 Pandas 中的 DataFrame 進行預(yù)處理。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras import models,layers
dftrain_raw = pd.read_csv('./data/titanic/train.csv')
dftest_raw = pd.read_csv('./data/titanic/test.csv')
dftrain_raw.head(10)
• Survived:0 代表死亡,1 代表存活【y 標簽】
• Pclass:乘客所持票類,有三種值(1,2,3) 【轉(zhuǎn)換成 onehot 編碼】
• Name:乘客姓名 【舍去】
• Sex:乘客性別 【轉(zhuǎn)換成 bool 特征】
• Age:乘客年齡(有缺失) 【數(shù)值特征,添加“年齡是否缺失”作為輔助特征】
• SibSp:乘客兄弟姐妹/配偶的個數(shù)(整數(shù)值) 【數(shù)值特征】
• Parch:乘客父母/孩子的個數(shù)(整數(shù)值)【數(shù)值特征】
• Ticket:票號(字符串)【舍去】
• Fare:乘客所持票的價格(浮點數(shù),0-500 不等) 【數(shù)值特征】
• Cabin:乘客所在船艙(有缺失) 【添加“所在船艙是否缺失”作為輔助特征】
• Embarked:乘客登船港口:S、C、Q(有缺失)【轉(zhuǎn)換成 onehot 編碼,四維度
S,C,Q,nan】
利用 Pandas 的數(shù)據(jù)可視化功能我們可以簡單地進行探索性數(shù)據(jù)分析 EDA
(Exploratory Data Analysis)。