(데이터분석)파이썬, Python_타이타닉 데이터셋 전처리 하기

Python

(데이터분석)파이썬, Python_타이타닉 데이터셋 전처리 하기

하방주인장 2023. 5. 24. 22:25

'데이터확인하기'에서 'embark_town'과 'Embarked'의 null 값의 개수가 같으므로 두 컬럼의 value count 를 확인해본 결과, 그 수가 일치하는 것을 알 수 있었다. 그러므로, 'Embarked' 가 S면 Southamton, C이면 Cherbourg, Q이면 Queenstown 으로 설정하여 컬럼을 생성하면 된다.

df_kaggle['embark_town'] = np.NaN
df_kaggle.loc[df_kaggle['Embarked'] == 'S', 'embark_town'] = 'Southampton'
df_kaggle.loc[df_kaggle['Embarked'] == 'C', 'embark_town'] = 'Cherbourg'
df_kaggle.loc[df_kaggle['Embarked'] == 'Q', 'embark_town'] = 'Queenstown'

6. 'alive' 생성

'Survived'가 0 이면 no, 1이면 yes

df_kaggle['alive'] = 'no'
df_kaggle.loc[df_kaggle['Survived'] == 1, 'alive'] = 'yes'

7. 'alone' 생성

'Sibsp', 'Parch'가 둘 다 0 이면 True, 아니면 False

df_kaggle['alone'] = False
df_kaggle.loc[(df_kaggle['SibSp'] == 0)&(df_kaggle['Parch'] == 0), 'alone'] = True

8. 'PassengerId', 'Name', 'Cabin', 'Ticket' 컬럼 삭제

df_kaggle.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin'], inplace=True)

9. 컬럼명 소문자 변환

col_lst = []
for col in df_kaggle.columns:
    col_lst.append(col.lower())

df_kaggle.columns = col_lst

10. 확인

저작자표시 비영리 변경금지 (새창열림)

(데이터분석)파이썬, Python_타이타닉 데이터셋 전처리 하기

목차

데이터 확인하기

데이터 전처리

1. 'class' 생성

2. 'who' 생성

3. 'adult_male' 생성

4. 'deck' 생성

5. 'embark_town' 생성

6. 'alive' 생성

7. 'alone' 생성

8. 'PassengerId', 'Name', 'Cabin', 'Ticket' 컬럼 삭제

9. 컬럼명 소문자 변환

10. 확인