반응형

빅데이터 4

Pandas map, apply 예제

값 대치 값 대치 (딕셔너리) s = pd.Series([1, 2, 3]) # 3행 1열의 샘플 데이터 mapping = { 1:"drop", 2:"the", 3:"table" } # 딕셔너리 구조의 맵핑할 데이터 s1 = s.map(mapping) # 딕셔너리를 인자로 map 호출 print(s1) # 결과 0 drop 1 the 2 table dtype: object 값 대치 (함수) s.map(lambda x: x**2) # 각각 제곱 # 결과 0 1 1 4 2 9 dtype: int64 값 변환(함수 호출) # 제곱 함수 선언 def squared(value): return value * value # apply s.apply(squared) # 결과 0 1 1 4 2 9 dtype: int64 ..

Python 2022.02.16

Pandas 결측치 예제

결측치 확인 Python Pandas 라이브러리의 isnull() 활용 s = pd.Series([1, 2, 3, np.nan] * 3) # 4행 3열의 null 값이 존재하는 2차원 데이터 s.isnull().sum() # null 값의 건수 = 3 결측치 채움 Python Pandas 라이브러리의 fillna() 활용 fillna()는 return값이 복제본이다. 따라서 inplace = True 를 명시하지 않으면 원본 데이터의 변경을 피할 수 있다. s.fillna(4) # null 값을 모두 4로 채움 원본 데이터와 비교 # 원본 데이터 print(s) # 결과 0 1.0 1 2.0 2 3.0 3 NaN 4 1.0 5 2.0 6 3.0 7 NaN 8 1.0 9 2.0 10 3.0 11 NaN d..

Python 2022.02.16

Pandas 데이터 타입

Pandas에서 제공하는 기본 데이터 타입은 다음과 같습니다. 예제 # 데이터프레임 정보 df.info() RangeIndex: 3 entries, 0 to 2 Data columns (total 6 columns): 이름 3 non-null object 통솔 3 non-null int64 무력 3 non-null int64 지력 3 non-null int64 정치 3 non-null int64 매력 3 non-null int64 dtypes: int64(5), object(1) memory usage: 272.0+ bytes 데이터 타입 변경 데이터 타입을 변경할 때는 astype()을 이용할 수 있다. 문자열을 숫자형으로 변경하는 경우처럼 형변경을 할 수 없는 경우 오류가 발생하기 때문에 예외처리를 ..

Python 2022.02.16

데이터 분석 및 모델링 순서

데이터 전처리 과정 1. 문제 정의 및 가설 문제를 명확하게 정의하는 것이 가장 중요하다. 문제 정의부터 잘못 접근했다면 나오는 결과 또한 무의미한 결과이기 때문이다. 문제 정의에 앞서 배경을 살펴보고 전체적인 맥락을 이해하는데 중점을 둔다. 배경을 이해하는데 도움이되는 것은 도메인 지식이다. 문제를 정의했다면 “이 문제를 해결함으로 어떤 것이 해결 되는가?” 를 생각해야 한다. 즉 데이터 분석의 목적을 정의하고 그 문제를 해결하기 위한 가설을 세워야한다. i. 프로젝트시 고려사항 목적과 데이터 특성에 맞는 모델을 무엇인가? 일반화 가능성은 어떠한가? 성능 측정의 지표는? 성능을 높이기 위해 어떻게 Feature Engineering을 진행할 것인가? 제품 혹은 시스템에 모델을 적용할 시 계산량이나 언어..

BigData 2022.02.16
반응형