반응형

PYTHON 7

[Python] Selenium 사용법 정리

find_element 가장 많이 사용하기도 하고 크롤링 중 항상 첫 시작을 알리는 find_element() 함수 입니다. # html 태그 id 값 button = myDriver.find_element(By.ID, "button") # html 태그 class_name button = myDriver.find_element(By.CLASS_NAME, "button") # html 태그 xpath (전체 경로) button = myDriver.find_element(By.XPATH, "/html/body/div[3]/form/section/div/div[2]/div[6]/div[2]") 저는 위 3개를 가장 많이 사용합니다. 위 3가지 방법을 지금까지 소규모 크롤링 토이 프로젝트를 몇 가지 해보고 나..

Python 2023.09.18

PointCloud란(pcd, ply)

정의 PointCloud는 Lidar 센서로 부터 얻은 3차원의 점 데이터를 생성해주는 라이브러리다. 특징 데이터의 노이즈가 다소 포함되어 있기 때문에 데이터 전처리 과정이 필요하다. numpy 형태로 데이터를 return 한다. ply 파일 data의 모습 ply #확장자 format ascii 1.0 comment PCL generated element vertex 17228754 # point 총 갯수 property float x #point x축 값 property float y #point y축 값 property float z #point z축 값 property uchar red #rgb 컬러 값 property uchar green #rgb 컬러 값 property uchar blue #..

BigData 2022.05.16

Pandas map, apply 예제

값 대치 값 대치 (딕셔너리) s = pd.Series([1, 2, 3]) # 3행 1열의 샘플 데이터 mapping = { 1:"drop", 2:"the", 3:"table" } # 딕셔너리 구조의 맵핑할 데이터 s1 = s.map(mapping) # 딕셔너리를 인자로 map 호출 print(s1) # 결과 0 drop 1 the 2 table dtype: object 값 대치 (함수) s.map(lambda x: x**2) # 각각 제곱 # 결과 0 1 1 4 2 9 dtype: int64 값 변환(함수 호출) # 제곱 함수 선언 def squared(value): return value * value # apply s.apply(squared) # 결과 0 1 1 4 2 9 dtype: int64 ..

Python 2022.02.16

Pandas 결측치 예제

결측치 확인 Python Pandas 라이브러리의 isnull() 활용 s = pd.Series([1, 2, 3, np.nan] * 3) # 4행 3열의 null 값이 존재하는 2차원 데이터 s.isnull().sum() # null 값의 건수 = 3 결측치 채움 Python Pandas 라이브러리의 fillna() 활용 fillna()는 return값이 복제본이다. 따라서 inplace = True 를 명시하지 않으면 원본 데이터의 변경을 피할 수 있다. s.fillna(4) # null 값을 모두 4로 채움 원본 데이터와 비교 # 원본 데이터 print(s) # 결과 0 1.0 1 2.0 2 3.0 3 NaN 4 1.0 5 2.0 6 3.0 7 NaN 8 1.0 9 2.0 10 3.0 11 NaN d..

Python 2022.02.16

Pandas 데이터 타입

Pandas에서 제공하는 기본 데이터 타입은 다음과 같습니다. 예제 # 데이터프레임 정보 df.info() RangeIndex: 3 entries, 0 to 2 Data columns (total 6 columns): 이름 3 non-null object 통솔 3 non-null int64 무력 3 non-null int64 지력 3 non-null int64 정치 3 non-null int64 매력 3 non-null int64 dtypes: int64(5), object(1) memory usage: 272.0+ bytes 데이터 타입 변경 데이터 타입을 변경할 때는 astype()을 이용할 수 있다. 문자열을 숫자형으로 변경하는 경우처럼 형변경을 할 수 없는 경우 오류가 발생하기 때문에 예외처리를 ..

Python 2022.02.16

데이터 분석 및 모델링 순서

데이터 전처리 과정 1. 문제 정의 및 가설 문제를 명확하게 정의하는 것이 가장 중요하다. 문제 정의부터 잘못 접근했다면 나오는 결과 또한 무의미한 결과이기 때문이다. 문제 정의에 앞서 배경을 살펴보고 전체적인 맥락을 이해하는데 중점을 둔다. 배경을 이해하는데 도움이되는 것은 도메인 지식이다. 문제를 정의했다면 “이 문제를 해결함으로 어떤 것이 해결 되는가?” 를 생각해야 한다. 즉 데이터 분석의 목적을 정의하고 그 문제를 해결하기 위한 가설을 세워야한다. i. 프로젝트시 고려사항 목적과 데이터 특성에 맞는 모델을 무엇인가? 일반화 가능성은 어떠한가? 성능 측정의 지표는? 성능을 높이기 위해 어떻게 Feature Engineering을 진행할 것인가? 제품 혹은 시스템에 모델을 적용할 시 계산량이나 언어..

BigData 2022.02.16
반응형