반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

03-1 불필요한 데이터 삭제하기

* 데이터 정제는 수집된 데이터에서 잘못된 부분을 고치거나 제거하여 필요한 데이터를 준비하는 과정입니다. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다.

* 데이터를 정제하는 과정과 데이터 분석 및 머신러닝에 적합한 형태로 데이터를 변환하는 과정을 합쳐서 데이터 랭글링(혹은 데이터 먼징)이라고 합니다.

* 판다스의 데이터프레임과 인덱스를 하나의 값과 비교하면 데이터프레임과 인덱스에 있는 모든 원소와 비교합니다. 이를 원소별 비교라고 부릅니다. 비교한 결과는 True 또는 False로 이루어진 불리언 배열로 변환됩니다.

* 넘파이는 파이썬의 대표적인 다차원 배열입니다. 판다스의 데이터프레임과 달리 한 종류의 데이터만 담을 수 있지만 매우 효율적이고 성능이 높습니다. 파이썬의 다른 과학 패키지와 호환성이 높으며 기본 데이터 구조로 널리 사용됩니다.

 

03-2 잘못된 데이터 수집하기

* NaN은 판다스에서 누락된 값을 표시하는 기호입니다. insa() 메서드를 사용하여 NaN의 여부를 확인하거나 notna() 메서드를 사용해 NaN이 아닌 값인지 체크할 수 있습니다.

* 정규 표현식은 문자열에서 패턴을 찾고 대체하기 위한 규칙의 모음입니다. 정규 표현식을 사용하면 복잡한 패턴을 가진 문자열을 쉽게 검색할 수 있습니다.

[독백] 아니 이거 시간 맞춰 올렸는데 다시 확인해보니 본문 글자가 하얀색으로 되어 있다... 집에서 크롬 다크모드를 사용하는데 뭔가 영향을 받아서 그런가... 하마터면 혼공 담당자님이 글을 제대로 못볼 뻔했다...

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형

+ Recent posts