반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

챕터 01 데이터 분석을 시작하며

  01-1 데이터 분석이란

    데이터 분석은 데이터를 수집, 처리, 정체, 분석, 모델링하여 의사 결정을 내리는 데 도움을 주는 작업입니다. 통계학과 머신러닝의 기술을 사용하고 비지니스 문제를 해결하기 위해 도메인 지식이 필요합니다.

    데이터 과학은 데이터 분석, 머신러닝을 아우르는 개념입니다. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는데 많은 비중을 둡니다.

    파이썬은 데이터 분석, 데이터 과학, 머신러닝 작업에 사요할 수 있는 인기 있는 프로그래밍 언어입니다. 넘파이, 판다스, 맷플롯립 등 데이터 분석에 필요한 다양한 패키지를 손쉽게 사용할 수 있습니다.

01-1 확인 문제

  01-2 구글 코랩과 주피터 노트북

    코랩은 구글 계정을 가지고 있다면 누구나 사용할 수 있는 웹 브라우저 기반의 파이썬 코드 실행 환경입니다.

    노트북은 코랩의 프로그램 작성 파일입니다. 일반 프로그램 파일과 달리 대화식으로 프로그램을 만들 수 있기 때문에 데이터 분석이나 교육에 매우 적합합니다. 노트북에는 코드, 코드 실행 결과, 문서를 모두 저장하여 보관할 수 있습니다.

    구글 드라이브는 구글이 제공하는 클라우드 파일 저장 서비스입니다. 코랩에서 만든 노트북을 구글 드라이브의 'Colab Notebooks' 폴더에 저장할 수 있고 필요할 때 다시 코랩에서 열 수 있습니다.

    깃허브는 분산 버전 관리 툴인 깃의 저장소를 호스팅하는 웹 서비스입니다. 코드 수정 이력을 버전별로 관리할 수 있고 여러 사람이 공동으로 작업하기 편리한 환경을 제공합니다.

    마크다운은 HTML과 같이 일반 텍스트로 서식이쓴 문서를 작성하는데 사용합니다.

01-2 구글 코랩과 주피터 노트북

  01-3 이 도서가 얼마나 인기가 좋을까요?

    공개 데이터 세트는 기업이나 정부 등이 무료로 공개하는 데이터 세트입니다. 누구나 저작권에 상관없이 다운로드하여 데이터 분석이나 제품 개발에 활용할 수 있습니다.

    CSV 파일은 콤마(,)로 구분된 텍스트 파일입니다. 한 줄의 하나의 레코드이며, 레코드는 콤마로 구분된 여러 필드 혹은 열로 구성됩니다. 데이터가 엑셀처럼 표 형태를 가져야 하기 때문에 레코드에 있는 필드 개수는 모두 동일해야 합니다.

    판다스는 표 형식 데이터를 위한 편리한 도구를 다양하게 제공하는 강력한 데이터 분석 패키지입니다. CSV나 엑셀 파일을 읽거나 쓸 수 있으며 데이터 분석을 위한 많은 기능을 제공합니다.

    데이터프레임은 판다스의 핵심 데이터 구조로 행과 열로 구성됩니다. CSV 파일이나 엑셀 파일로부터 데이터프레임을 만들 수 있습니다.

    시리즈는 1차원 배열과 흡사한 판다스의 객체입니다. 시리즈는 한 종류의 데이터만 포함할 수 있습니다.

01-3 이 도서가 얼마나 인기가 좋을까요?

 

[독백] 내가 평소에 하는 웹개발 쪽이 아닌 새로운 분야를 side of side로 공부하고 싶어서 한빛 출판사 혼공족 9기에 지원해서 미션을 진행중이다... 와 이거 데이터 분석 공부하는 것은 처음인데 용어가 왜이렇게 낯선지.... 아아아 ㅡ0ㅡ;;;;;

 

 

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형

+ Recent posts