반응형

웹서핑을 하다가 한빛출판네트워크를 알게 되었고 IT 관련 도서를 구매하고 이벤트에 참여하는 등 한빛출판네트워크 사이트에 종종 접속하게 되었다.

그러던 중 혼공학습단 이라는 활동을 알게 되었다. 도서를 구매하고 해당 커리큘럼 과정에 맡게 스스로 학습하고 학습 결과를 개인 운영 SNS나 블로그 등에 올리는 이벤트이다.... 개인은 혼자 학습을 하고 출판사는 PR을 하는 등 서로 win-win 하는 과정이다....

아무튼 주력이 웹개발이다 보니 개인 업무에 내가 개인적으로 부족한 부분을 보완하는 중이어서 이 혼공 학습이라는 것에 실제로 집중해서 학습할 여력은 많이 부족했다...

돌이켜보면 역시 우려대로 조금 더 많이 곱씹고 테스트 해보고 유튜브 강의도 보고 했어야 했는데 속독으로 읽고 미션 완료하기 급급했던 것 같다.

비록 혼공 9기 활동은 오늘로 끝이났지만 혼자공부하는 데이터 분석은 나중에 시간을 내서 다시 공부를 하고 저자의 강의도 꼼꼼하게 볼 예정이다.

다음에 내가 흥미가 가는 분야가 생기고 그게 혼공학습과정에 포함이 되어 있으면 이번보다는 시간을 더 내서 잘 과정을 마쳐보고 싶다. 열심히해서 받는 상품권이 중요한게 아니라 내가 스스로 학습하는 습관을 만들고 더 나아가서 무엇인가에 관해서 지식을 습득한다, 안다는 것이 결코 녹록치 않은 것인데 그것을 제대로 잘 하면 스스로 뿌듯할 것 같다...

이상 회고 끝.......

반응형
반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

06-01 객체지향 API로 그래프 꾸미기

 * 맷플롯의 객체지향 API는 명시적으로 피겨 객체와 서브플롯 객체를 만들고 이 객체의 메서드를 사용하여 맷플롯립 그래프를 그리는 방법입니다.

 * 컬러맵은 맷플롯립에서 그래프를 그리는 데 사용하기 위해 사전에 정의한 색상 리스트입니다. 기본 컬러맵은 진녹색에서 노란색으로 변화하는 viridis입니다. 파란색에서 노란색에서 빨간색으로 바뀌는 jet 컬러맵도 많이 사용합니다.

 * 컬러 막대는 데이터 포인트에 적용된 색상의 범위를 보여주는 막대입니다. 보통 그래프의 오른쪽에 나란히 놓이며 색깔이 의미하는 실제 값을 참조한느데 사용됩니다.


06-02 맷플롯립의 고급 기능 배우기

 * 범례는 그래프에 그려진 데이터의 이름과 색상을 요약한 표입니다.
 
 * 피벗 테이블은 테이블 형태의 데이터를 평균, 합 등의 방식으로 집계하여 만든 요약표입니다.
 
 * 스택 영역 그래프는 여러 개의 선 그래프를 y축 방향으로 쌓은 그래프입니다. 선 아래로 색상이 채워진 영역 형태로 표현됩니다. 마찬가지로 여러 개의 막대 그래프를 y축 방향으로 쌓으면 스택 막대 그래프가 됩니다. 막대 위에 막대가 누적되듯이 표현됩니다.
 
 * 원 그래프는 데이터의 비율을 부채꼴 모양으로 나타낸 그래프입니다. 다만, 그래프에 비율이 표시되어 있지 않으면 크기를 비교하기 어려우므로 autopct 매개변수를 사용하여 명확하게 비율을 표시해 주는 것이 좋습니다.
 


[독백] 
어느덧 혼공 학습이 끝이났다... 애초에 사이드 of 사이드 학습으로 시작했던 것인데 너무 작은 틈을 내서 완주하기에 상당히 벅차서 이번 학습은 개인적으로 만족하지는 못한 코스였던 것 같다... 다음에 조금더 시간을 낼 수 있고 집중할 수 있으면 혼공을 제대로 준비해서 제대로 한번 완주해보고 싶다......

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형
반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

05-1. 맷플롯립 기본 요소 알아보기

 * 피겨는 맷플롯립의 그래프 요소를 모두 담고 있는 최상위 객체입니다. 맷플롯립으로 그래프를 그릴 때 자동으로 피겨가 생성되고, 그래프가 그려진 후 삭제됩니다. 명시적으로 피겨 객체를 만들면 다양한 옵션을 제어할 수 있습니다.

 * rcParams는 맷플롯립 그래프의 기본값을 관리하는 객체입니다. 객체에 담긴 값만 출력하는 것뿐만 아니라 새로운 값으로 바꿀 수도 있습니다. 이후에 그려지는 모든 그래프에 바뀐 설정이 적용됩니다.

 * 축은 그래프에서 데이터 좌표를 표현합니다. 2차원 그래프는 2개의 축을 가지며 3차원 그래프는 3개의 축을 가집니다. 맷플롯립에서는 Axis 클래스로 축 객체를 다룹니다. 두 개 이상의 Axis 객체로 이루어진 Axes 객체는 그래프가 그려질 영역을 표현합니다.

 * 마커는 그래프에 포인트를 표시하는 방법입니다. 맷플롯립의 기본 마커는 동그라미를 나타내는 'o'입니다. rcParams 객체나 scatter() 함수의 marker 매개변수로 마커를 바꿀 수 있습니다.

 * 서브플롯은 피겨 안에 포함된 그래프 영역입니다. 보통 Axes 객체를 일컫습니다. subplots() 함수로 여러 개의 서브플롯과 서브플롯을 포함하는 피겨를 만들 수 있습니다.

05-2. 선 그래프와 막대 그래프 그리기

 * 선 그래프는 각 데이터 포인트를 직선으로 연결한 그래프입니다. 선의 스타일이나 마커의 모양을 바꾸어 풍부하게 표현할 수 있고 데이터값을 그래프에 텍스트로 쓸 수 있습니다.

 * 막대 그래프는 데이터 포인트의 크기를 막대 높이로 나타낸 그래프입니다. 전형적으로 x 좌표는 연속적이지 않은 범주형이며 y 좌표는 해당 범주의 값입니다. 가로 막대 그래프는 값이 클수록 막대의 길이가 가로로 길어집니다.


[독백] 이제 마지막 전주이다.. 얼마 남지 않았다.. 일단 이번 혼공은 경험하는 것이니 완주해보고 뭐가 문제인지 고민해보고 다음번 혼공은 더 잘 준비할 수 있도록 해야겠다.

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형
반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

04-1 통계로 요약하기

* 평균은 데이터값을 모두 더한 후 데이터 개수로 나눈 값입니다. 평균은 일상생활에서도 널리 사용되기 때문에 이해하기 쉽지만, 어떤 기준으로 평균을 계산하는지에 따라 조금씩 다른 의미를 가질 수 있습니다.

* 중앙값은 전체 데이터를 크기 순서대로 일렬로 늘어 놓았을 때 중간에 위치한 값입니다. 전체 데이터 개수가 짝수일 때는 중간의 두 데이터의 평균을 계산합니다.

* 분위수는 순서대로 나열된 데이터를 일정한 간격으로 나누는 기준입니다. 예를 들어 사분위수는 데이터를 4등분하여, 25%, 50%, 75%에 위치한 값입니다. 백분위수는 데이터를 100개의 구간으로 나눕니다.

* 분산은 데이터가 평균에서 얼마나 멀리 퍼져 있는지를 알려줍니다. 각 데이터를 평균에서 뺀 다음 제곱한 후 전체 데이터가 개수로 나누어 구합니다.

* 표준편차는 분산의 제곱근으로 분산과 마찬가지로 데이터의 분포 정도를 알려 줍니다. 표준편차는 워본 데이터와 단위가 같기 때문에 분산보다 해석하기 쉽습니다.

* 최빈값은 데이터에서 가장 많이 등장하는 값을 알려 줍니다. 최빈값은 숫자와 문자 데이터에 모두 적용할 수 있습니다.

 
04-2 분포 요약하기
* 맷플롯립은 파이썬의 대표적인 그래프 패키지입니다. 산점도, 히스토그램, 상사 수염 그림을 비롯하여 막대 그래프, 선 그래프 등 많은 종류의 그래프를 지원합니다. 또한 그래프의 구성 요소를 다양하게 제어할 수 있는 많은 옵션을 제공합니다.

* 산점도는 데이터를 2차원 평면 또는 3차원 공간에 점으로 표시하는 그래프입니다. 차원의 제약으로 일반적으로 두 개 또는 세 개의 특성을 표현할 수 있지만, 점의 색깔을 달리하여 한 개의 특성을 더 표현할 수도 있습니다.

* 히스토그램은 데이터를 일정 구간으로 나누어 구간에 속한 데이터 개수(도수)를 막대로 표현하는 그래프입니다. 데이터가 어떤 부부넹 집중되어 분포되어 있는지 잘 볼 수 있습니다.

* 그래프가 한쪽에 편중되어 그려진다면 x, y축을 로그 스케일로 바꾸어 그릴 수 있습니다. 수치를 로그로 간결하게 표시할 수 있어 넓은 범위의 데이터를 표시하기 좋습니다.

* 상자 수염 그림은 사분위수, 최솟값, 최대값을 사용해 여러 특성의 분포를 비교할 수 있는 그래프입니다. 제1사분위수와 제3사분위수를 사용해 상자를 그리고, 상자의 IQR 거리의 1.5배 범위 안에서 가장 멀리 떨어진 데이터까지 수직선(수염)을 그려서 분포를 표현합니다.

[독백] 음... 원래 계획데로 뭔가 잘 안되고 있다........ 음 ... 아무튼 혼공 끝나고 다시 곱씹어볼 생각이다. 처음에 혼공 들어갈때는 이렇게 빡센지를 몰랐다 .... ㅡ0ㅡ;;;; 혼공족장이 알려준 Q&A나 저자와의 대화를 할려면 정말 엄청난 노력이 필요하다...... 

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형
반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

03-1 불필요한 데이터 삭제하기

* 데이터 정제는 수집된 데이터에서 잘못된 부분을 고치거나 제거하여 필요한 데이터를 준비하는 과정입니다. 데이터가 올바르게 정제되지 못하면 분석된 결과를 왜곡시킬 수 있으며 잘못된 의사 결정을 초래하기도 합니다.

* 데이터를 정제하는 과정과 데이터 분석 및 머신러닝에 적합한 형태로 데이터를 변환하는 과정을 합쳐서 데이터 랭글링(혹은 데이터 먼징)이라고 합니다.

* 판다스의 데이터프레임과 인덱스를 하나의 값과 비교하면 데이터프레임과 인덱스에 있는 모든 원소와 비교합니다. 이를 원소별 비교라고 부릅니다. 비교한 결과는 True 또는 False로 이루어진 불리언 배열로 변환됩니다.

* 넘파이는 파이썬의 대표적인 다차원 배열입니다. 판다스의 데이터프레임과 달리 한 종류의 데이터만 담을 수 있지만 매우 효율적이고 성능이 높습니다. 파이썬의 다른 과학 패키지와 호환성이 높으며 기본 데이터 구조로 널리 사용됩니다.

 

03-2 잘못된 데이터 수집하기

* NaN은 판다스에서 누락된 값을 표시하는 기호입니다. insa() 메서드를 사용하여 NaN의 여부를 확인하거나 notna() 메서드를 사용해 NaN이 아닌 값인지 체크할 수 있습니다.

* 정규 표현식은 문자열에서 패턴을 찾고 대체하기 위한 규칙의 모음입니다. 정규 표현식을 사용하면 복잡한 패턴을 가진 문자열을 쉽게 검색할 수 있습니다.

[독백] 아니 이거 시간 맞춰 올렸는데 다시 확인해보니 본문 글자가 하얀색으로 되어 있다... 집에서 크롬 다크모드를 사용하는데 뭔가 영향을 받아서 그런가... 하마터면 혼공 담당자님이 글을 제대로 못볼 뻔했다...

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형
반응형


한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

4가지 키워드로 정리하는 핵심 포인트

˙ API는 프로그램 간 데이터를 전달하기 위해 정한 규칙입니다. 수동으로 데이터를 받는 방법은 매주, 매일 반복되는 작업에는 적절하지 않습니다. 이런 경우 공개 API가 제공되는지 살펴보세요. 공개 API를 사용하면 데이터 수집 과정을 자동화할 수 있습니다.

˙ HTTP는 웹에서 데이터를 주고받기 위한 프로토콜입니다. 예를 들면 웹 페이지, 이미지 등을 받아 웹 브라우저에 나타내는데 HTTP를 사용합니다. 그래서 웹 브라우저로 접속하는 인터넷 URL 주소는 모두 http 혹은 보안이 강화된 https로 시작합니다.

˙ JSON은 근래에 아주 많이 사용하는 데이터 전달 포맷입니다. 자바스크립트뿐만 아니라 웹기반 API에서도 널리 대중화되어 있습니다. JSON의 장점은 HTML이나 XML보다 사람이 읽기 편하고 간단하게 파이썬 객체로 변환할 수 있는 것입니다.

˙ XML은 JSON 보다 조금 장황하지만 사람이 이해하기 쉬운 구조적인 포맷을 제공합니다. 파이썬에서는 기본으로 제공되는 xml 패키지를 사용하여 XML 문서에 있는 엘리먼트를 탐색할 수 있고, 판다스의 경우 read_xml() 함수를 사용하여 데이터프레임으로 바꿀 수 있습니다.

2-1 연습문제 풀이

 

2가지 키워드로 정리하는 핵심 포인트

˙ 웹 스크래핑은 웹사이트에서 필요한 데이터를 추출하는 기술입니다. HTML은 구조적이지 않기 때문에 스크래핑으로 데이터를 수집하는데 비교적 많은 노력이 필요합니다. 따라서 웹 스크래핑을 사용하기 전에 먼저 공개 API를 통해 사용할 수 있는지 살펴보는 것이 좋습니다.

˙ 뷰티플수프는 HTML 문서를 파싱하는데 사용하는 대표적인 파이썬 패키지입니다. 사용법이 쉽고 빠르기 때문에 파이썬 프로그래머들이 즐겨 사용합니다. 뷰티플수프는 requests 패키지로 가져온 HTML에서 원하는 태그나 텍스트를 찾는 기능을 제공합니다.

2-2 연습문제 풀이

[독백] 아후 혼공이 정말 쉽지가 않다 ㅡㅡ;; 일단 진도는 속독으로 하면서 나중에 시간이 나면 다시 천천히 곱씹고 있는 중이다... ㅠㅠ

 



※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형
반응형

한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

챕터 01 데이터 분석을 시작하며

  01-1 데이터 분석이란

    데이터 분석은 데이터를 수집, 처리, 정체, 분석, 모델링하여 의사 결정을 내리는 데 도움을 주는 작업입니다. 통계학과 머신러닝의 기술을 사용하고 비지니스 문제를 해결하기 위해 도메인 지식이 필요합니다.

    데이터 과학은 데이터 분석, 머신러닝을 아우르는 개념입니다. 데이터 분석에 비해 머신러닝 모델을 만들어 문제를 해결하는데 많은 비중을 둡니다.

    파이썬은 데이터 분석, 데이터 과학, 머신러닝 작업에 사요할 수 있는 인기 있는 프로그래밍 언어입니다. 넘파이, 판다스, 맷플롯립 등 데이터 분석에 필요한 다양한 패키지를 손쉽게 사용할 수 있습니다.

01-1 확인 문제

  01-2 구글 코랩과 주피터 노트북

    코랩은 구글 계정을 가지고 있다면 누구나 사용할 수 있는 웹 브라우저 기반의 파이썬 코드 실행 환경입니다.

    노트북은 코랩의 프로그램 작성 파일입니다. 일반 프로그램 파일과 달리 대화식으로 프로그램을 만들 수 있기 때문에 데이터 분석이나 교육에 매우 적합합니다. 노트북에는 코드, 코드 실행 결과, 문서를 모두 저장하여 보관할 수 있습니다.

    구글 드라이브는 구글이 제공하는 클라우드 파일 저장 서비스입니다. 코랩에서 만든 노트북을 구글 드라이브의 'Colab Notebooks' 폴더에 저장할 수 있고 필요할 때 다시 코랩에서 열 수 있습니다.

    깃허브는 분산 버전 관리 툴인 깃의 저장소를 호스팅하는 웹 서비스입니다. 코드 수정 이력을 버전별로 관리할 수 있고 여러 사람이 공동으로 작업하기 편리한 환경을 제공합니다.

    마크다운은 HTML과 같이 일반 텍스트로 서식이쓴 문서를 작성하는데 사용합니다.

01-2 구글 코랩과 주피터 노트북

  01-3 이 도서가 얼마나 인기가 좋을까요?

    공개 데이터 세트는 기업이나 정부 등이 무료로 공개하는 데이터 세트입니다. 누구나 저작권에 상관없이 다운로드하여 데이터 분석이나 제품 개발에 활용할 수 있습니다.

    CSV 파일은 콤마(,)로 구분된 텍스트 파일입니다. 한 줄의 하나의 레코드이며, 레코드는 콤마로 구분된 여러 필드 혹은 열로 구성됩니다. 데이터가 엑셀처럼 표 형태를 가져야 하기 때문에 레코드에 있는 필드 개수는 모두 동일해야 합니다.

    판다스는 표 형식 데이터를 위한 편리한 도구를 다양하게 제공하는 강력한 데이터 분석 패키지입니다. CSV나 엑셀 파일을 읽거나 쓸 수 있으며 데이터 분석을 위한 많은 기능을 제공합니다.

    데이터프레임은 판다스의 핵심 데이터 구조로 행과 열로 구성됩니다. CSV 파일이나 엑셀 파일로부터 데이터프레임을 만들 수 있습니다.

    시리즈는 1차원 배열과 흡사한 판다스의 객체입니다. 시리즈는 한 종류의 데이터만 포함할 수 있습니다.

01-3 이 도서가 얼마나 인기가 좋을까요?

 

[독백] 내가 평소에 하는 웹개발 쪽이 아닌 새로운 분야를 side of side로 공부하고 싶어서 한빛 출판사 혼공족 9기에 지원해서 미션을 진행중이다... 와 이거 데이터 분석 공부하는 것은 처음인데 용어가 왜이렇게 낯선지.... 아아아 ㅡ0ㅡ;;;;;

 

 

※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형

+ Recent posts