반응형


한빛미디어 혼공학습단 9기 미션 진행합니다.

도서 : 혼자 공부하는 데이터 분석 with 파이썬

저자 : 박해선

출판 : 한빛미디어

---

4가지 키워드로 정리하는 핵심 포인트

˙ API는 프로그램 간 데이터를 전달하기 위해 정한 규칙입니다. 수동으로 데이터를 받는 방법은 매주, 매일 반복되는 작업에는 적절하지 않습니다. 이런 경우 공개 API가 제공되는지 살펴보세요. 공개 API를 사용하면 데이터 수집 과정을 자동화할 수 있습니다.

˙ HTTP는 웹에서 데이터를 주고받기 위한 프로토콜입니다. 예를 들면 웹 페이지, 이미지 등을 받아 웹 브라우저에 나타내는데 HTTP를 사용합니다. 그래서 웹 브라우저로 접속하는 인터넷 URL 주소는 모두 http 혹은 보안이 강화된 https로 시작합니다.

˙ JSON은 근래에 아주 많이 사용하는 데이터 전달 포맷입니다. 자바스크립트뿐만 아니라 웹기반 API에서도 널리 대중화되어 있습니다. JSON의 장점은 HTML이나 XML보다 사람이 읽기 편하고 간단하게 파이썬 객체로 변환할 수 있는 것입니다.

˙ XML은 JSON 보다 조금 장황하지만 사람이 이해하기 쉬운 구조적인 포맷을 제공합니다. 파이썬에서는 기본으로 제공되는 xml 패키지를 사용하여 XML 문서에 있는 엘리먼트를 탐색할 수 있고, 판다스의 경우 read_xml() 함수를 사용하여 데이터프레임으로 바꿀 수 있습니다.

2-1 연습문제 풀이

 

2가지 키워드로 정리하는 핵심 포인트

˙ 웹 스크래핑은 웹사이트에서 필요한 데이터를 추출하는 기술입니다. HTML은 구조적이지 않기 때문에 스크래핑으로 데이터를 수집하는데 비교적 많은 노력이 필요합니다. 따라서 웹 스크래핑을 사용하기 전에 먼저 공개 API를 통해 사용할 수 있는지 살펴보는 것이 좋습니다.

˙ 뷰티플수프는 HTML 문서를 파싱하는데 사용하는 대표적인 파이썬 패키지입니다. 사용법이 쉽고 빠르기 때문에 파이썬 프로그래머들이 즐겨 사용합니다. 뷰티플수프는 requests 패키지로 가져온 HTML에서 원하는 태그나 텍스트를 찾는 기능을 제공합니다.

2-2 연습문제 풀이

[독백] 아후 혼공이 정말 쉽지가 않다 ㅡㅡ;; 일단 진도는 속독으로 하면서 나중에 시간이 나면 다시 천천히 곱씹고 있는 중이다... ㅠㅠ

 



※ 본 내용의 저작권은 한빛미디어 및 저자 박해선님에게 있습니다.

반응형

+ Recent posts