해당 포스트는 python 라이브러리인 Beautiful Soup과 웹 구조인 DOM을 이용한 웹 스크래핑 방법에 관한 포스트입니다. Beautiful Soup를 DOM구조의 html 분석 Beautiful Soup 공식홈페이지에 간락한 예제가 나옵니다. 밑의 예시를 해당 라이브러리로 파싱(분해)해보겠습니다. html_doc = """ The Dormouse's story Once upon a time there were three little sisters; and their names were Elsie, Lacie and Tillie; and they lived at the bottom of a well. ... """ Beautiful Soup를 DOM구조의 html 파싱 결과 해당 라이브러리의 ..
해당 포스트는 web scraping을 위해 필요한 요소인 DOM에 관한 포스트입니다. 문서 객체 모델(DOM)이란? DOM은 HTML 문서나 XML 문서에 접근하기 위한 일종의 인터페이스입니다. DOM은 문서 내의 모든 요소의 목적과 특징을 정의하고, 각각의 요소에 접근하는 방법을 제공합니다. Web scraping 과 DOM 웹 스크래핑에 복잡한 웹 페이지에서 Ajax기능이 어디에 적용되는지 확인해야합니다. Ajax는 비동기 기능으로서 웹페이지 전체를 업데이트 하지 않고 일부만 변경하는 것이 가능합니다. 그래서 DOM을 잘 이해하면 웹 페이지의 구조를 쉽게 이해할 수 있고, 해당 요소에 접근해서 원하는 데이터를 얻는 데 유용하다. DOM에 접근하는 방식으로 javascript를 사용하기 때문에 jav..
해당 포스트는 web scraping(web crawling)을 위한 기본적인 내용인 Ajax에 대한 내용입니다. 정의 Ajax란 Asynchronous JavaScript and XML의 약자입니다. Ajax는 빠르게 동작하는 동적인 웹 페이지를 만들기 위한 기술입니다. Ajax 의 Asynchronous를 보면 비동기적이라는 것을 확인할 수 있습니다. 해당 비동기라는 것은 웹 페이지의 일부분만을 비동기적으로 갱신할 수 있다는 의미입니다. 보통은 웹 페이지를 전체를 갱신하기 때문에 시간이 오래걸립니다. 그래서 Ajax라는 기능이 나왔습니다. 즉, Ajax를 이용하면 백그라운드에서 서버와 통신하여, 해당 리턴 값을 웹 페이지의 일부분에 표시할 수 있습니다. 이때, Ajax는 다양한 형태의 데이터를 주고받..
- Total
- Today
- Yesterday
- bash_profile
- BREW
- cookie
- deck.gl
- homebrew
- XMLHTTPRequest
- 세션
- IOT
- Python
- OSX
- XHR
- 쿠키
- Anaconda
- Internet of Things
- data visualization
- bashrc
- Session
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |