IoT engineer

티스토리 뷰

Web Scraping(Crawling)

DongjunYang 2019. 10. 10. 00:42

해당 포스트는 web scraping을 위해 필요한 요소인 DOM에 관한 포스트입니다.

DOM은 HTML 문서나 XML 문서에 접근하기 위한 일종의 인터페이스입니다.

DOM은 문서 내의 모든 요소의 목적과 특징을 정의하고, 각각의 요소에 접근하는 방법을 제공합니다.

웹 스크래핑에 복잡한 웹 페이지에서 Ajax기능이 어디에 적용되는지 확인해야합니다.

Ajax는 비동기 기능으로서 웹페이지 전체를 업데이트 하지 않고 일부만 변경하는 것이 가능합니다.

그래서 DOM을 잘 이해하면 웹 페이지의 구조를 쉽게 이해할 수 있고, 해당 요소에 접근해서 원하는 데이터를 얻는 데 유용하다.

DOM에 접근하는 방식으로 javascript를 사용하기 때문에 javascript를 같이 공부하는 것이 좋다.

DOM을 추출하는 방식은 BeautifulSoup이라는 좋은 python 라이브러리가 있기 때문에, 개발자는 크롤링할 웹 사이트의 구조인 DOM을 분석하는 것이 필수적이다. BeautifulSoup를 이용한 DOM추출은 다른 포스트를 참조해주세요.

Cookie 와 Session (0)	2019.10.28
Beautiful Soup 과 DOM을 이용한 웹 스크래핑(web scraping) (0)	2019.10.10
Ajax(Asynchronous JavaScript and XML) 란 (0)	2019.10.09
XHR (XML Http Request) 이란 (0)	2019.10.07
.bash_profile .bashrc 차이점 (0)	2019.10.06

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함