뉴비에욤

0x6 Python Tutorials - Spidering 본문

primalsecurity.net/Python Tutorials

0x6 Python Tutorials - Spidering

초보에욤 2015. 9. 8. 16:20

스파이더링 (스파이더 : 인터넷 자동 검색 프로그램)

 

이번 포스팅에서는 웹 애플리케이션 스파이더링을 진행하기 위해 새로운 모듈(spider,optparse)를 소개할 것이다. 웹 어플리케이션을 대상으로 스파이더링을 진행하는 것은 웹 어플리케이션 구조 파악을 위해 해당 웹 어플리케이션에 링크된 컨텐트를 나열하는 프로세스이다. 웹 어플리케이션 스파이더링은 파이썬을 이용하여 짧고 간단한 스크립트를 작성하는 것에 대한 꽤 좋은 use-case 이다.

 

 

웹 요청에 대한 응답 데이터 내에서 "href" 태그를 파싱하는 크롤링 스크립트를 작성할 수도 있지만, "Spider" 라는 파이썬 모듈을 이용하면 좀 더 짧은 코드 라인으로 대체할 수 있다.

 

 

"Spider" 모듈에서 동작하는 "myspider(b=URL.strip(),w=200,d=5,t=5)" 함수에서 사용할 수 있는 몇가지 옵션이 존재한다. 이 함수는 2가지 리스트(자식 URL, 경로)를 리턴한다. myspier 함수에 전송되는 옵션을 변경하는 것으로 "Spider" 모듈의 동작을 변경할 수 있다.

-b : 기본 웹 URL (기본값:None)

-w : 크롤링을 진행할 리소스 양 (기본값:200)

-d : 크롤링을 진행할 웹 사이트 계층의 깊이 (기본값:5)

-t : 쓰레드 개수 (기본값:None)

 

 

 

 

 

이번 포스팅에서는 파이썬을 이용해서 웹 어플리케이션 리소스를 다루는 것에 대한 짧은 오버뷰였다. 웹 리소스를 다루는 것에 대해서는 수많은 "use-case"가 존재한다. 이후 포스팅에서는 웹 서버들 대상으로 스크립트를 사용하여 공격을 진행함으로써 좀 더 고급적인 "use-case"에 대하여 보여줄 것이다.

 

 

Comments