Golang Scraping 프레임워크 Colly 라이브러리 알아보기

오늘은 Golang으로 만들어진 웹 사이트 Scraping 프레임워크 Colly 라이브러리를 알아보려 합니다.

Colly 설치

우선 Golang의 환경을 구성하기 위해 https://golang.org/dl/ 에서 윈도우, 리눅스, 맥에서 설치 프로그램을 내려받을 수 있습니다.

맥에서 brew로 쉽게 설치할 수 있습니다.

brew install go

우분투에서도 apt로 쉽게 설치할 수 있습니다.

sudo apt-get install golang-go

맥에서 Golang의 버전을 올리려면 brew를 이용합니다.

brew upgrade go

우분투에서도 Golang의 버전을 올리려면 backports 저장소를 등록하고 apt를 이용합니다.

sudo add-apt-repository ppa:longsleep/golang-backports
sudo apt-get update
sudo apt-get install golang-go

go get으로 Colly 패키지를 설치합니다.

go get -u github.com/gocolly/colly

홈의 go 폴더에 Colly 소스코드와 패키지 파일이 생성됩니다.

예제

package main

해당 소스코드를 실행 파일로 인식하게 해주도록 main이라고 선언합니다.

import (
	"fmt"

	"github.com/gocolly/colly"
)

fmt와 colly를 가져옵니다.

func main() {
collector := colly.NewCollector(
		colly.AllowedDomains("minwook-shin.github.io"),
		colly.MaxDepth(1),
		colly.Async(true),
	)

도메인 화이트리스트, 재귀 깊이, 비동기에 대한 설정을 포함한 Collector 객체를 만듭니다.

	collector.OnHTML("a[href]", func(e *colly.HTMLElement) {
		link := e.Attr("href")
		fmt.Println(e.Text, link)

OnHTML을 등록하여 a 태그의 href 속성을 반환합니다.

그리고 텍스트와 링크를 출력합니다.

		collector.Visit(e.Request.AbsoluteURL(link))
	})

계속해서 a 태그의 href 속성에 존재하는 링크를 Scraping 합니다.

	collector.OnRequest(func(r *colly.Request) {
		fmt.Println(r.URL.String())
	})

OnRequest를 등록하여 HTTP 요청을 보낼 때마다 URL을 출력하게 합니다.

	collector.Visit("https://minwook-shin.github.io")
}

수집하고자 하는 웹 사이트를 Scraping 합니다.

Written on October 29, 2019