Golang URL 텍스트 추출 xurls 라이브러리 알아보기
오늘은 Golang으로 텍스트에서 URL들을 추출하는 xurls 라이브러리를 알아보려 합니다.
xurls 설치
우선 Golang의 환경을 구성하기 위해 https://golang.org/dl/ 에서 윈도우, 리눅스, 맥에서 설치 프로그램을 내려받을 수 있습니다.
맥에서 brew로 쉽게 설치할 수 있습니다.
brew install go
우분투에서도 apt로 쉽게 설치할 수 있습니다.
sudo apt-get install golang-go
맥에서 Golang의 버전을 올리려면 brew를 이용합니다.
brew upgrade go
우분투에서도 Golang의 버전을 올리려면 backports 저장소를 등록하고 apt를 이용합니다.
sudo add-apt-repository ppa:longsleep/golang-backports
sudo apt-get update
sudo apt-get install golang-go
go get으로 xurls 패키지를 설치합니다.
go get github.com/mvdan/xurls
홈의 go 폴더에 xurls 소스코드와 패키지 파일이 생성됩니다.
예제
package main
해당 소스코드를 실행 파일로 인식하게 해주도록 main이라고 선언합니다.
import (
"fmt"
"github.com/mvdan/xurls"
)
fmt 그리고 xurls를 가져옵니다.
func main() {
rxRelaxed := xurls.Relaxed()
relaxed := rxRelaxed.FindString("hello, world! test.org!")
fmt.Println(relaxed)
스키마가 없는 URL 형식도 포함한 모든 URL들을 찾아서 추출합니다.
relaxed = rxRelaxed.FindString("This is not URL")
fmt.Println(relaxed)
URL들을 찾아서 없으면 빈 값이 반환됩니다.
rxStrict := xurls.Strict()
strict := rxStrict.FindAllString("See http://example.com/.", -1)
fmt.Println(strict)
스키마가 갖추어진 URL 형식을 추출하여 리스트로 반환합니다.
strict = rxStrict.FindAllString("hello, world! test.org!", -1)
fmt.Println(strict)
기존 Relaxed에서 추출된 URL이라도 스키마가 없으면 추출되지 않습니다.
regexp, _ := xurls.StrictMatchingScheme(`^[a-z]+`)
fmt.Println(regexp.MatchString("http://hello.com"))
}
원하는 정규식을 따로 지정할 수도 있습니다.
Written on November 6, 2019