본문 바로가기

Java

JSoup를 이용한 HTML 파싱

Jsoup은 BeautifulSoup라고 하는 Python 라이브러리와 비슷한 Java에서 사용할 수 있는 HTML 파싱 라이브러리이다.

다른 HTML 파싱 라이브러리보다 사용하기가 편한 것이 장점이다.


라이브러리는 http://jsoup.org/download 에서 다운로드 할 수 있으며, 2015년 2월 16일 기준 최신 버전은 1.8.1이다. 

맨 위의 core library를 다운로드하면 된다.


Java 프로젝트에서 라이브러리를 추가하고, 소스에 다음을 import한다.

기본적인 사용 방법은 다음과 같다.

import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document; //import Jsoup
import org.jsoup.select.Elements; //import Jsoup

try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("div.tt_article_useless_p_margin"); //내용 중에서 원하는 부분을 가져온다.
      String text = contents.text(); //원하는 부분은 Elements형태로 되어 있으므로 이를 String 형태로 바꾸어 준다.
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.   
      e.printStackTrace();
}


그렇다면, 내용 중에 한 가지만 가져오고 싶다면 어떻게 해야 할까?

두 가지의 방법이 있다.

우선 첫 번째는 Elements 형이 아닌 단일 형태인 Element를 사용하는 방법이다.

import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup

try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Element contents = doc.select("div.tt_article_useless_p_margin").first(); //내용 중에서 첫 번째 부분만 가져온다.
      String text = contents.text(); //String 형태로 바꾸어 준다.
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}

를 사용한다.


하지만 위 방법은 맨 첫번째 내용만 받아올 수 있으므로, 맨 첫번째 내용이 아닌 중간의 내용을 받아오려면,

import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup

try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("div.tt_article_useless_p_margin:eq(N)"); //내용 중에서 N번째 부분만 가져온다.
      String text = contents.text(); //String 형태로 바꾸어 준다.
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}

을 사용한다. 


뒤의 :eq(N) 은 같은 이름의 클래스가 있을 때 몇 번째 클래스를 받아올 지 선택할 수 있으며, 0부터 시작한다.

이것을 while문이나 for문과 같은 loop문과 응용하면 한 부분이 아닌 여러 부분의 내용을 조합하여 사용할 수도 있지만, 여기서는 다루지 않도록 한다.


텍스트가 아닌 HTML의 속성(예: href, title 등)을 가져오고 싶을때는 어떻게 해야할까?

예를 들어 HTML 속성이 다음과 같다고 하자.

<a href="href1" title="Title1">Title</a>

이 중에서 href를 가져오고 싶다면, 다음과 같이 사용하면 된다.

import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup

try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("div.tt_article_useless_p_margin"); //내용을 가져온다.
      String text = contents.attr("href"); //attr은 기본적으로 String형이다. 
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}

그러면 결과값은 herf1이 나올 것 이다.


아, 그리고 text() 와 toString()은 서로 다르다.

예를 들어 HTML 속성이 다음과 같다고 하자.

<a href="href1" title="Title1">Title</a>

결과값을 보면 알겠지만, text()는 <>과 </> 사이에 있는 사용자가 보이는 텍스트만 가져오는 데 반해,

toString()은 가져온 전체 값을 출력한다.

text()의 결과값 : Title

toString()의 결과값 : <a href="href1" title="Title1">Title</a>


참고: select 쉽게 하는 방법

Google Chrome으로 파싱하기 원하는 페이지에 들어간 후 Ctrl+Shift+C 를 동시에 누르면 아랫쪽에 창이 하나 뜰 것이다.

창이 뜬 후 자신이 원하는 부분을 마우스로 클릭하면 아래쪽의 클래스가 펼쳐지고, 맨 아랫부분에 자신이 클릭한 클래스 이름이 쭉 나와있다.

파란 색으로 처리된 부분만 사용해도 문제가 없을 수는 있겠지만, 안정성을 위해 앞의 3가지 정도의 상위 클래스도 사용하여 쓰도록 하자.

import org.jsoup.Jsoup; //import Jsoup
import org.jsoup.nodes.Document;  //import Jsoup
import org.jsoup.select.Elements;  //import Jsoup
import org.jsoup.nodes.Element; //import Jsoup

try {
      Document doc = Jsoup.connect("http://slg1119.tistory.com/").get(); //웹에서 내용을 가져온다.
      Elements contents = doc.select("tr td div div.line.number5.index4.alt2"); //내용을 가져온다.
      String text = contents.attr("href"); //attr은 기본적으로 String형이다. 
      System.out.println(text);
} catch (IOException e) { //Jsoup의 connect 부분에서 IOException 오류가 날 수 있으므로 사용한다.
      e.printStackTrace();
}
이런 식으로 사용하면 된다.




이 글은 정동윤이 작성한 글입니다.