티스토리 뷰

1. R, R Studio 를 설치한다.

Windows 용을 받아서 설치하면 된다. 너무나도 간단하다.


2. R Studio를 이용해 예제를 실행해본다.

Ruby나 NodeJS, 기타 리눅스 시스템을 이용해본 경험이 있다면 혹은 Maven이나 Gradle 방식을 조금이라도 알고 있다면.

패키지 설치에 대해 이해 할 것이다.


아래 구문을 복사&붙여넣기 하고 설치를 진행한다.

install.packages(c('rvest', 'httr', 'stringr', 'readxl', 'dplyr', 'tm', 'qgraph', 'KoNLP','RSelenium'), repos='http://cran.nexr.com')


3. Library 사용은 library(사용할패키지명) 을 입력하면 된다.

library(KoNLP)

library(httr)

library(rvest)

library(stringr)


4. 예제를 분석하여 Naver cafe의 글을 읽어온다.

회원 세션을 연동하는 방법은 아직 모른다.


list.url = 'http://m.cafe.naver.com/ArticleRead.nhn?clubid=16259867&page=1&boardtype=L'

titles=c()

contents=c()

for ( i in 1:10)

{

url = modify_url(list.url, query=list(articleid=(i + 17178)))

h.list = read_html(url)

title = str_trim(repair_encoding(html_text(html_nodes(h.list, 'title')), from ="UTF-8"))

titles = c(titles, title)

content = str_trim(repair_encoding(html_text(html_nodes(h.list, 'div.post_cont')), from ="UTF-8"))

contents = c(contents, content)

}

length(titles)

result = data.frame(titles, contents)

View(result)

write.table(result, 'naver1.csv', sep=',')


C는 구조체인가 보다.

data.frame을 하면 titles, contents 의 길이가 서로 맞지 않다면서 표시를 못해준다.


result = data.frame(titles)


이렇게 변경해도 된다.

변경하면 View의 사용을 이해 할 수 있을 듯하다.


아주 좋다.

데이터 크롤링이 끝나면 만들어진 데이터를 이용해 2차 3차 가공이 가능하다.

'데이터처리 > R Project' 카테고리의 다른 글

일지처럼 남겨보는 첫걸음  (1) 2016.06.08
댓글
댓글쓰기 폼