티스토리 뷰
1. R, R Studio 를 설치한다.
Windows 용을 받아서 설치하면 된다. 너무나도 간단하다.
2. R Studio를 이용해 예제를 실행해본다.
Ruby나 NodeJS, 기타 리눅스 시스템을 이용해본 경험이 있다면 혹은 Maven이나 Gradle 방식을 조금이라도 알고 있다면.
패키지 설치에 대해 이해 할 것이다.
아래 구문을 복사&붙여넣기 하고 설치를 진행한다.
install.packages(c('rvest', 'httr', 'stringr', 'readxl', 'dplyr', 'tm', 'qgraph', 'KoNLP','RSelenium'), repos='http://cran.nexr.com')
3. Library 사용은 library(사용할패키지명) 을 입력하면 된다.
library(KoNLP)
library(httr)
library(rvest)
library(stringr)
4. 예제를 분석하여 Naver cafe의 글을 읽어온다.
회원 세션을 연동하는 방법은 아직 모른다.
list.url = 'http://m.cafe.naver.com/ArticleRead.nhn?clubid=16259867&page=1&boardtype=L'
titles=c()
contents=c()
for ( i in 1:10)
{
url = modify_url(list.url, query=list(articleid=(i + 17178)))
h.list = read_html(url)
title = str_trim(repair_encoding(html_text(html_nodes(h.list, 'title')), from ="UTF-8"))
titles = c(titles, title)
content = str_trim(repair_encoding(html_text(html_nodes(h.list, 'div.post_cont')), from ="UTF-8"))
contents = c(contents, content)
}
length(titles)
result = data.frame(titles, contents)
View(result)
write.table(result, 'naver1.csv', sep=',')
C는 구조체인가 보다.
data.frame을 하면 titles, contents 의 길이가 서로 맞지 않다면서 표시를 못해준다.
result = data.frame(titles)
이렇게 변경해도 된다.
변경하면 View의 사용을 이해 할 수 있을 듯하다.
아주 좋다.
데이터 크롤링이 끝나면 만들어진 데이터를 이용해 2차 3차 가공이 가능하다.
'데이터처리 > R Project' 카테고리의 다른 글
일지처럼 남겨보는 첫걸음 (1) | 2016.06.08 |
---|
- Total
- 536,811
- Today
- 0
- Yesterday
- 39
- 호루루의 일상
- opencv
- Nas
- EOS 40D
- 안드로이드
- Tile based games
- 호루루의 일상 17화
- 안드로이드 개발
- 아이폰
- libgdx
- 아이폰 세미나
- 가족농장
- 안드로이드 테스트 유틸
- 상토를 이용한 수초어항
- 도트찍기
- 체리새우
- 물생활 이야기
- cocos2dx 분석
- 나스
- Windows Mobile 6
- 호루루의 물생활 이야기
- Android Tile 게임 제작하기
- 태그를 입력해 주세요.
- COCOS2D-X
- Libgdx korean manual
- 들깨 수확
- Android
- 안드로이드 게임 개발
- 구피 죽음
- EOS40D