[데이터 핸들링] 데이터 정렬 - plyr

Posted by 백창
2015.03.31 21:52 빅데이터/R


 개요


plyr 라이브러리의 arrange 함수를 이용해 손쉽게 데이터를 정렬해보자



 소스


library(plyr)


d3 = read.csv(path2,header=T)


d3 = arrange(d3, d3$Kg)



 결과


정렬 전




정렬 후



'빅데이터 > R' 카테고리의 다른 글

[데이터 핸들링] 데이터 정렬 - plyr  (0) 2015.03.31
Tags
이 댓글을 비밀 댓글로

pie 그래프 그리기

Posted by 백창
2014.09.03 18:24 빅데이터/R-last


 기본 pie


 변수 값만 지정 후 pie 그래프 출력



 색상과 라벨이 추가 된 pie


> pie(weights, main="채권관리", col=rainbow(length(weights)), labels=c("채권계약","채권보전","채권시효","채권추심"))


 결과는 다음과 같다.

 main 파라매터에 그래프의 이름을 적고, col 파라매터에 색상을 지정한다. label 파라매터에 각 값에 대한 라벨을 적는다.



 색상, 라벨과 비율로 표시되는 pie


이번에는 pie에 바로 넣지 않고 변수에 담아서 넣어보자. 

 colors 변수에 원하는 색상을 담고, weights_labels에 각 값에 대한 비율을 계산하여 저장한다. 그 후 pie 함수를 사용하여 pie 그래프를 그리고 legend 함수를 사용해 범례를 작성하여 label에 비율을 적고 이전에 label에 있던 정보는 범례로 작성한다.


'빅데이터 > R-last' 카테고리의 다른 글

pie 그래프 그리기  (0) 2014.09.03
one-sample t-test  (0) 2014.08.26
이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
Tags
이 댓글을 비밀 댓글로

one-sample t-test

Posted by 백창
2014.08.26 21:30 빅데이터/R-last

 one-sample t-test를 포함한 모든 t-test는 자료가 정규분포를 따를 경우 사용한다.


 검정통계량



 검정통계량 t=0.653이다.



 유의확률



의 값은 다음과 같다.



의 값은

1-pt(t,df=9) 이다.


※df 는 degree of freedom 자유도 이다.


 정규성 검정




 t-test



'빅데이터 > R-last' 카테고리의 다른 글

pie 그래프 그리기  (0) 2014.09.03
one-sample t-test  (0) 2014.08.26
이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
Tags
이 댓글을 비밀 댓글로

이원분산분석

Posted by 백창
2014.08.26 19:28 빅데이터/R-last

 자료형 변환


 독립변수의 자료형을 factor(요인)으로 변경




 기술통계




 교호작용


 선이 만나는 것은 교호작용이 존재한다는 것을 뜻한다.



 분산분석표


 종속변수 : 내키, 독립변수 : 종교, 성별




 교호작용이 없는 경우


 interaction을 제외하고 두 개의 그룹변수만 모형에 넣으면 된다.



 

'빅데이터 > R-last' 카테고리의 다른 글

pie 그래프 그리기  (0) 2014.09.03
one-sample t-test  (0) 2014.08.26
이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
Tags
이 댓글을 비밀 댓글로

일원분산분석

Posted by 백창
2014.08.26 17:49 빅데이터/R-last

 기술통계


 tapply() 함수를 사용하여 sex에 대한 myheight의 평균과 표준편차를 구한다.




 분산분석표


 lm()함수로 회귀분석을 한 후 anova()는 분산분석표를 구한다.




 회귀진단

 

 다음 명령을 통해 기본 가설을 진단한다.



'빅데이터 > R-last' 카테고리의 다른 글

one-sample t-test  (0) 2014.08.26
이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
rJava 설치  (0) 2014.08.04
Tags
이 댓글을 비밀 댓글로

기술통계

Posted by 백창
2014.08.26 13:57 빅데이터/R-last

 모집단과 표본

 

 원래의 집단 전체를 모집단이라하고 추출된 일부를 표본이라고 한다.



 기본 명령어


 

명령어

실습 

   표본수

   length()

 

   평균

   mean()

 

   분산

   var()

 

   표준편차

   sd()

 

   표준오차

   sd()/sqrt(length())

 

   변동계수

   sd()/mean()

 


 기본으로 제공되는 데이터 cars의 speed 열을 가지고 기본 통계명령어를 테스트 하였다.



 사분위수

 


 이에 대한 사분 범위는 다음과 같이 구할 수 있다.



 사분위수를 그래프로 나타내 보자.



 히스토그램

 

 기본적인 히스토그램의 출력 명령이다. 아무 옵션도 없이 hist 함수를 사용하면 y축이 도수로 표현되어 그래프가 생성된다.


 다음 실습은 옵션을 추가하여 도수가 밀도로 나타내어지게 한다.


 두 번째 lines 명령으로 히스토그램에 분포선을 추가한다.



 Q-Q plot

 

 다음 그래프를 통해 정규분포에 얼마나 근접한지 알 수 있다.



'빅데이터 > R-last' 카테고리의 다른 글

이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
rJava 설치  (0) 2014.08.04
R의 개념  (0) 2014.08.01
Tags
이 댓글을 비밀 댓글로

R 맛보기

Posted by 백창
2014.08.26 13:03 빅데이터/R-last

 맛보기


 R에 내장되어 있는 데이터를 사용하여 기본적인 분석을 실시한다.


 기술통계


 각각의 변수에 대하여 6개의 기술통계량을 보여준다.

 boxplot() 함수를 사용하여 도표로 나타낸다.

pairs() 함수를 사용하여 산포도를 나타낸다.



 데이터 읽기



 위 방법은 데이터를 읽는 기본적인 방법이다. R은 Linux와 동일하게 /로 디렉토리를 구분한다. 다음으로 소개할 방법은 workspace를 지정하는 방법이다.



 setwd 로 작업 공간을 지정하고 그 이후 파일을 읽어올때는 경로를 적어 줄 필요가 없다.




'빅데이터 > R-last' 카테고리의 다른 글

이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
rJava 설치  (0) 2014.08.04
R의 개념  (0) 2014.08.01
Tags
이 댓글을 비밀 댓글로

rJava 설치

Posted by 백창
2014.08.04 16:40 빅데이터/R-last

 rJava 패키지 설치

install.packages("rJava")


 환경변수 설정

R_HOME 변수 등록 ( rJava 패키지를 설치한 프로그램의 위치)


 Path 경로 지정
  • 64bit : %R_HOME%\bin\x64; %R_HOME%\library\rJava\jri\x64;

  • 32bit : %R_HOME%\bin\i386; %R_HOME%\library\rJava\jri\i386;


 Eclipse 설정

생성된 프로젝트에 library\rJava\jri 경로에 있는 JAR파일을 모두 복사한다.

Java Build Path에서 Add JARs



복사한 JAR파일을 추가한다.


 테스트


간단한 소스 테스트


저장된 결과

'빅데이터 > R-last' 카테고리의 다른 글

이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
rJava 설치  (0) 2014.08.04
R의 개념  (0) 2014.08.01
이 댓글을 비밀 댓글로

R의 개념

Posted by 백창
2014.08.01 09:30 빅데이터/R-last

 R 이란?


 R은 데이터 분석을 위한 통계 및 그래픽스를 지원하는 오픈소프트웨어 환경이다. 
 R은 하나의 완성된 언어체계이다. 따라서 자유롭게 데이터 분석을 R안에서 수행할 수 있다는 장점이 있다. 또한 R은 통계, 머신러닝, 금융, 바이오인포머틱스, 그래픽스에 이르는 다양한 통계 패키지를 갖고 있으며 이 모든 것이 무료로 제공된다. 거기에 더해 최근 시류에 발 맞춰 R은 멀티프로세서에서 손쉽게 병렬화하여 실행할 수 있고, RHive를 사용하여 최근 인기를 끌고 있는 Hive환경에서 R을 사용할 수 있다.


 R의 특징


 Application이나 Platform을 구축할 경우 분석 영역의 솔루션으로 R을 사용하는 것이 용이하다. 

(시스템 통합의 용이성)

  • Language Interface : C, C++, Fortran, Java, Python, tcl/tk, VB, Perl, Ruby
  • Application Interface : Excel, Google earth, ArcView, COM/DCOM etc
  • DB Interface : ODBC (Oracle, Mysql, MS-SQL, PstgreSql etc)
  • IDE : RStudio, eclipse, emacs, Bluefish, Crimson Editor, ConTEXT, Vim, Jedit, Kate, TextMate, gedit, SciTE, WinEdt


'빅데이터 > R-last' 카테고리의 다른 글

이원분산분석  (0) 2014.08.26
일원분산분석  (0) 2014.08.26
기술통계  (0) 2014.08.26
R 맛보기  (0) 2014.08.26
rJava 설치  (0) 2014.08.04
R의 개념  (0) 2014.08.01
이 댓글을 비밀 댓글로