R/R 프로젝트101 [ 이토록 쉬운 통계&R 100일 프로젝트 ] 40일차 공부 페이지252 페이지 ~ 254 페이지 배운 개념paste() 함수로 문자 붙이기1234567891011> paste("A", "+", 1, "등급")[1] "A + 1 등급" > paste("2학년", c("1반", "2반", "3반"), sep="-")[1] "2학년-1반" "2학년-2반" "2학년-3반" > paste(1:4, "학기", sep="")[1] "1학기" "2학기" "3학기" "4학기" > paste0(1:4, "학기")[1] "1학기" "2학기" "3학기" "4학기"cs substr() 함수로 글자 부분 선택하기함수 안 첫 번째로 원본 글자가 들어간다. 두 번째가 시작 위치, 세 번째가 끝 위치다. 12345> substr("ABCDEFGHIJKLMNOPQRSTUVWXYZ", 10.. R/R 프로젝트 2018. 6. 25. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 39일차 공부 페이지249 페이지 ~ 251 페이지 배운 개념" ", ' ' 로 문자 입력하기문자형 데이터는 "", ''로 이용한다. c() 함수로 값 나열하기concatenate 단어에서 나왔다. combine 으로 기억하면 편하다.하나의 값이 아니라 여러 개의 값을 나열하고 싶을 때 사용한다. 12345> c("A", "Z", "C")[1] "A" "Z" "c" > c(2017, 2019, 2020)[1] 2017 2019 2020cs rep() 함수로 값 반복하기반복하는 함수다. 두 가지 값이 필요하다. 첫 번째 값은 반복할 값, 두 번째 값은 반복 횟수다. 12345> rep(10, 3)[1] 10 10 10 > rep(c('A', 'B'), 3)[1] "A" "B" "A" "B" "A" "B"cs 다음 .. R/R 프로젝트 2018. 6. 24. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 38일차 공부 페이지244 페이지 ~ 248 페이지 배운 개념사칙 연산자+, -, *, /를 활용한다. 제곱, 몫과 나머지 연산자제곱 : ^몫 : %/%나머지 : %% 수열 만들기정수 수열 : > 2:10[1] 2 3 4 5 6 7 8 9 10 seq() 함수로 수열 만들기> seq(from=1, to=15, by=5)[1] 1 6 11 1부터 15까지 5등분 하려면, length 속성을 넣는다.> seq(1, 15, length=5)[1] 1.0 4.5 8.0 11.5 15.0 다음 시간에 배울 것R 기본 함수 R/R 프로젝트 2018. 6. 23. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 37일차 공부 페이지232 페이지 ~ 243 페이지 배운 개념R과 RStudioR은 데이터를 불러와 손질하고 분석하는 것까지 한두 줄의 명령어로 끝낼 수 있다는 장점이 있다.훌륭한 분석가들이 만든 레시피, 알고리즘 역시 한두 줄의 명령어로 실행하고 결과를 확인할 수 있다. 마이크로소프트 Excel과 달리 무료라는 장점이 있다. RStudio는 R을 조금 더 편하게 사용할 수 있도록 인터페이스를 제공해준다. R 설치cloud.r-project.org 사이트에서 설치한다. 각 운영체제에 맞춰 설치파일을 다운로드 받아 설치한다. RStudio 설치RStudio.com 사이트에서 설치한다. RStudio Desktop (Open Source License) Free 버전을 다운로드 받아 설치한다. 다음 시간에 배울 것B.. R/R 프로젝트 2018. 6. 21. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 36일차 공부 페이지223 페이지 ~ 231 페이지 배운 개념결정계수 (Coefficient of determination) 로 표현하는 결정계수는 전체 분산의 크기 중 모형이 설명하는 부분의 양을 비율로 계산한 것이다.1에 가까울수록 모형이 설명하는 비중이 크니까 더 좋다고 할 수 있다.결정계수 는 실제로 아빠 키와 아들 키의 상관계수 0.5를 제곱하면 결정계수와 동일한 값이 나온다. 단순선형회귀(Simple linear regression): 연속형 관심 변수 y를 하나의 연속형 설명 변수 x와의 직선 관계로 설명하는 아주 간단한 선형회귀모형 회귀분석(Regression analysis)많은 설명 변수 중에서 진짜 모형에 필요한 의미 있는 변수를 찾기 위해 t-검정을 사용한다.전체 모형이 관심 변수를 설명하는.. R/R 프로젝트 2018. 6. 21. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 35일차 공부 페이지214 페이지 ~ 222 페이지 배운 개념선형회귀모형전에 살펴 본 아빠 키와 아들 키의 표준화된 산점도에서 상관 계수는 0.5 였습니다. 이를 가지고 두 변수의 관계 식을 만들어 봅시다. 1. 상관계수로 표준화된 두 변수 관계를 표현합니다. 2. 양변에 아들 키의 표준 편차를 곱합니다. 식을 다듬어 표준편차를 변수로 묶어주자 3. 양변에 아들 키의 평균을 더합니다. 아빠 키의 평균과 표준편차는 각각 171.93cm, 6.97cm 이고, 아들 키의 평균과 표준편차는 각각 174.46cm, 7.15cm 이다. 이 숫자들을 3단계 식에 대입해보자. 숫자들의 곱하기와 더하기를 계산해보면 다음과 같다. 아빠 키와 아들 키의 관계는 숫자 두 개를 활용한 곱하기와 더하기로 표현할 수 있다. 표준화된 두 변.. R/R 프로젝트 2018. 6. 20. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 34일차 공부 페이지211 페이지 ~ 213 페이지 배운 개념F-분포F-분포는 일단 카이제곱분포와 마찬가지로 차이를 보이기 위해서 얼마나 많은 관측치를 사용했는지가 중요하다. 그룹 간의 차이가 작아도 관측치의 개수가 많다면 의미가 있다고 할 수 있기 때문이다. 또한 설명 변수 속에 그룹이 2개인 것 보다는 10개인 것이 관심 변수를 설명하는 데 더욱 유리하다. 즉, 몇 개의 관측치로 계산한 차이인지, 그 차이를 설명하기 위해 몇 개의 그룹을 활용했는지를 고려해야 하기 때문에, F-분포는 자유도를 두 개나 활용한다. 공부 방법에 따른 성적 차이 예제에서 자유도가 (2, 3)인 F-분포 속에서 우리가 계산한 F-값 16은 어디쯤 있을까? F-값이 16이상이 나올 확률, p-값은 2.5%이다. 즉, 실제로 공부 방법이.. R/R 프로젝트 2018. 6. 19. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 33일차 공부 페이지210 페이지 ~ 210 페이지 배운 개념F-분포F-분포의 확률밀도함수 f(x)는 다음과 같이 복잡하게 생겼다. F-분포의 모수는 d1과 d2이다. 이는 바로 평균제곱합을 구할 때 사용한 두 개의 자유도이다. F-분포가 자유도를 하나도 아니고 두 개나 사용하는 데에는 이유가 있다. 다음 시간에 배울 것F-분포 R/R 프로젝트 2018. 6. 19. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 32일차 공부 페이지207 페이지 ~ 209 페이지 배운 개념F-값F-값을 구하는 과정은 상당히 복잡하다. 제곱합의 특성상 관측치가 많으면 많을수록 값이 커지므로 관측치의 개수를 고려해야 한다. 그리고 범주형 변수의 수준의 개수, 그룹의 개수도 고려해야 한다. 표로 정리하면 다음과 같다. 구분 제곱합 자유도 분산 점수 70 5 14 제곱합을 자유도로 나오면 분산이 나온다. 그러나 이 제곱합이 두 개로 쪼개졌다. 첫 번째는 공부 방법이라는 변수로 나뉘어진 세 그룹 간의 차이를 설명하는 제곱합이다. 두 번째는 각 그룹에 있는 관측치들의 이유를 알 수 없는 개인차다. 구분 제곱합 자유도 분산 공부 방법(그룹 간) 64 2 32 개인차(그룹 내) 6 3 2 점수 70 5 14 공부 방법에 따라 학생들이 3개의 그룹 A,.. R/R 프로젝트 2018. 6. 17. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 31일차 공부 페이지202 페이지 ~ 206 페이지 배운 개념F-검정그룹이나 조건에 따른 차이를 검정하는 편리한 수단. F-값은 범주형 변수, 즉 '그룹에 따라 연속형 변수에 얼마나 큰 차이가 있는지' 혹은 '범주형 변수가 연속형 변수의 차이를 얼마나 많이 설명하는지' 를 말한다.이 F-값이 얼마나 큰 값인지는 F-분포 속에서 상대적인 위치를 측장한 p-값으로 계산한다. 학생 번호 점수() 공부 방법() 전체 평균() 그룹 평균() 1 0 A 5 1 2 2 A 5 1 3 4 B 5 5 4 6 B 5 5 5 8 C 5 9 6 10 C 5 9 세 가지 제곱합을 계산한다. 첫 번째, 의 제곱합은 (n-1)로 나누지만 않았지 사실상 분산과 같다. 관측치들이 서로 얼마나 다른지를 의미한다. 세 번째, 의 제곱합은 그룹의 .. R/R 프로젝트 2018. 6. 16. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 30일차 공부 페이지198 페이지 ~ 201 페이지 배운 개념F-검정F-분포(F-distribution)는 농업과 화학업 그리고 제조업의 끊임없는 품질과 성능 개선에 영향을 주었다. 지금도 의약업을 중심으로 널리 화룡되고 있다. 분산분석은 데이터 속 어떤 차이의 정도를 F-통계량(F-statistic) 혹은 F-값(F-value)으로 계산한다. 다음 시간에 배울 것F-검정 R/R 프로젝트 2018. 6. 15. [ 이토록 쉬운 통계&R 100일 프로젝트 ] 29일차 공부 페이지194 페이지 ~ 197 페이지 배운 개념카이제곱분포자유도가 6인 그래프다. 좌우 대칭이 아닌 확률밀도함수가 나왔다. 카이제곱값의 최솟값은 항상 0이다. 따라서 제곱합의 특징은 0보다 크거나 같다. 평균은 k와 똑같이 6이다. 정규분포나 t-분포는 평균을 중심으로 좌우대칭이었기 때문에 평균이 곧 중앙값이다. 그러나, 중앙값은 5.35다. 5.35가 중앙값이라는 얘기는 0부터 5.35까지 50%의 비중을 차지한다는 의미다. 그런데 평균은 6으로 중앙값보다 크다. 즉, 아주 큰 값들이 나올 수 있다는 것을 의미한다. 이 분포에서 계산한 값 5.78을 넣어보자. p-값은 0.4483 이다. 즉, 두 변수가 아무런 관계가 없더라도 5.78보다 큰 차이가 나올 확률은 무려 44.83% 라는 얘기다. 그.. R/R 프로젝트 2018. 6. 14. 이전 1 ··· 3 4 5 6 7 8 9 다음