일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 데이터 사이언스
- 파이썬
- 데이터 사이언티스트
- Python
- data engineer
- 데이터 구조
- R 배우기
- data science
- 데이터 엔지니어링
- 빅데이터
- R 설치
- r
- Data Scientist
- 데이터 엔지니어
- Today
- Total
To be a Data Scientist
# R 기본 정보 R은 통계학에서 사용되던 언어 S를 오픈 소스로 구현한 언어이다. 다양한 통계분석과 그래프 작성 등을 위한 프로그래밍 언어인 동시에 다른 소프트웨어를 개발할 수 있는 개발 환경으로의 역할도 할 수 있다. 최근 데이터 사이언스의 발전과 함꼐 R은 굉장히 주목을 받고 있다. R은 오픈소스이며 완전히 무료지만 다른 상용 통계프로그램(SPSS, SAS, Minitab 등)에 비해 성능이 크게 뒤지지 않기 떄문이다. 게다가 활성화되어있는 R 사용자 커뮤니티를 통해서 정보를 얻기 쉬우며, 통계와 그래픽에 관련된 기능 확장, 고유한 언어 내장 프로그램 기능과 내장 통계함수 제공 등 R의 장점은 무궁무진하다. # R 설치하기 R은 앞서 말했듯이 완전히 무료이고, 인터넷에서 쉽게 다운받을 수 있다. R..
#기초 연산 R의 기초 연산은 상당히 직관적인 편이다. + : 더하기- : 빼기* : 곱하기/ : 나누기^ : 제곱%% : 나머지 우선순위는 표준적인 연산의 우선순위를 그대로 따른다. 괄호 안쪽의 수식, 지수 및 근후, 곱하기와 나누기, 더하기와 뺴기 순이다. #변수(variable) 설정하기 변수는 값이나 object(e.g. 함수에 대한 설명)를 저장할 수 있게 해준다. 이로써 나중에 variable의 이름을 사용해서 값나 object를 쉽게 불러 올 수 있다. my _var 에 4라는 값을 지정하고 싶다면, my_var class()를 통해서 데이터 타입을 판별할 수 있다. #Relational operators 어떤 operator(연산자)가 다른 연산자와 무슨 관계를 맺고있는 지를 알 수 있다...
"10년 뒤 가장 섹시한 직업은 통계학자 일 것입니다" -Hal Varian 2009년에 구글의 수석 경제학자 Hal Varian은 이렇게 예측했었다. 당시엔 누구도 그의 말이 이토록 맞으리라곤 생각하지 못했었다. 다만 지금과 작은 차이점이 있다면, 이제 우리는 그들을 통계학자라고 부르기보단 Data Scientist라고 부른다는 점이다. NYU는 Data Science를 "엄청난 양의 데이터를 자동화된 도구를 이용하여 분석하고, 정보를 도출해내는 것"이라 정의하였다. Data Scientist 는 Data Science를 하는 사람을 뜻한다. 즉, 데이터 속에서 의미있는 정보를 도출해낼 수 있는 능력을 갖춘 사람이다. 이런 엄청난 양의 데이터를 처리해 유의미한 결론을 이끌어내기 위해서는 기존의 데이터 ..