일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- data science
- 데이터 엔지니어링
- 파이썬
- Python
- data engineer
- 데이터 엔지니어
- 데이터 사이언티스트
- r
- 데이터 사이언스
- 빅데이터
- 데이터 구조
- R 설치
- Data Scientist
- R 배우기
- Today
- Total
목록데이터 사이언스 (6)
To be a Data Scientist
R 데이터 구조 R은 벡터, 요인, 행렬, 데이터 프레임, 리스트라는 데이터 구조를 지니고 있다. 벡터(Vector) : 1차원으로 구성된 데이터 형태로, 동일한 타입의 데이터로만 구성되어야 한다. 행렬 : 2차원 배열이며, 원소는 모두 동일한 유형의 데이터로 구성되어야 한다. matrix() 함수를 이용해 행렬을 생성할 수 있다. matrix(data, nrow=a, ncol=b, byrow=TRUE/FALSE, dimnames=list(row_name, col_name) ** nrow와 ncol은 행렬의 행과 열의 수를 나타낸다. **byrow는 데이터를 행 단위로 구성할지, 열 단위로 구성할지 결정하는 역할을 한다(TRUE : 행 단위/ FALSE : 열 단위). 기본적으로 FALSE로 셋팅되어 있..
데이터 쪽을 공부하리라 마음먹었다면, 가장 먼저 내딛어야 할 첫 발은 어떤 프로그래밍 언어를 공부할지 정하는 것이다. 많은 프로그램이 존재하고 각각의 장단점이 있겠지만, 요즈음 데이터 사이언티스트들은 주로 R이나 Python(파이썬)이 사용하고 있다. 이번 포스팅에서는 R과 파이썬 중 무엇을 배울 지 고민하는 당신을 위해, R과 파이썬, 각각의 장단점을 비교하는 시간을 가져보도록 하겠다. THE WAR BEGINS NOW!! R 소개 1995년에 Ross Ihaka와 Robert Gentleman이 만든 오픈소스 랭귀지로, S 프로그래밍 언어를 기반하고 있다. 애초에 R은 데이터 분석나 통계, 그래프 모델링을 할 때, 사용자가 이용하기 편리하게(user-friendly) 만들어진 언어이다. 처음에는 주로..
무척이나 덥던 올 여름은 지나갔지만, 데이터 사이언티스트(Data scientist)에 대한 열기는 아직 뜨겁다. 이미 많은 회사들이 데이터 사이언티스트들로 인해 엄청난 수익을 올렸고, 지금은 더 많은 회사들이 이들을 고용하기 위해서 노력하고 있다. 하지만, 데이터 사이언티스트 고용은 커녕 찾는 것 조차 만만치 않아 일부에서는 이들을 전설의 동물, 유니콘이 아니냐는 소문이 떠돌고 있다. 데이터 사이언티스트, 그들은 진짜 유니콘인가? 앞선 포스팅에서 데이터 사이언스를 하기 위한 필요한 스킬들을 정리했었다. 다시 간단히 요약하자면, 수학과 통계는 물론, 컴퓨터 공학에 대한 지식도 튼튼해야 한다. 거기에 자신만이 분야 전문성을 바탕으로 리서치와 소프트웨어 엔지니어링, 머신러닝까지 할 수 있는 능력을 겸비해야 ..
# R 기본 정보 R은 통계학에서 사용되던 언어 S를 오픈 소스로 구현한 언어이다. 다양한 통계분석과 그래프 작성 등을 위한 프로그래밍 언어인 동시에 다른 소프트웨어를 개발할 수 있는 개발 환경으로의 역할도 할 수 있다. 최근 데이터 사이언스의 발전과 함꼐 R은 굉장히 주목을 받고 있다. R은 오픈소스이며 완전히 무료지만 다른 상용 통계프로그램(SPSS, SAS, Minitab 등)에 비해 성능이 크게 뒤지지 않기 떄문이다. 게다가 활성화되어있는 R 사용자 커뮤니티를 통해서 정보를 얻기 쉬우며, 통계와 그래픽에 관련된 기능 확장, 고유한 언어 내장 프로그램 기능과 내장 통계함수 제공 등 R의 장점은 무궁무진하다. # R 설치하기 R은 앞서 말했듯이 완전히 무료이고, 인터넷에서 쉽게 다운받을 수 있다. R..
#기초 연산 R의 기초 연산은 상당히 직관적인 편이다. + : 더하기- : 빼기* : 곱하기/ : 나누기^ : 제곱%% : 나머지 우선순위는 표준적인 연산의 우선순위를 그대로 따른다. 괄호 안쪽의 수식, 지수 및 근후, 곱하기와 나누기, 더하기와 뺴기 순이다. #변수(variable) 설정하기 변수는 값이나 object(e.g. 함수에 대한 설명)를 저장할 수 있게 해준다. 이로써 나중에 variable의 이름을 사용해서 값나 object를 쉽게 불러 올 수 있다. my _var 에 4라는 값을 지정하고 싶다면, my_var class()를 통해서 데이터 타입을 판별할 수 있다. #Relational operators 어떤 operator(연산자)가 다른 연산자와 무슨 관계를 맺고있는 지를 알 수 있다...
"10년 뒤 가장 섹시한 직업은 통계학자 일 것입니다" -Hal Varian 2009년에 구글의 수석 경제학자 Hal Varian은 이렇게 예측했었다. 당시엔 누구도 그의 말이 이토록 맞으리라곤 생각하지 못했었다. 다만 지금과 작은 차이점이 있다면, 이제 우리는 그들을 통계학자라고 부르기보단 Data Scientist라고 부른다는 점이다. NYU는 Data Science를 "엄청난 양의 데이터를 자동화된 도구를 이용하여 분석하고, 정보를 도출해내는 것"이라 정의하였다. Data Scientist 는 Data Science를 하는 사람을 뜻한다. 즉, 데이터 속에서 의미있는 정보를 도출해낼 수 있는 능력을 갖춘 사람이다. 이런 엄청난 양의 데이터를 처리해 유의미한 결론을 이끌어내기 위해서는 기존의 데이터 ..