Notice
Recent Posts
Recent Comments
Link
«   2024/09   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

To be a Data Scientist

Data Scientist가 되기 위해서 본문

Data Science

Data Scientist가 되기 위해서

Daby 2016. 9. 4. 16:46


"10년 뒤 가장 섹시한 직업은 통계학자 일 것입니다" -Hal Varian


  2009년에 구글의 수석 경제학자 Hal Varian은 이렇게 예측했었다. 당시엔 누구도 그의 말이 이토록 맞으리라곤 생각하지 못했었다. 다만 지금과 작은 차이점이 있다면, 이제 우리는 그들을 통계학자라고 부르기보단 Data Scientist라고 부른다는 점이다. 




  NYU는 Data Science를 "엄청난 양의 데이터를 자동화된 도구를 이용하여 분석하고, 정보를 도출해내는 것"이라 정의하였다. Data Scientist 는 Data Science를 하는 사람을 뜻한다. 즉, 데이터 속에서 의미있는 정보를 도출해낼 수 있는 능력을 갖춘 사람이다. 이런 엄청난 양의 데이터를 처리해 유의미한 결론을 이끌어내기 위해서는 기존의 데이터 애널리스트나 통계학자의 능력은 물론 프로그래머의 능력까지 필요하다. Data Scientist는 데이터를 이용해 기존에 미처 알지 못했던 인사이트를 밝혀내기도 하고, 트렌드를 읽어내기도 하며, 회사 전략수립에도 도움을 주는 등 다양한 일을 하고 있다. Data Science를 활용에 성공한 예에는 이베이, 아마존, 넷플렉스, 페이스북 등 다양한 기업들이 있다. 이들은 Data Scientist들을 고용해 사용자의 각각의 데이터를 분석하였고, 각자의 취향과 필요에 맞춰 쇼핑 추천목록, 영상 추천목록, 광고나 콘텐츠를 제공하였고, 이러한 서비스들로 몇 천만 달러의 수익을 창출할 수 있었다.    


  전 세계적으로 Data Scientist의 필요성은 대두대고 있으며, 수요도 증가하고 있다. 데이터 시대라고 불리기도 하는 지금, 데이터는 지금 이 순간에도 쉴새없이 만들어지고 있다. 하지만 데이터 그 자체를 많이 소유하고 있는 것은 의미가 없다. 이를 분석하고, 유의미한 무언가를 이끌어 냈을 때 비로소 정보가 되고, 파워가 되는 것이다.  Accenture의 레포트에 의하면, 87%의 회사는 앞으로 3년 내에 빅데이터 분석이 산업의 경쟁 양상을 새롭게 디자인하게 될 것이라고 예측했다. 또한, 89%는 빅데이터 분석없이는 앞으로 시장점유율이 떨어지게 될 것이며, 경쟁성을 잃게 될 것이라고 생각한다고 응답했다. 




Mckinsey는 앞으로도 Data scientist들의 수요에 비해 공급은 많이 부족한 양상을 보이게 될 것이라고 예상한다. 2018년까지 미국에서만 490,000명의 Data scientist들이 필요한 것에 반해 약 200,000명 이하의 Data scientist들만 잡 마켓에 공급될 것으로 추측한다. 또한 전세계적으로도 수요가 공급의 50%를 초과할 것이라고 언급했다. 


이렇듯 Data science는 새로 생겨난 분야이지만, 굉장히 "핫"한 분야이며 트렌드임엔 틀림없다. 그렇다면 Data scientist가 되기 위해서 필요한 스킬에는 어떤 것이 있을까?



# 기술적 측면 : 분석


1. 교육 - Data scientist들의 교육수준은 상당히 높은 편이다. 88퍼센트는 최소한 석사과정을 마쳤으며, 46퍼센트는 박사과정을 이수했다. 이에 눈에 띄는 예외는 없으며, Data scientist가 되기 위해 어느정도 깊이있는 지식이 기본이 되어야하고 이를 위해 높은 학위를 보유하는 것이 일반적이다. 대부분 수학가 통계를 전공한 사람이 가장 많았고(32%), 그 다음으로는 컴퓨터 공학(32%)와 엔지니어(16%)가 뒤를 이었다.

 

2. SAS와/혹은 R - SAS와 R중 최소한 하나에 대해선 깊은 이해는 필수이며, 보통 Data scientist들은 R을 선호한다.


#기술적 측면 : 컴퓨터 공학


3. 파이썬 코딩(Python Coding) - 파이썬은 가장 일반적인 코딩 언어이며, 특히 Data science에서 Java, Perl 혹은 C/C++와 함께 요구된다.


4. Hadoop Platform - 필수 요구사항은 아니지만, 많은 곳에서 선호하는 스킬 중 하나이다. Hive나 Pig에 대한 경험을 쌓는 것도 큰 장점이 될 수 있다. 아마존 S3와 같은 클라우드 도구에 익숙해지는 것도 좋다. 


5. SQL 데이터베이스/코딩 - NoSQL과 하둡이 Data science의 큰 축이 되었지만, 여전히 SQL 상에서 복잡한 쿼리를 쓰고 실행할 수 있는 능력은 지원자들에게 기대하곤 한다. 


6. 비구조화된 데이터 - 소셜미디어나 비디오, 오디오 등 어디서 추출을 했든지 이런 비구조화된 데이터들을 다루는 능력은 Data scientist에게 있어서 매우 중요하다. 


# 비기술적 측면


7. 호기심 - Data scientist 관련 글에 반드시 등장하는 단어이다. Frank Lo는 이게 무슨 뜻인지, 그리고 다른 필요한 "soft skills"에 대해 정리하였다. (참고 : http://www.burtchworks.com/2014/03/12/tips-for-hiring-data-scientists/)


8. 비즈니스적 감각 - Data scientist가 되기 위해서는, 일하고 있는 산업에 대한 심도 깊은 이해와 회사가 어떤 문제에 직면해 있고, 이를 어떻게 해결하려고 하는지에 대해 정확히 알아야 한다. 또한 많은 문제들 중에서 중요한 문제를 판단하고 처리하는 능력, 그리고 회사가 자신들의 데이터를 효율적으로 이용할 방안을 찾아내야 하는 것도 Data scientist의 일이다. 


9. 소통능력 - 회사들은 기술적인 부분을 마케팅과 영업팀과 같은 문과 쪽 부서에 명확하고 유창하게 전달 설명해줄 Data scientist를 찾고 있다. Data scientist는 많은 양의 통찰을 바탕으로 회사가 어떤 결정을 내리게 해주어야 함은 물론,  문과 쪽 부서 동료의 니즈를 잘 이해해 데이터를 필요 적절하게 얻을 수도 있어야 한다. 



  그렇다면 이와 같은 스킬들을 어디서 쌓을 수 있는 것일까? 인터넷는 이와 관련한 다양하고 양질의 자료가 많다. 하지만,  MOOCs의 몇가지 강의를 들음으로써 Data scientist가 될 수있다고 믿는 것은 큰 오산이다.  Data scientist가 되기 위해 필요한 기본 지식이 튼튼하지 않다면, 꽤나 힘든 여정이 될 것이다. 그럼에도 정말로 데이터에 열정이 있고 이 길에 뜻이 있다면, 불가능한 것은 아니다. 다음은 참고할 만한 리소스들이다. 


#Resources


1. 학위 - 유수의 대학들이 국내외로 Data science 관련 과를 만들고 있는 추세이다. 아니면, 수학, 통계, 컴퓨터 공학을 배우는 것도 하나의 방안이다. 

2. MOOCs - 무료로 유수 대학의 강의를 집에서 수강할 수 있는 점이 가장 큰 장점이다. Coursera, Udacity, codeacademy 역시 시작하기에 좋은 선택이다. 

3. 자격증 - KDnuggets에서 관련 자격증을 딸 수 있다.

4. Bootcamps  - MOOCs와 대학 학위보다 기간도 짧은 편이며, 이론보다는 실무적인 부분을 배운다.  

5. Kaggle - Kaggle은 Data science 경연대회를 주최하여, 직접 데이터를 다뤄볼 수 있다. 현실의 데이터를 사용해 연습할 수 있고,  실제 비즈니스 문제점에 태클을 걸 수도 있다. 실제로 회사에서도 채용시 Kaggle의 순위를 눈여겨 본다.   

6. LinkedIn Group - 관련 그룹에 가입해, Data Science 커뮤니티 멤버들과 소통할 수 있다. 







출처: https://www.import.io/post/why-data-scientist-is-being-called-the-sexiest-job-of-the-21st-century/

  http://www.burtchworks.com/2014/11/17/must-have-skills-to-become-a-data-scientist/



'Data Science' 카테고리의 다른 글

THIS IS WAR : Python vs R  (0) 2016.09.24
Data scientist = UNICORN?!  (0) 2016.09.20
Comments