알라딘

헤더배너
상품평점 help

분류

이름:류성희

최근작
2018년 3월 <R로 마스터하는 머신 러닝 2/e>

류성희

산업공학을 전공하고 금융관련 SI 업체에서 프로그래머로 일하다가 생태학과 환경에 관심이 생겨 농업 생태계 모델링을 공부하기 위해 유학을 갔으나 늦깎이로 통계학을 시작해 현재 아이오와 대학 통계학 박사 과정에 있다. 공부는 평생 하는 것이고, 언제든 다시 시작할 수 있다고 생각한다.  

대표작
모두보기
저자의 말

<R로 마스터하는 머신 러닝 2/e> - 2018년 3월  더보기

21세기, 소위 "빅데이터 시대"를 맞아 가장 주목을 받는 산업 분야가 정보 산업 분야라는 사실에는 이견이 없을 듯 하다. 이제는 이전 시대와 비교해 데이터의 수집이 매우 싸고 쉬워졌고, 점점 더 강력하고 편리해지는 컴퓨팅 환경과 이미 개발된 다양한 분석 도구들을 이용하면, 누구나 수많은 데이터에서 의미 있는 정보를 추출 가공해 각종 의사결정과 예측에 활용할 수 있게 되었다. 이 책은 비즈니스 현장에서 오랫동안 데이터 분석가 및 강사로 활약해 온 저자의 경험이 농축돼, 체계적으로 독자를 데이터 분석의 세계로 인도하고 있다. 특히 1장에서 CRISP-DM 모형화 기법을 소개하고, 이를 실제로 이후의 모든 장에서 순차적으로 반복해 전개하면서 독자를 자연스럽게 문제 해결 절차에 익숙해지도록 이끄는 것이 다른 교재와 구별되는 큰 장점이라 하겠다. 이 책의 번역을 하게 됐을 때, 기본적인 선형 회귀분석으로 시작해 최신 분석 기법들까지, 폭 넓은 활용도를 염두에 두고 균형 있게 선별된 주제를 다루고 있다는 점이 눈에 띄게 좋았다. 시작부터 끝까지, 지나치게 수학적이고 통계학적 이론은 지양하면서도 간략한 모형 소개를 통해 실용적인 측면을 강조하고, 배경이 되는 중요한 가정들과 아이디어는 빼놓지 않고 설명하고 있다. 겉보기에 현란하고 유행하는 고급 기법이 늘 좋은 것이 아니라, 당면 과제에 적합하고도 간결한 모형을 잘 선택하는 것이 더욱 중요하다는 사실 또한 적절한 예제를 통해 보여주고 있다. 분석 언어로 R을 채택하고 있다는 점 또한 큰 장점으로 들 수 있겠다. 고전적인 머신 러닝의 대부분은 통계 모형에서 왔다고 해도 과언이 아니며, 최근에 독자적으로 발전했다고 하는 머신 러닝 모형도 데이터를 다루는 것은 동일한 만큼, 통계학과 여전히 밀접한 관계 속에서 개발되고 있다. R 언어가 개발 초기부터 그 핵심 사용자들이 통계 전문가로 구성돼 있다는 점은 머신 러닝을 위한 언어로서도 다른 언어에 비해 큰 장점으로 작용한다. 요즘은 대규모 데이터의 수집이 워낙 쉬워져, 흔히 간과되는 부분이 있는데 결국은 데이터 자체에 대한 이해가 가장 중요하다는 점이다. 본래 R 언어는 통계 분석을 위해 학계 및 교육 현장에서의 자유로운 사용과 투명한 개발을 위해, 통계학자들을 중심으로 오픈 소스로 공동 개발되고 무료로 배포되고 있다. 최근에는 데이터 과학자들이 R 이용자 커뮤니티에 대거 참여하고 있으며, 학계를 벗어나 다양한 산업 분야에서 대규모의 복잡한 문제 해결에 이르기까지, 다양한 인터페이스 개발을 통해 활용 범위가 매우 넓어졌다. 또한 세련된 R전용 통합 개발 환경인 RStudio의 눈부신 발전으로 인해, 매우 효율적인 데이터 사전처리와 모형화와 프로그래밍 및 실행, 강력한 그래프 기능과 마크업 기능을 이용해 실시간으로 전문적이고도 세련되고 아름다운 프리젠테이션을 손쉽게 생성해 온/오프라인으로 공유할 수 있게 됐다. 빅데이터 시대의 큰 특징이자 문제점은, 이른바 "일단 수집하고, 질문은 차후에!(Collect first, ask question later!)"라고 하는 마케팅 분석의 흐름으로 요약될 수 있겠다. 이는 데이터 측정과 수집이 자동화돼가는 현재, 불가피한 상황이라 할 수 있는데, 데이터를 잘 제어된 환경에서 측정해 모으는 것이 아니라, 수집한 경로와 상관 없이 이미 수집된 데이터를 상대로 정보를 추출하고 분석해 그 결과를 바탕으로 추론하려고 한다. 그래서 이 상황 자체가 일으키는 문제가 큰 도전과제가 되고 있다. 이는 수집한 데이터에 맹목적으로 모형을 활용했을 경우에는 "쓰레기 입력, 쓰레기 출력(Garbage in, garbage out)"과 같은 결과를 초래할 수 있기 때문이다. 우리가 다루는 분석 도구가 강력하고 그 결과의 활용이 즉각적인 만큼, 사용하는 모형과 기법이 내놓을 결과의 해석에 대한 이해, 이른바 통계적 지식과 문제를 깊고 넓게 볼 수 있는 혜안, 균형 잡힌 판단력은 데이터로 넘치는 시대를 살아가는 분석가에게 필수적으로 요구되는 자질이다. 편향된 입력 데이터로 인한 결과의 오류가 미칠 사회적 영향이 광범위하고 심각할 수 있다는 사실 또한 잊어서는 안되겠다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자