티맥스 소프트에서 웹 어플리케이션 서버를 개발하다 빅데이터에 관심이 생겨 KT 넥스알에 입사했다. 재직 중에 『하이브 완벽 가이드』(한빛미디어, 2013), 『케스케이딩 완벽 가이드』(한빛미디어, 2014)와 『MVC 구조의 확실한 해답 AngularJS 디렉티브』(에이콘, 2016)을 번역했다.
KT 넥스알을 나와 어린이용 스마트워치(LINE 키즈폰)를 출시했으며 이때부터 안드로이드 개발을 시작했다. 대학 때부터 웹을 비롯한 UI에 관심이 많아 안드로이드 UI에 적응하는 데 오래 걸리지는 않았지만 SQLite를 비롯한 안드로이드 서비스는 자료가 많지 않아 시행착오를 많이 겪어야 했다. 현재는 SK텔레콤에서 빅데이터를 이용한 데이터 분석과 관련된 일을 하고 있다.
스트림 데이터 처리 프로젝트를 시작할 때 어떤 기술을 사용할지 많이 고민할 것이다. 아파치 스파크, 카프카 스트림, 아파치 플링크, 나이파이(NiFi) 등 다양한 선택 사항이 있다. 사실 무엇을 선택하든 처음에는 다들 비슷하게 느껴진다. 기능상으로 유사하므로 아무거나 사용해도 되겠다고 착각할 수도 있다. 나도 실시간 프로젝트를 시작할 때 처음에는 아파치 스파크와 아파치 플링크 중 어떤 것을 사용할지 많은 고민을 했다. 결국 아파치 플링크를 선택한 결정적인 이유는, 아파치 스파크가 "스트림은 작은 배치(batch)다"라고 접근하는 데 반해 아파치 플링크는 "배치는 데이터가 유한한 스트림이다"라고 접근하는 설계 철학 때문이었다. 초저지연을 목표로 하는 실시간 처리에 있어 배치로 스트림 데이터를 처리하면 지연이 발생할 수밖에 없다. 또한 이 책의 제목에서도 강조하는 '상태가 있는 스트림 처리'는 거의 아파치 플링크만이 완벽하게 구현했다고 볼 수 있다.
이 책은 아파치 플링크로 스트림 데이터를 처리하는 애플리케이션 개발만을 목표로 하지 않는다. 1장부터 3장까지는 일반적인 스트림 데이터 처리 이론부터 아파치 플링크의 구현 원리를 상세히 설명한다. 이 세 개의 장을 읽고 나면 여러분도 스트림 데이터 처리에 있어 '데이터 유실과 중복', '스트림 데이터의 기준 시간', '윈도우', '지연 시간', '단대단(End-to-End) 일치성' 문제 등 기본적인 스트림 데이터 처리 지식을 쌓을 수 있다. 따라서 개발자가 아니더라도 스트림 데이터 처리의 일반적인 지식이 필요한 독자라면 1장부터 3장까지 읽어볼 가치가 있다.
나머지 장은 스트림 데이터 처리 개발의 내용으로 개발자에게 특히 유용하다. 상태 관리, 윈도우 처리, 성능 최적화 등 어느 한 장이라도 소홀히 넘길 수 없을 정도로 훌륭한 내용으로 가득 차 있다.
이제 아파치 플링크는 스트림 처리뿐만 아니라 배치 처리까지 가능한 통합 데이터 처리 엔진으로 발전해 가고 있다. 아파치 스파크도 실시간 처리 기능을 계속 발전시키고 있어 이 두 프로젝트가 기능적으로는 수렴돼 가고 있다. 하지만 현재 기준에서 스트림 처리의 왕좌는 '아파치 플링크'다.
이 책을 번역할 때 최대한 번역투가 되지 않게 여러 번 리뷰를 진행했다. 그럼에도 일부 어색한 문장이 아직 있을 수 있으니 오역이나 어색한 부분이 있으면 지적해주길 바란다. 그리고 내가 아파치 플링크를 이용해 개발하면서 경험한 내용을 바탕으로 책 내용을 이해하는 데 도움이 될 만한 보조 설명을 군데군데 추가했으므로 조금이나마 도움이 됐으면 한다.