검색

북큐브서점

마이페이지

로그아웃
  • 북캐시

    0원

  • 적립금

    0원

  • 쿠폰/상품권

    0장

  • 무료이용권

    0장

자동완성 기능이 꺼져 있습니다.

자동완성 끄기

네이버 인증이 완료되었습니다.

이미 북큐브 회원인 경우북큐브 ID로 로그인하시면, SNS계정이 자동으로 연결됩니다.

SNS 계정으로 신규 가입하기SNS계정으로 로그인 시 해당 SNS 계정으로 북큐브에 자동 가입되며 간편하게 로그인이 가능합니다.

비밀번호 찾기

북큐브 고객센터 : 1588-1925

아이디 찾기

북큐브 고객센터 : 1588-1925

아이디 조회 결과

비밀번호 조회 결과

으로
비밀번호를 발송했습니다.

파이썬과 대스크를 활용한 고성능 데이터 분석

도서 이미지 - 파이썬과 대스크를 활용한 고성능 데이터 분석

제시 대니얼|이준용

한빛미디어 출판|2020.09.24

0.0(0명)

서평(0)

시리즈 가격정보
전자책 정가 22,400원
구매 22,400원+3% 적립
출간정보 2020.09.24|PDF|6.84MB

10년소장 안내

10년소장은 장기대여 상품으로 구매 상품과는 달리 다양한 프로모션 및 폭넓은 할인 혜택 제공이 가능합니다.

프로모션이 없는 경우 구매 상품과 가격이 동일하지만 프로모션이 진행되게 되면 큰 폭의 할인 및 적립이 제공됩니다.

close

지원 단말기 : IOS 10.0 이상, Android 4.1 이상, PC Window 7 OS 이상 지원 듣기, 형광펜, 메모 기능 불가

책소개

데이터 과학의 전체 워크플로를 단계별로 소개하는 종합 안내서

이 책은 대스크를 활용한 데이터 정리에서 배포에 이르기까지 데이터 과학의 일반적인 워크플로를 따라가는 여정으로 우리를 안내한다. 먼저 확장 가능한 컴퓨팅을 익히고 이를 대스크가 어떤 방식으로 활용하는지 살펴본다. 이어서 다양한 실제 데이터셋을 준비하고 분석, 시각화, 모델링하는 과정에서 대스크로 일반적인 데이터 과학 작업을 수행하는 방법을 실용 예제로 제공한다. 마지막으로 AWS에 자신만의 대스크 클러스터를 배포해 분석 코드를 확장하는 과정을 단계별로 소개한다.

주요 대상 독자는 초중급 데이터 과학자나 데이터 엔지니어다. 단일 머신의 한계를 벗어나는 크기의 데이터 작업을 아직 경험해보지 못했다면 특히 유용할 것이다. 파이스파크 등 다른 분산 프레임워크를 이전에 다뤄본 경험이 있다면 대스크만의 기능과 효율성을 비교해보는 것만으로도 도움이 될 것이다.

목차

[파이썬과 대스크를 활용한 고성능 데이터 분석]

Part I 확장 가능한 컴퓨팅의 빌딩 블록



CHAPTER 1 왜 확장 가능한 컴퓨팅이 중요한가?

__1.1 왜 대스크인가?

__1.2 DAG 요리하기

__1.3 확장성, 동시성과 복구

__1.4 예제 데이터셋 소개

__1.5 마치며



CHAPTER 2 대스크 시작하기

__2.1 데이터 프레임 API와의 첫 만남

__2.2 DAG 시각화하기

__2.3 작업 스케줄링

__2.4 마치며



Part II 대스크 데이터 프레임을 이용해 정형 데이터 작업하기



CHAPTER 3 대스크 데이터 프레임 소개하기

__3.1 왜 데이터 프레임을 사용하는가?

__3.2 대스크와 팬더스

__3.3 대스크 데이터 프레임의 한계

__3.4 마치며



CHAPTER 4 대스크 데이터 프레임으로 데이터 불러오기

__4.1 텍스트 파일에서 데이터 읽기

__4.2 관계형 데이터베이스에서 데이터 읽어오기

__4.3 HDFS와 S3에서 데이터 읽어오기

__4.4 파케이 형식으로 데이터 읽어오기

__4.5 마치며



CHAPTER 5 데이터 프레임의 정리와 변환

__5.1 인덱스 및 축 작업하기

__5.2 결측값 다루기

__5.3 데이터 기록하기

__5.4 요소별 연산

__5.5 데이터 프레임의 필터링과 재색인

__5.6 데이터 프레임들을 조인하고 연결하기

__5.7 텍스트 파일과 파케이 파일에 데이터 쓰기

__5.8 마치며



CHAPTER 6 데이터 프레임 요약과 분석

__6.1 기술 통계

__6.2 내장된 집계 함수

__6.3 사용자 정의 집계 함수

__6.4 롤링(윈도우) 함수

__6.5 마치며



CHAPTER 7 시본 라이브러리로 데이터 프레임 시각화하기

__7.1 준비-리듀스-수집-플롯 패턴

__7.2 scatterplot 함수와 regplot 함수로 연속형 관계 시각화하기

__7.3 바이올린 플롯으로 범주형 관계 시각화하기

__7.4 히트맵으로 두 가지 범주형 관계 시각화하기

__7.5 마치며



CHAPTER 8 데이터 셰이더로 위치 데이터 시각화하기

__8.1 데이터 셰이더란 무엇이며 어떤 원리로 동작하는가?

__8.2 대화식 히트맵으로 위치 데이터 플로팅하기

__8.3 마치며



Part III 대스크의 확장과 배포



CHAPTER 9 백(Bags)과 배열 활용하기

__9.1 Bags으로 비정형 데이터 읽고 파싱하기

__9.2 요소 변형, 요소 필터링, 그리고 요소 폴딩하기

__9.3 Bags으로부터 배열 및 데이터 프레임 만들기

__9.4 자연어 툴킷으로 병렬 텍스트 분석을 위해 Bags 사용하기

__9.5 마치며



CHAPTER 10 대스크 ML을 이용한 머신러닝

__10.1 대스크 ML로 선형 모델 만들기

__10.2 대스크 ML 모델 평가 및 튜닝

__10.3 대스크 ML 모델 저장하기

__10.4 마치며



CHAPTER 11 대스크 확장 및 배포

__11.1 도커로 아마존 AWS에서 대스크 클러스터 빌드하기

__11.2 클러스터에서 대스크 작업 실행하고 모니터링하기

__11.3 AWS에서 대스크 클러스터 정리하기

__11.4 마치며



APPENDIX A 소프트웨어 설치

__A.1 아나콘다로 추가 패키지 설치하기

__A.2 아나콘다 없이 패키지 설치하기

__A.3 주피터 노트북 서버 시작하기

__A.4 NLTK 구성하기

저자소개

저자
제시 대니얼

경험이 풍부한 파이썬 개발자. 지난 3년간은 특별히 PyData 스택(팬더스, 넘파이, 사이파이, 사이킷런)과 함께 했다. 2016년 덴버 대학교의 비즈니스 정보 및 분석학과 부교수로 ‘데이터 과학을 위한 파이썬’ 과목을 개설하고 가르쳤다. 현재는 덴버 지역의 미디어 기술 관련 업체에서 데이터 과학팀을 이끌고 있다.

역자
이준용

인공지능과 빅데이터 기술에 관심이 많은 연구원. 한국과학기술원(KAIST)에서 전자공학 박사학위를 받았다. 일본 ATR IRC 연구소에서 인간-로봇 상호작용 연구에 참여했으며 미국 아이오와 주립 대학교에서 대사회로 관련 연구를 했다. 현재 미국 퍼시픽 노스웨스트 국립연구소에서 연구원으로 일한다. 다양한 프로그래밍 언어로 데이터 과학 실무 경력을 쌓고 있다. 역서로 『데이터 과학을 위한 통계』(2018), 『손에 잡히는 R 프로그래밍』(이상 한빛미디어, 2015), 『R 교과서』(2020, 길벗)이 있다.

서평(0)

별점으로 평가해주세요.

서평쓰기

스포일러가 포함되어 있습니다.

0.0

(0명)

ebook 이용안내

  • 구매 후 배송이 필요 없이 다운로드를 통해 이용 가능한 전자책 상품입니다.
  • 전자책 1회 구매로 PC, 스마트폰, 태블릿 PC에서 이용하실 수 있습니다.
    (도서 특성에 따라 이용 가능한 기기의 제한이 있을 수 있습니다.)
  • 책파일 내 판권정보 정가와 북큐브 사이트 정가 표시가 다를 수 있으며, 실제 정가는 사이트에 표시된 정가를 기준으로 합니다.
  • 적립금 지급은 적립금 및 북큐브 상품권으로 결제한 금액을 뺀 나머지가 적립금으로 지급됩니다.
    (적립금 유효기간은 마이페이지>북캐시/적립금/상품권>적립금 적립내역에서 확인 가능합니다.)
  • 저작권 보호를 위해 인쇄/출력 기능은 지원하지 않습니다.
  • 구매하신 전자책은 “마이페이지 > 구매목록” 또는 “북큐브 내서재 프로그램 > 구매목록”에서 다운로드할 수 있습니다.
  • 스마트폰, 태블릿PC의 경우 북큐브 어플리케이션을 설치하여 이용할 수 있습니다. (모바일 페이지 바로가기)
  • PC에서는 PC용 내서재 프로그램을 통해 도서를 이용하실 수 있습니다.
  • ID 계정 당 총 5대의 기기에서 횟수 제한 없이 이용하실 수 있습니다.
TOP