Analítica de dados com Hadoop: Uma introdução para cientistas de dados
Por Benjamin Bengfort Pronto para usar técnicas estatísticas e de aprendizado de máquina (machine learning) em grandes conjuntos de dados? Este guia prático mostra por que o ecossistema do Hadoop é perfeito para essa tarefa. Em vez de ter como foco a implantação, as operações ou o desenvolvimento de softwares geralmente associados à computação distribuída, você se concentrará nas análises particulares que poderá fazer, nas técnicas de armazém de dados (data warehousing) oferecidas pelo Hadoop e em fluxos de trabalho de alta ordem que esse framework é capaz de gerar.
Os cientistas e os analistas de dados aprenderão a usar diversas técnicas que variam da escrita de aplicações MapReduce e Spark com Python ao uso de modelagem avançada e gerenciamento de dados com Spark MLlib, Hive e HBase. Você também conhecerá os processos analíticos e os sistemas de dados disponíveis para desenvolver e conferir eficácia aos produtos de dados capazes de lidar com – e que, na verdade, exigem – quantidades enormes de dados.
•Entenda os conceitos principais do Hadoop e do processamento em cluster.
•Utilize padrões de projeto e algoritmos analíticos paralelos para criar jobs de análise de dados distribuídos.
•Adquira conhecimentos sobre gerenciamento de dados, mineração e armazém de dados em um contexto distribuído usando Apache Hive e HBase.
•Utilize Sqoop e Apache Flume para entrada de dados a partir de bancos de dados relacionais.
•Programe aplicações Hadoop e Spark complexas com Apache Pig e Spark DataFrames.
•Utilize técnicas de aprendizado de máquina, como classificação, clustering e filtragem colaborativa, com a MLib do Spark.
Os cientistas e os analistas de dados aprenderão a usar diversas técnicas que variam da escrita de aplicações MapReduce e Spark com Python ao uso de modelagem avançada e gerenciamento de dados com Spark MLlib, Hive e HBase. Você também conhecerá os processos analíticos e os sistemas de dados disponíveis para desenvolver e conferir eficácia aos produtos de dados capazes de lidar com – e que, na verdade, exigem – quantidades enormes de dados.
•Entenda os conceitos principais do Hadoop e do processamento em cluster.
•Utilize padrões de projeto e algoritmos analíticos paralelos para criar jobs de análise de dados distribuídos.
•Adquira conhecimentos sobre gerenciamento de dados, mineração e armazém de dados em um contexto distribuído usando Apache Hive e HBase.
•Utilize Sqoop e Apache Flume para entrada de dados a partir de bancos de dados relacionais.
•Programe aplicações Hadoop e Spark complexas com Apache Pig e Spark DataFrames.
•Utilize técnicas de aprendizado de máquina, como classificação, clustering e filtragem colaborativa, com a MLib do Spark.
Características do eBook
Aqui estão algumas informações técnicas sobre este eBook:
- Autor(a): Benjamin Bengfort
- ISBN-10: 8575225219
- ISBN-13: 978-8575225219
- ASIN: B07S24GL7Q
- Editora: Novatec
- Idioma: Português
- Tamanho: 11571 KB
- Nº de Páginas: 372
- Categoria: Computação e Informática
Amostra Grátis do Livro
Faça a leitura online do livro Analítica de dados com Hadoop: Uma introdução para cientistas de dados, escrito por Benjamin Bengfort. Esse é um trecho gratuito disponibilizado pela Amazon, e não infringe os direitos do autor nem da editora.