Manipulação de dados

Warm-Up

Conhecendo os dados

Vamos começar importando os dados do arquivo filmes_imdb.csv. Para indicar que o arquivo está dentro de uma pasta, é preciso utilizar a barra /,

Primeiro vamos fazer um histograma para poder ver a distribuição da variável nota.

Agora, vamos ver a relação entre o valor_captado e o publico dos filmes.

Qual o lucro médio dos filmes?

Nosso objetivo agora é calcular o lucro médio dos filmes. Primeiro vamos criar uma coluna e calcular o lucro de cada filme.

Vamos isolar os valores de lucro e colocar em um objeto e em seguida calcular a média.

Vamos refazer os 2 primeiros passos unindo os comandos em um só.

Seguindo a mesma ideia, podemos unificar todos os comandos em uma única chamada.

Agora utilizando um operador especial chamado pipe, vamos executar as mesmas funções, porém de forma organizada e de fácil interpretação.

Sobre o Tidyverse

Neste curso utilizaremos como referência os pacotes vinculados ao tidyverse, grupo de funções que utilizam a mesma filosofia de programação e foram desenvolvidos para atuarem em conjunto. O tidyverse é mantido por um time de desenvolvedores do RStudio e liderado pelo seu idealizador Hadley Wickham.

Há diversas funções disponíveis nos pacotes do tidyverse que tem um equivalente direto nos pacotes base do R, mas com uma implementação mais moderna e consistente que facilita a estruturação do código. No decorrer do curso vamos ter vários exemplos desse comparativo.

A manipulação de dados é, na maioria das vezes, realizado com data.frames e por isso iremos ver as principais funções que lidam com essa estrutura de forma rápida e prática.

O pacote dplyr é hoje um dos pacotes mais utilizados para esta finalidade. Ele disponibiliza diversas funções que são “equivalentes” às funções básicas do R, mas como melhorias que nos poupam tempo e deixam o código muito mais fácil de interpretar.

Como exemplo, vamos realizar uma análise exploratória dos dados de um inventário na floresta amazônica.

Filter

Com a função filter() é possível selecionar linhas específicas, de acordo com o fator que se deseja. Podem ser usados um ou vários fatores de seleção.

Arrange

Para ordenar as colunas, podemos usar a função arrange(). A hierarquia é dada pela sequência dos fatores que são adicionados como argumentos da função.

Select

A função select() auxilia-nos na seleção de variáveis (colunas).

Mutate

Para criar novas variáveis, podemos usar a função mutate(). Um diferencial dessa função em relação à função base do R, é que podemos utilizar variáveis criadas dentro do próprio comando.

Note que se quisermos utilizar os dados calculados no futuro, temos de salvar em um objeto. No caso, vamos salvar no mesmo objeto inv_amazonia2 de forma que ele será atualizado com as novas colunas.

Operador %>%

O pacote dplyr foi desenhado para trabalhar em conjunto que o operador em cadeia %>%. O que esse operador faz é aplicar o que está no LHS no primeiro parâmetro da função do RHS. Podemos também direcionar o local onde o conteúdo do LHS será aplicado informando um . como argumento.