Deslize para mostrar o menu

Você já sabe como selecionar linhas e colunas individuais usando indexação básica. Agora, é hora de avançar e explorar como selecionar múltiplas linhas e colunas utilizando tanto o R base quanto o pacote dplyr. Essas técnicas são essenciais quando se deseja focar em partes específicas de um conjunto de dados ou preparar os dados para análises posteriores.

Seleção de Múltiplas Colunas

R Base

É possível selecionar múltiplas colunas combinando suas posições ou nomes com a função c(). O resultado é um data frame menor contendo apenas as colunas especificadas.

Utilizando posições das colunas:

selected_data_base <- df[, c(1, 2, 3)]

Utilizando nomes das colunas:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

É possível utilizar a função select() e passar diretamente os nomes das colunas.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Indexação de Valores Individuais

Para acessar um valor específico, forneça tanto o número da linha quanto o da coluna. Útil para verificar ou depurar pontos de dados individuais.

df[1, 2]  # accesses the value in row 1, column 2

Fatiamento de Linhas

Em alguns casos, é necessário trabalhar apenas com as primeiras linhas ou com linhas específicas por posição.

Base R

É possível selecionar várias linhas especificando o primeiro e o último índice, utilizando : entre eles.

first_5_rows_base <- df[1:5, ]

dplyr

A função slice() pode ser utilizada para informar o intervalo de linhas desejado.

first_5_rows_dplyr <- df %>%
  slice(1:5)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seleção de Dados - Técnicas Avançadas

Seleção de Múltiplas Colunas

R Base

É possível selecionar múltiplas colunas combinando suas posições ou nomes com a função c(). O resultado é um data frame menor contendo apenas as colunas especificadas.

Utilizando posições das colunas:

selected_data_base <- df[, c(1, 2, 3)]

Utilizando nomes das colunas:

selected_data_base <- df[, c("name", "selling_price", "transmission")]

dplyr

É possível utilizar a função select() e passar diretamente os nomes das colunas.

selected_data_dplyr <- df %>%
  select(km_driven, fuel, transmission)

Indexação de Valores Individuais

Para acessar um valor específico, forneça tanto o número da linha quanto o da coluna. Útil para verificar ou depurar pontos de dados individuais.

df[1, 2]  # accesses the value in row 1, column 2

Fatiamento de Linhas

Em alguns casos, é necessário trabalhar apenas com as primeiras linhas ou com linhas específicas por posição.

Base R

É possível selecionar várias linhas especificando o primeiro e o último índice, utilizando : entre eles.

first_5_rows_base <- df[1:5, ]

dplyr

A função slice() pode ser utilizada para informar o intervalo de linhas desejado.

first_5_rows_dplyr <- df %>%
  slice(1:5)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 5