1.先生成一个数据框
- # 创建数据框
- df <- data.frame(
- Name = c("Alice", "Bob", "Carol", "David"),
- Age = c(25, 30, 45, 22),
- Occupation = c("Doctor", "Artist", "Engineer", "Student")
- )
- # 打印原始数据框
- print(df)
复制代码
2.然后这些代码段提供了多种方式来检查和理解你的数据框的结构和内容:
colnames() 和 rownames() 分别用于获取列名和行名。 dim() 返回一个向量,包含数据框的行数和列数。 nrow() 和 ncol() 分别返回行数和列数。 str() 提供了数据框中每列的详细结构信息,包括数据类型和前几个数据点。 summary() 提供了每列的摘要统计,如最小值、第一四分位数、中位数、平均值、第三四分位数和最大值,对于因子型数据,还会显示每个级别的计数。
- # 获取和打印列名
- column_names <- colnames(df)
- print(paste("Column names:", toString(column_names)))
- # 获取和打印行名
- row_names <- rownames(df)
- print(paste("Row names:", toString(row_names)))
- # 获取和打印数据框的维度(行数和列数)
- dimensions <- dim(df)
- print(paste("Dimensions: Rows =", dimensions[1], ", Columns =", dimensions[2]))
- # 单独打印行数
- number_of_rows <- nrow(df)
- print(paste("Number of rows:", number_of_rows))
- # 单独打印列数
- number_of_columns <- ncol(df)
- print(paste("Number of columns:", number_of_columns))
- # 使用 str() 查看数据框的结构
- print("Structure of the dataframe:")
- str(df)
- # 使用 summary() 查看数据框的摘要信息
- print("Summary of the dataframe:")
- summary(df)
复制代码
3..假设我们要选取年龄大于 25 岁的人,用$符号
- # 选取年龄大于 25 的行
- subset_df <- df[df$Age > 25, ]
复制代码
4.我们还可以结合多个条件来选取子集。比如,我们想找到年龄大于 25 并且职业为“Engineer”的人:
- # 使用 & 连接多个条件
- subset_df <- df[df$Age > 25 & df$Occupation == "Engineer", ]
复制代码
5.R 还提供了一个便捷的 subset() 函数,可以更简洁地进行子集选取:
- subset_df <- subset(df, Age > 25 & Occupation == "Engineer")
复制代码
6.按列取
7.按坐标
- df[2,2] # 打印第二行第二列的元素
- df[2,] # 打印第二行的所有元素
- df[,2] # 打印第二列的所有元素
- df[c(1,3),1:2] # 打印第一行和第三行的第一列和第二列
- df[2] # 打印第二列
- df[, c(1, 3)] # 选择多列
复制代码
8.按列名
- df[["Name"]]
- df[, "Name"]
- df[, "Name", drop = FALSE]
- df[, c("Name", "Occupation")]
复制代码
|