缓存标识:ce56e8cb34bc0b058ccf42a76a5314d6
更新时间:2025-12-18 21:54
R语言数据科学思维导图
数据处理
数据导入
基础格式
- CSV文件:
read.csv()
- Excel文件:
readxl::read_excel()
- 文本文件:
read.table()
数据库连接
- MySQL:
RMySQL
- PostgreSQL:
RPostgreSQL
- SQLite:
RSQLite
网络数据
- API接口:
httr、jsonlite
- 网页抓取:
rvest
数据清洗
缺失值处理
- 检测:
is.na()、complete.cases()
- 处理:
na.omit()、均值/中位数填补
异常值处理
- 识别:箱线图、Z-score方法
- 处理:截尾、转换、删除
数据类型转换
- 数值转换:
as.numeric()
- 因子转换:
as.factor()
- 日期转换:
as.Date()、lubridate
数据转换
数据重塑
- 长宽格式转换:
tidyr::gather()/spread()
- 数据合并:
dplyr::join()系列函数
变量创建
- 数学运算:
mutate()
- 条件分组:
case_when()
- 字符串处理:
stringr
数据整理
数据筛选
- 行筛选:
filter()
- 列选择:
select()
数据排序
- 升序排列:
arrange()
- 降序排列:
arrange(desc())
数据汇总
- 分组统计:
group_by() + summarise()
- 计数统计:
count()
ggplot2绘图
基础语法
图形组件
- 数据层:
ggplot(data)
- 美学映射:
aes(x, y, color, fill)
- 几何对象:
geom_point()、geom_line()
- 标度调整:
scale_*()系列
- 坐标系统:
coord_*()系列
- 分面系统:
facet_*()系列
常用图形类型
单变量图形
- 直方图:
geom_histogram()
- 密度图:
geom_density()
- 条形图:
geom_bar()
双变量图形
- 散点图:
geom_point()
- 折线图:
geom_line()
- 箱线图:
geom_boxplot()
多变量图形
- 气泡图:
geom_point(aes(size))
- 热力图:
geom_tile()
- 小提琴图:
geom_violin()
图形美化
颜色与填充
- 离散颜色:
scale_color_brewer()
- 连续颜色:
scale_color_gradient()
- 手动设置:
scale_color_manual()
主题系统
- 内置主题:
theme_bw()、theme_minimal()
- 自定义主题:
theme()函数
- 主题包:
ggthemes
标签与注释
- 标题标签:
labs(title, x, y)
- 文本注释:
geom_text()、geom_label()
- 参考线:
geom_hline()、geom_vline()
图形输出
保存图形
- 常用格式:PNG、PDF、SVG
- 保存函数:
ggsave()
图形参数
- 尺寸设置:
width、height
- 分辨率设置:
dpi
- 背景设置:
bg
统计建模流程
数据探索
描述性统计
- 集中趋势:均值、中位数
- 离散程度:方差、标准差
- 分布形态:偏度、峰度
可视化探索
- 分布检查:直方图、QQ图
- 关系探索:散点图矩阵
- 相关性分析:相关矩阵图
模型建立
线性模型
- 简单线性回归:
lm(y ~ x)
- 多元线性回归:
lm(y ~ x1 + x2)
- 模型诊断:
plot(model)
广义线性模型
- 逻辑回归:
glm(family = binomial)
- 泊松回归:
glm(family = poisson)
机器学习模型
- 决策树:
rpart
- 随机森林:
randomForest
- 支持向量机:
如何在应用内使用?
点击上方按钮将跳转至主应用并自动载入这份 Markdown,你可以继续修改结构并导出为 XMind。也可以复制地址 index.html?hash=ce56e8cb34bc0b058ccf42a76a5314d6 分享给团队成员快速进入编辑。
💡 提示:我们为这个案例创建了优化版页面,包含更详细的背景说明和 SEO 优化,点击查看。