博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据整理总结
阅读量:5811 次
发布时间:2019-06-18

本文共 601 字,大约阅读时间需要 2 分钟。

收集

  • 根据数据来源及其格式,收集数据的步骤各不相同。
  • 高级收集过程:获取数据(从互联网下载文件、抓取网页、查询 API 等),然后将该数据导入编程环境(例如 Jupyter Notebook)。

评估

  • 评估数据的目的包括:

    • 质量:内容问题。低质量数据也称为脏数据。
    • 整洁度:使分析难易进行的问题。不整洁数据也称为杂乱数据。条理数据的要求包括:
      1. 每个变量成一列。
      2. 每个观察结果成一行。
      3. 每种观察单位构成一个表格。
  • 评估类型:

    • 目测评估:使用你喜欢的软件应用程序(Google 表格、Excel、文本编辑器等)观察数据。
    • 编程评估:使用代码来查看数据的特定部分和摘要(例如 pandas 的 headtail 和 info方法)。

清洗

  • 清洗类型:
    • 手动(不推荐,除非问题是一次性出现)
    • 编程
  • 编程数据清洗过程:
    1. 定义:将评估转换为定义的清洗任务。这些定义也可以作为指令列表,以便其他人(或你自己将来)可以回顾和重现自己的工作。
    2. 代码:将这些定义转换为代码并运行。
    3. 测试:可视上或使用代码练习数据集,确保清洗操作可顺序进行。
  • 清洗之前,请务必备份原始数据!

重新评估与迭代

  • 清洗后,如有必要,请重新评估和迭代任何数据整理步骤。

存储(可选)

  • 例如,如果将来使用,可将数据存储到文件或数据库中。

转载于:https://www.cnblogs.com/chickenwrap/p/10005364.html

你可能感兴趣的文章
centos7安装cacti-1.0
查看>>
3个概念,入门 Vue 组件开发
查看>>
没有JS的前端:体积更小、速度更快!
查看>>
数据指标/表现度量系统(Performance Measurement System)综述
查看>>
GitHub宣布推出Electron 1.0和Devtron,并将提供无限制的私有代码库
查看>>
Angular2, NativeScript 和 React Native比较[翻译]
查看>>
论模式在领域驱动设计中的重要性
查看>>
国内首例:飞步无人卡车携手中国邮政、德邦投入日常运营
查看>>
微软将停止对 IE 8、9和10的支持
查看>>
微服务架构会和分布式单体架构高度重合吗
查看>>
如何测试ASP.NET Core Web API
查看>>
《The Age of Surge》作者访谈
查看>>
测试人员的GitHub
查看>>
Spring Web Services 3.0.4.RELEASE和2.4.3.RELEASE发布
查看>>
有关GitHub仓库分支的几个问题
查看>>
无服务器计算的黑暗面:程序移植没那么容易
查看>>
云原生的浪潮下,为什么运维人员适合学习Go语言?
查看>>
Webpack入门教程三十
查看>>
EAServer 6.1 .NET Client Support
查看>>
锐捷交换机密码恢复(1)
查看>>