1.数据挖掘
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
只要有数据的地方就有可能进行数据挖掘,尤其是在云计算、互联网、大数据技术发展的今天,海量数据被收集、处理、存储,为数据挖掘提供了可能。
2.数据预处理
2.1 概念
在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而处理不同。
以下是我们通常认为的数据预处理的样子,但它还远不够系统化
另外,数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。
2.2 数据抽样方法
随机抽样、系统抽样、分层抽样、加权抽样、整群抽样
2.3 数据标准化及归一化
线性归一化、非线性归一化
2.4 数据质量与清洗
缺失值填充、格式内容清洗、逻辑错误清洗
原文链接:https://blog.csdn.net/2401_84154561/article/details/143442955
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
只要有数据的地方就有可能进行数据挖掘,尤其是在云计算、互联网、大数据技术发展的今天,海量数据被收集、处理、存储,为数据挖掘提供了可能。
2.数据预处理
2.1 概念
在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而处理不同。
以下是我们通常认为的数据预处理的样子,但它还远不够系统化
另外,数据预处理还往往包括数据抽样、数据标准化及归一化、数据质量提升与数据清洗等环节与任务。
2.2 数据抽样方法
随机抽样、系统抽样、分层抽样、加权抽样、整群抽样
2.3 数据标准化及归一化
线性归一化、非线性归一化
2.4 数据质量与清洗
缺失值填充、格式内容清洗、逻辑错误清洗
原文链接:https://blog.csdn.net/2401_84154561/article/details/143442955