数据分析与数据挖掘-程序员宅基地

技术标签: 数据分析  人工智能  数据挖掘  

第一章、概述

1.1.1数据分析:采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当的描述,提取出有用的信息的过程。

1.1.2数据挖掘:从海量数据种通过相关的算法来发现隐藏在数据中的规律和知识的过程。

1.1.3知识发现的过程

1.1.4数据分析与数据挖掘的区别

 1.1.5数据分析与数据挖掘的联系

 数据-------数据分析----->信息-------数据挖掘-------->知识

 1.2分析与挖掘的数据类型

 1.3数据分析与数据挖掘的方法

1.3.1频繁模式:Apriori

1.3.2分类与回归:决策树、朴素贝叶斯、支持向量机、神经网络、规则分类器、基于模式的分类、逻辑回归……

1.3.3聚类分析:原型聚类、密度聚类、层次聚类、图聚类

1.3.4离群点分析:离群点是指全局或局部范围内偏离一般水平的观测对象

1.4数据分析与数据挖掘使用的技术

1.5应用场景及存在的问题

1.5.1推荐顺序

1.5.2数据类型多,高维数据,噪声,可视化,隐私数据的保护

第二章、数据

2.1.1数据属性:标称属性、二元属性、有序属性、数值属性{离散属性、连续属性}

2.2数据的基本统计描述

2.3数据的相似性和相异性

 相似性:两个对象相似程度的数量表示,数据值高表明相似性越大

相异性:两个对象不相似程度的数量表示,数值越低表明相似性越大,相异性的最小值通常为0

 第三章、数据预处理

3.1.1数据存在的问题:数据不一致、噪声、缺失值

3.1.2数据质量要求

3.1.3数据预处理的主要任务

数据清理:

 

 数据集成:不同来源数据放到统一地方

第四章、数据仓库

4.1数据仓库基本概念

4.1.1数据仓库的定义及特征

4.1.2数据仓库体系结构

 

 4.1.3数据模型

 

 第九章、离群点检测

9.1离群点定义与类型

9.1.1概念:全局或局部范围内偏离一般水平的观测对象

应用价值:网络入侵检测、工业损毁检测、网络监视异常、医疗处理、欺诈检测

9.1.2类型

全局离群点

条件离群点

集体离群点

9.2离群点检测

海量数据集多数数据服从一定的模型分布

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_44689664/article/details/118864008

智能推荐

PyQt5 界面展示图片问题(QtGui.QPixmap)-程序员宅基地

文章浏览阅读2.4w次,点赞18次,收藏97次。PyQt5问题总结之QPixmap界面展示图片有两种方式:1,通过图片的地址路径加载图片并显示example:from PyQt5.Qt import QtGui# 图片路径img_path="image_path.jpg"# 设置展示..._qtgui.qpixmap

mysql LAST_INSERT_ID() 为空值的原因_oceanbase插入id为空-程序员宅基地

文章浏览阅读690次。1.插入的id不为mysql自增主键,则无法查询到mysql官方文档中说道,LAST_INSERT_ID()会获取最后一个生成的AUTO_INCREMENT的值With no argument, LAST_INSERT_ID() returns a BIGINT UNSIGNED (64-bit) value representing the first automatically generated value successfully inserted for an AUTO_INCREMENT _oceanbase插入id为空

CTF-密码学相关_密钥eyo-程序员宅基地

文章浏览阅读5.8k次,点赞7次,收藏41次。参考:千千秀字、百度百科、CTF编码和加密总结、CTF常见编码和加密特征 、CTF中Crypty(密码类)入门必看目录字符编码1.ASCII编码2.Unicode编码3.UTF-8编码4.UTF-16编码5.进制转换6.URL字符编码7.摩斯电码8.Base64/32/16编码9.shellcode编码10.Quoted-printable编码..._密钥eyo

呦西震惊--datatables如何拿到关联对象中的值_data, type, row, meta 获取对象-程序员宅基地

文章浏览阅读266次。例如在json数据中user[{‘name’:‘zhangsan’,‘sex’:‘男’},class[{‘classname’:‘ruanjian’}]]要想拿到user关联的class的数据,先看看一下参考:function render( data, type, row, meta )描述:如果做为一个function,那么每当Datatables从columns中的cell获取数据时,都需要执行该方法。 注意,该方法会被多次调用,根据不同的数据类型,比如sorting(排序)、filter_data, type, row, meta 获取对象

前端学习笔记——XHTML及HTML5新变化_vs中doctype:xhtml5是什么意思-程序员宅基地

文章浏览阅读310次。一、XHTML介绍1.XHTML简介  (1)XHTML是可扩展的超文本标记语言  (2)三种XHTML文档类型    STRICT(严格类型)    TRANSITIONAL(过渡类型)    FRAMESET(框架类型)2.XHTML元素  XHTML元素必须正确正确嵌套、始终关闭、小写、有一个根元素3.XHTML属性  XHTML属性必须小写、用引号包围、最小化是禁止的..._vs中doctype:xhtml5是什么意思

Docker部署Nacos-程序员宅基地

文章浏览阅读4.2k次。docker部署镜像_docker部署nacos

随便推点

spark面试题总结-程序员宅基地

文章浏览阅读7.5k次,点赞5次,收藏77次。spark面试基础篇_spark面试题

实验7-1-13 装箱问题 (20 分)_-20 装箱问题 分数 20 作者 ds课程组 单位 浙江大学 假设有n项物品,大小分别为s 1-程序员宅基地

文章浏览阅读242次。实验7-1-13 装箱问题 (20 分)假设有N项物品,大小分别为s ​1 ​​ 、s ​2 ​​ 、…、s ​i ​​ 、…、s ​N ​​ ,其中s ​i ​​ 为满足1≤s​i ​​ ≤100的整数。要把这些物品装入到容量为100的一批箱子(序号1-N)中。装箱方法是:对每项物品,顺序扫描箱子,把该物品放入足以能够容下它的第一个箱子中。请写一个程序模拟这种装箱过程,并输出每个物品所在的箱子序号,以及放置全部物品所需的箱子数目。输入格式: 输入第一行给出物品个数N(≤1000);第二行给出_-20 装箱问题 分数 20 作者 ds课程组 单位 浙江大学 假设有n项物品,大小分别为s 1

一些重要的C和C++开发框架和开源工具_用c和c++写的开源工具-程序员宅基地

文章浏览阅读2.9k次。1、值得学习的C语言开源项目1.1. WebbenchWebbench是一个在linux下使用的非常简单的网站压测工具。它使用fork()模拟多个客户端同时访问我们设定的URL,测试网站在压力下工作的性能,最多可以模拟3万个并发连接去测试网站的负载能力。Webbench使用C语言编写, 代码实在太简洁,源码加起来不到600行。 下载链接:http://home.tiscali.cz/~cz2105_用c和c++写的开源工具

18.10.29 POJ 3691 DNA repair(AC自动机+dp)-程序员宅基地

文章浏览阅读99次。描述Biologists finally invent techniques of repairing DNA that contains segments causing kinds of inherited diseases. For the sake of simplicity, a DNA is represented as a string containing cha...

查找 —— 静态查找法(顺序查找法、折半查找法、分块查找法)_折半查找不成功平均查找长度-程序员宅基地

文章浏览阅读1.1k次。一、顺序查找法算法思想:依次与每个关键字逐个比较,如果与给定值相等,则查找成功,返回成功值;如果与所有关键字都不相等,则查找失败,返回失败值。其平均查找长度是(n+1)/2实现:int Search(int R[],int n,int k) // 在长度为n的R[]中查找数值为k的元素{ int i; for(i=0;i<n;i++) { if(a[i]==k) r..._折半查找不成功平均查找长度

【六十二】【算法分析与设计】买苹果_牛客题霸_牛客网,牛牛爱博弈,829. 连续整数求和,对数器找规律法,博弈论2^k移动对3取余规律,取余的性质整除性-程序员宅基地

文章浏览阅读901次,点赞25次,收藏29次。小易去附近的商店买苹果,奸诈的商贩使用了捆绑交易,只提供6个每袋和8个每袋的包装(包装不可拆分)。可是小易现在只想购买恰好n个苹果,小易想购买尽量少的袋数方便携带。如果不能购买恰好n个苹果,小易将不会购买。输入一个整数n,表示小易想购买n(1 ≤ n ≤ 100)个苹果输出一个整数表示最少需要购买的袋数,如果不能买恰好n个苹果则输出-1输入:20复制输出:3复制。

推荐文章

热门文章

相关标签