博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
跟我一起数据挖掘(2)——挖掘模式
阅读量:6639 次
发布时间:2019-06-25

本文共 744 字,大约阅读时间需要 2 分钟。

数据模式包括:特征化与区分、频繁模式、关联和相关性挖掘、分类与回归、聚类分析、离群点分析等。

任务可以分为两类:描述性和预测性数据。

数据特征化:

汇总所研究类的数据。

数据区分:

将目标类一个或多个可比较类进行比较。

频繁模式挖掘、关联和相关性:

频繁模式(Frequent Pattern)是频繁出现在数据集中的模式(如项集,子序列和子结构)。频繁模式一般可以用关联规则表示如何判断模式是否频繁,有两个基本的度量:

支持度(support):该模式在所有被考察的对象中的占比,表示了该模式(规则)的有用性;

置信度(cofidence):由规则的前因推出后果的可信度,表示了规则的确定性;

设规则为A->B,则支持度和置信度可以表示如下:

support(A->B) = P(AUB)

confidence(A->B) = P(A|B)

    决定关联规则是否丢弃的条件就是看最小支持度阙值和最小置信度阙值是否满足。

 用于预测的分类与回归:

分类就是将指定的数据归入特定的分类的过程。分类可以使用如:分类规则、决策树、数学公式或者神经网络。

回归用来预测趋势,以建立模型。

而相关分析通常是在分类与回归之前进行,以确定哪些属性对结果的影响比较在,哪些对结果没有影响等,以更精确的得到预测的结果。

例如对于图书,可以进行分类,如:好书、一般的书和差书,甚至根据特定的规则,将类别标签分的更细。至于分类的方法,在后面的章节中会有更详细的描述。

聚类分析

在没有特定的标记之前,可以使用聚类产生类标号。对象根据最大化类内的相似性,最小化类间的相似性的原则进行聚类或分组。

离群点分析

通常的应用对聚集在一起的点会更感兴趣,但是某些特定的应用中,会对离群的点进行分析,比如欺诈检测、诈骗识别等。

转载地址:http://fopvo.baihongyu.com/

你可能感兴趣的文章
Spring/SpringBoot定义统一异常错误码返回
查看>>
JAVA不可变类与可变类、值传递与引用传递深入理解
查看>>
多维前缀和
查看>>
抓取12306火车信息
查看>>
Java web中WEB-INF目录理解
查看>>
[转]MS Excel VBO option missing in Blue Prism
查看>>
Java和C#差异点
查看>>
Java Dictionary 类存储键值
查看>>
intellij idea 怎么全局搜索--转
查看>>
oracle数据库定时任务dbms_job的用法详解
查看>>
RESTful API 设计指南
查看>>
python pandas replace函数
查看>>
函数类型(Function Types):函数类型和其他类型一样
查看>>
小心调用Replicator, While 和 CAG子活动
查看>>
看海外如何解困建筑信息化(转)
查看>>
郑弘仪「教你投资脑袋致富八招」
查看>>
宏Q_OBJECT
查看>>
无线传感器网络中的节点定位技术
查看>>
47款超酷超实用的CSS3技巧教程
查看>>
AspNet MVC中各种上下文理解
查看>>