问题:( )具有三值隶属函数的模糊集。
A.粗糙集 B.支持向量机
观看视频讲解,学习知识发现
1.知识发现的产生和发展
知识发现最早是于1989年8月在第11届国际人工智能联合会议的专题讨论会上提出。随着互联网的发展,网上已设立了不少研究KDD的网站、论坛和新闻报导。在研究的基础上,也出现一些KDD产品和应用系统,引起企业界的关注。
2.定义:数据库中的知识发现是从大量数据中辨识出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程。
①数据集:是指一个有关事实F的集合,它是用来描述事物有关方面的信息,是进一步发现知识的原材料。
②新颖:经过知识发现提取出的模式必须是新颖的。可以通过两种途径衡量:①对当前得到的数据和以前的数据比较②通过内部所包含的知识,对比发现的模式和已有的模式的关系来判断。
③潜在有用:提取出的模式应该是有意义的,这可以通过某些函数的值来衡量。
④可被人理解:知识发现的一个目标就是将数据库中隐含的模式以容易被人理解的形式表现出来,从而帮助人们更好地了解数据库中所包含的信息。
1.数据选择。根据用户的需求从数据库中提取与知识发现相关的数据。
2.数据预处理。主要是对上述数据进行再加工,检查数据的完整性及数据的一致性,对丢失的数据利用统计方法进行填补,形成发掘数据库。
在知识发现过程中为什么要对数据做预处理?
3.数据变换。即从发掘数据库里选择数据。
4.数据挖掘。根据用户要求,确定知识发现的目标是发现何种类型的知识。
5.知识评价。这一过程主要用于对所获得的规则进行价值评定,以决定所得的规则是否存入基础知识库。
上述知识发现全过程的几个步骤可以进一步归纳为三个步骤,即数据挖掘预处理(数据挖掘前的准备工作)、数据挖掘、数据挖掘后处理(数据挖掘后的处理工作)。
知识发现的方法有统计方法、机器学习、神经计算和可视化方法等。
1.统计方法
统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。
与统计学有关的机器发现方法有如下4种:
①传统方法
统计方法处理过程可以分为如下三个阶段:收集数据,分析数据,进行推理(回归分析,判别方法,聚类分析,探索性分析)。
②模糊集
模糊集是表示和处理不确定性数据的重要方法,它不仅可以处理不完全数据、噪声或不精确数据,而且在开发数据的不确定模型方面是有用的,能够提供比传统方法更灵巧、更平滑的性能。
③支持向量机(SVM)
SVM建立在计算学习理论的结构风险最小化原则之上,其主要思想是针对两类分类问题,在高维空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。
④粗糙集
具有三值隶属函数的模糊集,肯定属于、也许属于、肯定不属于该概念。
问题:( )具有三值隶属函数的模糊集。
A.粗糙集 B.支持向量机
2.机器学习方法
可能用于机器发现的机器学习方法有:
①规则归纳。规则反映数据项中某些属性或数据集中某些数据项之间的统计相关性。
②决策树。决策树的每一个非终叶节点表示所考虑的数据项的测试或决策。
③范例推理。范例推理是直接使用过去的经验或解法来求解给定的问题。
④贝叶斯信念网络。贝叶斯信念网络是概率分布的图表示。
⑤科学发现。科学发现是在实验环境下发现科学定律。
⑥遗传算法。在求解过程中,通过最好解的选择和彼此组合,使期望解的集合愈来愈好。
3.神经计算方法
已经在第4章讨论过神经计算的基本原理和方法。常用的神经计算模型有多层感知机、反向传播网络、自适应映射网络等。
4.可视化方法
可视化(visualization)就是把数据、信息和知识转化为可视的表示形式的过程。
知识发现已在许多领域得到应用,且应用领域越来越广。现在,知识发现已在银行业、保险业、零售业、医疗保健、工程和制造业、科学研究、卫星观察和娱乐业等行业和部门得到成功应用,为人们的科学决策提供很大帮助。
1.金融业
在金融业的主要应用包括:
①数据清洗、金融市场分析与预测;
②帐户分类、银行担保和信用评估。
2.保险业
在保险业的主要应用包括
①潜在客户评估、分析;
②索赔合理性分析。
3.制造业
在制造业的主要应用
制造业应用知识发现技术进行零部件故障诊断、资源优化、生产过程分析等。
4.市场和零售业
市场与零售业应用知识发现技术进行市场定位和消费者分析,辅助制定市场策略。
5.医疗业
在该行业,知识发现的最关键任务是进行数据清理,预测医疗保健费用。
6.司法
知识发现技术可应用于案件调查、诈骗检测、洗钱认证、犯罪组织分析,可以给司法工作带来巨大收益。
7.工程与科学
知识发现技术可以应用于各种工程与科学数据分析,如星体发现。