龙源期刊网httpwwwqika
comc
基于Hadoop的数据挖掘实践平台研究与应用
作者:王辉潘俊辉王浩畅张强来源:《赤峰学院学报自然科学版》2020年第02期
f龙源期刊网httpwwwqika
comc
f龙源期刊网httpwwwqika
comc
f龙源期刊网httpwwwqika
comc
摘要:针对数据挖掘实践课程现状和实际教效果,结合数据挖掘实践课程特点,在分析总结多种数据挖掘工具的基础上,设计了一种基于Hadoop的数据挖掘实践平台架构在分布式计算平台Hadoop上的数据挖掘实践平台,克服了传统数据挖掘工具的种种问题,其能够支持数据挖掘的标准流程,处理TB级的海量数据用于实践挖掘,为数据挖掘基础实践提供了丰富的数据挖掘算法用于建模同时,基于Hadoop的数据挖掘实践平台提供了灵活多样的应用开发接口,能够支持第三方软件商集成开发,快速构建大型海量数据挖掘的应用系统,完成综合数据挖掘应用的二次开发基于Hadoop的数据挖掘实践平台,为数据挖掘实践与科研提供了海量数据处理能力的数据挖掘平台,激励学生以竞赛模式学习和完成数据挖掘实践,从而促进了学生创新实践能力的培养
关键词:Hadoop数据挖掘实践平台二次开发
中图分类号:TP319文献标识码:A文章编号:1673260X(2020)02005103
近年来,随着网络与信息技术的快速发展,数据挖掘作为多学科交叉的新兴学科,在大数据时代下的各行各业中扮演着的角色越来越重要1数据挖掘实践课是非常重要的实践性环节,它是理论内容的深入和提高2因此,对数据挖掘实践课程学习和考核提出了更高的要求,既要让学生对数据挖掘实践内容融会贯通,又要考核出学生的创新实践能力面对错综繁杂的数据挖掘工具,亟须开发适合高校教学实践与科研使用的数据挖掘实践平台
在大数据分析以及非结构化数据蔓延的背景下,由Apache软件基金会所开发的分布式系统基础架构Hadoop,受到了前所未有的关注3Hadoop可以在用户不了解分布式底层细节情况下,开发分布式程序4更重要的是,Hadoop能够充分利用集群的威力进行高速运算和存储,非常适合大数据处理的相关应用5本文借助Hadoop构建数据挖掘实践平台,能够处理TB级的海量数据挖掘,支持数据挖掘流程所需的核心过程,提供大量常用算法和开放的应用接口,为数据挖掘实践与科研提供从简单的预测建模到庞大的集成系统,采用竞赛式实践考核学生对课程内容的掌握程度,激发学生创新实践与科研能力
1数据挖掘实践课程现状
数据挖掘是一个多学科融合的学科,这些学科包括数据库技术、信息检索、统计r