教材简介
《大数据开发技术应用实践(项目版)》是采用linux为基础,结合各种数据处理相关技术的项目制课程,共分为两个部分,指导篇和拓展篇,系统的讲解了数据分析与处理领域知识和技能,在基础理论上以精通,够用为原则,介绍与项目比较紧密的理论知识;在实践上,以新颖,实用为原则,介绍目前比较流行的新技术与新写法;在设计上结合目前比较典型的,应用比较广泛的数据算法与编程语法。本课程内容详实,资料丰富,配套有工单、PPT、视频和每个工单的输出产物,便于学生主动学习、理解和掌握;本课程具有较强的可用性和可操作性,从真实案例出发,进行一定的优化和完善,方便学生了解真实业务逻辑。
全书共2个项目,具体内容安排如下。
项目一和项目二分别为电商数据处理一期和二期,由老师带领学生从零到一逐步实现,巩固学生基础知识。
项目使用Linux、VMware和finalshell搭建基础项目环境。
项目一为电商数据处理一期购物网站数据是最原始,也是组成大数据重要的类型之一;购物网站上产生的商品数据揭示了用户的品名、价格和日期、商品参数,反馈商品特征等信息,对这些数据进行深度的挖掘和分析,有助于电商挖掘和预测用户行为,为商家决策提供数据支持。包括,环境搭建,数据抽取,数据清洗和数据分析。
项目二采用sqoop读取数据,再用pyspa抽取数据,使用脚本对数据进行清洗和分析。