找回密码
 立即注册

大数据方向毕业设计如何做,分享我的思路

| 2022-3-29 10:19 阅读 1491 评论 20

前言

比来有很多人问我,大数据专业有什么好的毕设项目,我就简单的答复了一下。也有间接问我要源码的....



所以就抽暇写一写自己结业设想的一个思绪,大数据是我练习自学的,这个思绪是我当初自己想的,就当做一份参考吧。

在我结业那年,同学们结业设想大多都是以Java说话开辟的各类治理系统、xx商城为主,包括我刚起头的想法也是这样的。这也是计较机专业很常见的结业设想选题。

这类挑选的益处就是简单,网上模板多。脱手才能强的同学,间接去github上拉下来历码,稍微点窜一下,一个结业设想项目就完成了。脱手才能衰的同学,也可以利用钞才能低本钱完成。

至于弱点嘛,就是这类毕设太常见了,除非UI设想和思绪出格出彩,让教员眼前一亮。要否则孤陋寡闻的教员,就会带着一颗毫无波涛的心里,用空洞的眼神看完你的演示,机械般的给你打下一个及格分。

固然,对于大部分同学的心里想法就是:能过就行。也有的同学担忧,自己的毕设项目和其他同学的重合度很高,教员能够会问一些细节(希奇怪僻)的题目。所以,「毕设最好还是自己做,就算找的模板,也要把技术和架构搞清楚」

同时,想要做一个与众分歧的毕设,在技术上也一定要“花里胡哨”。

大数据毕设思绪

大数据偏向的毕设,归根结柢还是基于大数据平台停止构想。对于治理系统、商城这类项目毕设来说,我们面向的是编程说话,而大数据首要还是还是面向平台。就像你一说大数据,他人接着就说,大数据...就是阿谁Hadoop吗?

是的。虽然这个回答很全面,可是对于大数据毕设来说,就是基于Hadoop来发散延长。

我学的不是大数据专业,也曾有成为一位优(C)秀(V)的Java开辟的胡想。后来,17年练习鬼使神差就打仗到大数据,并起头自学大数据,所以在18年结业的时辰,就基于大数据完成了结业设想。这里就简单说一下当初我的结业设想流程

  1. 在虚拟机搭建Hadoop、Hive、Kafka、Spark集群
  2. 利用Java(倡议Python)收集了163w数据放入MySQL
  3. 用Flume将mysql中的数据实时写入到了Kafka中
  4. Scala开辟sparkstreaming法式,读取kafka数据停止处置,然后写入Kafka
  5. 利用Flume将kafka数据写入到了HDFS,然后加载到hive停止hsql分析
  6. 利用Springboot和Vue,开辟数据治理系统,对数据停止查询和图形化展现,对接了echarts和百度舆图。

就很简单,很简单。大师可以在上面的思绪上停止扩大。下面就展开说一下具体步调。

大数据毕设理论

关于下文中提到的一些大数据概念,可以参考之前写的一篇大数据的文章。

0. 数据预备

大数据,大数据,数据必定是大的一望无边。那多大才算大?自从18年负责一天1w亿条数据的接入、存储、处置工作以后,我就飘了~ 经常同事告诉我说,要接入一个大数据量的文件接口,我问他几多,他说一天一百亿条,我一般会轻飘飘地说一句,一百亿,算多吗 ~~~

实在,对于结业设想来说,数据量并不需要那末大,数据在大数据平台中的流转,以此来模拟大数据中的ETL和实时处置,从而表现数据的代价。 那末,数据从那里获得呢?

方式1,我们可以写一个法式来天生一些测试数据,可是这样的话,数据重合度太高,很难表现出数据分析代价。那末就采用方式二,开辟爬虫停止收集网上的数据

那时我用Java开辟了一个爬虫,收集了163w条POI位置数据,存到了MySQL中,完成了数据的预备工作。爬虫的开辟回是保举用Python,17年我还不会Python,后来18年起头进修Python,后来又做了很多爬虫开辟工作,再后来写了爬虫系列由浅入深的进修文章,大师也可以参考一下。

1. 大数据平台搭建

欲抬手摘星望月,必先高山起高楼。

上面也说了,大数据还是围绕着平台来搞。那时我在笔记本上搭建了三台centos系统的虚拟机,首要用来搭建下面的集群。

在集群搭建之前,需要完成以下操纵系统和情况的设置。

  1. 安装JDK、Scala
  2. 三台虚拟机之间停止互信操纵
  3. 安装mysql数据,作为hive的元数据库

Hadoop - 根本焦点

Hadoop集群作为大数据根本扶植,同时也是大数据焦点。其HDFS供给了散布式存储,Yarn供给了计较资本。

假如是毕设的话,可以挑选「一主两从」的架构,即一个NameNode和两个DataNode的架构。假如想要玩的花一点,就挑选HA高可用架构,即两主两从,这里就需要四台虚拟机。

关于HA,就是两个NameNode,可是一个NN处于工作状态(active),一个NN处于待命状态(standby)。你可以kill掉active的NN,然后让standby的NN接收集群。

关于HA,在大数据是到处可见的。在Hadoop生态中,集群中的多NN和多DN是HA,HDFS的副本机制也是HA,这一块在论文中还是能表现很多工具的。

下面就是Hadoop集群的NN和DN的根基信息。





Hive - 离线分析

Hive在我的毕设中的脚色就是一个数据分析的工具,首要表述的是大数据ETL中L阶段,以及大数据平台的离线分析部分。

Hive是一个数据仓库,关于它的感化就是对HDFS上的数据停止离线分析,虽然它不是数据库,可是大师可以把它当做数据库来用。这里其他根本的概念就不多先容了。

时至本日,也有很多hive的平替产物,例如号称比hive快800倍的clickhouse,以及druid,可是在利用处景方面和hive还是有一定收支的,有爱好的可以去领会一下。

大数据在数仓方面,有很多值得玩的平台架构和一些根基概念,ETL描写的就是基于数据仓库停止的数据处置进程。

Spark、Kafka - 实时计较

现在提到实时计较,能够大师首先会想到flink。简直,flink在开源实时范畴方面绝对算是TOP了。18年的时辰,实时处置还是SparkStreaming利用的比力普遍。所以那时我安装的是Spark集群,来模拟的实时计较。

实在Spark/flink集群都是可以不搭建的,在Spark集群上运转法式属于standlone形式,假如利用yarn形式只需要有客户端便可以了。Spark法式运转在yarn上,能对cpu和内存停止资本隔离,而且不需要要零丁保护一个Spark集群。

而作为实时处置配套,Kafka和Rabbitmq之间我还是偏向于Kafka。在Kafka搭建之前,先搭建zookeeper集群,zk是kafka的依靠组件,用来记录一些元数据。

下图号令操纵就是消耗写入Kafka的数据。



我们要做的就是将数据库/数据仓库中的离线数据,转换为数据流(Data Stream),作为生产者实时写入到Kafka中。

我们开辟的Spark/flink法式作为消耗者实时读取Kafka中的数据,实时处置并数据计较成果。以下图,为SparkStreaming的法式监控页面。







SparkStreming法式,可以利用Java、Scala、Python开辟,可是挑选Scala比力好一些。一是Scala的语法结构更贴合流式处置,二是源码都是Scala写的。

Flume - 数据交换神器

当初刚打仗Flume的时辰,真的没玩大白,云里雾里的。后来深入研讨了一下以后,数据在oracle、MySQL、Kafka、HDFS以及其他存储平台上,便可以停止同步。不外MySQL和oracle需要自己界说Source和Sink。

Flume的简单之处在于设置化。当初我将数据从MySql抽取到Kafka,部分派置以下。



顺带一提,在大数据量的情况下,Flume很多参数还是需要调的。当初我将1W亿/天的数据从Kafka落地到HDFS的时辰,写了几千行的设置,调了很多参数。

3. 数据展现

最初就是前台的数据展现了,利用了Springboot和Vue做了一个POI数据治理系统。首要实现分类查询和POI搜索标点舆图展现功用。

可是这个系统,我只找到了登录页面和舆图搜索标点的截图了....





数据治理系统发挥的空间还是挺多的,比如页面款式的优化,再比如前台可以利用Node + Vue,后端利用Springboot来实现前后端分手架构。

结语

主如果给大师供给一个大数据平台结业设想的根基思绪,很多细节的地方还可以优化。我们也不难发现,这里的大数据集群都是自力安装的,我们一样可以利用Ambari停止同一的安装、治理、启动、状态监控。

比来也是在研讨Ambari,前几周刚花了一个星期,完成了Ambari2.7.5的编译安装工作。前期的方针是「配合docker在一台机械上完成大数据集群的搭建工作」,固然这里主如果玩,构建测试情况,性能啥的就不要斟酌了哈。

忙完这一阵,完成Scrapy系列文章,就起头动手预备大数据平台系列文章的编写。期待下一次相遇。

  • 游客 2022-3-29 10:40
    答主,如果用lmst或knn算法来做可视化分析,步骤也是类似的吗,算法是在第五步中计算并评估,其他的步骤是对于数据的处理吗
  • 游客 2022-3-29 10:39
    谢谢大佬的回复,听了你的话我大概有个方向了,我会努力的!
  • 游客 2022-3-29 10:38
    两核可以试一试,但是卡是肯定的。。。
  • 游客 2022-3-29 10:37
    web和大数据就要做一些取舍了,如果想纯走大数据方向,web就建议不要深入学了,因为想要走大数据开发方向,主要还是Java基础到深入(jvm、多线程)的过程,就避开了传统的web开发这一块。所以如果没有时间,就先不学web这一块。
    至于大数据这一块,可以参考我之前写的文章。叫我阿柒啊:我的程序员之路03:我和大数据
    至于时间这一块,时间还有很多,我Java和大数据都是毕业前夕学的,只要想努力,什么时候都不晚。
    最后,加油,祝你一切顺利。
  • 游客 2022-3-29 10:36
    大佬你好,我现在大数据专业大三,也想做一个这样综合的项目(考研复试或者毕设也可以用),现在只有web基础,还不会spring boot和vue,Hadoop只搭建了集群也还没深入学,因为感觉这两方面都太多知识要学了(光前端就三剑客等等)我是应该先学web还是先学大数据的技术呢(又要考研,所以感觉时间很不够,压力挺大的,只后悔大一大二没有摸索到大概路线,瞎浪费时间去了),谢谢大佬
  • 游客 2022-3-29 10:35
    这个毕设还是相当综合的,对于初学者Hadoop集群就够折腾,可能两核的笔记本该不行
    吃惊

查看全部评论>>

文章点评
2022-03-27 18:08
互联网 移动互联网时代的管理模式:社交化
来源:tita.com专业的OKR管理与教练认证平台近现代的社会发展经历过这样三个阶段:工 <详情>
2022-03-27 18:21
互联网 移动互联网出海8年,我们到底对海外环境了解多少?
始自 2010 年的中国移动互联网的出海浪潮,几年时间里经过探索、爆发、迭代转型后,目 <详情>
2022-03-27 19:26
互联网 1.2 量子计算与量子电路
介绍完计算的基本单位qubit后,我们可以进行量子计算了。在经典计算机中,我们使用电 <详情>
2022-03-28 12:32
互联网 五年过去了 我的VR设备为什么还在吃灰
2018年,刚刚走上工作岗位的我为了心动已久的《节奏光剑》购入了PSVR。彼时的囊中羞涩 <详情>
2022-03-28 13:17
互联网 VR设备终于出了第一个爆款!2022将是关键一年
2020年以来,随着VR软硬件设备的迭代升级,硬件成本的下降以及体验感的提升,加上“元 <详情>
2022-03-28 15:26
互联网 量子计算重大突破:科学家实现512个量子位的中性原子体系
澎湃新闻记者 王蕙蓉近日,科学家在中性原子量子计算领域取得重大突破,首次实现具有5 <详情>
2022-03-28 17:22
互联网 AR.js 初探
写之前说几句,以下示例和参考都是github上的开源作品,小编只是分享在使用过程中的踩 <详情>
2022-03-28 17:56
互联网 三分钟了解NB-IoT物联网技术
今天我们来一起吹吹NB!其实,通信圈里的小伙伴已经猜到了,我所说的NB,就是它:在具 <详情>
2022-03-28 18:24
互联网 【2022.3.9】VR(虚拟现实)科普文/眼镜/电影/游戏/资源/元 ...
(一)VR设备从今年的情况来VR渐渐从寒冬苏醒过来,最为明显的信号就是各大厂商纷纷推 <详情>
2022-03-28 18:36
互联网 纯流量卡(物联网卡)经验科普贴
本人从事物联网行业多年,并且拥有自己的工作室,也见证了物联网卡的起起伏伏,在这里 <详情>
2022-03-29 08:49
互联网 五分钟带你了解物联网(IoT)及其未来应用方向
来源:物联网智库 导 读 未来的IoT应用,将在不同行业中,和不同领域中,从简单的状态 <详情>
2022-03-29 10:13
互联网 从大数据到数据库
这个专栏虽然是 TiDB AP 组的,但基本不代表官方态度(这样可以写的随意一点)。从上 <详情>
2022-03-29 10:19
互联网 大数据方向毕业设计如何做,分享我的思路
前言最近有很多人问我,大数据专业有什么好的毕设项目,我就简单的回复了一下。也有直 <详情>
2022-03-29 10:19
互联网 大数据毕业设计
1 开题指导1.1 起因近期开题的同学越来越多,很多同学不知道怎么选题,不知道老师分配 <详情>
2022-03-29 10:49
互联网 2021最全大数据学习路线(建议收藏)
个人简介:非科班双一流硕士,CAE仿真方向转行大数据,现杭州某大厂大数据工程师! 我 <详情>
2022-03-29 15:45
互联网 第一次有人把5G讲的这么简单明了
原作者:小枣君原出处:鲜枣课堂原链接:有史以来最强的5G入门科普!关于5G通信,常见 <详情>
2022-03-29 17:24
互联网 聊一聊 VR 虚拟现实(十一):VR 未来20年发展趋势预测
要想做好眼前的事,首先要知道它未来会是什么样子?本篇文章里,我们就讨论下VR的未来 <详情>
2022-03-29 17:25
互联网 2022年VR眼镜这么选?100-5000元内的VR眼镜推荐 ...
哈喽!大家好,我是热爱分享的 @雪雪雪雪碧 呀,这篇文章主要给大家分享家用VR眼镜的 <详情>
2022-03-29 17:26
互联网 个人向VR硬件推荐/选购指南(更新到2021)
联动游戏推荐贴:联动VR设置贴:VR组织QQ群推荐:(较为婆罗门S1论坛VR群,水分少,有 <详情>
2022-03-29 17:42
互联网 2022年VR眼镜评测,Oculus、Pico、Nolo、HTC品牌推荐 ...
【全文约4000字,精读10分钟】全文精华总结,不想看长内容的,直接看结论: 【VR眼镜 <详情>

热门文章