基于Hadoop的数据仓库及分析工具,将结构化的数据文件映射为一张数据库表,提供了类SQL的HiveQL语言,它将HiveQL语句转译成M/R-Job然后在Hadoop集群中执行,Hive的表其本质就是HDFS上的目录或文件。
ZooKeeper:搭建分布式集群
发表于 | 分类于 大数据
ZooKeeper是一个分布式开源协调服务框架,ZooKeeper集群中的每台服务器的数据完全相同,其中有一个服务器为Leader,用来为其它服务器(Follower)校准数据。ZooKeeper集群内部使用选举机制选举Leader所以必须是奇数台,只要有半数以上节点存活集群就能正常运作(如果有2N+1台服务器,允许有N台服务器宕机),ZooKeeper主要用于管理用户提交的数据并为数据提供监听服务。
Hadoop:搭建完全分布式集群
发表于 | 分类于 大数据
完全分布式就是把Hadoop核心组件分开部署到不同的服务器节点上运行,需要说明的有两点:1、NameNode和Secondary NameNode分开部署是为了当NameNode出现故障后可以通过Secondary NameNode上的数据进行数据恢复,但是它只能恢复最后一次CheckPoint之前的数据。2、DataNode与NodeManager部署在一起是为了可以就近拿数据,而不是通过网络去别的节点上取数据。
Hadoop:搭建伪分布式集群
发表于 | 分类于 大数据
Node.js:模块
发表于 | 分类于 Node.js
在Node.js中一个JS文件即为一个模块,由于JS文件可以存放在不同位置,所以会出现多种导入模块的方式。
Flask:模版与静态资源
发表于 | 分类于 Python
视图函数可以直接返回文本,但在正式的项目中很少这么做,因为大量的HTML代码与Python代码杂糅在一起影响逻辑代码的读写,并且不利于与前端开发者进行分工。这时就需要前端人员单独编写HTML文件并把可变的部分抽取出来,后台开发者读取HTML文件内容对可变部分进行数据填充后返回给浏览器。