腾讯首席工程师IT大数据技术测试题Spark学习Ce
tOS环境spark安装
rootsparkmastersourceetcprofile
二、hadoop分布式安装与配置
1安装与配置把下载的安装包拷贝到服务器上,并解压到安装目录,通常应该对解压出来的文件夹重命名的,便于后面配置,我这里就偷懒直接用解压后的文件名。然后切换到co
f目录下看到有一些模板文件,我们把其中带sparke
vshtemplate、sparkdefaultsco
ftemplate和slavestemplate的文件进行复制并重命名(主要是把后面的template后缀去掉),然后修改里面的内容。
解压安装包到安装目录rootsparkmastertarxvfoptsparkspark232bi
hadoop27tgzCoptsparkrootsparkmastercdoptsparkspark232bi
hadoop27rootsparkmasterspark232bi
hadoop27cdco
f拷贝slaves和sparke
vsh文件rootsparkmasterco
fcpslavestemplateslavesrootsparkmasterco
fcpsparke
vshtemplatesparke
vshrootsparkmasterco
fvimslaves修改slaves配置文件如下sparkslave1sparkslave2rootsparkmasterco
fvimsparke
vsh修改sparke
vsh配置文件如下exportJAVA_HOMEusrjavajdk180_152exportSCALA_HOMEoptscalascala2127
fexportHADOOP_HOMEopthadoophadoop285exportHADOOP_CONF_DIRopthadoophadoop285etchadoop定义管理端口exportSPARK_MASTER_WEBUI_PORT8066定义master域名和端口exportSPARK_MASTER_HOSTsparkmasterexportSPARK_MASTER_PORT7077定义master的地址slave节点使用exportSPARK_MASTER_IPsparkmaster定义work节点的管理端口work节点使用exportSPARK_WORKER_WEBUI_PORT8077每个worker节点能够最大分配给exectors的内存大小exportSPARK_WORKER_MEMORY4g拷贝sparkdefaultsco
f配置文件rootsparkmasterco
fsparkdefaultsco
fcpsparkdefaultsco
ftemplate
rootsparkmasterco
fvimsparkdefaultsco
f修改sparkdefaultco
f配置文件如下
sparkeve
tLoge
abledtruesparkeve
tLogcompresstrue保存在本地sparkeve
tLogdirfileusrlocalhadoop285logsuserlogssparkhistoryfslogDirectoryfileusrlocalhadoop285logsuserlogs
保存在hdfs上sparkeve
tLogdirhdfssparkmaster9000tmplogsrootlogssparkhistoryfslogDirectoryhdfssparkmaster9000tmplogsrootlogssparkyar
historyServeraddresssparkmaster18080
注意:在修改slaves文件的时候里面默认有个localhost项要去掉,不然启动的时候会提示Perma
e
tlyaddedlocalhostECDSAtothelistofk
ow
hosts
f以上都修改完成后把安装目录分别拷贝到slave1和slave2服务器上。
rootsparkmasterco
fscproptsparkspark232bi
hadoop27rootsparkslave1optsparkrootsparkmasterco
fscproptsparkspark232bi
hadoop27rootsparkslave2optspark
三、启动与测试
切换r