`
文章列表
《Hadoop2.5.2集群安装》 1、环境介绍 操作系统:CentOS  X64 6.5 物理机器:192.168.170.130(node1)、192.168.170.131(node2)、192.168.170.132(node3) JDK版本:JDK7.X Hadoop版本:Hadoop2.5.2 2、修改主机名称和host名称 通过命令“hostname”查看当前机器的机器名称,然后分别在node1、node2、node3机器的/etc/sysconfig/network文件上修改下主机名称(非必须)并保存,如下所示: NETWORKING=yes HOSTNAME=node1 ...
编写linux脚本文件 如 ***.sh 程式必须以下面的行开始(必须方在文档的第一行): #!/bin/sh 符号#!用来告诉系统他后面的参数是用来执行该文档的程式。在这个例子中我们使用/bin/sh来执行程式。 当编辑好脚本时,假如要执行该脚 ...
java中volatile关键字的含义 在java线程并发处理中,有一个关键字volatile的使用目前存在很大的混淆,以为使用这个关键字,在进行多线程并发处理的时候就可以万事大吉。 Java语言是支持多线程的,为了解决线程并发的问题,在语 ...
问题:在用Java程序进行读写含中文的txt文件时,经常会出现读出或写入的内容会出现乱码。原因其实很简单,就是系统的编码和程序的编码采用了不同的编码格式。通常,假如自己不修改的话,windows自身采用的编码格式是gbk(而gbk和gb2312基本上是一样的编码方式),而IDE中Encode不修改的话,默认是utf-8的编码,这就是为什么会出现乱码的原因。当在OS下手工创建并写入的txt文件(gbk),用程序直接去读(utf-8),就会乱码。为了避免可能的中文乱码问题,最好在文件写入和读出的时候显式指定编码格式。 1、写文件: public static void writeFile(St ...
GZIP、LZO、Zippy/Snappy是常用的几种压缩算法,各自有其特点,因此适用的应用场景也不尽相同。这里结合相关工程实践的情况,做一次小结。 压缩算法的比较 以下是Google几年前发布的一组测试数据(数据有些老了,有人近期做过测试的话希望能共享出来): Algorithm % remaining Encoding Decoding GZIP 13.4%           21 MB/s          118 MB/s LZO 20.5%         135 MB/s         410 MB/s Zippy/Snappy 22.2% 172 MB/s      ...
String类中split方法的使用 split 方法:将一个字符串分割为子字符串,然后将结果作为字符串数组返回。 stringObj.split([separator],[limit]) 参数:stringObj   必选项。要被分解的 String 对象或文字。该对象不会被 split 方法修改。 separator 可选项。字符串或 正则表达式 对象,它标识了分隔字符串时使用的是一个还是多个字符。如果忽 略该选项,返回包含整个字符串的单一元素数组。 limit可选项。该值用来限制返回数组中的元素个数。 说明:split 方法的结果是一个字符串数组,在 stingObj 中每个出现 sepa ...
eclipse svn过滤要提交或更新的文件    svn客户端过滤文件与此操作类似。     将maven项目提交到svn时,应该避免将target目录及eclipse配置文件 (.project,.classpath,.settings)提交,因为这些文件都是可以从源代码和pom文件重新生成的,没有必要再进行版本控制, 如果提交到svn中反而容易引起冲突和不便。     Window -> Preferences -> Team -> Ignored Resources ->Add Pattern...     输入下面的文件或文件夹;可以根据自已的情况进 ...
在项目上右键选择properties,然后点击java build path,在Librarys下,编辑JRE System Library,选择 workspace default jre 即可。
1.)新建 maven web 项目中(代码没问题,但Java resources总会显示红色的叉叉);pom.xml第一行也显示红色的叉 解决方法: Description Resource  Path Location Type ...project facets version… project 编译问题   1、properties->project Facets->修改右侧的java version 与机器所安装jdk版本 保持一致   2、window->preferences->java Compiler->设置保持一质   3、 ...
jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。   jps [ options ] [ hostid ]  选项  -q 仅输出VM标识符,不包括class name,jar name,arguments in main method  -m 输出main method的参数  -l 输出完全的包名,应用主类名,jar的完全路径名  -v 输出jvm参数  -V 输出通过flag文件传递 ...
简略版: cat主要有三大功能:1.一次显示整个文件。$ cat filename2.从键盘创建一个文件。$ cat > filename     只能创建新文件,不能编辑已有文件.3.将几个文件合并为一个文件: $cat file1 file2 > file 参数:-n 或 --number 由 1 开始对所有输出的行数编号-b 或 --number-nonblank 和 -n 相似,只不过对于空白行不编号-s 或 --squeeze-blank 当遇到有连续两行以上的空白行,就代换为一行的空白行-v 或 --show-nonprinting例:把 textfile1 的档案 ...
Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格 式简介 目前 hadoop 中流行的文件格式有如下几种: (1 ) Seque nceFile SequenceFile是Hadoop API 提供的一种二进制文件,它将数据以<key,value>的形式序列化到文件中。这种二进制文件内部使用Hadoop 的标准的Writable 接口实现序列化和反序列化。它与Hadoop API中 ...
cp 命令   cp命令用来复制文件或者目录,是Linux系统中最常用的命令之一。一般情况下,shell会设置一个别名,在命令行下复制文件时,如果目标文件已经存在,就会询问是否覆盖,不管你是否使用-i参数。但是如果是在shell ...
      ll和ls是我们在linux中经常使用的两个命令,这两个是有区别的,其中ll是CentOS等Linux默认支持,在debian中默认是不支持的别名,而ls命令则在大部分linux发行版中都支持,下面就这两个命令的区别详细说下。 ll 列出来的结果详细,有时间,是否可读写等信息 ,象windows里的详细信息ls 只列出文件名或目录名 就象windows里的列表 ll -t 是降序, ll -t | tac 是升序ll不是命令,是ls -l的别ls 命令可以说是linux下最常用的命令之一。 -a 列出目录下的所有文件,包括以 . 开头的隐含文件。-b 把文件名中不 ...
基于 hive 的日志数据统计实战 一、           hive 简介         hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。    它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 
Global site tag (gtag.js) - Google Analytics