- 浏览: 1286461 次
- 性别:
- 来自: 北京
最新评论
-
jaingbei:
可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat -
star12396:
楼主,那hbase结合hive使用,这种架构稳定不?机器的内存 ...
hbase+hive结合使用 -
atMe0804:
...
kafka集群搭建和使用Java写kafka生产者消费者 -
ztao2333:
thanks
eclipse 设置自动补全快捷键 -
Will_forme:
你好 最近在使用kylin的时候有点疑问,我安装这些都没问题 ...
kylin 搭建和简单测试结果
文章列表
hive-脚本增量导入数据
- 博客分类:
- hive
0 现象描述: ct_teach_coursewares_content从mysql抽取数据到hive仓库时,抽取时间过长,以前是全量抽取,现在计划修改成增量抽取,其中,ct_teach_coursewares_content 和 ct_teach_coursewares 通过 coursewares_id 授课课件ID 关联, ct_teach_c ...
HIVE备份之批量导出所有的HIVE建表字段
- 博客分类:
- hive
思路:最基本的两个语句:show tables; show create tables XXX.
脚本:#!/bin/bash
hive -e "show tables;" > tables.txt
sleep(2)
cat tables.txt |while read eachline do hive -e "show create table $eachline" >>tablesDDL.txt done
sed 批量替换字符串
- 博客分类:
- linux
编写hive仓库中,在dm层表依赖mid层表时,如果mid层表修改名称,一个个的替换dm层表的引用会很麻烦,
这时候使用sed批量替换最好用不过;
命令格式和写法如下:
命令格式: sed -i "s/原字符串/新字符串/g" `grep 原字符串 -rl 所在目录` 案例: sed -i "s/mid_teach_school_grade_subject_teacher_prepare_lesson_stat_/mid_teach_teacher_prepare_lesson_stat ...
cdh下各个集成分支版本链接
- 博客分类:
- 云计算/大数据
http://archive.cloudera.com/cdh5/cdh/5/
总结:
group() 将匹配器里匹配的单词打印出来等同于 group(1)
group(int) 是在匹配的 group()单词中如果单词内包含了()那么第一个()内的单词就是group(1)的结果
而更多用到的是 : .find()的迭代器,它能通过正则表达式向前迭代,并通过 group(0)或者group()方式将整个匹配到的字符串打印出来:
String regEx = "count\\d+";
String s = "count000dfdfsdff1";
Patt ...
.SQL执行顺序: (8)SELECT (9)DISTINCT (11)<Top Num> <select list>(1)FROM [left_table](3)<join_type> JOIN <right_table>(2)ON <join_condition>(4)WHERE <where_condition>(5)GROUP BY <group_by_list>(6)WITH <CUBE | RollUP>(7)HAVING <having_conditio ...
链接:
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball_57.html
archive.cloudera.com/cdh5/cdh 点进去任何一个连接。里面就是对应版本的介绍文档
eg: http://archive.cloudera.com/cdh5/cdh/5/hue-3.5.0-cdh5.0.0/
工作中,有些时候总感觉对某个概念,某项技术理解的不够深,理解的不到位,其实是自己站的高度不够高。在考虑技术细节和业务结合使用时,也要多想想设计的初衷,多想想为什么,收获颇丰。
一.认识 ...
public int appearNumber(String srcText, String findText) {
int count = 0;
Pattern p = Pattern.compile(findText);
Matcher m = p.matcher(srcText);
while (m.find()) {
count++;
}
if (count > maxCount)
maxCount = ...
hive对应mysql 元数据表介绍
- 博客分类:
- hive
概述
Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。
Hive的元数据信息在MySQL数据中有57张表
回到顶部
一、存储Hive版本的元数据表(VERSION)
VERSION -- 查询版本信息
读取hadoop文件内容
- 博客分类:
- hadoop2
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
public class ReadHdfsFile {
public static String ge ...
HBase-namespace命名空间介绍
- 博客分类:
- hbase
1、介绍
在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。
2、namespace
HBase系统默认定义了两个缺省的namespace
hbase:系统内建表,包括namespace和meta表
default:用户建表时未指定namespace的表都创建在此
创建namespace:
hbase(main):010: ...
google-gson对json的解析
- 博客分类:
- javase
代码如下, json格式贴在了代码中,可以拿出来放在txt里通过流方式获取:
package com.xuele.bigdata.hiveudf;
import java.io.File;
import java.io.FileReader;
import com.google.gson.JsonArray;
import com.google.gson.JsonObject;
import com.google.gson.JsonParser;
public class ContentTest {
public static void m ...
获取两个日期之间的所有日期闭区间
- 博客分类:
- javase
结果是闭区间 ["2017-04-25","2018-04-01"] 读者可以根据需要修改成开区间
import java.text.SimpleDateFormat;
import java.util.Date;
public class DateTest {
String dateFormat = "yyyy-MM-dd";
SimpleDateFormat format = new SimpleDateFormat(dateFormat);
public ...
在写hive脚本中,常常见到 如下写法:
#!/bin/bash
basepath=$(cd `dirname $0`; pwd)
具体含义如下:
dirname $0,取得当前执行的脚本文件的父目录
cd `dirname $0`,进入这个目录(切换当前工作目录)
pwd,显示当前工作目录(cd执行后的)
注意:
在使用的过程中需注意此事项: 命令中“`”不是英文的单引号,而是英文输入法下的“~”同一个按键下面的那个符号。
说白了就是 获取 当前你的文件所在文件夹的绝对路径:
[zm@sandbox jo ...