hive-脚本增量导入数据

博客分类：

hive

0 现象描述： ct_teach_coursewares_content从mysql抽取数据到hive仓库时，抽取时间过长，以前是全量抽取，现在计划修改成增量抽取，其中，ct_teach_coursewares_content 和 ct_teach_coursewares 通过 coursewares_id 授课课件ID 关联， ct_teach_c ...

2018-08-22 10:19
浏览 2717
评论(0)
分类:企业架构

思路：最基本的两个语句：show tables; show create tables XXX. 脚本：#!/bin/bash hive -e "show tables;" > tables.txt sleep(2) cat tables.txt |while read eachline do hive -e "show create table $eachline" >>tablesDDL.txt done

2018-08-21 10:17
浏览 3371
评论(0)
分类:互联网

sed 批量替换字符串

博客分类：

linux

编写hive仓库中，在dm层表依赖mid层表时，如果mid层表修改名称，一个个的替换dm层表的引用会很麻烦，这时候使用sed批量替换最好用不过；命令格式和写法如下：命令格式： sed -i "s/原字符串/新字符串/g" `grep 原字符串 -rl 所在目录` 案例： sed -i "s/mid_teach_school_grade_subject_teacher_prepare_lesson_stat_/mid_teach_teacher_prepare_lesson_stat ...

2018-08-17 16:43
浏览 1232
评论(0)
分类:编程语言

cdh下各个集成分支版本链接

博客分类：

云计算/大数据

http://archive.cloudera.com/cdh5/cdh/5/

2018-08-12 21:01
浏览 1321
评论(0)
分类:编程语言

java Pattern Matcher的理解简记

博客分类：

javase

总结： group(）将匹配器里匹配的单词打印出来等同于 group(1） group(int) 是在匹配的 group()单词中如果单词内包含了()那么第一个()内的单词就是group(1)的结果而更多用到的是： .find（）的迭代器，它能通过正则表达式向前迭代，并通过 group(0)或者group()方式将整个匹配到的字符串打印出来： String regEx = "count\\d+"; String s = "count000dfdfsdff1"; Patt ...

2018-08-12 15:05
浏览 510
评论(0)
分类:Web前端

sql执行顺序

博客分类：

hive

.SQL执行顺序: (8)SELECT (9)DISTINCT (11)<Top Num> <select list>(1)FROM [left_table](3)<join_type> JOIN <right_table>(2)ON <join_condition>(4)WHERE <where_condition>(5)GROUP BY <group_by_list>(6)WITH <CUBE | RollUP>(7)HAVING <having_conditio ...

2018-08-07 19:10
浏览 716
评论(0)
分类:数据库

查看cdh使用组件的版本对应apache原生态版本

博客分类：

hive

链接： https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball_57.html archive.cloudera.com/cdh5/cdh 点进去任何一个连接。里面就是对应版本的介绍文档 eg: http://archive.cloudera.com/cdh5/cdh/5/hue-3.5.0-cdh5.0.0/

2018-08-07 19:07
浏览 5791
评论(0)
分类:互联网

hive认知1

博客分类：

hive

工作中，有些时候总感觉对某个概念，某项技术理解的不够深，理解的不到位，其实是自己站的高度不够高。在考虑技术细节和业务结合使用时，也要多想想设计的初衷，多想想为什么，收获颇丰。一.认识 ...

2018-08-07 17:44
浏览 377
评论(0)
分类:互联网

使用Java Pattern Matcher

博客分类：

javase

public int appearNumber(String srcText, String findText) { int count = 0; Pattern p = Pattern.compile(findText); Matcher m = p.matcher(srcText); while (m.find()) { count++; } if (count > maxCount) maxCount = ...

2018-07-09 16:23
浏览 554
评论(0)
分类:企业架构

hive对应mysql 元数据表介绍

博客分类：

hive

概述 Hive 的元数据信息通常存储在关系型数据库中，常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表回到顶部一、存储Hive版本的元数据表（VERSION） VERSION -- 查询版本信息

2018-07-06 19:47
浏览 1226
评论(0)
分类:编程语言

读取hadoop文件内容

博客分类：

hadoop2

import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class ReadHdfsFile { public static String ge ...

2018-07-05 18:54
浏览 735
评论(0)
分类:互联网

HBase-namespace命名空间介绍

博客分类：

hbase

1、介绍在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作，HBase全局管理员可以创建、修改和回收namespace的授权。 2、namespace HBase系统默认定义了两个缺省的namespace hbase：系统内建表，包括namespace和meta表 default：用户建表时未指定namespace的表都创建在此创建namespace: hbase(main):010: ...

2018-07-05 10:07
浏览 1338
评论(0)
分类:数据库

google-gson对json的解析

博客分类：

javase

代码如下， json格式贴在了代码中，可以拿出来放在txt里通过流方式获取： package com.xuele.bigdata.hiveudf; import java.io.File; import java.io.FileReader; import com.google.gson.JsonArray; import com.google.gson.JsonObject; import com.google.gson.JsonParser; public class ContentTest { public static void m ...

2018-07-05 09:56
浏览 517
评论(0)
分类:编程语言

获取两个日期之间的所有日期闭区间

博客分类：

javase

结果是闭区间 ["2017-04-25","2018-04-01"] 读者可以根据需要修改成开区间 import java.text.SimpleDateFormat; import java.util.Date; public class DateTest { String dateFormat = "yyyy-MM-dd"; SimpleDateFormat format = new SimpleDateFormat(dateFormat); public ...

2018-06-21 09:23
浏览 1163
评论(0)
分类:编程语言

Linux下 $(cd `dirname $0`;pwd)

博客分类：

hive

在写hive脚本中，常常见到如下写法： #!/bin/bash basepath=$(cd `dirname $0`; pwd) 具体含义如下： dirname $0，取得当前执行的脚本文件的父目录 cd `dirname $0`，进入这个目录(切换当前工作目录) pwd，显示当前工作目录(cd执行后的) 注意：在使用的过程中需注意此事项：命令中“`”不是英文的单引号，而是英文输入法下的“~”同一个按键下面的那个符号。说白了就是获取当前你的文件所在文件夹的绝对路径： [zm@sandbox jo ...

2018-01-31 11:07
浏览 4045
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive-脚本增量导入数据

HIVE备份之批量导出所有的HIVE建表字段

sed 批量替换字符串

cdh下各个集成分支版本链接

java Pattern Matcher的理解简记

sql执行顺序

查看cdh使用组件的版本对应apache原生态版本

hive认知1

使用Java Pattern Matcher

hive对应mysql 元数据表介绍

读取hadoop文件内容

HBase-namespace命名空间介绍

google-gson对json的解析

获取两个日期之间的所有日期闭区间

Linux下 $(cd `dirname $0`;pwd)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>