`
文章列表
      0 现象描述: ct_teach_coursewares_content从mysql抽取数据到hive仓库时,抽取时间过长,以前是全量抽取,现在计划修改成增量抽取,其中,ct_teach_coursewares_content 和 ct_teach_coursewares 通过 coursewares_id 授课课件ID 关联, ct_teach_c ...
      思路:最基本的两个语句:show tables; show create tables XXX. 脚本:#!/bin/bash  hive -e "show tables;" > tables.txt sleep(2)      cat tables.txt |while read eachline     do     hive -e "show create table $eachline" >>tablesDDL.txt     done   
                编写hive仓库中,在dm层表依赖mid层表时,如果mid层表修改名称,一个个的替换dm层表的引用会很麻烦, 这时候使用sed批量替换最好用不过;     命令格式和写法如下:    命令格式: sed -i "s/原字符串/新字符串/g" `grep 原字符串 -rl 所在目录`  案例:  sed -i "s/mid_teach_school_grade_subject_teacher_prepare_lesson_stat_/mid_teach_teacher_prepare_lesson_stat ...
      http://archive.cloudera.com/cdh5/cdh/5/    
总结: group() 将匹配器里匹配的单词打印出来等同于 group(1) group(int) 是在匹配的 group()单词中如果单词内包含了()那么第一个()内的单词就是group(1)的结果       而更多用到的是 :  .find()的迭代器,它能通过正则表达式向前迭代,并通过 group(0)或者group()方式将整个匹配到的字符串打印出来: String regEx = "count\\d+"; String s = "count000dfdfsdff1"; Patt ...

sql执行顺序

    博客分类:
  • hive
        .SQL执行顺序: (8)SELECT (9)DISTINCT  (11)<Top Num> <select list>(1)FROM [left_table](3)<join_type> JOIN <right_table>(2)ON <join_condition>(4)WHERE <where_condition>(5)GROUP BY <group_by_list>(6)WITH <CUBE | RollUP>(7)HAVING <having_conditio ...
    链接:   https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh_package_tarball_57.html     archive.cloudera.com/cdh5/cdh   点进去任何一个连接。里面就是对应版本的介绍文档 eg: http://archive.cloudera.com/cdh5/cdh/5/hue-3.5.0-cdh5.0.0/    

hive认知1

    博客分类:
  • hive
      工作中,有些时候总感觉对某个概念,某项技术理解的不够深,理解的不到位,其实是自己站的高度不够高。在考虑技术细节和业务结合使用时,也要多想想设计的初衷,多想想为什么,收获颇丰。         一.认识 ...

使用Java Pattern Matcher

 
    public int appearNumber(String srcText, String findText) { int count = 0; Pattern p = Pattern.compile(findText); Matcher m = p.matcher(srcText); while (m.find()) { count++; } if (count > maxCount) maxCount = ...
      概述 Hive 的元数据信息通常存储在关系型数据库中,常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。 Hive的元数据信息在MySQL数据中有57张表       回到顶部 一、存储Hive版本的元数据表(VERSION)  VERSION   -- 查询版本信息
    import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class ReadHdfsFile { public static String ge ...
  1、介绍 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权。 2、namespace HBase系统默认定义了两个缺省的namespace hbase:系统内建表,包括namespace和meta表 default:用户建表时未指定namespace的表都创建在此 创建namespace: hbase(main):010: ...
    代码如下, json格式贴在了代码中,可以拿出来放在txt里通过流方式获取:   package com.xuele.bigdata.hiveudf; import java.io.File; import java.io.FileReader; import com.google.gson.JsonArray; import com.google.gson.JsonObject; import com.google.gson.JsonParser; public class ContentTest { public static void m ...
    结果是闭区间  ["2017-04-25","2018-04-01"]   读者可以根据需要修改成开区间   import java.text.SimpleDateFormat; import java.util.Date; public class DateTest { String dateFormat = "yyyy-MM-dd"; SimpleDateFormat format = new SimpleDateFormat(dateFormat); public ...
      在写hive脚本中,常常见到 如下写法:   #!/bin/bash basepath=$(cd `dirname $0`; pwd)   具体含义如下:   dirname $0,取得当前执行的脚本文件的父目录 cd `dirname $0`,进入这个目录(切换当前工作目录) pwd,显示当前工作目录(cd执行后的)     注意: 在使用的过程中需注意此事项: 命令中“`”不是英文的单引号,而是英文输入法下的“~”同一个按键下面的那个符号。     说白了就是 获取 当前你的文件所在文件夹的绝对路径: [zm@sandbox jo ...
Global site tag (gtag.js) - Google Analytics