hive自定义函数-uuid

chengjianxiaoxue

浏览: 1287369 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

0 业务目的：

将oracle的存储过程业务搬迁到hive, 因此涉及不少 sql ---> hql的替换工作，基本都能实现，

hive函数不支持的oracle函数功能的就用自定义函数，遇到join的不等值连接就用mr实现，

现在说说 oracle中insert表中

insert into table f_ent_norm_statistics

select xxx , SYS_GUID() ;

oracle的SYS_GUID() 是生成32位byte的uuid，hive的rand()达不到这个目的，因此需要自定义，

这里参考下 rand源码：

@Description(name = "rand",
    value = "_FUNC_([seed]) - Returns a pseudorandom number between 0 and 1")
@UDFType(deterministic = false)
@VectorizedExpressions({FuncRandNoSeed.class, FuncRand.class})
public class UDFRand extends UDF {
  private Random random;

  private final DoubleWritable result = new DoubleWritable();

  public UDFRand() {
  }

  public DoubleWritable evaluate() {
    if (random == null) {
      random = new Random();
    }
    result.set(random.nextDouble());
    return result;
  }

  public DoubleWritable evaluate(LongWritable seed) {
    if (random == null) {
      random = new Random(seed.get());
    }
    result.set(random.nextDouble());
    return result;
  }

}

主要是

1 random = new Random(seed.get());

2 @UDFType(deterministic = false) 如果不加入这句,那么hql跑的时候只会返回一个值。

下面是我的 udf uuid写法：

/**
 * 
 * @author zm
 * return uuid of 32bytes
 * eg: return  F18031C69D8345DEB305D4B2E796A282   like oracle SYS_GUID()
 */
@UDFType(deterministic = false)
public class SysGuidFun  extends UDF{ 

	 public Text evaluate() {
		
	   String id = UUID.randomUUID().toString();   
	   id = id.replace("-", ""); 
      
	   return new Text(id);	
	 }
	 
}

分享到：

将公司oracle脚本迁移到hive平台hql时一些 ... | oracle client修改连接服务器信息文件

2015-12-10 17:11
浏览 4792
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive自定义函数-uuid

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive自定义函数-uuid

评论

发表评论

相关推荐

hive开窗函数

hive分页

hive-脚本增量导入数据

HIVE备份之批量导出所有的HIVE建表字段

hive列存储格式对比

sql执行顺序

查看cdh使用组件的版本对应apache原生态版本

hive认知1

hive对应mysql 元数据表介绍

Linux下 $(cd `dirname $0`;pwd)

修复hive表存储格式为PARQUET的分区表中类型定义为int到float的过程

hive快速拷贝动态分区的两种方式

hive增量对比后将增量数据插入原表

hive -e 出现cannot recognize input nearXXX

hive log的分类和所在位置

将很多段逻辑sql放在一个hive文件执行 终止提交的任务做法

hive自定义函数 求和

hive 获取当前yyyy/MM/dd HH:mm:ss

hive -f执行整体脚本时，报错下如何知道前面执行多少个了

select join where执行顺序

最近访客更多访客>>

将很多段逻辑sql放在一个hive文件执行终止提交的任务做法

hive自定义函数求和