【openGauss】谈谈openGauss中的raw类型-DA-技术分享

前言

在oracle数据库上进行开发的时候,经常会使用到raw类型,raw其实就是一段十六进制形式的二进制数据,最长长度和varchar2一致,都是32767个字节。在各种数据加解密或者数据传输时,使用二进制数据可以避免字符集异常或者特殊符号引起的程序运行错误。

在postgresql(截止到当前最新的14版本)中,没有raw类型,只能使用text或者bytea转换来处理,所以这个点可能会让迁移项目变得很头疼。

最近在写openGauss的兼容plsql包,正好写到了utl_raw,一开始我是完全按照postgresql中的bytea来写的,但后来突然发现在openGauss中有rawtohex和hextoraw两个函数,就去查了下,发现openGauss里竟然支持raw类型,而且还有一些raw类型的专用函数,就稍微研究了下(偶然发现目前openGauss官方文档内容比华为GaussDB官方文档内容要少,导致走了不少弯路)

官方文档

https://support.huaweicloud.com/devg-opengauss/opengauss_devg_0390.html

https://support.huaweicloud.com/devg-opengauss/opengauss_devg_0372.html

https://opengauss.org/zh/docs/2.1.0/docs/Developerguide/%E4%BA%8C%E8%BF%9B%E5%88%B6%E5%AD%97%E7%AC%A6%E4%B8%B2%E5%87%BD%E6%95%B0%E5%92%8C%E6%93%8D%E4%BD%9C%E7%AC%A6.html

文档这东西,看编写者的心思,可详细可简单,如果是要做研究,那还是结合看源码及实际测试来的好。
于是我先查了数据库里所有名称里带"raw"的函数,一共有18个,其中还有1个是重名的

select * from pg_proc h where h.proname like '%raw%'

proname	prolang	prosrc	probin
bucketraw	12	bucketraw
hextoraw	12	texttoraw
rawcat	12	rawcat
rawcmp	12	rawcmp
raweq	12	raweq
rawge	12	rawge
rawgt	12	rawgt
rawin	12	rawin
rawle	12	rawle
rawlike	12	rawlike
rawlt	12	rawlt
rawne	12	rawne
rawnlike	12	rawnlike
rawout	12	rawout
rawrecv	12	bytearecv
rawsend	12	byteasend
rawtohex	12	rawtotext
rawtohex	13	rawtohex	$libdir/plpgsql

然后对照华为GaussDB的官方文档来看,可以发现文档里,这些函数绝大部分都没写清楚功能及测试案例,比如下面这四个函数,文档里的描述写的竟然都是一样的

但好在大部分函数的命令是参考的基本运算符,所以能看懂个大概。
不过,绝对不能自以为是的以为这些函数的输出结果和你想的一样,稍不留神就会被坑了,所以我通过实际测试及结合看源代码,对这个函数列表整理了一份较为完整的说明,请重点留意下表中最后一列的注意事项

整理后的函数说明

proname	prosrc	功能说明	输入参数	输出参数	例	注意事项
hextoraw	texttoraw	将十六进制字符串转换成raw类型	text	raw	select hextoraw('abcd')
rawtohex	rawtotext	将raw转换成十六进制字符串	raw	cstring	select rawtohex('FF1122335566778899'::raw)	同名函数,注意参数类型的区别
rawtohex	rawtohex	将字符串转换成十六进制RAW字符串	text	text	select rawtohex('FF1122335566778899'::text)	同名函数,注意参数类型的区别,输出结果不一样，这个是字符串的二进制数据再转成raw
rawcat	rawcat	将两个raw按参数顺序从左至右拼成一个raw	raw,raw	raw	select rawcat('ab','cd')	如果有多个值需要拼接,建议比较一些和管道符拼接的效率,实测,当拼接值很多的时候,管道符拼接的效率可能更高
rawcmp	rawcmp	先将两个raw按照较短的截至同样长度(字节长度),然后转换成十进制数字再相减得到的差	raw,raw	int	select rawcmp('ffff','feff'),rawcmp('feff','1'),rawcmp('1','f'),rawcmp('FFF','FF'),rawcmp('FFFF','FF')	这个内置函数是用的C语言的memcmp进行的处理,获得的是差,注意和python的cmp函数的区别
raweq	raweq	判断两个raw是否相等	raw,raw	bool	select raweq('ab','aa')
rawge	rawge	判断第一个raw是否大于或等于第二个raw	raw,raw	bool	select rawge('ab','aa')
rawgt	rawgt	判断第一个raw是否大于第二个raw	raw,raw	bool	select rawgt('ab','aa')
rawle	rawle	判断第一个raw是否小于或等于第二个raw	raw,raw	bool	select rawle('ab','aa')
rawlt	rawlt	判断第一个raw是否小于第二个raw	raw,raw	bool	select rawlt('ab','aa')
rawne	rawne	判断两个raw是否不相等	raw,raw	bool	select rawne('ab','aa')
rawlike	rawlike	先把两个raw转成字符串,再看是否like	raw,raw	bool	select rawlike('43616D65726F6E'::raw,'4325'::raw)	第二个参数里,需要将通配符(%_)及转移符(\)的二进制数据转换成raw类型,此例实际上相当于'Cameron' like 'C%'
rawnlike	rawnlike	先把两个raw转成字符串,再看是否 not like	raw,raw	bool	select rawnlike('43616D65726F6E'::raw,'4325'::raw)	注意要进行和上面rawlike类似的处理
rawin	rawin	将raw字符串转换成bytea类型	cstring	bytea	select rawin('43616D65726F6E')	注意这里的输入类型不是raw也不是text
rawout	rawout	将bytea转换成raw字符串	bytea	cstring	select rawout('C%'::BYTEA)	注意返回的类型不是raw,而是raw的十六进制字符串,而且也不是TEXT类型
rawsend	byteasend	将RAW转换成bytea类型	raw	bytea	select rawsend('43616D65726F6E')	和rawin一样的功能但输入参数类型不一样
rawrecv	bytearecv	将一个内部二进制数据转换成raw	internal	raw		这个bytearecv在官方文档里没有介绍,属于pg的函数,但pg官方文档里同样没有介绍,不过根据源码可以得知功能
bucketraw	bucketraw	计算raw参数的hash值	raw,int	int	select bucketraw('FF',1)	第二个参数表示数据分布方式，0表示hash分布。单节点模式无法使用此函数

其他

对于以上函数,还要注意的有以下几点

在存储过程中,cstring类型需要显式的转换成text才能输出,比如参数::text
raw和text之间可以直接显式转换 ,比如参数::raw,参数::text
raw在内核中其实也是相当于bytea进行的处理,可以使用到c语言的内存指令操作,一般会比字符串要处理得快。
但是如果不是用上述函数,而是用其他函数来处理raw,就会先隐式的转换成text再进行处理,这点尤其要注意,不仅执行效率会有变化,而且得到的结果可能会和预期不一致,比如使用length或substring函数时就和处理bytea类型时不一样