欢迎光临
我们一直在努力

golang —rune与byte

golang内置类型有rune类型和byte类型。

rune类型的底层类型是int32类型,而byte类型的底层类型是int8类型,这决定了rune能比byte表达更多的数。

在unicode中,一个中文占两个字节,utf-8中一个中文占三个字节,golang默认的编码是utf-8编码,因此默认一个中文占三个字节,但是golang中的字符串底层实际上是一个byte数组。因此可能会出现下面这种奇怪的情况

golang中存在丰富的类型,其中一部分类型如byte、rune等是基于底层的整形等基础类型实现的,熟悉类型对应的基础类型能够帮助我们了解一些coding中的小技巧,可以基于类型的基础类型直接使用。首先了解一下一些内建类型对应的基础类型,这些都可以在源码中 builtin.go 中找到:

// byte is an alias for uint8 and is equivalent to uint8 in all ways. It is
// used, by convention, to distinguish byte values from 8-bit unsigned
// integer values.
type byte = uint8

// rune is an alias for int32 and is equivalent to int32 in all ways. It is
// used, by convention, to distinguish character values from integer values.
type rune = int32

在unicode中,一个中文占两个字节,utf-8中一个中文占三个字节,golang默认的编码是utf-8编码,因此默认一个中文占三个字节,但是golang中的字符串底层实际上是一个byte数组。因此可能会出现下面这种奇怪的情况

package main
import (
    "fmt"
)
func main() {
    str := "世界"
    fmt.Println(len(str)) //6
}

 

我们期望得到的结果应该是4,原因是golang中的string底层是由一个byte数组实现的,而golang默认的编码是utf-8,因此在这里一个中文字符占3个字节,所以获得的长度是6,想要获得我们想要的结果也很简单,golang中的unicode/utf8包提供了用utf-8获取长度的方法

package main
import (
    "fmt"
    "unicode/utf8"
)
func main() {
    str := "世界"
    fmt.Println(utf8.RuneCountInString(str))//2
}

结果是2

上面说了byte类型实际上是一个int8类型,int8适合表达ascii编码的字符,而int32可以表达更多的数,可以更容易的处理unicode字符,因此,我们可以通过rune类型来处理unicode字符

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    str2 := []rune(str)
    fmt.Println(len(str2)) //8
}

这里将会申请一块内存,然后将str的内容复制到这块内存,实际上这块内存是一个rune类型的切片,而str2拿到的是一个rune类型的切片的引用,我们可以很容易的证明这是一个引用

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    str2 := []rune(str)
    t := str2
    t[0] = 'w'
    fmt.Println(string(str2)) //“wello 世界”
    fmt.Println(string(str))  //“hello 世界”
}

 

通过把str2赋值给t,t上改变的数据,实际上是改变的是t指向的rune切片,因此,str2也会跟着改变,而str不会改变。

字符串的遍历

对于字符串,看一下如何遍历吧,也许你会觉得遍历轻而易举,然而刚接触golang的时候,如果这样遍历字符串,那么将是非常糟糕的

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    for i := 0; i < len(str); i++ {
        fmt.Println(string(str[i]))
    }
}

 

输出:

h
e
l
l
o
 
ä
¸
–
ç

 

如何解决这个问题呢?

第一个解决方法是用range循环

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    for _, v := range str {
        fmt.Println(string(v))
    }
}

输出

h
e
l
l
o
 

原因是range会隐式的unicode解码

第二个方法是将str 转换为rune类型的切片

package main
import (
    "fmt"
)
func main() {
    str := "hello 世界"
    str2 := []rune(str)
    for i := 0; i < len(str2); i++ {
        fmt.Println(string(str2[i]))
    }
}

 

输出

h
e
l
l
o
 

 

rune和byte的区别

除开rune和byte底层的类型的区别,在使用上,rune能处理一切的字符,而byte仅仅局限在ascii

转载本站文章请注明,转载自:IT技术资讯 [https://www.ithothub.com]

本文链接:https://www.ithothub.com/golang/2020042118152135.html

赞(0) 打赏

评论 抢沙发

评论前必须登录!

 

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏