中文NLP的福音TensorFlow支持

2019-12-12 | 民生视野  浏览:0次

来源:东方头条 日期: 10:54:48 导读:新智元推荐整理:非主流Unicode 是计算机科学领域里的一项业界标准,它把所有语言都统一到一套编码里,防

新智元推荐

整理:非主流

Unicode 是计算机科学领域里的一项业界标准,它把所有语言都统一到一套编码里,防止乱码问题现在,TensorFlow 支持 Unicode了这对中文NLP研究人员来说绝对算得上是一大利好本文还介绍了TensorFlow 社区新推出的 Unicode colab 教程

终于,TensorFlow 增加了对 Unicode 的支持

什么是 UnicodeUnicode 是计算机科学领域里的一项业界标准,包括字符集、编码方案等Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求

在处理自然语言时,了解字符串中字符的编码方式非常重要因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字最早的计算机在设计时采用 8 个比特(bit)作为一个字节(byte),所以一个字节能表示的最大的整数就是 255(二进制 = 十进制 255),0 - 255 被用来表示大小写英文字母、数字和一些符号,这个编码表被称为 ASCII 编码,比如大写字母 A 的编码是 65,小写字母 z 的编码是 122

如果要表示中文,显然一个字节是不够的,至少需要两个字节,而且还不能和 ASCII 编码冲突,所以,中国制定了 GB2 12 编码,用来把中文编进去

类似的,日文和韩文等其他语言也有这个问题为了统一所有文字的编码,Unicode 应运而生Unicode 把所有语言都统一到一套编码里,这样就不会再有乱码问题了

Unicode 几乎支持所有的语言,是字符编码最常用的标准Unicode 规定,每个字符使用唯一的整数代码点(code point)表示,其值介于 0 和 0x10FFFF 之间把代码点按顺序放置,就能得到一个 Unicode 字符串

(:)

宝宝口臭怎么办
缓慢性心律失常的原因
贵阳治疗癫痫好的医院
友情链接: 开原民生在线