微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Scala/Java正则匹配中去掉unicode的空格符

Scala正则匹配中去掉unicode的空格符

在Scala做数据清洗的时候,用str.replaceAll("\\s+","")的时候有些看不见的字符并不能够被清除掉,比如说

// scala代码:
160.tochar  //普通的英文半角空格
12288.tochar  //中文空格unicode
8194.tochar  //半个中文宽度空格
8195.tochar   //一个中文宽度的空格
8196.tochar  //四分之一个中文宽度
...    //等等还有其它的,我没有收集到

下面如果有一句话我要用\\s+去掉的话里面的一些空白字符的话:

  def main(args: Array[String]): Unit = {
    val str:String = s"去掉 这句话${160.tochar.toString}中${12288.tochar.toString}的空白${8194.tochar.toString}字符"
    println(str)
    println(str.replaceAll("\\s+","|"))
  }

在这里插入图片描述


结果如下:

在这里插入图片描述


从上面的例子中可以看出来,在这个字符串里面只有第一个空格被替换掉了。
我的需求是将所有的空白字符都去掉,但是\\s+没有帮我去掉unicode的空白字符。


那么如何去掉uncode的空格呢?

unicode正则表达式文档
参照上面的这篇文章,我找到了一个方式可以去掉这些unicode的空白字符,代码如下:

  def main(args: Array[String]): Unit = {
    val str:String = s"去掉 这句话${160.tochar.toString}中${12288.tochar.toString}的空白${8194.tochar.toString}字符"
    println(str)
    println(str.replaceAll("[\\p{Space}|\\p{Zs}]+","|"))
  }

在这里插入图片描述

结果如下:

在这里插入图片描述

在上面利用\\p{Zs}就已经能够达成目标的效果了,利用\\p{Space}的理由是因为,\\s+还有一个作用就是能够将\n这个回车换行符去掉,\\p{Zs}并不能去掉\n\\p{Space}可以去掉,当然这里的\\p{Space}也可以换成\\s

结束语

以上就是利用正则表达式去除一些unicode中的空白字符串的操作,如果你有更好的想法,请在下面留言,谢谢!

善皮之 发布了46 篇原创文章 · 获赞 3 · 访问量 5688 私信 关注

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐