AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

使用grep从停用词文件中过滤出单词

时间：2022-05-03分类：asp.Net作者：编程之家

我想使用grep和stopword-file来从另一个文件中过滤出常见的英文单词。文件“somefile”每行包含一个字。

cat somefile | grep -v -f stopwords

这种方法的问题是：它检查停用词中的单词是否出现在某个文件中，但我想要相反的，即检查停用词中是否出现某个文件中的单词。

这个怎么做？

例

如何使用bash将一行文本添加到文件的中间？

只打印匹配的单词和下一个单词

希望得到唯一匹配的grep

如何用grep修剪特定的文本

如何索引文本文件以提高grep时间

somefile包含以下内容：

hello o orange

停用词包含以下内容：

o

我想只从somefile中过滤掉单词“o”，而不是“hello”和“orange”。

grep输出在bash脚本中只打印单行

如何将两个search词与“grep”（AND）

比赛结束后grep

如何从文件中find单词到另一个文件？ Linux的

如何在Linux的特定时间戳范围内logging日志文件的内容？

我想了一下，找到了一个解决方案…

使用grep的-w开关来匹配整个单词：

grep -v -w -f stopwords somefile

假设你有文件/ tmp / words：

in the

你可以通过它创建sed程序：

sed 's|^|s/\<|; s|$|\>/[CENSORED]/g;|' /tmp/words > /tmp/words.sed

这样你会得到/tmp/words.sed：

s/<in>/[CENSORED]/g; s/<the>/[CENSORED]/g;

然后用它来审查任何文本文件：

sed -e -f /tmp/words.sed /input/file/to/filter.txt > /censored/output.txt

-e需要sed来理解识别所需的扩展正则表达式。当然，如果你愿意的话，你可以把[censored]改成任何其他的字符串或空字符串。

这个解决方案将处理许多单词以及每行文件一个字。

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

.net6 使用gRPC示例

### 创建一个gRPC服务项目（grpc服务端）和一个 webapi项目（客户端），测试项目结构如下： ![](https://img2023.cnblogs.com/blog/2750888/202308/2750888-20230801172537068-1439068711.png) ###

作者：Net开发-孔明时间：2024-09-27

.Net 6 SignalR 实际业务开发中遇到的问题及解决办法

一、SiganlR 使用的协议类型 1.websocket即时通讯协议 2.Server-Sent Events（SSE）服务器事件 3.longpolling 长轮询。如果客户端开启协商，会按顺序选择可兼容的协议。（默认开启协议协商）如果客户端禁用协商，只...

作者：Net开发-孔明时间：2024-09-27

.Net 6 WebApi 项目部署到 Linux 系统上的 Docker 容器

.Net 6 WebApi 项目在Linux系统上打包成Docker镜像，发布为Docker容器实例步骤教学，超详细！

作者：Net开发-孔明时间：2024-09-27

PowerDesigner与UML建模应用

一、 PD简介PowerDesigner 是一个集所有现代建模技术于一身的完整工具，它集成了强有力的业务建模技术、传统的数据库分析和实现，以及UML对象建模。通过了元数据的管理、冲突分析和真正的企业知识库等功能。利用它可...

作者：小码编匠时间：2024-09-26

分页存储过程的使用

一、存储过程存储过程就像数据库中运行的方法(函数) 优点：速度快，在数据库中保存的存储过程语句都是编译过的允许模块化程序设计提高系统的安全性，防止SQL注入减少网络流量，只传输存储过程的名称二、存储过程...

作者：小码编匠时间：2024-09-26

.NET中应用Ueditor(富文本编辑)的配置和使用

一、Ueditor的下载 1、百度编辑器下载地址：http://ueditor.baidu.com/website/download.html 2、下载完整源码包，解压到任意目录，解压后的源码目录结构如下所示： 3、编辑器展示：二、Ueditor的使用 1、添...

作者：小码编匠时间：2024-09-26

富文本编辑器操作

推荐一款比较牛的富文本编辑器：http://kindeditor.net/

作者：小码编匠时间：2024-09-26

编程中的异或运算应用

一、异或运算异或，英文为exclusive OR，或缩写成xor异或（xor）是一个数学运算符。它应用于逻辑运算。异或的数学符号为“⊕”，计算机符号为“xor”。其运算法则为： a⊕b = (¬a ∧ b) ∨ (a ∧¬...

作者：小码编匠时间：2024-09-26

什么是云计算

一、云计算概念云计算（cloud computing）是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电...

作者：小码编匠时间：2024-09-26

WCF的学习之旅

一、WCF的简单介绍 Windows Communication Foundation(WCF)是由微软发展的一组数据通信的应用程序开发接口，可以翻译为Windows通讯接口，它是MS为SOA （Service Oriented Architecture）战略而设计的一套完整的技术框...

作者：小码编匠时间：2024-09-26