AI导航网

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

linux – Bash：如何保持文件中的行具有与另一个文件中的行匹配的字段？

时间：2022-09-02分类：Bash作者：编程之家原文地址

我有两个包含大量文本的大文件,我要做的是将文件A中的所有行保留在一个字段中,该字段与文件B中的字段匹配.

文件A是这样的：

Name (tab)  #  (tab)  #  (tab)  KEYFIELD  (tab)  Other fields

文件B我设法使用cut和sed等基本上将它归结为一个列表的字段.

因此,如果该行的字段与文件B中的一行匹配,则目标是将文件A中的所有行保留在第4个字段(它表示为KEYFIELD).(不必是完全匹配,因此如果文件B具有Blah和文件A说Blah_blah,没关系

我试着这样做：

grep -f fileBcutdown fileA > outputfile

编辑：好的,我放弃了.我只是强迫它杀了它.

有一个更好的方法吗？对于任何关心的人来说,文件A是13.7MB,减少后的文件B是32.6MB.

编辑：这是文件A中的示例行：

chr21 33025905 33031813 ENST00000449339.1 0 - 33031813 33031813 0 3 1835,294,104, 0,4341,5804,

文件B中的示例行减少：

ENST00000111111

这是使用GNU awk的一种方式.运行如下：

awk -f script.awk fileB.txt fileA.txt

script.awk的内容：

FNR==NR {
    array[$0]++
    next
}

{
    line = $4
    sub(/\.[0-9]+$/, "", line)
    if (line in array) {
        print
    }
}

或者,这是单行：

awk 'FNR==NR { array[$0]++; next } { line = $4; sub(/\.[0-9]+$/, "", line); if (line in array) print }' fileB.txt fileA.txt

GNU awk还可以执行使用cut和sed描述的fileB.txt的预处理.如果您希望我将其构建到上面的脚本中,您需要提供此行的示例.

使用文件HumanGenCodeV12和GenBasicV12进行更新：

运行如下：

awk -f script.awk HumanGenCodeV12 GenBasicV12 > output.txt

script.awk的内容：

FNR==NR {
    gsub(/[^[:alnum:]]/,"",$12)
    array[$12]++
    next
}

{
    line = $4
    sub(/\.[0-9]+$/, "", line)
    if (line in array) {
        print
    }
}

这成功地在GenBasicV12中打印了可以在HumanGenCodeV12中找到的行.输出文件(output.txt)包含65340行.该脚本只需不到10秒即可完成.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 [email protected] 举报，一经查实，本站将立刻删除。

相关推荐

openwrt临时封禁ip

用的openwrt路由器，家里宽带申请了动态公网ip，为了方便把2280端口映射到公网，发现经常被暴力破解，自己写了个临时封禁ip功能的脚本，实现5分钟内同一个ip登录密码错误10次就封禁这个ip5分钟，并且进行邮件通知使用...

作者：编程之家时间：2022-10-07

使用bash脚本并行运行多个程序

#!/bin/bashcommand1&command2&wait从Shell脚本并行运行多个程序–杨河老李(kviccn.github.io)

作者：编程之家时间：2022-10-07

三步将Mac系统默认PHP版本切换为MAMP等扩展环境中的PHP版本

1.先查出MAMP下面集成的PHP版本cd/Applications/MAMP/bin/phpls-ls 2.编辑修改.bash_profile文件（没有.bash_profile文件的情况下回自动创建）sudovim~/.bash_profile在文件的最后输入以下信息，然后保存退出export...

作者：编程之家时间：2022-10-07

ubuntu16.04中文乱码问题解决

1、先输入locale-a，查看一下现在已安装的语言2、若不存在如zh_CN之类的语言包，进行中文语言包装:apt-getinstalllanguage-pack-zh-hans3、安装好后我们可以进行临时修改：然后添加中文支持: locale-genzh_CN.UTF-8...

作者：编程之家时间：2022-10-07

Bash Perl Tcl syntax diff

BashPerlTclsyntaxdiff1.进制数表示Languagebinaryoctalhexadecimalbash2#[0~1]0[0~7]0x[0~f]or0X[0~f]perl0b[0~1]0[0~7]0x[0~f]tcl0b[0~1]0o[0~7]0x[0~f]bashdifferentbaserepresntationreference2.StringlengthLan...

作者：编程之家时间：2022-10-07

k8s命令补全方法

正常安装了k8s后，使用kubect工具后接的命令不能直接tab补全命令补全方法：yum-yinstallbash-completionsource/usr/share/bash-completion/bash_completionsource<(kubectlcompletionbash)echo"source<(k...

作者：编程之家时间：2022-10-07

linux应用重启脚本

参考这里启动jar包shell脚本修改过来的#!/bin/bash#默认应用名称defaultAppName='./gadmin'appName=''if[[$1&&$1!=0]]thenappName=$1elseappName=$defaultAppNamefiecho">>&...

作者：编程之家时间：2022-10-07

SHELL训练营--day19_shell练习36-40

#一个数字的行#!/bin/bashwhilereadlinedon=`echo$line|sed's/[^0-9]//g'|wc-L`if[$n-eq1]thenecho$linefidone<1.txt#日志切割归档#!/bin/bashcd/data/logslog=1.logmv_log(){[-f$1]&&mv$1$2

作者：编程之家时间：2022-09-02

SHELL训练营--day23_shell练习56-60

#文件增加内容#!/bin/bashn=0cat1.txt|whilereadlinedon=[$n+1]if[$n-eq5]thenecho$lineecho-e"#Thisisatestfile.\n#Testinsertlineintothisfile."elseecho$linefidone#备份/etc目录#

作者：编程之家时间：2022-09-02

linux 用户异常shell-》ksh

# su - oraclesu: /usr/bin/ksh: No such file or directory根据报错信息：显示无法找到文件 /usr/bin/ksh果然没有该文件，但是发现存在文件/bin/ksh,于是创建了一个软连接，可以规避问题，可以成功切换到...

作者：编程之家时间：2022-09-02