NLP - 编程之家

python – spacy lemmatizer如何工作？

对于词形还原,spacy有一个listsofwords：形容词,副词,动词……还有例外列表：adverbs_irreg…对于常规词,有一组rules我们以“更广泛”这个词为例因为它是一个形容词,所以词典化的规则应该从这个列表中取出：ADJECTIVE_RULES=[["er",""],["est",""],["er","e"

作者：编程之家时间：2022-09-04

python – 匹配POS标签和单词序列

我有以下两个带有POS标签的字符串：发送1：“像作家专业或短语如何工作的东西真的很酷.”[(‘something’,‘NN’),(‘like’,‘IN’),(‘how’,‘WRB’),(‘writer’,‘NN’),(‘pro’,‘NN’),(‘or’,‘CC’),(‘phraseology’,‘NN’),(‘works’,‘NNS’)

作者：编程之家时间：2022-09-04

如何识别句子的主语？

PythonNLTK可以用来识别句子的主语吗？从我所学到的,到现在为止,一句话可以被分解成一个头及其家属.对于例如“我拍了一头大象”.在这句话中,我和大象是家属拍摄的.但我怎么辨别这句话中的主语是我.解决方法:正如NLTKbook(练习29)所说,“在英语中定义句子S的主题的一种常见方式是作

作者：编程之家时间：2022-09-04

在Python中使用标记化文本查找多字词

我有一个我已经标记过的文本,或者通常一个单词列表也可以.例如：>>>fromnltk.tokenizeimportword_tokenize>>>s='''Goodmuffinscost$3.88\ninNewYork.Pleasebuyme...twoofthem.\n\nThanks.'''>>>word

作者：编程之家时间：2022-09-04

python – 使用NLTK简化法语POS标签集

如何简化斯坦福法国POS标签器返回的部分语音标签？将英文句子读入NLTK相当容易,找到每个单词的词性,然后使用map_tag()来简化标签集：#!/usr/bin/python#-*-coding:utf-8-*-importosfromnltk.tag.stanfordimportPOSTaggerfromnltk.tokenizeimportword_tokenizefrom

作者：编程之家时间：2022-09-04

java – 句子分类(分类)

我一直在阅读有关文本分类的文章,并发现了几种可用于分类的Java工具,但我仍然想知道：文本分类是否与句子分类相同！有没有专注于句子分类的工具？解决方法:“文本分类”和“句子分类”之间没有正式的区别.毕竟,句子是一种文本.但一般来说,当人们谈论文本分类时,恕我直言,他们意味着更大

作者：编程之家时间：2022-09-04

python – 使用Web查找相关名称的一种方法是什么？

我正在处理名称消歧问题.我想知道是否有办法通过使用网络“众包”这些相关名称来找到一个单词的所有常见用法.例如,在我的数据中,我有“加州大学伯克利分校”这个词.我可以使用谷歌搜索(或其他类型的应用程序)查找“加州大学伯克利分校”的所有常见同义词,例如“加州大学伯克利分

作者：编程之家时间：2022-09-04

Python – 用于将文本拆分为句子的RegEx(句子标记化)

参见英文答案>Pythonsplittextonsentences 10个我想从一个字符串中创建一个句子列表然后将它们打印出来.我不想用NLTK来做这件事.因此,它需要在句子末尾的句点分割,而不是在小数,缩写或名称的标题上

作者：编程之家时间：2022-09-04

NLP中的预训练语言模型二

本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。一，SpanBERT论文：SpanBERT:ImprovingPre-trainingby RepresentingandPredictingSpans GitHub：https://github.com/facebookresearch/SpanBERT这篇论文中提出了一种新的mask的方法，以及一个

作者：编程之家时间：2022-09-04

如何在NLTK中为停用词添加更多语言？

我正在使用带有停用词的NLTK来使用AlejandroNolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/描述的方法来检测文档的语言,并且它工作得相当好.我还在使用NLTK停用词包中未包含的一些其他语言,例如捷克语和罗马尼亚语,并且它们

作者：编程之家时间：2022-09-04

在Python中用verbally格式化数字

pythonistas如何将数字作为单词打印,就像CommonLisp代码的等价物一样：[3]>(formatt"~r"1e25)nineseptillion,ninehundredandninety-ninesextillion,ninehundredandninety-ninequintillion,sevenhundredandseventy-eightquadrillion,onehundredandninety

作者：编程之家时间：2022-09-04

在NLTK 3.0中使用Wordnet从Synset中提取Word

前段时间,有人在SO上使用NLTK的wordnet包装器问howtoretrievealistofwordsforagivensynset.以下是建议的回复之一：forsynsetinwn.synsets('dog'):printsynset.lemmas[0].name使用NLTK3.0运行此代码会产生TypeError：’instancemethod’对象不可订阅.我尝试了

作者：编程之家时间：2022-09-04

python – NLTK / pyNLTK可以“按语言”工作(即非英语),以及如何工作？

如何告诉NLTK以特定语言处理文本？有一段时间我会编写一个专门的NLP例程,在非英语(但仍然是欧洲的)欧洲文本域上进行POS标记,标记等操作.这个问题似乎只涉及不同的语料库,而不是代码/设置的变化：POStagginginGerman或者,是否有任何专门用于python的希伯来语/西班牙语/波兰语NLP

作者：编程之家时间：2022-09-04

python – 统计句建议模型,如拼写检查

已有拼写检查模型可帮助我们根据经过训练的正确拼写语料库找到建议的正确拼写.可以将粒度从字母表增加到“单词”,这样我们就可以得到偶数短语建议,这样如果输入了错误的短语,那么它应该从正确短语的语料库中建议最接近的正确短语,当然它是从有效短语列表.是否有任何python库已经

作者：编程之家时间：2022-09-04

python – Maltparser在NLTK中给出错误

我的COde是fromnltk.parseimportmaltmp=malt.MaltParser(working_dir="/other/apps/maltparser-1.8.1",mco="engmalt.poly-1.7.mco",additional_java_args=['-Xmx1024m'])printmp.raw_parse("HelloWorld")错误是Traceba

作者：编程之家时间：2022-09-04

2020年AI、CV、NLP顶会最全时间表

2020年AI、CV、NLP顶会最全时间表2019-09-0114:04:19 weixin_38753768 阅读数40 2020AI、CV、NLP主流会议时间表，包含会议举办的时间、地点、投稿截止日期、官方网址/社交媒体地址，还有H指数（谷歌学术的期刊会议评判标准，即过去5年内有至多h篇论文被引用了至少h

作者：编程之家时间：2022-09-04

人工智能之 NLP 自然语言处理篇1

(1)NLP介绍NLP是什么？NLP(NaturalLanguageProcessing)自然语言处理，是计算机科学、人工智能和语言学的交叉学科，目的是让计算机处理或“理解”自然语言。自然语言通常是指一种自然地随文化演化的语言，如汉语、英语、日语。NLP可以用来做什么？以及它的应用领域是什么？文本朗

作者：编程之家时间：2022-09-04

从图像python中识别出明文

我使用pytesseract来识别图像中的文本pytesseract.pytesseract.tesseract_cmd=r'C:\ProgramFiles\Tesseract-OCR\tesseract.exe'然后我使用下面的代码来识别文本textImg=pytesseract.image_to_string(Image.open(imgLoc+"/"+imgName))print(textImg)text_file=ope

作者：编程之家时间：2022-09-04

python – wordnet中引理和synset之间的连接或区别是什么？

我是NLP和NLTK的初学者.我无法理解wordnet中的lemmas和synsets之间的确切区别,因为两者产生的输出几乎相同.例如,对于单词cake,它会产生这个输出.lemmas:[Lemma('cake.n.01.cake'),Lemma('patty.n.01.cake'),Lemma('cake.n.03.cake'),Lemma('coat.v.03.cake')]synsets:

作者：编程之家时间：2022-09-04

python – 汇总文本或简化文本

是否有任何库,最好是在python中,但至少是开源的,可以汇总和/或简化自然语言文本？解决方法:我不确定目前是否有任何库可以执行此操作,作为文本摘要,或者至少可理解的文本摘要不是通过简单的插件和放大器轻松实现的.玩图书馆.以下是我设法找到的与文本摘要相关的项目/资源的一些链接,

作者：编程之家时间：2022-09-04

python – 了解scikit CountVectorizer中的min_df和max_df

我有五个文本文件,我输入到CountVectorizer.将min_df和max_df指定给CountVectorizer实例时,min/max文档频率的确切含义是什么？它是特定文本文件中单词的频率,还是整个语料库中单词的频率(5个txt文件)？当min_df和max_df以整数或浮点数形式提供时,它有何不同？该文档似乎没有提供详尽

作者：编程之家时间：2022-09-04

论文阅读 | Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems

[code&data] [pdf] 文章首先证明了对抗攻击对NLP系统的影响力，然后提出了三种屏蔽方法：visualcharacterembeddingsadversarialtraining rule-basedrecovery 但屏蔽方法在非攻击场景下的性能仍然较差，说明了处理视觉攻击的难度。在NLP中，Jia和Liang(2017)将语法正确但

作者：编程之家时间：2022-09-04

在python中快速/优化N-gram实现

哪个ngram实现在python中最快？我试图描述nltk与vsscott的拉链(http://locallyoptimal.com/blog/2013/01/20/elegant-n-gram-generation-in-python/)：fromnltk.utilimportngramsasnltkngramimportthis,timedefzipngram(text,n=2):returnzip(*[text.split()[i:]for

作者：编程之家时间：2022-09-04

Word2Vec—从新手到大神：背景语言模型知识

上一篇我们讲了一些word2vec知识，但是word2vec模型的由来我们也要知道，所以本章不妨了解一些基本的语言模型。这些基本语言模型比较简单，可以帮助我们后期理解Word2vec，这里还是推荐一下这本书word2vec——数学原理解释(前几天一直在和导师商量方向，最终确定为时空大数据挖掘，哇

作者：编程之家时间：2022-09-04

自然语言处理(NLP)

苹果语音助手Siri的工作流程：听懂思考组织语言回答这其中每一步骤涉及的流程为：语音识别自然语言处理-语义分析逻辑分析-结合业务场景与上下文自然语言处理-分析结果生成自然语言文本语音合成自然语言处理的常用处理过程：先针对训练文本进行分词处理（词干

作者：编程之家时间：2022-09-04

将迁移学习用于文本分类《 Universal Language Model Fine-tuning for Text Classification》

将迁移学习用于文本分类《UniversalLanguageModelFine-tuningforTextClassification》2018-07-2720:07:43 ttv56 阅读数4552更多分类专栏：自然语言处理本文发表于自然语言处理领域顶级会议ACL2018 原文链接特别说明：笔记掺杂了本人大量的个

作者：编程之家时间：2022-09-04

使用python自然语言工具包阅读孟加拉语

我想在NLTK的CategorizedPlainCorpusReader中阅读孟加拉语文本.对于我在gedit文本编辑器中的孟加拉语文本文件的快照：崇高文本编辑器中文件的快照：从快照中您可以看到问题.问题是Unicode组成问题(虚线环已死).这是用于阅读文本的代码段：>>>path=os.path.expanduser('~ltk_d

作者：编程之家时间：2022-09-04

Treebank的Python数据结构？

我正在寻找可处理PennTreebank结构的Python数据结构.这是树库外观的示例：((S(NP-SBJ(PRPHe))(VP(VBDshouted))(..)))本质上,我想要一个数据结构,可以询问诸如“主题NP的子代是什么？”之类的内容.或“什么类型的短语主导代词？”,最好在Python中使用.有人

作者：编程之家时间：2022-09-04

文本输入中的自动更正拼写错误

我正在用C#语言编写一种自然语言处理器,该处理器提取句子的情绪(正/负).但是,能够辨别拼写错误的单词的情感是有问题的-如果词典中没有该单词,我既无法对其进行标记也无法对其进行评分！我知道必须有一种处理方法.Google一直在提供准确的建议,我只需要从类似的算法中获得最重要的建

作者：编程之家时间：2022-09-04

python-根据句子上下文检测单词是主语还是宾语代词.

理想情况下,在python中使用正则表达式.我正在制作一个简单的聊天机器人,目前它在正确回答“我爱你”之类的短语时遇到了问题(它会从语法处理程序中退回“你爱我”,而应该回馈“你爱我””).另外,如果您能想到将好的短语放入该语法处理程序中,那将是很棒的.我喜欢一些测试数据.如

作者：编程之家时间：2022-09-04