NLP - 编程之家

python – 将形容词转换为副词

有谁知道如何将英文形容词转换为各自的副词？Python是理想的,但实际上任何程序化方法都会很棒.我试过pattern.en,nltkwordnet和spacy无济于事.将副词转换为根形容词形式是没有问题的.我正在使用SO解决方案here.我想要的是走另一条路.从形容词到副词.Hereisnltkwordnetcode

作者：编程之家时间：2022-09-04

python – 从NLTK的Penn Treebank Corpus样本创建字典？

我知道Treebank语料库已被标记,但与布朗语料库不同,我无法弄清楚如何获取标签词典.例如,>>>fromnltk.corpusimportbrown>>>wordcounts=nltk.ConditionalFreqDist(brown.tagged_words())这不适用于Treebank语料库？解决方法:快速解决方案>>>fromnltk.corpusimporttr

作者：编程之家时间：2022-09-04

NLP入门-Task4 自然语言处理

自然语言处理朴素贝叶斯贝叶斯定理朴素贝叶斯分类SVMSVM介绍线性分类器SVM的文本分类过程LDA主题模型LDA基础LSA和PLSA朴素贝叶斯贝叶斯定理贝叶斯定理用来描述两个条件概率之间的关系，比如P(A|B)和P(B|A)。按照乘法法则，可以立刻导出：P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)

作者：编程之家时间：2022-09-04

python – Gensim.Similarity添加文档或实时培训

关于这个项目的一点背景.我有带有标识符和文本的副本,例如{name：“sports-football”,text：“与足球运动相关的内容”}.我需要在这个语料库中找到给定文本输入的正确匹配.但是,我能够在某种程度上使用Gensim.与LDA和LSI模型的相似性.如何使用新文档更新Genism.SimilarityIndex.这

作者：编程之家时间：2022-09-04

在java中使用opennlp提取名词短语

我试图从句子中提取名词短语.我正在使用opennlplibrari“en-parser-chunking.bin”.代码示例：ArrayList<opennlp.tools.parser.Parse>nounPhrases=newArrayList<>();searchmethod("whatisthenicknameoftheBritishflag?");for(intt=0;t<50;t++){

作者：编程之家时间：2022-09-04

NLP自然语言处理--新浪新闻文本分类tensorflow+RNN

github链接：https://github.com/gaussicext-classification-cnn-rnn 数据集数据集下载链接:https://pan.baidu.com/s/1oLZZF4AHT5X_bzNl2aF2aQ提取码:5sea下载压缩文件cnews.zip完成后，选择解压到cnewscnew文件夹中有4个文件：1.训练集文件cnews.train.txt2.测试集文件

作者：编程之家时间：2022-09-04

python – 我可以使用现有的库或api来分离基于字符的语言中的单词吗？

我正在研究一个小业余爱好Python项目,该项目涉及使用该语言编写的大量文本为各种语言创建字典.对于大多数语言来说,这是相对简单的,因为我可以使用单词之间的空格分隔符将段落标记为字典的单词,但是例如,中文不会在单词之间使用空格字符.如何将一段中文文本标记为单词？我的搜索发现

作者：编程之家时间：2022-09-04

python – 使用NLTK而不安装

使用NaturalLanguageToolkit学习Python非常有趣,它们在我的本地机器上运行良好,但我必须安装几个软件包才能使用它.究竟NLTK资源现在如何集成到我的系统中对我来说仍然是一个谜,尽管看起来很明显NLTK源代码不仅仅是坐在Python解释器知道找到它的地方.我想在我的网站上使用工具包

作者：编程之家时间：2022-09-04

如何用PHP中的空格替换所有非字母数字字符？

$html=strip_tags($html);$html=ereg_replace("[^A-Za-zäÄÜüÖö]","",$html);$words=preg_split("/[\s,]+/",$html);这不是用空格替换所有非(A-Z,a-z,带有变音符号)的字符吗？我正在失去像zugänglich等用变音符号这样的词语正则表达式有什么问题吗？编辑：我用preg_re

作者：编程之家时间：2022-09-04

使用Python从个人Gazetter命名实体识别

我尝试使用NLTK在python中进行命名实体识别.我想提取个人技能清单.我有技能清单,并希望在申请中搜索并标记技能.我注意到NLTK的预定标签有人物,位置等的NER标签.我可以使用Python中的外部gazetter标记器吗？任何想法如何做到比搜索术语更复杂(有时多词术语)？谢谢,阿萨夫解决方法:我

作者：编程之家时间：2022-09-04

NLP项目,python或C.

我们正在研究阿拉伯语自然语言处理项目,我们限制了用Python或C(和Boost库)编写代码的选择.我们正在考虑以下几点：>Python>比C慢(目前正在努力使Python更快)>更好的UTF8支持>更快地编写测试并尝试不同的算法>C.>比Python快>熟悉的代码,每个程序员都知道类似C或C的代码项目完成

作者：编程之家时间：2022-09-04

java – Stanford Dependency Parser – 如何获得跨度？

我正在使用Java中的Stanford库进行依赖解析.有没有办法在我的原始依赖字符串中找回索引？我试图调用getSpans()方法,但它为每个标记返回null：LexicalizedParserlp=LexicalizedParser.loadModel("edu/stanfordlp/models/lexparser/englishPCFG.ser.gz","-max

作者：编程之家时间：2022-09-04

适用于Python的轻量级NLP框架

我现在正在使用spaCy来确定两个字符串之间的语义相似性.它运行良好,只需要几行代码,所有的工作都在幕后完成：>>>importspacy>>>nlp=spacy.load('en')>>>nlp('string').similarity(nlp('anotherstring'))0.796但是它需要大约600mb的模块数据.因为我在Heroku上主持这远

作者：编程之家时间：2022-09-04

python – 正则表达式捕获2引号之间的部分

当试图在引文之间抓住这句话时,我似乎无法正确使用我的正则表达式.例如.以粗体显示(注意：输入前后有字符串)：“Icanquiteunderstandyourthinkingso.”Isaid.“Ofcourse,inyourpositionofunofficialadviserandhelpertoeverybodywhoisabsolutelypuzzle

作者：编程之家时间：2022-09-04

python – 为什么adajcency矩阵的特征值实际上是Textrank中的句子分数

这是TextRank的路线：>汇总的文件表示为tf-idf矩阵>(tf-idf矩阵)*(tf-idf矩阵).Transpose=一些图的邻接矩阵,其顶点是实际上是上述文件的句子>页面排名适用于此图表–>返回每个句子的PR值现在,该PR值实际上是该邻接矩阵的特征值这背后的物理意义或直觉是什么？为什么Eigen值实际

作者：编程之家时间：2022-09-04

NLP重大突破？一文读懂XLNet“屠榜”背后的原理

作者|李理原文链接：https://fancyerii.github.io/2019/06/30/xlnet-theory/本文介绍XLNet的基本原理，读者阅读前需要了解BERT等相关模型，不熟悉的读者建议学习BERT课程。语言模型和BERT各自的优缺点在论文里作者使用了一些术语，比如自回归(Autoregressive,AR)语言模型和

作者：编程之家时间：2022-09-04

用PHP押韵

我很难找到一种方法来检测两个单词是否具有相同的英语押韵.它不是相同的音节结尾,而是更接近语音相似性的东西.我无法相信2009年这样做的唯一方法就是使用那些老式的韵律词典.你知道任何资源(在PHP中会是一个加分)来帮助我完成这项痛苦的任务吗？谢谢.你的提示都非常好.我会花一些

作者：编程之家时间：2022-09-04

如何编写一个python程序,返回文本中至少出现5次的所有单词？

我只需要做这篇文章的标题所说的：编写一个python程序,它返回在文本中至少出现5次的所有单词.我意识到这是一个非常简单的问题.我是一个新手程序员,试图获得一些NLP技能,由于某种原因,我无法弄清楚这一点.非常感谢您的帮助！谢谢！解决方法:你应该用“word”来定义你的意思.不同的定义会

作者：编程之家时间：2022-09-04

NLP入门十一从文本中提取时间

在我们的日常生活和工作中，从文本中提取时间是一项非常基础却重要的工作，因此，本文将介绍如何从文本中有效地提取时间。举个简单的例子，我们需要从下面的文本中提取时间：6月28日，杭州市统计局权威公布《2019年5月月报》，杭州市医保参保人数达到1006万，相比于2月份的989万，三个月

作者：编程之家时间：2022-09-04

python – 在文件中突出但不完全重复的行

我正在梳理一个webapp的日志文件,以查找突出的语句.大多数线条相似且无趣.我会通过Unixuniq传递它们,但是没有过滤,因为所有行都略有不同：它们都有不同的时间戳,类似的语句可能会打印不同的用户ID等.什么是一种方法和/或工具来获得与其他任何一条明显不同的线条？(但是,再次,不是

作者：编程之家时间：2022-09-04

NLP自然语言处理

NLP组成部分自然语言理解NLU将给定的自然语言输入映射为有用的表示。分析语言的不同方面。自然语言生成NLG文字规划-这包括从知识库中检索相关内容。句子规划-这包括选择所需的单词，形成有意义的短语，设定句子的语气。文本实现-这是将句子计划映射到句子结构。NLP术语音韵-

作者：编程之家时间：2022-09-04

如何在NLTK中使用混淆矩阵模块？

我使用混淆矩阵跟随NLTK书,但confusionmatrix看起来很奇怪.#empiricallyexamwheretaggerismakingmistakestest_tags=[tagforsentinbrown.sents(categories='editorial')for(word,tag)int2.tag(sent)]gold_tags=[tagfor(word,tag)inbrown.tagged_wo

作者：编程之家时间：2022-09-04

语音交互的三驾马车：ASR、NLP、TTS

http://www.woshipm.com/ai/2620327.html 语音交互是AI最重要的领域之一，也是目前落地产品比较成熟的领域，比如说智能客服、智能音箱、聊天机器人等，都已经有成熟的产品了。语音交互主要由哪些部分组成？各自主要处理什么任务？目前都遇到什么困难？本文将跟大家一起探讨下。01

作者：编程之家时间：2022-09-04

java – ws4j为应该返回1的相似性度量返回无穷大

我有一个非常简单的代码,取自thisexample,我使用Lin,Path和Wu-Palmer相似性度量来计算两个单词之间的相似性.我的代码如下：importedu.cmu.lti.lexical_db.ILexicalDatabase;importedu.cmu.lti.lexical_db.NictWordNet;importedu.cmu.lti.ws4j.RelatednessCalculator;import

作者：编程之家时间：2022-09-04

系统学习NLP二十六--BERT详解

转自：https://zhuanlan.zhihu.com/p/48612853前言BERT（Bidirectional Encoder Representationsfrom Transformers）近期提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：使用

作者：编程之家时间：2022-09-04

吴恩达NLP(3) S2S

集束搜索方法假设B=3，则第一个单词存在三种情况，在10000个词库中，选择前3个概率最高的，然后在这三种情况下分别取找第二个单词，则会有3*10000=30000种情况，然后再在这些情况中找前三个较好的概率，然后分别再进行下个单词概率的选择，直至最后选择结束eos该改进集束搜索blue

作者：编程之家时间：2022-09-04

java – 从解析树中获取某些节点

我正在研究一个涉及通过Hobbs算法进行回指解析的项目.我使用Stanford解析器解析了我的文本,现在我想操纵节点以实现我的算法.目前,我不明白如何：>根据其POS标签访问节点(例如,我需要以代词开头–我如何获得所有代词？).>使用访客.我有点像Java的菜鸟,但在C中我需要实现一个访问者

作者：编程之家时间：2022-09-04

如何使用NLTK pos_tag()提取名词？

我对python很新.我无法弄清楚这个bug.我想用NLTK提取名词.我写了以下代码：importnltksentence="Ateighto'clockonThursdayfilmmorningwordlinetestbestbeautifulRamAarondesign"tokens=nltk.word_tokenize(sentence)tagged=nltk.pos_tag(tokens)le

作者：编程之家时间：2022-09-04

python – 计算二元频率

我编写了一段基本上计算字频率的代码,并将它们插入到ARFF文件中,以便与weka一起使用.我想改变它,以便它可以计算二进制频率,即单词对而不是单个单词,尽管我的尝试最多证明是不成功的.我意识到有很多东西要看,但对此的任何帮助都非常感谢.这是我的代码：importreimport

作者：编程之家时间：2022-09-04

python – NLTK：查找单词大小为2k的上下文

我有一个语料库,我有一个词.对于语料库中每个单词的出现,我想得到一个包含前面的k个单词和单词后面的k个单词的列表.我在算法上做得很好(见下文),但我想知道NLTK是否为我错过了我的需求提供了一些功能？defsized_context(word_index,window_radius,corpus):"""Returnsal

作者：编程之家时间：2022-09-04