NLP - 编程之家

python – 如何从Brown语料库中访问原始文档？

对于所有其他NLTK语料库,调用corpus.raw()会从文件中生成原始文本.例如：>>>fromnltk.corpusimportwebtext>>>webtext.raw()[:10]'CookieMan'但是,当调用brown.raw()时,您会获得标记文本.>>>fromnltk.corpusimportbrown>>>brown.raw()[:10]&#03

作者：编程之家时间：2022-09-04

python – 用nltk分块

如何从给定模式的句子中获取所有块.为例NP:{<NN><NN>}句子标记：[("money","NN"),("market","NN")("fund","NN")]如果我解析我获得(S(NPmoney/NNmarket/NN)fund/NN)我想也有另一种选择(Smoney/NN(NPmarket/NNfu

作者：编程之家时间：2022-09-04

NLP之语言模型

参考：https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENAhttp://yangminz.coding.me/blog/post/MinkolovRNNLM/MinkolovRNNLM_thesis.html 语言模型本质上是在回答一个问题：出现的语句是否合理。在历史的发展中，语言模型经历了专家语法规则模型（至80年代），统计语言模型（至00年），神

作者：编程之家时间：2022-09-04

python – 为什么Doc2vec为同一文本提供了2个不同的向量

我正在使用Doc2vec从单词中获取向量.请看下面的代码：fromgensim.models.doc2vecimportTaggedDocumentf=open('test.txt','r')trainings=[TaggedDocument(words=data.strip().split(","),tags=[i])fori,datainenumerate(f)model=Doc2Vec(

作者：编程之家时间：2022-09-04

python – 使用Keras进行文本分类

我正在努力接近单词/词汇方法,将我的输入数据表示为我在keras中的神经网络模型的一个热矢量.我想建立一个简单的3层网络,但我需要帮助理解和开发一种方法,以文本的形式转换我的标记数据,sentinment有7个标签,范围为0-1,步长为0.2.我曾试图使用scikit的矢量化器,但它们过于严格,即

作者：编程之家时间：2022-09-04

python – pycorenlp：“CoreNLP请求超时.你的文件可能太长了“

我正在尝试在长文本上运行pycorenlp并获得CoreNLP请求超时.您的文档可能太长错误消息.怎么解决？有没有办法增加StanfordCoreNLP的超时时间？我不想将文本分成较小的文本.这是我使用的代码：'''Fromhttps://github.com/smilli/py-corenlp/blob/master/example.py'''frompycoren

作者：编程之家时间：2022-09-04

python – 名称实体解析算法

我试图构建一个实体解析系统,我的实体在哪里,(i)Generalnamedentities,thatisorganization,person,location,date,time,money,andpercent.(ii)Someotherentitieslike,product,titleofpersonlikepresident,ceo,etc.(iii)Corefererredentitieslike,p

作者：编程之家时间：2022-09-04

在Java中查找单词搭配

我试图在Java中找到collocations(PDF).我知道NLTK有一个搭配模块,但不想使用Jython.我查看了OpenNLP和GATE,但他们似乎没有搭配查找器.有没有人知道实现了免费的开源搭配查找器在Java？解决方法:对我来说,最好的即用型算法是DragonToolkit中的xTract,它使用基本的统计搭配功能,

作者：编程之家时间：2022-09-04

NLP.TM | GloVe模型及其Python实现

在进行自然语言处理中，需要对文章的中的语义进行分析，于是迫切需要一些模型去描述词汇的含义，很多人可能都知道word2vector算法，诚然，word2vector是一个非常优秀的算法，并且被广泛运用，为人们熟知，然而，从结果的优劣性来看，其实word2vector并非唯一的优秀方案，斯坦福大学提出的GloVe就是其中

作者：编程之家时间：2022-09-04

我应该使用哪个gensim语料库来加载LDA转换语料库？ – Python

如何从python的gensim加载LDA转换语料库？我尝试过的：fromgensimimportcorpora,modelsimportnumpy.randomnumpy.random.seed(10)doc0=[(0,1),(1,1)]doc1=[(0,1)]doc2=[(0,1),(1,1)]doc3=[(0,3),(1,1)]corpus=[doc0,doc1,doc2,doc3]dictionary=c

作者：编程之家时间：2022-09-04

从NLTK for Python中的同义词列表中提取单词

在wn.all_synsets(‘n’)中使用这个[xforx]我可以在NLTK的帮助下从Wordnet获取所有名词的所有名词.列表allnouns看起来像这个Synset(‘pile.n.01’),Synset(‘compost_heap.n.01’),Synset(‘mass.n.03’)等等.现在我可以使用allnouns[2]获得任何元素,这应该是Synset(‘mass.n.

作者：编程之家时间：2022-09-04

nlp算法

人工智能算法大体上来说可以分类两类：基于统计的机器学习算法(MachineLearning)和深度学习算法(DeepLearning)总的来说，在sklearn中机器学习算法大概的分类如下：1.纯算法类(1).回归算法(2).分类算法(3).聚类算法(4)降维算法(5)概率图模型算法(6)文本挖掘算法(7)优化算法(8)深

作者：编程之家时间：2022-09-04

java – 可以推荐哪种语言用于文本挖掘/解析？

我在网页上做一些文本挖掘.目前我正在使用Java,但也许有更合适的语言来做我想要的.我想做的一些事情的例子：根据字母,数字,字母数字,符号等部分(字母,数字,符号等)确定单词的字符类型(有更多类型).根据统计数据发现停用词.根据统计数据和一些逻辑,发现一些语法类(动词,名词,介词

作者：编程之家时间：2022-09-04

python – 检查是否可以进行分词

这是thisresponse的后续问题以及用户发布的伪代码算法.由于它的年龄,我没有对这个问题发表评论.我只想验证一个字符串是否可以拆分成单词.该算法不需要实际拆分字符串.这是相关问题的回复：LetS[1..length(w)]beatablewithBooleanentries.S[i]istrueifthewordw[

作者：编程之家时间：2022-09-04

python – 使用NLTK自定义POS标记(错误)

我正在尝试将我自己的简单自定义标记器与nltk默认标记器结合使用,在本例中为perceptron标记器.我的代码如下(基于thisanswer)：importnltk.tag,nltk.datadefault_tagger=nltk.data.load(nltk.tag._POS_TAGGER)model={'example_one':'VB''example_two':'NN'}tagger

作者：编程之家时间：2022-09-04

python – 使用潜在的语义分析进行聚类

假设我有一个文档语料库,我在其上运行LSA算法.如何使用应用SVD后获得的最终矩阵来语义聚类出现在我的文档语料库中的所有单词？维基百科说LSA可用于查找术语之间的关系.Python中是否有可用的库可以帮助我完成基于LSA语义聚类单词的任务？解决方法:尝试gensim(http:/adimrehurek.com/

作者：编程之家时间：2022-09-04

如何使用scikit学习标记的双字母组织？

我正在自学如何使用scikit-learn,我决定用自己的语料库开始secondtask.我手工获得了一些二重奏,让我们说：training_data=[[('this','is'),('is','a'),('a','text'),'POS'],[('and','one'),('one&#03

作者：编程之家时间：2022-09-04

python – 将形容词和副词转换为名词形式

我正在使用wordnet为我的项目尝试词义消歧.作为项目的一部分,我想将派生的形容词或副词形式转换为它的根名词形式.例如美丽的==>美女精彩==>奇迹>我怎样才能做到这一点？除了wordnet之外还有其他任何提供这种转换的词典吗？>如果我可以将形容词的确切意义映射到具有确切意义的名词

作者：编程之家时间：2022-09-04

在Python上创建完整的字符串

我需要在葡萄牙语字符串上执行词干.为此,我使用nltk.word_tokenize()函数对字符串进行标记,然后单独生成每个单词.之后,我重建了字符串.它工作正常,但表现不佳.我怎样才能让它更快？字符串长度约为200万字.tokenAux=""tokens=nltk.word_tokenize(portugueseString)

作者：编程之家时间：2022-09-04

python – 有谁知道如何在nltk上配置hunpos包装器类？

我已经尝试了以下代码并安装从http://code.google.com/p/hunpos/downloads/listenglish-wsj-1.0hunpos-1.0-linux.tgz我已将文件解压缩到’〜/’目录当我尝试以下python代码时：importnltkfromnltk.tagimporthunposfromnltk.tag.hunposimportHunposTaggerimpor

作者：编程之家时间：2022-09-04

PHP中的词性标注器？

我正在寻找一个简单的词性库或代码,我可以下载.我的标准是它必须易于使用并且可以免费.你知道这样的图书馆吗？解决方法:在PHP中有一个Brill标记器的实现：HowtoimplimentaPart-of-Speech(POS)tagger和http://phpir.com/part-of-speech-tagging如果你是Google的“PHPPOStagg

作者：编程之家时间：2022-09-04

python – NLTK提取chunker解析树的术语

JohnEdwardGreystartedrunningnowthatheknowsheisfatShewaslisteningtosmackthatbythatawfulsinger我想从一个句子中提取有趣的术语.我目前使用POS标记来识别每个实体的语法类型.然后我将每个标记更新为一个计数器(名词,动词和形容词的权重不同).我现在

作者：编程之家时间：2022-09-04

MySQL中的n-gram计数

我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库中提取10,000个文本文件–这将产生

作者：编程之家时间：2022-09-04

将Python字符串传递给Mallet以进行主题建模

我正在使用BeautifulSoup构建一个与HTML中的元数据一起收集的文本语料库.如果我可以从Python中调用Mallet并让它从Python字符串中模拟主题,而不是从目录中的文本文件中进行建模,那将会非常有用.这样我就可以将Mallet定位的n个关键字放入每个文件中.我收到一条消息,说我跑的时候已

作者：编程之家时间：2022-09-04

java – 给出html文件提取只是有意义的文本

给定一个包含css链接,图像链接等的标准html文件,如何才能提取有意义的文本？有意义的是指与页面相关的文本.所以在StackOverflow的情况下,问答文本.对于新闻网站来说,这将是故事的主体.一种算法可能用于确定什么是句子：搜索在开头和结尾处包含大写字母的单词序列(粗略但只是开始的东

作者：编程之家时间：2022-09-04

NLP二获取数据源和规范化

Whywedothis将获取的数据统一格式，得到规范化和结构化得数据字符串操作#创建字符串列表和字符串对象namesList=['Tuffy','Ali','Nysha','Tim']sentence='Mydogsleepsonsofa'#join的功能names=';'.join(namesList)#以';'为

作者：编程之家时间：2022-09-04

python – Spacy：保存已解析的模型

我正在使用Spacy,它是一个Python自然语言处理库,将原始文本解析为这种更复杂的面向对象格式,更具体地说是依赖树.上面的操作需要一段时间才能执行：我需要加载一个非常昂贵的模型,然后解析大量的文本.我宁愿在后续执行中节省一些时间,以便在完成初始解析后更快地迭代处理数据.如何

作者：编程之家时间：2022-09-04

python模块删除互联网行话/俚语/首字母缩略词

是否有任何python模块(可能在nltkpython中)删除互联网俚语/聊天俚语,如“lol”,“brb”等.如果没有,有人能为我提供一个包含如此庞大的俚语列表的CSV文件吗？网站http://www.netlingo.com/acronyms.php给出了首字母缩写词的列表,但我无法找到任何CSV文件在我的程序中使用它们.解决

作者：编程之家时间：2022-09-04

python – 查找多词短语的同义词

是否有可能python库NLTK建议/创建单词组的同义词？例如;对于单词/组“主菜”,我可以使用NLTK获取同义词“主菜”,“主菜”,“晚餐”等吗？这是我的代码,适用于单个单词同义词,但不适用于多字：fromnltk.corpusimportwordnetaswnprintwn.synset("eat.v.01").lemma_names#prin

作者：编程之家时间：2022-09-04

使用Gensim对每个文档中的特征进行评分.也是一个Python内存问题

我在50000个文档的语料库中使用GENSIM以及大约4000个特征的字典.我也有一个LSI模型已经准备好了.现在,我想为每个添加的文档找到最高匹配功能.为了找到特定文档中的最佳功能,我正在为所有文档的每个功能运行gensim的相似性模块.这为我们稍后要使用的每个功能提供了分数.但是你可以

作者：编程之家时间：2022-09-04