手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程问答
编程博文
编程实例
硬件设备
网络运营
软件教程
移动数码
办公软件
操作系统
人工智能
栏目导航
▸ 编程语言
▸ 前端开发
▸ 移动开发
▸ 开发工具
▸ 程序设计
▸ 行业应用
▸ CMS系统
▸ 服务器
▸ 数据库
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
子栏目导航
大数据
图像处理
chatgpt
文心一言
DevOps
Kafka
Spark
Dubbo
NLP
力扣
编程之家
NLP
python – 如何从Brown语料库中访问原始文档?
对于所有其他NLTK语料库,调用corpus.raw()会从文件中生成原始文本.例如:>>>fromnltk.corpusimportwebtext>>>webtext.raw()[:10]'CookieMan'但是,当调用brown.raw()时,您会获得标记文本.>>>fromnltk.corpusimportbrown>>>brown.raw()[:10]
作者:编程之家 时间:2022-09-04
python – 用nltk分块
如何从给定模式的句子中获取所有块.为例NP:{<NN><NN>}句子标记:[("money","NN"),("market","NN")("fund","NN")]如果我解析我获得(S(NPmoney/NNmarket/NN)fund/NN)我想也有另一种选择(Smoney/NN(NPmarket/NNfu
作者:编程之家 时间:2022-09-04
NLP之语言模型
参考:https://mp.weixin.qq.com/s/NvwB9H71JUivFyL_Or_ENAhttp://yangminz.coding.me/blog/post/MinkolovRNNLM/MinkolovRNNLM_thesis.html 语言模型本质上是在回答一个问题:出现的语句是否合理。 在历史的发展中,语言模型经历了专家语法规则模型(至80年代),统计语言模型(至00年),神
作者:编程之家 时间:2022-09-04
python – 为什么Doc2vec为同一文本提供了2个不同的向量
我正在使用Doc2vec从单词中获取向量.请看下面的代码:fromgensim.models.doc2vecimportTaggedDocumentf=open('test.txt','r')trainings=[TaggedDocument(words=data.strip().split(","),tags=[i])fori,datainenumerate(f)model=Doc2Vec(
作者:编程之家 时间:2022-09-04
python – 使用Keras进行文本分类
我正在努力接近单词/词汇方法,将我的输入数据表示为我在keras中的神经网络模型的一个热矢量.我想建立一个简单的3层网络,但我需要帮助理解和开发一种方法,以文本的形式转换我的标记数据,sentinment有7个标签,范围为0-1,步长为0.2.我曾试图使用scikit的矢量化器,但它们过于严格,即
作者:编程之家 时间:2022-09-04
python – pycorenlp:“CoreNLP请求超时.你的文件可能太长了“
我正在尝试在长文本上运行pycorenlp并获得CoreNLP请求超时.您的文档可能太长错误消息.怎么解决?有没有办法增加StanfordCoreNLP的超时时间?我不想将文本分成较小的文本.这是我使用的代码:'''Fromhttps://github.com/smilli/py-corenlp/blob/master/example.py'''frompycoren
作者:编程之家 时间:2022-09-04
python – 名称实体解析算法
我试图构建一个实体解析系统,我的实体在哪里,(i)Generalnamedentities,thatisorganization,person,location,date,time,money,andpercent.(ii)Someotherentitieslike,product,titleofpersonlikepresident,ceo,etc.(iii)Corefererredentitieslike,p
作者:编程之家 时间:2022-09-04
在Java中查找单词搭配
我试图在Java中找到collocations(PDF).我知道NLTK有一个搭配模块,但不想使用Jython.我查看了OpenNLP和GATE,但他们似乎没有搭配查找器.有没有人知道实现了免费的开源搭配查找器在Java?解决方法:对我来说,最好的即用型算法是DragonToolkit中的xTract,它使用基本的统计搭配功能,
作者:编程之家 时间:2022-09-04
NLP.TM | GloVe模型及其Python实现
在进行自然语言处理中,需要对文章的中的语义进行分析,于是迫切需要一些模型去描述词汇的含义,很多人可能都知道word2vector算法,诚然,word2vector是一个非常优秀的算法,并且被广泛运用,为人们熟知,然而,从结果的优劣性来看,其实word2vector并非唯一的优秀方案,斯坦福大学提出的GloVe就是其中
作者:编程之家 时间:2022-09-04
我应该使用哪个gensim语料库来加载LDA转换语料库? – Python
如何从python的gensim加载LDA转换语料库?我尝试过的:fromgensimimportcorpora,modelsimportnumpy.randomnumpy.random.seed(10)doc0=[(0,1),(1,1)]doc1=[(0,1)]doc2=[(0,1),(1,1)]doc3=[(0,3),(1,1)]corpus=[doc0,doc1,doc2,doc3]dictionary=c
作者:编程之家 时间:2022-09-04
从NLTK for Python中的同义词列表中提取单词
在wn.all_synsets(‘n’)中使用这个[xforx]我可以在NLTK的帮助下从Wordnet获取所有名词的所有名词.列表allnouns看起来像这个Synset(‘pile.n.01’),Synset(‘compost_heap.n.01’),Synset(‘mass.n.03’)等等.现在我可以使用allnouns[2]获得任何元素,这应该是Synset(‘mass.n.
作者:编程之家 时间:2022-09-04
nlp算法
人工智能算法大体上来说可以分类两类:基于统计的机器学习算法(MachineLearning)和深度学习算法(DeepLearning)总的来说,在sklearn中机器学习算法大概的分类如下:1.纯算法类(1).回归算法(2).分类算法(3).聚类算法(4)降维算法(5)概率图模型算法(6)文本挖掘算法(7)优化算法(8)深
作者:编程之家 时间:2022-09-04
java – 可以推荐哪种语言用于文本挖掘/解析?
我在网页上做一些文本挖掘.目前我正在使用Java,但也许有更合适的语言来做我想要的.我想做的一些事情的例子:根据字母,数字,字母数字,符号等部分(字母,数字,符号等)确定单词的字符类型(有更多类型).根据统计数据发现停用词.根据统计数据和一些逻辑,发现一些语法类(动词,名词,介词
作者:编程之家 时间:2022-09-04
python – 检查是否可以进行分词
这是thisresponse的后续问题以及用户发布的伪代码算法.由于它的年龄,我没有对这个问题发表评论.我只想验证一个字符串是否可以拆分成单词.该算法不需要实际拆分字符串.这是相关问题的回复:LetS[1..length(w)]beatablewithBooleanentries.S[i]istrueifthewordw[
作者:编程之家 时间:2022-09-04
python – 使用NLTK自定义POS标记(错误)
我正在尝试将我自己的简单自定义标记器与nltk默认标记器结合使用,在本例中为perceptron标记器.我的代码如下(基于thisanswer):importnltk.tag,nltk.datadefault_tagger=nltk.data.load(nltk.tag._POS_TAGGER)model={'example_one':'VB''example_two':'NN'}tagger
作者:编程之家 时间:2022-09-04
python – 使用潜在的语义分析进行聚类
假设我有一个文档语料库,我在其上运行LSA算法.如何使用应用SVD后获得的最终矩阵来语义聚类出现在我的文档语料库中的所有单词?维基百科说LSA可用于查找术语之间的关系.Python中是否有可用的库可以帮助我完成基于LSA语义聚类单词的任务?解决方法:尝试gensim(http:/adimrehurek.com/
作者:编程之家 时间:2022-09-04
如何使用scikit学习标记的双字母组织?
我正在自学如何使用scikit-learn,我决定用自己的语料库开始secondtask.我手工获得了一些二重奏,让我们说:training_data=[[('this','is'),('is','a'),('a','text'),'POS'],[('and','one'),('one
作者:编程之家 时间:2022-09-04
python – 将形容词和副词转换为名词形式
我正在使用wordnet为我的项目尝试词义消歧.作为项目的一部分,我想将派生的形容词或副词形式转换为它的根名词形式.例如美丽的==>美女精彩==>奇迹>我怎样才能做到这一点?除了wordnet之外还有其他任何提供这种转换的词典吗?>如果我可以将形容词的确切意义映射到具有确切意义的名词
作者:编程之家 时间:2022-09-04
在Python上创建完整的字符串
我需要在葡萄牙语字符串上执行词干.为此,我使用nltk.word_tokenize()函数对字符串进行标记,然后单独生成每个单词.之后,我重建了字符串.它工作正常,但表现不佳.我怎样才能让它更快?字符串长度约为200万字.tokenAux=""tokens=nltk.word_tokenize(portugueseString)
作者:编程之家 时间:2022-09-04
python – 有谁知道如何在nltk上配置hunpos包装器类?
我已经尝试了以下代码并安装从http://code.google.com/p/hunpos/downloads/listenglish-wsj-1.0hunpos-1.0-linux.tgz我已将文件解压缩到’〜/’目录当我尝试以下python代码时:importnltkfromnltk.tagimporthunposfromnltk.tag.hunposimportHunposTaggerimpor
作者:编程之家 时间:2022-09-04
PHP中的词性标注器?
我正在寻找一个简单的词性库或代码,我可以下载.我的标准是它必须易于使用并且可以免费.你知道这样的图书馆吗?解决方法:在PHP中有一个Brill标记器的实现:HowtoimplimentaPart-of-Speech(POS)tagger和http://phpir.com/part-of-speech-tagging如果你是Google的“PHPPOStagg
作者:编程之家 时间:2022-09-04
python – NLTK提取chunker解析树的术语
JohnEdwardGreystartedrunningnowthatheknowsheisfatShewaslisteningtosmackthatbythatawfulsinger我想从一个句子中提取有趣的术语.我目前使用POS标记来识别每个实体的语法类型.然后我将每个标记更新为一个计数器(名词,动词和形容词的权重不同).我现在
作者:编程之家 时间:2022-09-04
MySQL中的n-gram计数
我正在构建一个大约有10,000条记录的MySQL数据库.每条记录都包含一个文本文档(大多数情况下是几页文本).我想在整个数据库中进行各种n-gram计数.我已经用Python编写了算法,这将是我想要的包含大量文本文件的目录,但要做到这一点,我需要从数据库中提取10,000个文本文件–这将产生
作者:编程之家 时间:2022-09-04
将Python字符串传递给Mallet以进行主题建模
我正在使用BeautifulSoup构建一个与HTML中的元数据一起收集的文本语料库.如果我可以从Python中调用Mallet并让它从Python字符串中模拟主题,而不是从目录中的文本文件中进行建模,那将会非常有用.这样我就可以将Mallet定位的n个关键字放入每个文件中.我收到一条消息,说我跑的时候已
作者:编程之家 时间:2022-09-04
java – 给出html文件提取只是有意义的文本
给定一个包含css链接,图像链接等的标准html文件,如何才能提取有意义的文本?有意义的是指与页面相关的文本.所以在StackOverflow的情况下,问答文本.对于新闻网站来说,这将是故事的主体.一种算法可能用于确定什么是句子:搜索在开头和结尾处包含大写字母的单词序列(粗略但只是开始的东
作者:编程之家 时间:2022-09-04
NLP二 获取数据源和规范化
Whywedothis将获取的数据统一格式,得到规范化和结构化得数据字符串操作#创建字符串列表和字符串对象namesList=['Tuffy','Ali','Nysha','Tim']sentence='Mydogsleepsonsofa'#join的功能names=';'.join(namesList)#以';'为
作者:编程之家 时间:2022-09-04
python – Spacy:保存已解析的模型
我正在使用Spacy,它是一个Python自然语言处理库,将原始文本解析为这种更复杂的面向对象格式,更具体地说是依赖树.上面的操作需要一段时间才能执行:我需要加载一个非常昂贵的模型,然后解析大量的文本.我宁愿在后续执行中节省一些时间,以便在完成初始解析后更快地迭代处理数据.如何
作者:编程之家 时间:2022-09-04
python模块删除互联网行话/俚语/首字母缩略词
是否有任何python模块(可能在nltkpython中)删除互联网俚语/聊天俚语,如“lol”,“brb”等.如果没有,有人能为我提供一个包含如此庞大的俚语列表的CSV文件吗?网站http://www.netlingo.com/acronyms.php给出了首字母缩写词的列表,但我无法找到任何CSV文件在我的程序中使用它们.解决
作者:编程之家 时间:2022-09-04
python – 查找多词短语的同义词
是否有可能python库NLTK建议/创建单词组的同义词?例如;对于单词/组“主菜”,我可以使用NLTK获取同义词“主菜”,“主菜”,“晚餐”等吗?这是我的代码,适用于单个单词同义词,但不适用于多字:fromnltk.corpusimportwordnetaswnprintwn.synset("eat.v.01").lemma_names#prin
作者:编程之家 时间:2022-09-04
使用Gensim对每个文档中的特征进行评分.也是一个Python内存问题
我在50000个文档的语料库中使用GENSIM以及大约4000个特征的字典.我也有一个LSI模型已经准备好了.现在,我想为每个添加的文档找到最高匹配功能.为了找到特定文档中的最佳功能,我正在为所有文档的每个功能运行gensim的相似性模块.这为我们稍后要使用的每个功能提供了分数.但是你可以
作者:编程之家 时间:2022-09-04
上一页
1
2
3
4
5
6
7
8
下一页
小编推荐
热门标签
更多
python
JavaScript
java
HTML
reactjs
C#
Android
CSS
Node.js
sql
r
python-3.x
MysqL
jQuery
c++
pandas
Flutter
angular
IOS
django
linux
swift
typescript
路由器
JSON
路由器设置
无线路由器
h3c
华三
华三路由器设置
华三路由器
电脑软件教程
arrays
docker
软件图文教程
C
vue.js
laravel
spring-boot
react-native