V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Braisdom  ›  全部回复第 19 页 / 共 31 页
回复总数  612
1 ... 15  16  17  18  19  20  21  22  23  24 ... 31  
2022-02-22 13:38:12 +08:00
回复了 moxiaowei 创建的主题 Java 逻辑大量的写在 sql 语句里
建议你看一下: https://github.com/braisdom/ObjectiveSql
一种比较优雅的方式写 SQL
2022-02-11 12:05:38 +08:00
回复了 fantix 创建的主题 数据库 EdgeDB 1.0 正式发布
@fantix 个人觉得,为了引入一种新的查询方式,基于一种数据库引擎去改造,太重了,而且适用性也不高。我现在正在设计一种新的查询语言,对程序员屏蔽底层 SQL 的复杂逻辑,能够适用于目前大多数数据库引擎,希望 2022 年能发布第一版本。
2021-09-10 21:39:07 +08:00
回复了 461229187 创建的主题 推广 强迫症犯了,求俩 star 凑 500 个
兄弟我的项目,希望大家在项目中体验:
https://github.com/braisdom/ObjectiveSql
2021-09-10 16:22:54 +08:00
回复了 461229187 创建的主题 推广 强迫症犯了,求俩 star 凑 500 个
点了一个,之前我的项目推广的时候,也在这里推广了一翻,现在已经 1130 了。ObjectiveSql 是我之前的项目,网上也有些兄弟写了一些使用的文章
2021-09-01 22:00:27 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
@rpman 我已经找到方法了,但不是特别理想,我并不是想要找到实现,短语的组合也很多,穷举也很累。
2021-08-03 10:06:29 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
测试了一下,中文处理也非常不错,spacy 的中文分词不是特别理想,需要补充,但基本可用。

测试文本:
```
DDParser 是百度自然语言处理部基于大规模标注数据研发的依存句法分析工具。其训练数据不仅覆盖了多种输入形式的数据,如键盘输入 query 、语音输入 query 等,还覆盖了多种场景的数据,如新闻、论坛等。该工具易用性高,支持一键安装及预测。
```

解析出的短语如下:
```
百度
百度自然
百度自然语言
自然语言
百度自然语言处理部
自然语言处理部
语言处理部
数据研发
依存句法
句法分析
依存句法分析
句法分析工具
分析工具
依存句法分析工具
训练数据
多种输入
输入形式
多种输入形式
多种场景
易用性
键安装
```
2021-08-02 20:21:43 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
调整了一下,非常完善的英文短语提取:

```
Software engineering is one of the most popular branches of computer science and has taken over the world in the digitization era. Software engineers are required in almost every field these days. With the easy accessibility of computers and smartphones, the importance of software engineering has become more pronounced.
Since software engineering is an advanced field of the IT industry, there are very few institutes that offer bachelor courses in this field. One can pursue B.Tech in CSE or IT and go on to pursue M.Tech in software engineering. Aspiring software engineers can find all about the courses and eligibility criteria below.
About Software Engineering:
Software engineering is a branch of computer science engineering (CSE), therefore, there are very few colleges that offer software engineering bachelor degree. Most of the institutes in India provide software engineering specialization at the masters’ level.
M.Tech in software engineering is one of the most popular courses amongst computer science engineers. You can prepare for GATE exam and apply for these courses through GATE score.
The courses cover advanced software development models and programming concepts that are the elementary parts of developing software. Software engineering also comprises the study of the different levels of the software development process.
Eligibility Criteria for Software Engineering:
```

提取的短语如下:

```
Software engineering
branches of computer
branches of computer science
computer science
digitization era
Software engineers
accessibility of computers
importance of software
importance of software engineering
software engineering
software engineering
bachelor courses
software engineering
software engineers
branch of computer
branch of computer science
computer science
branch of computer science engineering
computer science engineering
science engineering
software engineering
software engineering bachelor
engineering bachelor
software engineering bachelor degree
engineering bachelor degree
bachelor degree
software engineering
software engineering specialization
engineering specialization
software engineering
courses amongst computer
courses amongst computer science
computer science
courses amongst computer science engineers
computer science engineers
science engineers
software development
software development models
development models
programming concepts
Software engineering
software development
software development process
development process

takes: 0.05262303352355957
```
2021-08-02 18:23:59 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
测试了一下,效果不错:

'''
Text summarization is one of the newest and most exciting fields in NLP, allowing for developers to quickly find meaning and extract key words and phrases from documents. RaRe Technologies’ newest intern, Ólavur Mortensen, walks the user through text summarization features in Gensim.
'''

这样的一段英文,解析出来的结果:

Text summarization
exciting fields
key words
newest intern
text summarization
text summarization features
summarization features

takes: 0.019918203353881836
2021-08-02 18:13:47 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
感谢各位,通过句法分析,得出的词性相对较好一点,尤其是同义词,在句法分析中比较容易区分,纯粹的词性标注,结果太差了,找到一个开源工具,可以根据词性提取短语。

https://github.com/chartbeat-labs/textacy

有兴趣的可以看看,刚刚试了一下还行,还在测试中。
2021-08-02 14:00:24 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
@zyx199199 感谢,我用 spacy 做英文短语挖掘还行,中文的太弱了
原文:
```
ObjectiveSQL is an ORM framework in Java based on ActiveRecord pattern, which encourages rapid development and clean, codes with the least and convention over configuration.
If your project focuses on data analysis based on relation database, and a lot of arithmetic expressions in SQL statement. ObjectiveSQL will help you write expressions conveniently and safely using Java syntax
```
解析结果:
```
0.1476792292949645 1 activerecord pattern
0.14671762416303413 1 java syntax
0.14428737286880544 1 rapid development
0.13810946085925754 1 configuration
0.1346420067987634 3 java
0.1256596948856068 4 objectivesql
0.11204090834509414 1 activerecord
0.11121633331630836 1 orm
0.10988850573204359 1 convention
0.10555338794853333 1 codes
0.09950835257874349 1 sql statement
0.09622020612487797 1 arithmetic expressions
0.0881090251048002 1 relation database
0.08001718286200812 1 an orm framework
0.07570218212468754 1 expressions
0.06679224022078173 1 sql
0.05478959497093751 1 data analysis
0.03418629755285734 1 a lot
0.014509931733698266 1 your project
0.0 1 you
0.036164045333862305
```
2021-08-02 13:46:00 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
@shengchen11
@Morriaty
@2dot71828
@murmur
有没有根据词性的正则表达式,匹配短语的工具,我找了好久没找到。
2021-08-02 13:44:34 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
词性、还可以,句法分析就差太多了,我在想是不是自己按词性进行组合,单纯分析词性,同义词比较差,只能结合句法分析,
2021-08-02 13:42:58 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
@xingshu1990 textrank, pagerank, positionrank 我都试过了,英文的还行,中文的比较差。下面是我根据句法分析得出的结果:
```
['牛顿冷却定律', '在', '得到', ' ', 'APP', ' ', '的', '实践', '背景', '介绍', '「', '得到', '锦囊', '」', '产品', '刚', '上线', '时', ',', '该', '版块', '首页', '的', '最', '热', '排序', '暴露', '了', '两个', '问题', ':', '分页', '时', '数据', '重复', '和', '最', '热', '榜单', '被', '霸屏', ',', '本文', '将', '围绕', '解决', '这', '两个', '问题', '来', '展开', ',', '介绍', '下', '如何', '参考', '牛顿冷却定律', '来', '优化', '最', '热', '内容', '的', '排序', '。', '“', '牛顿冷却定律', '”', '本质', '上', '它', '描述', '了', '高于', '周围', '温度', '的', '物体', '会', '向外', '散热', ',', '并', '逐渐', '降温', '的', '过程', ',', '同时', '单位', '时间', '内', '散热', '与', '周围', '温差', '会', '成正比', '关系', '。', '通过', '建立', '”', '温度', '”', '与', '”', '时间', '”', '之间', '的', '函数', '关系', ',', '构建', '一个', '”', '指数式衰减', '”', '(', ' ', 'Exponential decay', ' ', ')', '的', '过程', '。', '如果', '我们', '把', '”', '热文', '排名', '”', '想象', '成', '一个', '”', '自然', '冷却', '”', '的', '过程', ',', '那么', '如下', '的', '场景', '是', '成立', '的', ':', '任一', '时刻', ',', '网站', '中', '所有', '的', '文章', ',', '都', '有', '一个', '”', '当前', '温度', '”', ',', '温度', '最高', '的', '文章', '就', '排', '在', '第一位', '。', '随着', '时间', '流逝', ',', '所有', '文章', '的', '温度', '都', '逐渐', '”', '冷却', '”', '。', '一', '、', '最', '热', '榜单', '暴露', '的', '问题', ' ', '2020', ' ', '年', ' ', '1', ' ', '月初', ',', '得到', ' ', 'App', ' ', '的', '新产品', '「', '得到', '锦囊', '」', '正式', '上线', '。', '产品', '刚', '上线', '时', ',', '版块', '首页', '的', '最', '热', '排序', '模块', ',', '暴露', '出', '了', '两个', '问题', ':', '分页', '时', '数据', '重复', '和', '最', '热', '榜单', '被', '霸屏', ',', '本文', '将', '围绕', '解决', '这', '两个', '问题', '来', '展开', '。', '排序', '规则', '与', '朴素', '的', '实现', '方案', '产品', '需求', '定义', '的', '最', '热', '排序', '规则', '是', ':', '按照', '问题', '的', '总', '查看', '量', '来倒序排列', ',', '且', '有', '分页', '和', '查询', '条件', '。', '服务端', '对于', '这种', '场景', ',', '最', '简单', '高效', '的', '实现', '方式', ',', '就是', '利用', ' ', 'sql', ' ', '的', ' ', 'query', ' ', '语句', '了', ',', '于是', '我们', '就', '直接', ' ', '[', 'order by', ' ', '{', '问题', '的', '查看', '量', '}', ' ', 'desc', ']', ' ', '来', '实现', '了', '。', '总', '查看', '数', ' ', '=', ' ', '获得', '查看', '权益', '的', '用户数', ' ', '=', ' ', '购买', '数', ' ', '+', ' ', '赠一得', '一', '领取', '数', '这个', '简单', '朴素', '的', '实现', '方式', ',', '在', '加上', '缓存', '策略', ',', '使得', '我们', '用', '较小', '的', '成本', '就', '满足', '了', '产品', '需求', ',', '也', '应对', '了', '较高', '的', '流量', '。']
['nz', 'd', 'v', 'w', 'nz', 'w', 'u', 'vn', 'n', 'v', 'w', 'v', 'n', 'w', 'n', 'd', 'v', 'n', 'w', 'r', 'q', 'n', 'u', 'd', 'a', 'vn', 'v', 'u', 'm', 'n', 'w', 'v', 'n', 'n', 'vn', 'c', 'd', 'a', 'n', 'p', 'n', 'w', 'n', 'd', 'v', 'v', 'r', 'm', 'n', 'v', 'v', 'w', 'v', 'q', 'r', 'v', 'nz', 'v', 'v', 'd', 'a', 'n', 'u', 'vn', 'w', 'w', 'nz', 'w', 'n', 'f', 'r', 'v', 'u', 'v', 'f', 'n', 'u', 'n', 'v', 'd', 'v', 'w', 'c', 'd', 'v', 'u', 'n', 'w', 'd', 'n', 'n', 'f', 'v', 'p', 'f', 'n', 'v', 'v', 'n', 'w', 'p', 'v', 'w', 'n', 'w', 'c', 'w', 'n', 'w', 'f', 'u', 'n', 'n', 'w', 'v', 'm', 'w', 'nz', 'w', 'w', 'w', 'ORG', 'w', 'w', 'u', 'n', 'w', 'c', 'r', 'p', 'w', 'n', 'vn', 'w', 'v', 'v', 'm', 'w', 'ad', 'v', 'w', 'u', 'n', 'w', 'c', 'v', 'u', 'n', 'v', 'v', 'u', 'w', 'r', 'n', 'w', 'n', 'f', 'r', 'u', 'n', 'w', 'd', 'v', 'm', 'w', 'TIME', 'n', 'w', 'w', 'n', 'a', 'u', 'n', 'd', 'v', 'p', 'm', 'w', 'p', 'n', 'v', 'w', 'a', 'n', 'u', 'n', 'd', 'd', 'w', 'v', 'w', 'w', 'm', 'w', 'd', 'a', 'n', 'v', 'u', 'n', 'w', 'm', 'w', 'q', 'w', 'm', 'w', 'TIME', 'w', 'v', 'w', 'nz', 'w', 'u', 'n', 'w', 'v', 'n', 'w', 'ad', 'v', 'w', 'n', 'd', 'v', 'n', 'w', 'n', 'n', 'u', 'd', 'a', 'vn', 'n', 'w', 'v', 'v', 'u', 'm', 'n', 'w', 'v', 'n', 'n', 'vn', 'c', 'd', 'a', 'n', 'p', 'n', 'w', 'n', 'd', 'v', 'v', 'r', 'm', 'n', 'v', 'v', 'w', 'vn', 'n', 'c', 'a', 'u', 'vn', 'n', 'n', 'n', 'v', 'u', 'd', 'a', 'vn', 'n', 'v', 'w', 'p', 'n', 'u', 'a', 'vn', 'n', 'v', 'w', 'c', 'v', 'vn', 'c', 'vn', 'n', 'w', 'n', 'p', 'r', 'n', 'w', 'd', 'a', 'a', 'u', 'vn', 'n', 'w', 'v', 'v', 'w', 'n', 'w', 'u', 'w', 'nz', 'w', 'n', 'xc', 'w', 'c', 'r', 'd', 'ad', 'w', 'w', 'nz', 'w', 'w', 'n', 'u', 'vn', 'n', 'w', 'w', 'n', 'w', 'w', 'v', 'v', 'u', 'w', 'd', 'v', 'n', 'w', 'w', 'w', 'v', 'v', 'n', 'u', 'n', 'w', 'w', 'w', 'v', 'n', 'w', 'w', 'w', 'v', 'm', 'v', 'n', 'r', 'a', 'a', 'u', 'vn', 'n', 'w', 'p', 'v', 'vn', 'n', 'w', 'v', 'r', 'p', 'a', 'u', 'n', 'd', 'v', 'u', 'n', 'n', 'w', 'd', 'v', 'u', 'a', 'u', 'n', 'w']
细粒度: [(('牛顿冷却定律', '在'), 'ADV_V'), ((None, '得到', 'APP'), 'SVO'), (('得到', '背景'), 'ATT_N'), (('实践', '背景'), 'ATT_N'), (('背景', '介绍'), 'ATT_N'), ((None, '得到', '锦囊'), 'SVO'), ((None, '得到', '上线'), 'SVO'), (('介绍', '得到'), 'ATT_N'), (('产品', '上线', None), 'SVO'), (('刚', '上线'), 'ADV_V'), (('得到', '时'), 'ATT_N'), (('该', '版块'), 'ATT_N'), (('版块', '首页'), 'ATT_N'), (('最', '热'), 'ADV_V'), (('首页', '排序'), 'ATT_N'), (('热', '排序'), 'ATT_N'), (('排序', '暴露', '问题'), 'SVO'), (('时', '暴露'), 'ADV_V'), (('两个', '问题'), 'ATT_N'), (('分页', '时'), 'ATT_N'), (('时', '重复'), 'ADV_V'), (('时', '霸屏'), 'ADV_V'), (('数据', '重复'), 'ATT_N'), (('数据', '霸屏'), 'ATT_N'), (('霸屏',), 'Phrase'), (('最', '热'), 'ADV_V'), (('热', '榜单'), 'ATT_N'), ((None, '霸屏', '榜单'), 'SVO'), ((None, '围绕', '解决'), 'SVO'), ((None, '解决', '问题'), 'SVO'), (('这', '问题'), 'ATT_N'), (('两个', '问题'), 'ATT_N'),...
```
2021-08-02 11:08:44 +08:00
回复了 Braisdom 创建的主题 自然语言处理 请教一个 NLP 的问题
@shengchen11 这个只能分词呀。
2021-07-18 16:04:14 +08:00
回复了 nyfok 创建的主题 分享创造 业余开发了一个技术搜索引擎,请小伙伴们提提意见。
@nyfok 兄弟很牛 B,我也在搞一个程序员的搜索引擎,最近要上线了,多多请教了,和您的项目有部分类似,但我侧重点是信息关联和数据分析
2021-03-18 11:26:00 +08:00
回复了 Braisdom 创建的主题 程序员 请教一下 NLP 的模型
@mumbler 我在尝试其它方法,word2vec 的训练总是有问题,有时候非常好,有时候非常差,真搞不清楚
2021-03-17 10:28:09 +08:00
回复了 Braisdom 创建的主题 程序员 请教一下 NLP 的模型
@RingoTC 你的想法倒是一个好想法。
如果将 A,B,C 进行唯一性 hash 处理,在所有文档中可以通过固定的规则检索,通过周围的词进行预测,只获取符合规则的的词。
2021-03-17 07:52:19 +08:00
回复了 Braisdom 创建的主题 程序员 请教一下 NLP 的模型
感谢各位,我一个一个测试,word2vec, doc2vec 我测试了,基本可行,但有个问题

1 ) A,B,C 周围有很多词汇,通过 A 预测 B,或者通过 B 预测 A 和以还可以,但通过其它词汇预测 A,B,C 时就不可用了

@ljpCN
@kaiju
@mumbler
2021-03-16 23:17:19 +08:00
回复了 Braisdom 创建的主题 程序员 请教一下 NLP 的模型
@raycool 我的想法是设定一个学习的目标,而不是漫无目的的学习
1 ... 15  16  17  18  19  20  21  22  23  24 ... 31  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1811 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 16:22 · PVG 00:22 · LAX 08:22 · JFK 11:22
Developed with CodeLauncher
♥ Do have faith in what you're doing.