V2EX › jahan 的所有回复 › 第 3 页 / 共 11 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 11

❮

❯

2018-03-13 15:27:29 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有这种工具？可以监控文件夹的变化并传输新的文件？

试一下，看看能不能把目录结构也同步下来

2018-03-13 15:20:59 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有这种工具？可以监控文件夹的变化并传输新的文件？

貌似是全亮备份？我这个文件夹只需要备份某时刻或者部署之后的增量即可。

2018-03-13 14:01:51 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有这种工具？可以监控文件夹的变化并传输新的文件？

传输呢？ ftp ？

2018-03-13 12:52:50 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有这种工具？可以监控文件夹的变化并传输新的文件？

有没有不这么明显的……能够服务级的？

2018-03-13 12:51:07 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有这种工具？可以监控文件夹的变化并传输新的文件？

是台局域网的 win 没法 fq

2018-03-12 16:22:28 +08:00

回复了 qinrui 创建的主题 › 问与答 › 10 亿级的操作流水和千万级的用户，进行匹配、查询、统计，怎么处理才能加快？最快能到什么速度？

elasticsearch 可以不？

2018-03-06 08:18:06 +08:00

回复了 jahan 创建的主题 › 程序员 › 求教一下 elasticsearch 下面删除了 index，为何重建 index，原来下面的 mapping 还存在？

https://www.elastic.co/guide/en/elasticsearch/reference/current/removal-of-types.html
这里讲 6.0 和以后的版本都不支持多个 mapping，文档给出了这么一个解决方案。
PUT twitter
{
"mappings": {
"_doc": {
"properties": {
"type": { "type": "keyword" },
"name": { "type": "text" },
"user_name": { "type": "keyword" },
"email": { "type": "keyword" },
"content": { "type": "text" },
"tweeted_at": { "type": "date" }
}
}
}
}

PUT twitter/_doc/user-kimchy
{
"type": "user",
"name": "Shay Banon",
"user_name": "kimchy",
"email": "[email protected]"
}

PUT twitter/_doc/tweet-1
{
"type": "tweet",
"user_name": "kimchy",
"tweeted_at": "2017-10-24T09:00:00Z",
"content": "Types are going away"
}

GET twitter/_search
{
"query": {
"bool": {
"must": {
"match": {
"user_name": "kimchy"
}
},
"filter": {
"match": {
"type": "tweet"
}
}
}
}
}

我的理解是这个把所有的字段混在一起，并不区分 mapping （传统意义上的表)或设置了一个虚拟的 mapping，然后在填充的时候确定 type。单个的例子容易实现，put 就可以了。我从 filebeat-》 logstash-〉 es 就有些理解不了了,加载 template 的时候,还是免不了出 mapping 下的 type 不能多余一个的错误。

2018-03-06 00:30:24 +08:00

回复了 jahan 创建的主题 › 程序员 › 求教一下 elasticsearch 下面删除了 index，为何重建 index，原来下面的 mapping 还存在？

做了一个模版是这样的，打算手工加载，
{
"index_patterns": ["tes*"],
"settings" : {
"index" : {
"number_of_shards" : 3,
"number_of_replicas" : 2
}
},

"mappings" : {
"t_df_dfxx" : {
"properties" : {
"ydaxj" : { "type" : "text" },
"nbddh" : { "type" : "text" },
"ajrds" : { "type" : "text" },

}
},

"t_kd_grdfd" : {
"properties" : {
"kk" : { "type" : "text" },
"zjdd" : { "type" : "text" },
"yxjdf" : { "type" : "text" },

}
}
}
}
查了文档，看的十分困惑，有的说这个不支持多个 type，说 7.0 就完全支持。有的例子就完全一样，说 6.0 支持这种写法。

2018-03-06 00:26:22 +08:00

回复了 jahan 创建的主题 › 程序员 › 求教一下 elasticsearch 下面删除了 index，为何重建 index，原来下面的 mapping 还存在？

查到并且用 curl xdelete 给删除了，然后重新建 test index，get test/_mapping 神奇的 mapping 又出现了。
我做错了什么？

2018-03-06 00:08:18 +08:00

回复了 jahan 创建的主题 › 程序员 › 求教一下 elasticsearch 下面删除了 index，为何重建 index，原来下面的 mapping 还存在？

{"error":{"root_cause":[{"type":"illegal_argument_exception","reason":"Rejecting mapping update to [tYGi6U7cTsO_0YXJvN_W2g] as the final mapping would have more than 1 type: [t_gx_jgxx, t_kh_grjcxx]"}],"type":"illegal_argument_exception","reason":"Rejecting mapping update to [tYGi6U7cTsO_0YXJvN_W2g] as the final mapping would have more than 1 type: [t_gx_jgxx, t_kh_grjcxx]"},"status":400}

2018-03-05 23:55:26 +08:00

回复了 jahan 创建的主题 › 程序员 › 求教一下 elasticsearch 下面删除了 index，为何重建 index，原来下面的 mapping 还存在？

6.2 的 elasticsearch

2018-03-05 14:49:58 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有可能在内网利用开源工具建一个类似百度的搜索引擎？

@simapple 网站都不在本地，应该需要一个爬虫吧

2018-03-05 14:20:43 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有可能在内网利用开源工具建一个类似百度的搜索引擎？

所搜特定的 10 几个网站。想做一个只针对这 10 几个网站的小型的百度。

2018-03-05 14:06:37 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有可能在内网利用开源工具建一个类似百度的搜索引擎？

@linyinma 不懂这个机制，所以弄了一个类似百度。就是想建一个整套的平台，不知道要做那些？或者有没有全开源的工具。

2018-03-05 11:19:12 +08:00

回复了 jahan 创建的主题 › 程序员 › 有没有可能在内网利用开源工具建一个类似百度的搜索引擎？

刚查了一个雅虎的 Vespa。solr 和 vespa 是不是都没有爬虫呢？

2018-02-26 08:52:49 +08:00

回复了 jahan 创建的主题 › Elasticsearch › Elasticsearch 建立 mapping 的困惑，请高手指教。

@Morriaty 不过这个也是不错的办法。免去了建立 mapping 的麻烦？

2018-02-26 08:44:07 +08:00

回复了 jahan 创建的主题 › Elasticsearch › Elasticsearch 建立 mapping 的困惑，请高手指教。

@twm 比较懒，而且这个应该有个轮子吧。而且如果有了这么一个轮子，效率能提升很多。
@ligyxy
@Morriaty Logstash-input-jdbc 是用来从数据库导入的吧（ This plugin was created as a way to ingest data in any database with a JDBC interface into Logstash. ），这个方法倒是特别适合已经有数据库的。不过我这里想着脱裤文件不入库直接进入 es。不知道还有没有。
@Beebird 这个模板很好用，很想知道如果有一个建表语句，怎么对应出这样的模板，现在我是手敲。。。。非常 low。有没有一个工具，可以把 sql 语句的 create table 语句贴入或导入，然后根据一些配置，直接输出 mapping 呢？我分析的是脱裤文件，可能和大家分析的日志还不太一样。

感谢大家指点。发现很多都是处理英文的，我需要处理的文本基本上都是中文，中文英混杂，数字串，金额，字母等。

2018-02-19 17:39:33 +08:00

回复了 jahan 创建的主题 › Elasticsearch › 外行问一下， elasticsearch+kinda 可以做多复杂的大数据分析?

使用 filebeat 来收集表进入 logstash，然后 logstash 送给 elastisearch。疑问 1.如果不用 filebeat 或者 logstash 来收集，现在我是通过建立 index，mapping 后，进行手工的数据导入（ python 将||分割的 txt 转成 mapping 的 json ）；假若重新部署一个新的环境，如果想要使用 filebeat 和 logstash 的话，是不是在都不需要在 elasticsearch 上建立 mapping ？只需要建立一个 index，告知 filebeat 和 logstash 数据流送到哪个 index 即可（ filebeat 需要建立 templalte ）？非常疑惑使用 filebeat 和 logstash 后要不要在 elasticsearch 上建立 mapping。

疑问 2。根据 create table 语句建立 mapping，有没有特别简单的办法？不用写手写或者 python 程序，就能迅速把 mapping 的 json 根据 create table 语句弄出来？有具体例子就最好了。

疑问 3。配置文件，f，l，e 都是通过配置文件来设置的，有点糊涂到底需要配置哪些文件来使用呢？看 filebeat.yul,logstash 下面建立自己的 myself.conf，还没有能整体上了解。这里就回到了疑问 1，如何在 filebeat 上建立 mapping，是 template ？

疑问 4，filebeat 在官方文档里面只是一个 log ship,不进行 parsing，那么就是不会将每一个数据文件里面的 line 变成 json ？
然后疑问就是 template.json 配置来干嘛呢？ logstash 对数据进行 gork 操作，分割符号是 0001 的控制符怎么表示呢？

raw 数据文本怎么通过 f，l 进入 e 绕的有点晕了。

2018-02-18 20:55:19 +08:00

回复了 jahan 创建的主题 › Elasticsearch › 外行问一下， elasticsearch+kinda 可以做多复杂的大数据分析?

@knktc 感谢提示。
当时也不是知道在玄学知乎上看到说 es 不能很好的保持数据。
还有一篇文章比较 elk 和 hadoop 的文章说了，数据量不大随便用哪个，数据量大，自己就能体会到。简直太玄学。
后期会尝试包装一下，因为要兼顾两类用户使用。

目前配置了最新的 6.2 平台，算是刚刚入门这个。

2018-02-18 20:18:40 +08:00

回复了 jahan 创建的主题 › Elasticsearch › 外行问一下， elasticsearch+kinda 可以做多复杂的大数据分析?

@knktc 感谢回复。
想搭建一个既能存储，有能方便有现成的轮子方便分析的平台。就搭建了一个 elk 的系统。
当然我的数据都是结构化的数据（固定分隔符），不是日志、也不是杂乱文本。不过定期会有数据进来。然后快要搭建好了问了自己一个问题，这个 elk 够用吗？

主要的目的就是想搭建一个能够适合不懂 sql 的人使用或者很精通 sql 和 r，python 等工具的人来挖掘一点有价值的信息，存储数据也是一部分（貌似 es 不能很好的保持数据？）也不知道上述目的用 elk 这样好不好，请大家多指教。

1 2 3 4 5 6 7 8 9 10 ... 11

❮

❯