V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
diveIntoWork
V2EX  ›  程序员

如何获取 spark 中作业访问了哪些数据?

  •  
  •   diveIntoWork · 2017-07-25 17:58:38 +08:00 · 1463 次点击
    这是一个创建于 2677 天前的主题,其中的信息可能已经有所发展或是发生改变。

    在 spark 的 web UI 中没有找到相关信息,rest api 里也没有这一项。 需要记录 spark 的访问文件对象,包括 hdfs 文件和 linux 文件。。。 求大神指教

    1 条回复    2017-07-26 07:51:39 +08:00
    mingweili0x
        1
    mingweili0x  
       2017-07-26 07:51:39 +08:00
    系统的文件可以用 lsof 监听,但 hdfs 的就不知道了。hdfs 不是典型的文件系统,只是个抽象而已,直觉告诉我他们根本没提供这个功能,或者提供了,在古老的 Hadoop Java API 里隐藏的很深,可以找找看
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2744 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 05:43 · PVG 13:43 · LAX 21:43 · JFK 00:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.