V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bluehtt
V2EX  ›  Spark

Spark 解析复杂 xml,数据如何映射到多表中

  •  
  •   bluehtt · 2021-09-01 17:29:51 +08:00 · 947 次点击
    这是一个创建于 1169 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求:利用 Spark 解析 xml 文件,xml 结构最大深度有 8 层,数据有复杂的关联关系,处理后会插入到 20 多张表中。由于使用工具解析后的 DataFrame 结构过长,简单截取了一部分如下:

    simple dataFrame

    目前没有好的思路,就是获取每一列元素依次遍历提取出所有需要的元素,但是想到要遍历 8 层眼泪都要流下来了:

    // 层层对象遍历
    val identifiers = row.get(0).asInstanceOf[Row].get(0).asInstanceOf[Row].get(0).asInstanceOf[Row].get(0)
    // 解析数组
    println(identifiers.asInstanceOf[mutable.WrappedArray[AnyRef]](0))
    

    就以图示中的结构来说,数据不算复杂,但是完整的结构实在是令人神伤,贴了图恐怕会占据整个页面。另外最终要插入的 20 多张表中十几张是关联表。 初次使用 Spark 处理数据,求大家给点意见和思路,万分感谢!

    2 条回复    2021-09-01 22:14:30 +08:00
    wloverine
        1
    wloverine  
       2021-09-01 22:11:57 +08:00
    spark 解析 xml 需求还挺少见的
    bluehtt
        2
    bluehtt  
    OP
       2021-09-01 22:14:30 +08:00
    @wloverine #1 因为解析后的数据需要作各种处理,就想一步到位
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3540 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 39ms · UTC 04:55 · PVG 12:55 · LAX 20:55 · JFK 23:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.