V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
yorkyoung
V2EX  ›  云计算

「数据处理求助」两个基因检测公司得到的两份碱基序列报告不一致

  •  
  •   yorkyoung · 2018-08-30 09:46:12 +08:00 · 3720 次点击
    这是一个创建于 2284 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位工程师好,我个人在两家基因检测公司做了检测,得到两份“位点-序列”( rsid-genotype )测序结果,理论上这两份序列结果应该是一样的,但我发现有一定比例的不一致,我想知道不一致的准确比例是多少,由于有超过 59 万条对应关系,我无法在个人电脑上处理,且没有数据处理软件使用能力,希望可以得到帮助。恳请有兴趣的工程师与我联系。子弹短信:ggyy https://s1.ax1x.com/2018/08/30/PXfHl8.png

    第 1 条附言  ·  2018-08-30 13:06:03 +08:00
    已经解决 用 Excel 硬做的
    TheWalkingDead
        1
    TheWalkingDead  
       2018-08-30 09:51:06 +08:00
    流行子弹短信吗 哈哈
    RangerWolf
        2
    RangerWolf  
       2018-08-30 10:18:32 +08:00
    数据可以传到公司外面?
    59W 条数据应该还好, 用 Pandas 感觉普通电脑应该能搞定
    marcong95
        3
    marcong95  
       2018-08-30 10:52:28 +08:00
    理论上这两份序列结果应该是不完全一样的把,DNA 复制的时候有一定概率会产生变异,这个概率放大到全基因组的话,“不完全一样”的概率是很高的。

    提供一个不知道可不可行的办法:把注释删掉,然后行排序,然后 diff 之,应该是不需要上什么专业软件,找个编辑器之类的。59w 行可能要跑一段时间,不过应该还好?
    yorkyoung
        4
    yorkyoung  
    OP
       2018-08-30 10:56:46 +08:00
    @marcong95 已经尝试过了,在 Excel 中运行了 vlookup 就跑了 15 个小时还是 17 款 256G MPB
    krixaar
        5
    krixaar  
       2018-08-30 11:25:08 +08:00
    导数据库里两张表,然后(select * from A minus select * from B) union all (select * from B minus select * from A)这样?
    LadyChunsKite
        6
    LadyChunsKite  
       2018-08-30 11:55:18 +08:00
    题外话:
    其实我有时候就在想,自己的基因可是一个很重要的个人信息呀,比什么手机号,年龄重要多了。
    就不怕被公司拿走干坏事?
    jccg90
        7
    jccg90  
       2018-08-30 12:01:26 +08:00
    @LadyChunsKite 基因信息虽然很重要,但是完全无法保护。。。比如上个厕所,吐个痰,去饭店吃个饭。。。到处都是完整的基因信息吧
    dacer250
        8
    dacer250  
       2018-08-30 12:29:54 +08:00
    子弹短信无法在 8.0 的 ios 上运行,可以联系我 qq:OTgzMTM5MDk3
    Wolther47
        9
    Wolther47  
       2018-08-30 12:34:04 +08:00 via iPad
    碱基对比对? Smith waterman 了解一下?
    HankAviator
        10
    HankAviator  
       2018-08-30 13:13:46 +08:00
    @LadyChunsKite 不在居住国家做问题不大,倒是保险送的基因检测万万做不得
    zhouquan03
        11
    zhouquan03  
       2018-08-30 13:30:34 +08:00
    BWA SOAP 软件了解一下
    wqzjk393
        12
    wqzjk393  
       2018-08-30 16:20:50 +08:00
    哪有用 vlookup 做大数据匹配的,vlookup 感觉就是完全的挨个遍历,慢的厉害还特别占资源
    wqzjk393
        13
    wqzjk393  
       2018-08-30 16:32:38 +08:00
    pd.read_csv/excel 把两个数据读进来,df1.merge(df2,how=left)左关联第二份数据,然后比较呗。但是如果你位点数据都一样的话为什么不先排序然后直接用 excel 的'='做对比呢
    yorkyoung
        14
    yorkyoung  
    OP
       2018-08-30 19:51:23 +08:00
    @wqzjk393 别的不懂 只会 vlookup
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2859 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 00:10 · PVG 08:10 · LAX 16:10 · JFK 19:10
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.