openbiox
首发于openbiox
openbiox 的每周一问(长期更新)

openbiox 的每周一问(长期更新)

“每周一问”是 openbiox 日常进行的活动之一,旨在提高成员提出问题的能力。同时,通过这些问题的互相解答和交流,来解决一些成员共通的常见问题和疑惑。

以下列表为 openbiox 每周一问活动前两期的节选。如果你想申请加入 openbiox,可以试着回答下列问题中的一部分,并连同你的简历发送至 committee@openbiox.org,你将有机会获得加入 openbiox 的直通票。

更新历史

2019 年 4 月 29 日更新(42-62)

2019 年 5 月 31 日更新(63-112)

问题节选

  1. 作为刚刚接触 R 的新人,想请教有经验的老师,怎样开展或者说开展什么样的项目能够促进自己对R的学习,理解和应用呢?有没有一些经验可供分享?
  2. 为何 R 中的 S3 和 S4 对象如此难用。虽然平时几乎用不到 S3 和 S4,曾经几次尝试去学习了一下,但是都放弃了。和 Python 中面向对象的简洁明了不同,感觉 R 中面向对象搞的太复杂了,很难让人理解。大家有何高见,有没有推荐的关于R面向对象的好的教程,容易让人上手的那种。
  3. 我经常接触一些客户会对流程本身的结果准确性进行质疑。生物信息分析的工作本质上是输入数据输出结果的工作,各位在一些生信流程开发过程中是怎么保证开发流程的灵敏度和特异性的?都做了什么工作来保证灵敏度和特异度的。
  4. GSEA 软件版里几种排序方法有何不同,或者说输入的什么数据适合于哪种排序方法?(包括Signal2Noise、tTest、Cosine、Enclidean、Manhatten、Pearson、Ratio_of_Classed、Diff_of_Classed)
  5. R语言包开发过程中,参考其他人写的包,常常看到一些点“.”开头的函数和变量,这些函数和变量在包开发的过程中大概会存在哪几方面的应用。如何在开发过程中判断是否要使用.号开头的函数和变量。
  6. 请问下大家在分析肿瘤全外显子测序数据的时候 没有配对样本 怎么能正确找出 CNV 呢?
  7. 目前在学习肿瘤进化的分析,对于一些软件 pyclone, sciclone等不是很了解,不知道怎么选合适的软件。
  8. PCA 对于分析 TCGA 数据是必要的步骤吗?一般什么时候会用到 PCA ?
  9. 之前使用 bsmap 进行 mapping,得到了 core dumped 的错误,网上查了很多,大部分都是和软件开发相关的,不太理解这个报错如何处理。另外还有一个段错误的报错,虽然不影响结果。但是运行日志提示有段错误的出现。请问这两个报错有什么可以解决的方法?
  10. 以大家的经验,学习一种语言,例如 R 语言,达到运用自如的水平需要多少时间?
  11. R markdown 和 HTML 是什么关系,是不是 HTML 的通用标识在 R markdown 里面都可以用?R markdown 是一个简版的 HTML 吗?
  12. Python 在编写代码是如何快速方便地获取函数文档和源代码?
  13. 编程语言的速度对于生物信息的处理的影响究竟有多大,相较于 Java,为什么选择更慢的Python?
  14. 对于有生存资料的临床数据而言(比如有 OS/PFS 等指标),如果想根据基因突变谱/表达谱筛选出一些有统计学意义的变量或者基因,除了 KM 曲线、Cox 回归、Lasso 回归等方法外,还有其他比较常用的分析手段吗?
  15. 生物信息学数据分析中,怎么处理人群混杂因素如其他疾病和用药影响?多重比较怎么进行统计学校正?
  16. 总体来讲,老年人容易发生很多疾病,并且器官衰竭。你认为是老龄造成的(年龄是原因),还是 accumulated risk 导致?人类的寿命一直在增长,你认为它会到达一个节点然后停止吗?
  17. MCMC 取样的时候是如何保证平稳细致条件的?MCMC 取样的已知条件是什么?与 Gibbs取样有什么区别?
  18. 针对于生物学背景转生信的人来说,R 和 Python 需要学到什么程度?目前看了五六本相关书籍,但是做项目的时候却感觉无从下手。尤其是 Python,总感觉看书看着看着就跑偏。
  19. 最近在学习 Linux。目前让我疑惑的一个点是,初学者在学习 Linux 的时候,是在 root 权限下学习会比较好吗。如果以后使用公用服务器作为普通用户时,安装软件之类的工作会和 root 有很大的区别吗? 在实际的工作中哪种情况会比较多? 因为 root 权限很大,我也挺担心在云服务器上操练会不会一个不小心把服务器弄崩溃什么的...
  20. 正在学习使用 WSL 的shell教程,但是代码里的一些简单操作,例如清屏,网上查到的是用crtl+l,但是实际情况打出来的就是 ^L,还有些操作也用不了
  21. 我一直很好奇基因型和表型的关系,能否由已知的基因序列推测出生物表型(形态,功能,结构等)?从生化和发育角度来看是一个非常复杂的时空过程,但根据现有的多种物种的基因数据能否用数学模型来模拟两者关系?我想了解下大家对此问题的看法。
  22. 做影像分析时,用的卷积神经网络,得到的 ROC 值跟其它同类文献比优势不明显,碰到这种情况,是直接换题还有另外的补救方案不?
  23. 一直很好奇一个问题,就是无论是蛋白组学 vs WB 还是转录组芯片数据 vs PCR,他们之间的匹配率容易出现很大的错误吗? 我询问过一些老师,但给我的答案就是多一次验证避免偶然。但是无论是转录组还是蛋白组学的数据样本数在设计初始就已经保证重复性的问题。总觉得这样的证明浪费资源,并不能实际证明基因的功能。
  24. 对于实验员来说,必须要学会的生信资源网站有哪些?例如 Genbank,UCSC
  25. 适用于蛋白序列比对相关方法除 blastp,blat,mmseqs,usearch,diamond之外,请问是否还有其他方法可以推荐(以上几种都在流程里试用过,diamond 和 usearch 在速度和准确性上都可接受); 此前,马里兰大学的生信团队开发了 快速比对分析核酸相似性(marbl/MashMap)的方法,一直也未能调研到在蛋白序列比对中相类似的方法。
  26. CNV 分析时得到超长片段的 hemizygous, 10 的 8 次方碱基长度, 这种情况正常吗?有哪些原因?
  27. 一个统计问题,从一个社区人群中,通过“经济因素”这一指标筛选出 100 个可能患有高血压的个体,进一步临床验证这 100 人中,有 60 个人确实患有高血压,为了排除这一结果不是随机因素造成的,进行了随机抽样:从该社区人群中,随机抽样 20 次,每次 100 人,测量100 人中高血压情况,于是得到 20 次抽样中真正高血压人数【40、55、45、32、61、54……35、49】。那么通过什么检验能够判断“经济因素确实影响了个体血压情况”?
  28. Chip-Seq 想看蛋白在某基因的结合程度得怎么看? 用 macs2 callpeak 后的 narrowpeak 里面的 foldchange 一列能作为参考吗?
  29. 想了解生物医学背景的人对于深度学习在生信中(非医学影像数据)的应用的相关看法?是否很重视模型的可解释性。
  30. 如何做 ceRNA 分析来找到调控某一基因的 lncRNA?
  31. 是否有网站可以搜索一下生物信息学的学术会议汇总?
  32. 在机器学习中筛选特征时,用不同的特征筛选方法筛选出的特征排名是否具有相关性?
  33. 作为一名临床医学的学生,并且现在是刚接触生信不久,其实我现在还没有理清一个很好的方向,关于如何将临床问题与生信技术相结合。因为我认为,科学研究最后都要归根于解决临床实际问题,只有这样,我们才能做出有意义的工作。各位前辈,能否稍作指点一下,谈谈大家对于这个思路的看法,或者帮我推荐一些比较经典的著作和文献,能够让我对生信产生更深刻的理解。
  34. 硕士课程分析植物数据更多,要想工作往肿瘤等疾病方向转的话,从哪些方面入手比较好呢?
  35. 转录因子的结合 motif 是以位置权重矩阵 position weight matrix (PWM) 表示,有没有使用 PWM 在序列上寻找 motif 的算法的相关介绍?
  36. 用R语言科研作图有哪些参考资料?
  37. 生物信息学想系统学习,有哪些书籍可以推荐?
  38. 机器学习在医学领域到目前的成功应用有哪些?未来的发展方向是什么?
  39. 目前国内外哪些大学以及研究机构的生物信息学研究实力顶尖?
  40. 大部分的细菌病原菌鉴定使用 16s 的 v3、4 来进行,如果我采用 16s 的全长区域来进行鉴定,是否会比只用 v3、4 区域更加准确,同理使用全基因组是否比前两者更准确。有没有一些文献可以支撑。
  41. 有没有推荐的 ATAC-seq 数据分析 pipeline?
  42. 42. dbGap 队列 id 的后缀是神么意思?比如,phs000915 是个队列id,后面又是一路 v2 p2 c1。我发现 phs000915.v2.p2. c2已经通过了,而上面 c1 还在审核中
  43. 申请到 dbGap 权限后,如何快速在 Linux 下载数据
  44. limma 有没有办法把针对一个因素(例如样本来源)做一个矫正然后进行差异分析
  45. 在 LASSO 岭回归和弹性网回归中,以 -log(alph) 为横坐标,参数为纵坐标的参数计算路径应该怎么看,是怎么计算的?还有用 matplotlib.pyplot 画图的时候,给画出的每条曲线添加标签需要一条一条添加吗?可不可以一起添加?
  46. 非肿瘤疾病相关的数据库有哪些?除了 GEO 和 ArrayExpress
  47. 临床医生,有一定的R基础,有想法往人工智能/机器学习方向发展,Python, Perl 和Julia 只选一个的话建议选哪个?
  48. 请问一下,该如何理解单连接聚合聚类分析结果树形图中的'梯度'现象?
  49. 常见的聚类大致有划分聚类(kmeans 就属于此)还有层次聚类,密度聚类,网络聚类,模型聚类等其他类型,这些聚类的原理,用法有什么异同点?
  50. GEO 平台的 RNAseq 数据,如果不下载最原始的需要在 Linux 上 normalized 的dataset,可否直接下载 Supplementary file (ftp/http下载链接),然后直接用windows 在 R 中处理和使用?有什么注意事项?
  51. 一个妇女连续生了 9 个孩子,都是女儿,问第10次生下孩子还是女儿的概率多大?
  52. 能否利用 SVM 或者朴素贝叶斯的方式对 SNP 数据进行聚类分析?
  53. 科研论文写作有什么好的推荐学习材料?
  54. 在工作中主要接触到的是 SGE 和 PBS,目前也听朋友推荐使用 slurm。各位学习工作中常用的集群任务调度软件是什么?他们都有什么优势?
  55. 数据算法中,最短路径是怎么推理出来的?
  56. 0.168 法求最小值的方法,除了斐波那契方法外,启发性的思考还有没有更好的方法?
  57. 在使用 seurat3.0 时候进行批次矫正通常我们只会选用 2000 个基因来进行 并且进行scale 和降维可视化,但是有时候需要把这个 scale 输出时候也只有这 2000 个数据,所以如果想用 scale 数据在其他软件做分析 我们应该对原始的 2 万个基因做一次 scale后使用还是使用这种批次矫正后矩阵。并且还有一点 为什么批次矫正之后的 data 会存在负数?
  58. 有没有什么针对 Rcpp 的比较好的调试工具和技巧?
  59. 请问下大家,有用机器学习方法建模进行肿瘤预测相关的资料或者教程吗,或者是分析思路的文章,类似于综述或者比较经典的文章
  60. 如何平衡代码和学术之间的关系。在编程水平上是会的越多越好,还是会一些能用到的就好?有时候把过多时间放在研究程序上,忽略了学术本身。常常提醒自己,要做一个会编程的 researcher,而不是一个懂学术的程序员。不知道大家怎么平衡二者的关系。
  61. 请问大家知道什么数据库里可以下载当前所有蛋白质变体的信息吗? 就是 SNP 会导致对应蛋白质氨基酸发生变化的。还是说只能自己去下载所有 SNP 然后验证是否会导致氨基酸的变化
  62. 长序列比对有什么好用的工具或算法推荐么?
  63. 想尝试一些机器学习,深度学习在生物信息学中的应用,使用 R 语言可以进行么?还是需要使用 Python?
  64. 在 LASSO,岭回归和弹性网回归中,以 -log(alph) 为横坐标,参数为纵坐标的参数计算路径应该怎么看,是怎么计算的?还有用 matplotlib.pyplot 画图的时候,给画出的每条曲线添加标签需要一条一条添加吗?可不可以一起添加?
  65. 这段时间在学习 GISTIC,终于按教程把环境配置好,但是对于如何做 marker file 仍有不太明白,是否有合适的教程可以推荐学习?
  66. 最近被导师做工作,希望我转博,但本人更想要出国读博,希望大家给点建议。
  67. 中药数据挖掘,除了做化学成分-靶点-疾病互作网络,GO,KEGG 分析,PPI,分子对接,质谱之外,文本挖掘之外大家还见过哪些分析方法?
  68. 1000 Genomes 里面如何筛选 rare mutation?
  69. 微生物群落结构的网络分析中,为什么模块化分析在高丰度物种类群的分析效果好于普通丰度物种类群的分析效果? 模块化分析的物种丰度阈值的确定是怎样的?
  70. 关于数据质控,是不是只关注数据质量和接头就可以了?需不需要 fastqc 报告的结果都显示 pass 状态?
  71. 一般什么情况下需要用 Integrative Genomics Viewer (IGV)?
  72. R 语言画网络图有哪些好用的包,还是说建议学习使用 cytoscape?
  73. 使用 R 的图形设备输出图是有时候会发现第一页是空白页,第二页才有图形,这个问题有小伙伴探究吗?
  74. 请教下大家,有推荐学习 docker 的网站吗,适合入门级别的即可~
  75. 翻译一本英文书或者材料要准备什么呢?以及如何在 GitHub 上实现翻译书的网上阅读?
  76. R中的 base::transform() 和 dplyr::mutate() 有什么区别呢?
  77. 如何理解 Cancer cell fraction(CCF) 和 Purity
  78. 大家在正在用什么 IDE?所有语言都用一种 IDE,还是不同的语言用不同的 IDE(使用R语言时,用 R studio,使用 Python 的时候用 Jupyter Notebook)?
  79. XMind 的笔记用 FreeMind 作为中间格式转换成幕布后,图片问题有什么好方法解决吗?
  80. 大家平常都是用什么方法让自己在低迷期的效率不那么低的?
  81. 有小伙伴接触过同位素实验吗?操作β射线时(比如磷32)穿铅防护服有效吗,是不是会产生韧致辐射?
  82. 之前一直在用 Onenote 记录学习笔记,后来使用电脑换成 Ubuntu 之后,发现Onenote 网页版载入太慢,大家有没有什么推荐的云笔记记录方式,最好在 Linux 有客户端支持
  83. 大家测转录组的二代测序都用的是哪家公司呢?
  84. 王东岳先生所著《物演通论》中提出的“递弱代偿“原理, 结合生物学背景, 在实验方案设计和理论假说的提出过程中会有什么不一样的思维碰撞?
  85. 请问组蛋白跑 WB 与一般的 WB 相比有不同么?有什么要特别注意的细节么?
  86. 有没有谁有知道类似 KM plotter 的在线预后分析网址,目前的几种数据集比较有限。
  87. 使用 trimmomatic 过滤数据时,对于片段最小长度的设置有什么需要考虑的因素么?一般默认是36,文章里也很少提及。但是这是对于测序长度为 100 到 150 片段长度的测序数据。那如果数据的测序长度只有 36,该如何设置这个参数?
  88. 对于一个项目从头开始时,整体的布局有什么需要注意的地方?比如文档文件该怎么写,搭流程的时候有什么需要注意的地方?有没有什么坑可以提前预防一下?
  89. miRNA 测序数据正常样本太少,应该如何解决 GEO 数据库中同一平台的数据过少?
  90. 有没有软件可以预测药物与受体结合之后有没有内在活性呢?
  91. 我们实验室每周都会有一次文献阅读报告,基本上是自己挑一篇文献看完然后放ppt讲,其他人(事先没看过该文献)在底下听完,然后提问。可是我总觉得这种形式有点低效,有时会在介绍一些基础背景发面花很多时间。所以想了解一下大家所在的实验室是怎样开展文献阅读报告的?
  92. 100 例患者外显子测序数据,得到了 SNP 和 INDEL 突变信息,同时有患者服药后表型信息,如何将突变与服药后的表型联系起来,看是否是基因突变造成的药物反应不同? 有没有思路可以指点下,或者使用什么统计方法?
  93. 在 GEO 数据库里找到自己想要的数据集之后,怎么能看到作者用这个数据集发表的文章呢?
  94. 如果可以利用深度学习模型从科学文献的结构化和非结构化数据中提取各类信息(如omicX 目前可以实时自动化提取生信工具/数据集的各类元信息),大家都希望能够提取到哪些信息呢?
  95. 大家平常都是通过什么途径关注 R 语言新包的?
  96. 目前主要工作是做外显子测序数据分析,如何能将机器学习和工作这方面的内容结合?之前看得资料将测序分析和机器学习结合的较少,求推荐资料?
  97. PCA 与 SVD 都属于奇异值分解,有什么区别呢?
  98. 做免疫细胞组分分析,除了cibersort,timer 还有其他的方法吗?
  99. 如果将生信研究简单分为 sequence 和 structure 两类的话,这两类的研究思路上的共通点和主要差异分别是什么?
  100. “函数”的字面意思是什么?function 作”功能”或者“作用”的时候似乎很好理解,为什么最初会翻译成“函数”?比如 y=x+1,“这个式子的功能是把一个数加一”,比”这个函数是把一个数加一”很好理解。
  101. 最近临床科室工作特别繁忙,没有抽出足够时间学习,很是愧疚。我之前在 GEO 数据挖掘中的差异分析中,得到一个基因的是上调,而在 TCGA 则是下调,我考虑原因是其中一个样本量比较小,因此不够准确,准备放弃样本量小的。不知道有没有人遇到过这种情况?
  102. 在安装 conda 中的工具时,经常会遇到 zlib not found 的错误,类似这样偏底层的错误大家都是如何解决的呢?
  103. 如何通过 GTEx 数据库找到组织的特异性表达基因?
  104. GEO 数据集只有两个 sample,是不是就不能做差异分析?
  105. 请问各位有没有好的蛋白组学的学习资料可以分享一下?
  106. 最近在做一些关于二代序列 mapping 算法(seed-chain-extend)的课题,大家有没有什么推荐的学习资料?
  107. LASSO,被压缩为 0 的变量是如何被压缩的,和这些变量的什么特性有关?
  108. 请问大家有没有使用遗传算法解决生物问题的经验,都是用什么技巧避免过早收敛的问题?(我在做一个蛋白序列预测的项目,运行20代左右,排名前三的序列就会几乎完全一样。)
  109. 中美贸易战对中国的生物信息有哪些影响,中国该怎么解决?
  110. 国内送临床样本做外显子测序的公司有哪些推荐的?
  111. R function 怎么将一串数字切割成几个内含连续数字的向量。如:a <- c(11,12,13,16,19,20,21),怎么生成 c(11,12,13),c(16),c(19,20,21) 三个向量,有什么简单的方法吗?
  112. 申请博士的时候,和博士方向不太相关的研究经历可以放到 CV 里面么?
编辑于 2019-05-31

文章被以下专栏收录