生信
生信其实主要做了四件事情,筛选差异基因,功能富集分析,互作网络分析和预测临床意义。
这四方面可以更精确地概括为“挑圈联靠”四字口诀,咱们仙桃工具的板块也是按照这个口诀进行分类的
挑,指的是表达差异
科研的一个重要目的就是要寻找不同,只有事物的不同之处,才能激起大家的兴趣,
引发好奇,为什么会出现这样的差异,研究才有意义。
找到差异,成功解释,一个好的故事就讲完了。
差异有很多种,比如空间上的差异,正常样本与疾病样本之间,癌旁组织与癌组织之间;
或者时间上,疾病不同演进阶段的差异;或者是观测方法带来的差异,例如不同平台和不同技术之间的差异。
通过这几类差异,以及这些差异之间的组合,我们找到我们最想讨论,或者解释得了的那个差异,找出引发差异的原因,这里通常要么是关键基因,要么是不同的用药处理。一个漂亮的解释就完成了。
圈,指的是聚类分析
这世界上,既然有从相同中寻找差异,逆向思维,自然就有从差异中寻找相同。
生物体是远比数学理论和物理模型更加复杂的系统,所以更迫切需要从中做出合适的归纳总结。这也就是聚类分析。
聚类分析主要分为两种情况:
一个在混在一起的样本中,对样本做出分组,看看能不能有区分度地分为几组。这样的分析主要是为了科研中最常见的分组实验,检查样本的质量。
另外一种就是表达和功能的聚类,就是在获得的基因列表或者基因表达矩阵中,把具有相似功能的基因归类到一起,和生物学表型关联起来,建立表达和功能的相关关系,对生物学功能/相关的通路机制进行预测分析。
联,指的是交互网络
除了机械的“找茬“(差异分析)和归纳,找寻生命世界中错综复杂的联系网络也是很多人感兴趣的焦点。
这样的交互网络有两大类:
其一是化合物与分子的调控关系,可以预测药物小分子的作用靶点、耐药靶标;也可以反过来由靶标分子反向预测可能作用的药物小分子;为药物开发提供指导。
另一类是生命体内分子与分子之间的间接与直接调控关系,可以预测蛋白-DNA转录因子的DNA结合位点,可以预测蛋白与蛋白之间的共表达网络、邻近基因网络、相互作用网络,可以预测RNA与RNA/DNA/蛋白的相互作用;研究生物体内生物大分子的作用机制。
靠,指的是临床意义
人们对科学最大的需求就是指导现实问题,也就是有预测作用,
特别是对于医生,要在病人症状还轻时,对接下来病情的发展和对应治疗措施有提前预判,也就是临床意义。
临床意义包括三表一图的统计性分析,也包括构建临床预测模型的预测性分析。
三表一图包括,基线资料表、单因素、多因素、生存曲线图。临床预测分析主要是对于预后、诊断、复发三方面的预测分析。
包括构建cox回归模型的,C值的C-index
🎈3、怎样操作生信?(术)
小桃子:
我们通过“道”对生信有了具体了解,但如果没有具体执行的措施,一切也只会是空谈。
这时就需要“术”了。
小桃子:
数据库
一个是学习如何用现有的生信可视化网站,进行预测检索或者一站式出图。
常见的数据库包括GEPIA, Cbioportal, Oncomine, KM-plotter和Timer等。
还有一方面是学会如何在生信分析网站上,下载基因的测序数据、临床患者资料和预测分析的结果,再用软件进行二次分析。
常见的数据库包括👉TCGA, Geo, ArrayExpress, JASPAR和StarBase等。
🎈4、如何选择最有效的生信学习的路径?
首先是对新知识的了解-学习-模仿,能够对体系有了解,能照着完整做下来,接下来就是对出现的问题进行交流-创新。
1)了解学习
先关注一些生信公众号,对生信关注的话题有一个大致的印象。了解生信是什么,怎么用,如何用,哪些对我有用,我想学习哪些生信技能,预计多长时间。
同时大量输入学习生信,通过阅读生信相关的文献,了解生信的基本分析套路和宏观逻辑框架,学习挑圈联靠相关的生信文章复现,再按图索骥,根据文章内容学习自己不会的生信分析。
2)模仿复现
根据已有的教程,按照从易到难,对生信文章进行复现分析,不要求完美重现原来的结果,只要求一步步复现完整的正确的流程,掌握方法。
3)交流修正
操作过程中肯定会遇到很多报错或者自己不理解的地方,这时候就要发挥网络平台和社群的力量了。
有遇到的报错或者难题都可以去百度进行搜索就足够了,一般国内学习者常见的问题很容易被检索到,搜索页的前五页,一般总能找到你需要的答案。
或者你的英语很好,可以去谷歌,首页就能看到很多讨论与问答,会得到更系统更详细的解答。
4)创新
根据最新的研究热点,依据现有的模块逻辑和科研热点,进行新的迁移应用分析。
比如前面的新冠疫情,不同场景的再应用,也催生了不少相关的生信文章。还有多组学分析、泛癌分析、m6A甲基化分析、可变剪切和SNP分析等等。都可以再排列组合地分析。
只要言之成理,符合统计学原理和挑圈联靠的论证逻辑,自己能圆成一个完整的故事即可。
如果你严格按照这几步执行,相信不出几个月,对生信的驾驭就会有所小成,写论文做课题也更加得心应手
随着生物科学技术的迅猛发展,数据资源急剧膨胀,大量多样化的生物学数据资料产生,迫使人们寻求一种强有力的工具去组织这些数据,以利于存储/加工/分析和进一步使用,从而发现其中所蕴含的重要生物学规律!
在大数据时代,数据分析无疑是最红火的技术之一。医学数据分析已经成为当前的热门领域,它是医学/统计学和计算机科学等领域的交叉学科,数据分析离不开工具
在生物统计学中,P值和Padj值(也称为校正P值)是两个常用的概念,它们在分析实验数据时起着重要的作用。P值通常用于假设检验,以确定统计分析结果是否具有统计显著性。如果P值小于选定的显著性水平(通常为0.05),则拒绝零假设,支持备择假设,即存在显著差异。然而,P值并不提供关于结果重要性的信息,它只是表明在零假设为真的情况下观察到当前结果或更极端结果的概率。
Padj值是对P值进行多重比较校正后的值,用于控制假发现率(False Discovery Rate, FDR)。在进行多个假设检验时,比如在转录组分析中检测数千个基因的表达差异,即使使用P < 0.05的标准,也可能产生大量的假阳性结果。Padj值通过调整P值来控制这种假阳性的比例,使得在所有声明为显著的结果中,假阳性的比例保持在一个较低的水平,例如5%。
在实际应用中,当数据涉及多重比较时,通常推荐使用Padj值而不是原始P值。Padj值提供了一种更加保守的显著性判断,有助于减少由于随机性导致的假阳性发现。例如,在转录组测序报告中,DESeq表和GO富集分析表中的P值实际上是相同的,只是在不同的表中被称为Pvalue或corrected Pvalue1。同样,FDR和Padj也是相同的概念,只是在不同的表中命名不一致1。
在选择使用P值还是Padj值时,如果研究涉及多重比较,如转录组分析中的基因表达差异检验,应优先考虑Padj值。Padj值通过控制FDR,减少了假阳性的数量,提高了显著性结果的可靠性。在某些情况下,如果Padj值大于0.05,而原始P值小于0.05,这可能表明虽然某些结果在单一比较中显著,但在考虑了多重比较后,这些结果可能不再显著2。
总的来说,P值和Padj值都是重要的统计工具,但它们在不同的情境下有不同的应用。在涉及多重比较的情况下,Padj值提供了一个更严格的显著性判断标准,有助于提高研究结果的可靠性和准确性。