第一百零一章生物与大数据的关系(1/2)

作品:《学医路漫漫

前言:我们需要联合数学,盘算机科学和生物才干对生物科研有更好的领导作用。

生物学的科研在经历一场科学范式的转变,如同开普勒对其老师第谷的天文数据的收拾提出的开普勒三大定律,然后有牛顿进一步抽象得到的万有引力定律,甚至到了哈密顿系统,通过结构精巧的数学结构,我们能够基于有限的假设解释很多复杂的行动。

当初物理学是这样走过来的,如今轮到生物学了,但是与之前的数学结构的抽象不同,我们更多的是数据驱动的模型开发,通过一系列的属性定义来过早高维空间,从而能够在这个层次进行各种分类聚类降维回回分析。

也就是说,我们通过机器学习等等算法来懂得复杂的数据,提取出必定的具有生物学意义的模式,我们运用到数学,但已经不是通过数学来直接解释。

与还原论的数学公式不同,这实际上就是一种系统论的思路。在这个大数据的层次懂得各种生物过程:将生命分为群体-个体-系统-器官-组织-细胞-细胞器-分子层次,在细胞的分子通路层次,我们可以进一步的进行分类,如将细胞这个生物实体分解为分化增殖凋亡决裂等等生物过程,找到相干的表达具有特异性的基因/蛋白质/信号通路,并且以这些可以定义的对象为基础,构建复杂的接洽。

以线性代数的思想,就是将这些分类视为线性无关的基底,然后具体的线性组合就对应于各种复杂的生物过程,我们以矩阵的情势来存储,而且我们可以以矩阵的变换来懂得动态的生物过程,比如说山中伸弥将四个转录因子转进成纤维细胞使得其能够逆分化为多能干细胞=b,我们就可以懂得为代表成纤维细胞的矩阵(基因表达图谱)乘以四个转录因子(高表达)得到的新矩阵与代表胚胎干细胞的矩阵有必定的类似性,即多能干细胞细胞。

从而我们能够以这种思路来懂得生物可能的所有机制。因此如何找到不同阶段的细胞乃至于不同细胞之间的处理矩阵就是我们懂得的机制。

只是以所有基因来构建这样的矩阵维度太多,盘算的复杂度也很高,因此,我们需要压缩这个矩阵,一般都是通过表达具有特异性的有限对象(如生物标记物分子。

有明显的高低调表现),然落后行富集分析,将其整合到已有的信号通路(数据库和数据库),然后可以与更高层次的分化增殖凋亡决裂等等生物过程构建接洽,最后上升到细胞层次,乃至于器官的健康层次。

这就是微积分基础定理所解释的函数和原函数层次的关系,高维层次的简略运算可以等价于低维层次的复杂运算,如细胞的决裂在细胞层次是简略的决裂,但其底层涉及到很多的信号通路,所以,我们能够通过底层的基因表达变更加和起来,升维到高维层次的分化增殖凋亡决裂等等生物过程。

我们可以通过结构必定的持续函数来代表这些过程,本质上这些矩阵的变更就是函数的映射。

而我们假设这些过程的变更是持续的(我们认为分子层次处于亚微观层次,因此我们不必考虑到量子层次的离散),于是我们可以进一步地将这些函数展开为级数之和,最经典的就是傅里叶级数,能够将周期函数分解为正交的三角函数之和(还有系数)。

这里存在一个隐含的假设,即函数是可积的,这样级数才干收敛到本来的函数。

这是通过性质的存在性来最后找到具体存在情势的思路。由于我们假设无穷细分时的变更的关系是固定的,如基因之间表达高低调(变更即导数,=)。

而且我们认为这些基因的表达关系可以以必定的函数表现(假设其存在性,以傅里叶级数表现),然后我们可以通过其具有的性质来找到具体的系数,假如能够收敛则我们视为成功结构这种关系。

我们假如能够分解为三角函数的和,即提取出更为本质的属性即频率,然后我们就可以通过频率的选择性组合(频域)来作为本来函数(时域)的变换了。

而这些频率可以就对应于生物中的信号通路,这种分解可以认为是还原论的思路。

于是我们就可以在微积分和线性代数之间构建必定的接洽:线性代数就是函数分解展开的一系列级数之和。

以上是理想情况下,我们以基因表达的程度来指代细胞,从而在这个层次进行各种复杂的变换运算来指代生物过程的变更,为我们发掘出具有生物学意义的变更供给根据。

但其基于太多假设,而实际上,基因的表达是受到多方面的调控的:基因的结构(内含子和外显子交替排列,还有一些其他的调控区域,如盒,盒,启动子,加强子),基于中心法则的r和蛋白质的润饰(剪往内含子,使得外显子能够不断为蛋白质;核糖体翻译r得到的蛋白质需要进一步的润饰),染色质重塑子,组蛋白的润饰/表观遗传学(组蛋白-r区域方便转录因子联合从而开启转录)因此,在数学的层次可以懂得为乘以一个又一个的新矩阵,进行新的变换。

因此基因表达网络是复杂的,有多种调节基因表达的方法,如核小
本章未完,请翻下一页继续阅读......... 学医路漫漫 最新章节第一百零一章生物与大数据的关系,网址:https://www.555d.org/383_383912/104.html