生物统计学笔记

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

生物统计学笔记

生物统计学Statisticsistheintroductionofmathematicallanguageintospecificfieldsofscienc.Itisanartandscienceforcollecting,analyzing,showingandinterpretingdata. SourcesofrandomnessTheprobleminvolvesalargenumberofdata,cannotbefullystudied,canonlybeusedina"certainway"toinvestigatepartofit.Therandomerroroftheexperiment,thatis,theerrorcausedbytheuncontrolled,unrecongnizedfactorsinthetestprocess. TwomajorfactionsClassicalTheprobabilityofaneventcanbeexplainedbyalargenumberofrepeatedexperiments,andthisexplanationdoesnotdependonthecognitivebody.BayesAnyinferenceoftheparametersisnecessaryandcanonlybebasedontheposteriordistributionofparameters. CommonstatisticaltermsPopulation:Individual:Sample:asetofindividualsdrawnfromapopulationiscalledasample.Eachindividualthatmakesupasampleiscalledasampleunit.Thenumberofindividualsincludedinthesampleiscalledsamplesizeorsamplesizes,andthesamplecapacityisoftenrecordedasn. Generallyinbiologicalresearch,n<=30samplesareusuallycalledsmallsamples.thecalculationandanalysisofsomestaticsbetweensmallandbigsamplesaredifferent. Thebasiccharactersticofstatisticalanalysisistoinferthewholebysample.  Variablesandconstants DeviationanderrorDeviation:randomerror:samplingerrorsystematicerror:lopsodederror \n   生物统计学教学大纲2018年3月5日18:26 第一章 绪论(2学时)        主要内容:介绍课程的性质、内容和考核方式;了解生物统计学的发展历史和基本概念;通过具体实例说明生物体中随机现象的普遍性。        重点和难点:让学生认识到随机性在生命系统中具有普遍性。          1.生物统计发展历史          2.生物体中随机现象的普遍性第二章:试验·与特征数的计算(2学时)主要内容:试验资料的类型、收集与整理,层次分布表、直方图等收集和显示数据方式;特征数的计算,包括平均数、众数、方差、极差等。重点和难点:特征数的计算,平均数、众数、方差和极差的含义1.试验材料的收集与整理2.特征数的计算第三章:概率和概率分布(4学时)主要内容:大数定理;几种常见的理论分布,二项分布、泊松分布和正态分布;统计数的分布,t分布、χ2分布、F分布。   重点和难点:几种常见的理论分布和统计数的分布   1.概率基础知识   2.几种常见的理论分布   3.统计数的分布第四章:统计推断 (8学时)主要内容:假设检验的原理和方法,具体假设检验方法,包括u检验、t检验和方差的同质性检验;参数估计和点估计,非参数检验。   重点和难点:假设检验的原理和方法,具体假设检验方法   1.假设检验的原理和方法   2.样本平均数的假设检验   3.样本频率的假设检验   4.方差的同质性检验第五章:卡方检验(2学时)\n主要内容:卡方检验的原理和方法,Pearson定理;卡方检验的应用,适合性检验和独立性检验。重点和难点:卡方检验的原理和方法1.卡方检验的原理和方法2.适合性检验3.独立性检验第六章:方差分析(4学时)主要内容:方差分析、协方差分析的原理和方法,单因素、多因素方差分析,单因素、多因素协方差分析。   重点和难点:方差分析、协方差分析的原理和方法   1.方差分析的基本原理   2.单因素方差分析   3.二因素方差分析第七章:直线回归与相关分析(4学时)主要内容:直线回归的原理和方法,曲线拟合的原理和方法,相关分析的原理和方法。   重点和难点:重点是直线回归的原理和方法,相关分析的原理和方法   1.直线回归分析    2.直线相关第八章:试验设计及其统计分析(2学时)主要内容:试验设计的基本原理,常用试验设计和分析方法。   重点和难点:重点是试验设计的基本原理,难点是每个原理的具体实现方式和相关分析方法。   1.试验设计的基本原则:重复、随机和局部控制   2.局部控制的方法:比对设计、随机区组设计和拉丁方设计等第九章:扩展知识(4学时,理论课)主要内容:课程项目实践相关知识,包括统计学和生物学相关基础知识,如多重检验和小样本检验等统计学知识,以及DNA突变和单核苷酸多态性、基因型与表型、转录因子结合等生物学知识。   重点和难点:生物学和统计学之间的内在逻辑关系   1.DNA突变、转录因子结合、表型之间的联系   2.课程项目实践和统计学在各个环节的衔接关系实践环节:课程项目实践(16学时,上机操作)主要内容:根据生物统计学基本原理约设置4个生物学问题,在教师提供数据和具体解析待解决生物学问题的前提下,学生自行完成项目。项目结果以书面报告形式和课堂展示两种方式进行。\n   重点和难点:通过课程项目实践使学生初步具备应用统计学基本概念和方法分析并解决具体生物问题的能力。        1.模式生物基因组GC含量特征或基因突变方向特征         2.基因型和表型关联分析        3.转录因子结合位点        4.自由选题 来自 生物统计学概念及主要内容2018年3月9日19:54 Theconceptandmaincontentofbiostatistics Concept:Biostatisticsistheapplicationofmathematicalstatisticsinbiologicalresearch SourcesofbiologicalrandomnessVariability,uncertainty,complexity\n Collationofdata&caculationofthecharacteristicnumber2018年3月9日20:03 Typeoftestdata:Collectionandcollationoftestdata Quantitativecharacterisacharacterwhichcouldbecountedormeasured,thedatagetinthiswayiscalleddataofquantitativecharacteristicsThequantitativetraitdataisdividedintotwokinds,discretetypeandcontinous. Qualitativecharactermeansthecharacterwhichcouldbemeasureddirectly.Thedataobtainedfromtheobservationofqualitytraitsisthequalitycharacterdata.Thistypeoftraitcannotbedirecylyusedasanumericalvalue,toobtaindataonsuchtraits,itisnecessarytoquantifytheresultsoftheirobservations. Collectionoftestdata:Overall,samplesRandomsampingmustmeet2conditions:EqualopportunityofeachindividualbeingdrawninthewholeIndependentofeachotherinthewhole,whetherbeingdrawnisnotaffectedbyotherindividual. Finishingoftestdata:Theformulationofthedistributiontable Thecaculationofthecharacteristicnumber2018年3月11日\n16:47 Thedistributionofvariableshastwodistinctbasiccharacteristics:centealizationanddispersionArithmeticmean:thesummeansthenumberMedian:thenumberstandingatthemiddleofthelineMode:thevaluethathasthemostoccurrencesoftheobservedvalueGeometric:Applicationscope:thegeometricalmeannumberisapplicabletothelogarithmicnormaldistributionofvariablex,andthedataofnormaldistributionafterlogarithmictransformation.Harmonicmean:Thereciprocalofthearithmeticmeanofthereciprocaloftheobservationsinthedata Theimportantnatureofarithemeticaverages:\n ThesumofthedeviationsisequaltozeroThesquaresumofthedeviationisminimum Range:thedifferencebetweenthemaximumvalueandtheminimumvalueofasamplevariableVariance: Standarddeviation: Thecharacteristicsofstandarddeviation:Thesizeofthestandarddeviation,affectedbymultipleobservations,iftheobservationnumberoflargedifferencesbetweenthedifferenceisalsolarge,andviseversaissmall \nCoefficientofvariabilit:CV=s/x×100%Thedegreeofrelativevariabilityofdifferentsamplescanbecompared Probabityandprobilitydistribution2018年3月12日12:40 Theconcept:Wheatherornotsomethinghappens Frequency:thenumberofoccurrencesoftheeventdicidedbythetotaltimesProbability:thefrequencyobtainedafterextensivetestings,whichisanapproximatevalue.Classocalprobabilty:theprobablityiscalculateddirectyfromthecharacteristicsoftheevent.Geometricprobablityisconsideredasarandomexperimentwithaninfinitenumberofpossiblebasicevents Theaxiomaticdefinitionofprobablity: Caculationofprobability:Plot&andevents,mutexevents,opposingevents,independentevents,completeeventsystem Thelawofprobabilitycaculation:theadditiontheoremofmutexevents.定理:若事件A与B互斥,则P(A+B)=P(A)+P(B)推理1P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An)推理2P(A)=1-P(A)推理3完全事件系的和事件的概率为1。\n Probabilitydistributionofdiscretevariables ProbabilitydistributionofcontinuoustypevariablesTheprobabilitydependonthedistributiondensityfunction Lawoflargenumbers:Chebyshevinequalities:   Berrnoulli'slawoflargenumbers:\n Sinchinlawoflargenumbers:  第二节:几种常见的理论分布:二项分布:实验只有两个对立结果,具有重复性和独立性二项分布的形状和参数:p值较小且n不大时,分布是偏倚的,随着n的增大,分布趋于对称;当p趋于0.5时,分布趋于对称  当n足够大时,符合泊松分布泊松分布函数的推导:\n 正态分布:特征:分布曲线由μ,σ决定,前者确定曲线中心位置,后者确定正太分布的变异度\n  他方分布:  \n特征:(1)χ2分布于区间[0,+∝)。(2)χ2分布的偏斜度随自由度降低而增大,当自由度df=1时,曲线以纵轴为渐近线。(3)随自由度df的增大,χ2分布曲线渐趋左右对称,当df>30时,卡方分布已接近正态分布。 t分布 \n(1)t分布曲线是左右对称的,围绕平均数μt=0向两侧递降。(2)t分布受自由度制约,每个自由度都有一条t分布曲线。(3)和正态分布相比,t分布顶端偏低,尾部偏高,自由度df>30时,其曲线接近正态分布曲线,n→∝时则和正态分布曲线重合。 F分布: \n(1)F分布的平均数μF=1,F的取值区间为[0,+∝)(2)F分布曲线的形状仅决定于n1和n2。在n1=1或2时,F分布曲线呈严重倾斜的反向J型,当n1≧3时,转为左偏曲线。    统计数的分布如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。现有一N=3总体,具有变量3,4,5,可以求出μ=4,σ2=0.6667,σ=0.8165。现以n=2作独立的有放回式抽样。\n中心极限定理: 样本平均数差数分布:(1)样本平均数差数的平均数=总体平均数的差数. (2)样本平均数差数的方差=两样本平均数方差之和.\n样本平均数差数的标准误差(3)从两个独立正态分布总体中抽出的样本平均数差数的分布,也是正态分布。  \n  \n统计推断2018年4月16日21:39 假设检验的原理与方法一概念:假设检验(hypothesistest)又称显著性检验\n(significancetest),就是根据总体的理论分布和小概率原理,对未知或不完全知道的总体提出两种彼此对立的假设,然后由样本的实际原理,经过一定的计算,作出在一定概率意义上应该接受的那种假设的推断。小概率原理概率很小的事件在一次抽样试验\n中实际是几乎不可能发生的。小概率事件在一次抽样中基本上不会发生。二、假设检验的步骤例:设矽肺病患者的血红蛋白含量具平均数m0=126(mg/L),s2=240(mg/L)2的正态分布。现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x=136(mg/L)。问:该药物治疗是否有效?\n治疗后n=6x=136那么mx=m0?即克矽平对治疗矽肺是否有效?1、提出假设\n例:克矽平治疗矽肺病是否能提高血红蛋白含量?x-m0=136-126=10(mg/L)这一差数是由于治疗造成的,还是抽样误差所致。平均数的假设检验\n检验治疗后的总体平均数m是否还是治疗前的126(mg/L)?本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。2、确定显著水平能否定H0的人为规定的概率标准称为显著水平,记作a。统计学中,一般认为概率小于0.05或0.01的事件为小概\n率事件,所以在小概率原理基础上建立的假设检验也常取a=0.05和a=0.01两个显著水平。3、选定检验方法,计算检验统计量,确定概率值根据研究设计的类型和统计推断的目的选择使用不同的检验方法。\n4、作出推断结论:是否接受假设小概率原理P=0.1142>0.05\n所以不能拒绝H0,从而得出结论:使用克矽平治疗前后血红蛋白含量未发现有显著差异,其差值10应归于误差所致。三、双尾检验与单尾检验\n \n四、两类错误\n \n \n1、当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加。\n2、n,s2可使两类错误的概率都减小.如果从正态总体N(μ,σ2)进行抽样,其样本平均数N(μ,σ2/n)。辛钦大数定律  \n方差的同质性检验一、一个样本方差的检验---正态总体\n例:已知某农田受到重金属的污染,经抽样测定其铅浓度为4.2,4.5,3.6,4.7,4.0,3.8,3.7,4.2μg·g-1,样本方差为0.150(μg·g-1)2,试检验受到污染的农田铅浓度的方差是否与正常农田铅浓度的方差0.065(μg·g-1)2相同。1、此题为一个样本方差与给定方差的同质性检验,使用检验。2、样本方差S2、给定方差和自由度已知\n3、双尾检验二、两个样本方差的检验---正态总体\n例:两个小麦品种千粒重(g)调查结果品种甲:50,47,42,43,39,51,43,38,44,37\n品种乙:36,38,37,38,36,39,37,35,33,37即sX2=22.933,sY2=2.933,nX=nY=10,检验两种结果方差是否有显著差异1、此题为通过两个样本检验总体方差的同质性,使用F检验。2、两个样本方差S2和自由度已知3、双尾检验\n \n   样本平均数的假设检验一、一个样本平均数的检验1、总体方差σ2已知,采用u检验法---正态总体\n例:某鱼场按常规方法所育鲢鱼一月龄的平均体长为7.25cm,(标准差为1.58cm)现采用一新方法进行育苗,一月龄时随机抽取100尾进行测量,其平均体长为7.65cm,标准差为1.58cm,\n问新育苗方法与常规方法有无显著差异?(1)这是一个样本平均数的假设检验,因总体σ2已知,采用u检验;(2)新育苗方法的鱼苗体长≥或≤常规方法鱼苗体长,应进行双尾检验。\n2、总体方差σ2未知\n例:某鱼塘水中的含氧量,多年平均为4.5(mg/L),该鱼塘设10个点采集水样,测定含氧量为:\n4.33,4.62,3.89,4.14,4.78,4.64,4.52,4.55,4.48,4.26(mg/L)试检验该次抽样测定的水中含氧量与多年平均值有无显著差别。(1)这是一个样本平均数的假设检验,因总体σ2未知,n=10<30,可用s2代替σ2进行t检验;(2)该次测定的水中含氧量可能>或<多年平均值,用双尾检验。\n例:生产某种纺织品,要求棉花纤维长度平均为30mm,现有一\n棉花品种,以n=400进行抽查,测得其纤维平均长度为30.2mm,标准差为2.5mm,问该棉花品种的纤维长度是否符合纺织品的生产要求?(1)这是一个样本平均数的假设检验,因总体σ2未知,可用s2代替σ2进行t检验;(2)棉花纤维只有>30mm才符合纺织品的生产要求,因此进行单尾检验。\n二、两个样本平均数的假设检验\n \n \n \nσX2与σY2未知且不等\nnX=nY=n,配对试验的t检验\n方差未知,单个平均数的假设检验,t检验\n \n \n例:某杂交黑麦从播种到开花的天数的标准差为6.9d\nA法:调查400株,平均天数为69.5dB法:调查200株,平均天数为70.3d试比较两种方法所得黑麦从播种到开花天数有无显著差别。(1)这是两个样本平均数比较的假设检验,σA2=σB2=(6.9d)2,用u检验(2)因事先不知A、B两方法得到的天数孰高孰低,用双尾检验。\n例:用高蛋白和低蛋白两种饲料饲养一月龄大白鼠,在\n三个月时,测定两组大白鼠的增重(g)高蛋白组:134,146,106,119,124,161,107,83,113,129,97,123低蛋白组:70,118,101,85,107,132,94试问两种饲料饲养的大白鼠增重量是否有差别?(1)这是两个样本平均数的检验,σX2和σY2未知且不知是否相等,nX=12且nY=7,统计量的构造依赖方差是否相等。\n(2)事先不知两种饲料饲养大白鼠增重量孰高孰低,用双尾检验。\n \n品种甲:50,47,42,43,39,51,43,38,44,37品种乙:36,38,37,38,36,39,37,35,33,37例:两个小麦品种千粒重(g)调查结果检验两品种的千粒重有无差异。(1)σ12和σ22未知,且不知是否相等,但是nX=nY,用t检验,但是统计量的构造依赖方差是否相等。\n(2)事先不知道两个品种千粒重孰高孰低,故而用双尾检验。\n  \n\n例:动物饮食配对实验,测定肝中维生素A含量如下:动物配对正常饲料维生素E缺乏差数(d)1355024501100220002400-400330001800120043950320075053800325055063750270010507345025009508305017501300问:两组实验肝中维生素A含量是否有显著性差异?\n\n非正态总体的假设检验二项分布(单个样本)洞察力某人随机抽取25张牌,并且确定每张牌的花色,答对的次数记为X。我们想通过X的观测值确定此人是否具有洞察力。\n检测假设假设无洞察力(仅仅靠猜)p=1/4具有洞察力p>1/4统计量(或随机变量)的确定X:此人答对的次数统计量的分布:\nX服从二项分布,P{X=k}=Cnkpk(1-p)n-kn=25,k是观察值,p未知且需要检验零假设的确定:H0:p=1/4;H1:p>1/4;单尾检验显著性检验水平的确定通常:由α=0.01或α=0.05。计算统计量\n根据试验者的答对的次数,计算其随机猜中的概率。推断由小概率事件原理进行推断\n \n \n \n \n例:有一批蔬菜种子的平均发芽率为0.85,现随机抽取\n500粒,用种衣剂进行浸种处理,结果有445粒发芽,检验种衣剂对种子发芽有无效果?(1)一个样本频率(二项分布)的假设检验;(2)np和nq>30,无需连续矫正,用u检验;(3)不知使用种衣剂的发芽率是高是低,用双尾检验。\n \n \n例:研究地势对小麦锈病发病的影响低洼地麦田378\n株,其中锈病株342株;高坡地麦田396株,其中锈病株313株比较两块麦田锈病发病率是否有显著性差异。(1)2个样本频率的假设检验,二项分布;(2)np和nq>30,无需连续矫正,用t检验(或u检验来近似);(3)事先不知两块麦田的锈病发病率孰高孰低,用双尾检验。\n例:某鱼场发生了药物中毒,抽查甲池中的29尾鱼,\n有20尾死亡,抽查乙池中的28尾鱼,有21尾死亡鱼的死亡率是否有显著性差异。(1)2个样本频率的假设检验,二项分布;(2)5TA->GA->CTT->A\T->GT->CGG->AG->T\G->CCC->AC->TC->G\ 建议合并,如G->A和C->T合并成GC->AT1、不同突变方向在基因序列和基因间序列是否具有显著差异?2、不同突变方向是否有显著性差异(可以不区分基因和基因间序列)? SNPRecently,numerousgenomeanalysesrevealedtheexistenceofauniversalDNAmutationbiasinbacteria,fungi,plantsandanimals,namely,G:C→A:TmutationsaremorefrequentthanA:T→G:Ccounterparts. Evidenceforthemutationbias\nEvidenceforthemutationbias\n \nFigure.Relativeratesofthesixnucleotidepairmutationsinhumangenomes Well-knownDNAmutationmodelsCpGhypermutationmodelOxidativedamagemodelUV-radiationdamagemodel BUTCan’tprovideasufficientexplanationtotheuniversalmutationbiasFigure.DNAmutationcausedbyspontaneousdeaminationof5-methylcytosinevs.spontaneousdeaminationofcytimidine\n  Darwinianevolution \nMendeliangenetics \n 课程项目二2018年4月15日19:02 课程项目2背景简介1:ChIP-Seq\nChromatinImmunoprecipitation(ChIP)ChromatinImmunoprecipitationisatechniqueforassayingprotein-DNAbindinginvivo\nAntibodiesareusedtoselectspecificproteinswhichenrichesforDNA-fragmentsthatareboundtotheseproteinsSelectedfragmentscanbesequencedonmodernNGSplatform(ChIP-seq).  MethodsforPeakdetectionChIP-SeqPeakFinder:Genome-widemappingofinvivoprotein-DNAinteractions.Science-Johnson2007-1441.pdfModel-basedAnalysisofChIP-Seq(MACS).GB-Zhang2008-r137.pdfDesignandanalysisofChIP-seqexperimentsforDNA-bindingproteins.NBT-Kharchenko2008-1351.pdfCisGenome:AnintegratedsoftwaresystemforanalyzingChIP-chipandChIP-seqdata.NBT-Ji2008-1293.pdf\nPeakSeqenablessystematicscoringofChIP-seqexperimentsrelativetocontrols.NBT-Rozowsky2009-66.pdf 背景简介2:多重比较Multipletestingproblem:supposewehaveanumbermofnullhypotheses,denotedby:H1, H2, ..., Hm.Usingastatisticaltest,werejectthenullhypothesisifthetestisdeclaredsignificant.Wedonotrejectthenullhypothesisifthetestisnon-significant.Forexample,ifonetestisperformedatthe5%levelandthecorrespondingnullhypothesisistrue,thereisonlya5%chanceofincorrectlyrejectingthenullhypothesis.However,if100testsareconductedandallcorrespondingnullhypothesesaretrue,theexpectednumberofincorrectrejections(alsoknownasfalsepositiveorType1errors)is5.Ifthetestsarestatisticallyindependentfromeachother,theprobabilityofatleastoneincorrectrejectionis99.4% ControllingprocedureIfkindependentcomparisonsareperformed,thefamily-wiseerrorrate(FWER),isgivenbyIfwedonotassumethatthecomparisonsareindependent,thenwecanstillsay\n Family-wiseerrorrate:Bonferronicorrection: ThesettingsformanyproceduresissuchthatwehaveH1,…,HmnullhypothesestestedandP1,…,Pmtheircorrespondingp-values.Welistthesep-valuesinascendingorderanddenotethembyP(1),…P(m).Benjamini–HochbergprocedureFalsediscoveryrate(FDR): 原假设:reads随机地落在基因组上分布特征:B(n,p),近似为泊松分布计算P值\nP值越小,越表明测序reads落在该DNA区间不是随机的,从而说明蛋白质结合具有偏好性注意事项蛋白质跟DNA结合位点具有一定范围,可能不是单个位点DNA读段具有偏好性不天然等价于结合位点(数据除了随机误差,还可能具有系统偏好性) 课程项目2蛋白质和DNA结合位点定位 
查看更多

相关文章

您可能关注的文档