周一至周五 | 9:00—22:00

期刊论文网 > 医学论文 > 肿瘤学论文 > 数据挖掘在肿瘤癌症医学中研究的文献参考论文

数据挖掘在肿瘤癌症医学中研究的文献参考论文

2018-12-11 10:41:54来源:组稿人论文网作者:婷婷

  摘要: 本课题介绍数据挖掘的基本原理以及在癌症医学领域的应用,并从文献学角度统计分析数据挖掘在癌症医学领域中的科研现状。通过检索中国知网中文数据库的数据挖掘与癌症医学方面的相关论文,得到学术性论文和毕业设计论文共114篇,对这些文献的时间分布、地域分布、单位分布、期刊分布和主要内容等方面进行多角度文献分析。数据挖掘技术在癌症医学中已经被广泛的应用。

  关键字:数据挖掘;癌症医学;文献 ;统计分析

  引言

  随着数据挖掘技术的快速发展,我们在各个方面积累的各种数据正以指数方式增长。癌症医学信息发展产生大量纷繁复杂的临床数据,现代社会不断进步的现状要求实时的和深层次的研究这些复杂的数据,用来发现这些数据背后隐藏的有用的信息,即描述这些数据的整体特点以及预测其整体的发展趋势。为研究数据挖掘在癌症医学中应用的现状,本文对此领域相关文献进行统计分析。

  1 数据挖掘技术

  1.1 数据挖掘概述

  数据挖掘技术是当前信息社会研究的热点的问题,简单来说,数据挖掘其实就是从大量的数据中,经过统计、分析、总结,从而得出一系列的先前并不知道、并且非常有价值的信息的过程。数据挖掘是一种基于人工智能、统计学、可视化等技术的决策支持过程,智能化的对数据进行分析和归纳性总结,以发现隐藏在这些数据背后的模式和规律。数据挖掘是通过数据准备、规律寻找和规律表示这三个步骤对数据进行分析对比,从海量的数据中分析总结出其中规律的技术。数据准备就是要从数据库中选取研究的课题所需的数据,并整理成方便运用到数据挖掘中去的数据集;规律寻找指的是通过一定的方法,从数据集中寻找出规律;规律表示指的是运用一些通俗易懂的表达方式将你所发现的规律表示出来。分类技术是数据挖掘中运用的较多的一种技术。各种分类算法都有各自的特点,并且使用的领域也各有不同。当前信息化社会快速发展的背景下新技术和领域层出不穷,所以对分类方法也有了不同于以前的要求。

  1.2 数据挖掘的模式方法

  数据挖掘的方法主要有:关联分析、聚类分析、预测、时序模式分析和偏差分析等。

  常见和应用最广泛的算法和模型有[4]:

  1、传统统计方法:抽样技术、多元统计分析和统计预测方法等。

  2、可视化技术:用图表等方式把数据特征直观地表述出来。

  3、决策树:利用一系列规则划分,建立树状图,用树形结构来表示决策集合,可用于分类和预测,常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

  4、人工神经网络:模拟人的神经元功能,从结构上模仿生物神经网络,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘、回归分析等多种数据挖掘任务。

  5、遗传算法:基于自然进化理论,在生物进化的概念基础上设计的一种优化技术,它包括基因组合、交叉、变异和自然选择等一系列过程,通过这些过程以达到优化的目的,模拟基因联合、突变、选择等过程的一种优化技术。

  6、关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…∧An→B1∧B2∧…∧Bn”。一般分为两个步骤:第一步,求出频繁数据项集;第二步,用频繁数据项集产生关联规则。

  7、最近邻技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来做聚类和偏差分析。

  1.3 数据挖掘在癌症医学中的应用

  近年来,数据挖掘技术在癌症医学领域中的研究也取得很大的进展。例如,在癌症发病率的预测方面,数据挖掘技术为研究人员提供一个实用的筛选工具,大大提高发现癌症致病基因的便利程度,还保障肿瘤发病机制的进一步阐明。数据挖掘技术结合一系列的医学方面的技术,使早期癌症的诊断更为精准。而且通过数据挖掘技术分析癌症的相关指标数据,使得癌症医学研究人员能更有效地分析预测癌症患者的存活几率。随着现在社会的不断进步以及信息化社会的飞速发展,数据挖掘技术在癌症医学中的研究有广阔发展前途。

  2 材料和方法

  2.1 资料来源

  在淮北师范大学图书馆的中文数据库中,以“数据挖掘”、“癌症”为关键字,检索得到共114篇文献,除去会议性等记载不详文献,本课题研究的文献共111篇。主要分为学术性论文和毕业设计论文两部分。

  2.2 数据库建立

  采用Excel工具对在中国知网上检索出的以数据挖掘和癌症医学为检索关键字的文献进行统计,首先制定excel电子表格,对于学术性论文,按照文献名称、主要内容、著者姓名、著者单位、地区分布、发表地方、基金项目、发表时间来对文献进行全面的统计[6]。然后按照文献的发布年代、发布地区、发布的期刊、发布单位、主要内容等进行统计、分析、归纳和总结。对毕业论文部分,是按照论文名称、学校授予单位、学校专业名称、学位年度、论文级别进行统计的,主要研究学校专业名称,借此观察哪些专业对数据挖掘在癌症医学上的应用的研究更为普遍。

  3 学术性论文分析统计结果

  3.1 对学术性论文的统计分析

  2005年—2016年中国知网收录的相关文献共有114篇,本课题研究的为111篇文献。首先对数据进行统计归纳和筛选研究的文献的属性,将各个文献的年份、发布地区、单位分布、期刊来源、等作为研究对象,然后对111篇文献的相关属性的数据进行统计,经统计整理后,本课题研究的属性如下:

  (1)发表的年份,从2005年—2016年,剔除一些信息不详的论文不作处理。

  (2)地区分布,以省份(直辖市)为单位。

  (3)主要内容,主要分为基础与理论,综述,技术应用,临床研究几类。

  (4)刊登文献的期刊。

  (5)研究文献的单位。

  (6)文献研究资助情况

  (7)文献级别

  3.1.1 数据挖掘在癌症医学中研究的文献年代分布情况

  表3-1 数据挖掘在癌症医学中研究的文献年代分布

  年份文献量(篇)百分比(%)200532.71%200610.90%200743.60%200854.50%200987.21%201076.31%20111311.71%20122421.62%20131614.41%20142320.72%201565.41%201610.90%合计111100.00%

  如表3-1所示,2005年和2006年数据挖掘已经开始逐渐的被应用到癌症医学上, 但只是一个初步的探讨阶段。在当时来说,数据挖掘技术应用不广泛,所以关于对数据挖掘在癌症医学方面研究的文献是较少的。如何从这些简单的数据中挖掘出对癌症医学研究有帮助的规律,是一个有前途的但是也有难度的一项研究。数据挖掘技术有助于癌症医学研究的进一步的发展,是广大的癌症医学工作者进行信息利用的一门新兴的技术。

  关于癌症医学的文献数量逐年上升,到了2011年文献数量急速增加,在癌症医学方面的研究中越来越多的应用数据挖掘技术。并且数据挖掘技术一直保持着这种相对稳定的发展步调, 2011年—2014年连续几年相关的文献数量都很高,但近两年2015-2016年相关文献数量有所减少。

  3.1.2 数据挖掘在癌症医学中研究的文献地区分布

  表3-2数据挖掘在癌症医学中研究的文献地区分布

  省份发表文献量(篇) 百分比(%)吉林119.91%湖南119.91%广东 98.11%江苏98.11%河南98.11%重庆87.21%浙江76.31%山东65.41%四川65.41%上海 54.50%黑龙江54.50%安徽54.50%河北43.61%北京32.70%陕西32.70%辽宁32.70%广西21.80%天津10.90%甘肃10.90%新疆10.90%山西10.90%福建10.90%合计111100.00%

  如表3-2所示,根据本文研究的111篇文献里有记载地区的文献机构所在地区统计,发表文献的机构分布于22个省份 ,在这些省份中在吉林和湖南地区发表的论文最多,各有11篇,各占全部论文的9.91%,其次按省区排序分别为广东、江苏、 河南、重庆等,从表中可以看出,研究数据挖掘在癌症医学中应用的地区几乎分布全国各地,由此可见数据挖掘的广泛应用。

  3.1.3 数据挖掘在癌症医学中研究的文献期刊分布

  表3-3 数据挖掘在癌症医学中研究类文章的主要期刊分布

  期刊名称载文量(量)百分比(%)中国肿瘤临床14.76%计算机技术与发展14.76%中国生物医学工程学报14.76%科技展望14.76%中国数学医学14.76%电子与信息学报14.76%重庆邮电大学学报14.76%计算机应用研究14.76%标记免疫分析与临床14.76%山东大学学报14.76%江苏大学学报14.76%国际口腔医学杂志14.76%小型微型计算机系统14.76%遗传14.76%国际学术动态14.76%上海交通大学学报14.76%计算机应用14.76%河南师范大学学报14.76%计算机科学14.76%国际病理科学与临床杂志14.76%吉林大学学报14.76%合计21100%

  如表3-3所示,收录的111篇论文发表的在各种期刊上和一些论文集上,其中刊登在期刊上的有21篇,约全部论文的18.92%,构成数据挖掘在癌症医学上的研究的核心期刊,每个期刊的文献数量都是相同的,都是1篇。

  3.1.4 数据挖掘在癌症医学中研究的文献单位分布

  表3-4 发表论文3篇以上的单位分布情况

  单位发表文献量(篇)百分比(%)吉林大学1015.87%河南师范大学711.11%重庆邮电大学69.52%电子科技大学57.94%湖南大学57.94%浙江大学34.76%西安电子科技大学34.76%燕山大学34.76%曲阜师范大学34.76%中国科学技术大学34.76%华南理工大学34.76%江苏科技大学34.76%中南大学34.76%中山大学34.76%江苏科技大学34.76%合计63100.00%

  如表3-4所示,统计收录的111篇论文中,发表论文3篇以上的单位分布情况。可见发表论文3篇以上的单位共发表论文63篇,占论文总数的56.76%,可视为核心研究机构。其中吉林大学发表的论文数最多,共10篇,占论文总数的9.01%。

  3.1.5 数据挖掘在癌症医学中研究的文献资助情况

  表3-5 数据挖掘在癌症医学中研究的文献资助情况

  资助类别发表文献量(篇)百分比(%)国家自然科学基金21 70%河南省自然科学基金13.33%河北省自然科学基金13.33%广东省高校引进人才专项基金13.33%安徽省自然科学基金 13.33%2012年韶关市医药卫生科研立项课题基金 13.33%山西省科技基础条件平台建设项目 13.33%教育部留学归国人员启动基金13.33%广东省科技计划攻关项目13.33%吉林省科技厅自然科学基金13.33%合计30100.00%

  如表3-5所示,收录的111篇论文中,有30篇论文(占论文总数的27.03%),获得不同类型的不同资助。由表3-5可以看出,其中获“国家自然科学基金项目”资助最多,有21项。同时各级省市的资助项目也很多,由此可见,国家相关科研机构相当重视对数据挖掘在癌症医学上的研究。

  3.1.6 数据挖掘在癌症医学中研究的文献主要内容分类情况 表3-6 数据挖掘在癌症医学中研究的文献主要内容分类情况

  内容分类发表文献量比例(%)综述4135.76%技术应用3530.56%基础与理论3430.21%临床教学43.47%合计114100.00%

  如表3-6所示,数据挖掘在癌症医学上的理论性研究论文最多(占35.76% ),但与技术应用性论文(30.56% )所占的比例差距不大, 基础与理论性论文亦占据了总体论文的30.21%,实际临床教学方面占3.47%。

  3.1.7 数据挖掘在癌症医学中研究的文献论文级别统计

  表3-7 数据挖掘在癌症医学中研究的文献论文级别统计

  如表3-7所示,数据挖掘在癌症医学中研究的文献中,硕士论文最多,占53.51%,博士论文其次,占26.32%,本科论文最少,0篇。

  4 关于学术性论文的讨论

  4.1 发表时间方面的讨论

  数据挖掘技术逐渐被应用于癌症医学研究上,文献数逐年上升。2005年为3篇文献,到2016年11年之间已发表111篇文献,尤其是2010-2011年论文数出现量和质的飞跃,此后文献数量一直处于快速增长的状态,但是到2015-2016两年,论文数量却有所减少 。说明数据挖掘技术在癌症医学研究中潜在的应用价值已开始为癌症医学科研人员所认识,成为当前医学研究的重要技术工具之一,但是近两年可能是对数据挖掘在癌症医学中应用的研究热度不如前几年,又或是研究已经达到的一定的水平。

  4.2 地区分布方面的讨论

  数据挖掘技术在癌症医学中应用的文献地区分布主要集中在高校较多和相对较发达的地区和所在地机构。但其他省市也有了相当可观的发展,安徽,黑龙江等地都有不少研究成果。这说明数据挖掘的概念和意义以及它的价值正在被越来越多的人关注,这也是对数据挖掘的重要性的肯定。

  4.3 刊登期刊方面的讨论

  刊登数据挖掘在癌症医学中应用的文献期刊杂志种类很多,几乎各种医学以及计算机方面的杂志都有很多记载,一些大学的学报上也有很多类型的文章,这说明数据挖掘技术在癌症医学领域的应用已经是当时癌症医学研究方面的重要内容。

  4.4 发表单位方面的讨论

  基于数据挖掘在癌症医学中研究的论文主要由吉林大学、电子科技大学、湖南大学、重庆邮电大学、燕山大学等一些重点大学所在的机构发表。但是一些非重点的大学也涉及到这方面的研究,载文量也很高,由此可见数据挖掘已经成为广泛关注的对象,且地区机构发展平衡。

  4.5 资助情况方面的讨论

  对数据挖掘技术在癌症医学中的应用国家相关科研管理机构表现非常重视。收录的111篇文献中,有30篇文献(占论文总数的27.03%)受到各种资助,这也是该项研究长足发展的必要条件和主要原因之一。

  4.6 主要内容方面的讨论

  近些年,数据挖掘技术在癌症医学中的应用已经广泛,方法不断改变、进步,技术应用方面也取得很多的成绩,一些比较前沿的研究领域,如对实验数据的挖掘研究、临床资料的分析、医学影像等方面都已经取得很大的成效,为癌症医疗工作者和科研人员提供有利依据。并且数据挖掘在癌症医学管理系统中已经得到实际的应用,对癌症的预防、治疗以及用药等法方面都起到很大的作用。

  4.7 论文级别方面的讨论

  数据挖掘在许多级别的论文上都有体现,尤其硕士论文研究数量最多,本科论文数量较少,这说明,数据挖掘的研究属于难度较大的,要掌握更多的知识才能更好的了解、运用数据挖掘技术。

  5 对毕业论文的统计

  图5-1 研究人员专业方向分布图

  在中国知网的中文数据库中的收录的毕业论文共有83篇,主要分为硕士学位论文和博士学位论文两种,值得关注的是其中的学校专业名称,如图5-1所示。

  从图中可以直观的看出研究人员的专业分布情况:计算机应用技术、计算机科学与技术和生物医学工程专业对数据挖掘的研究最为活跃,在统计的83篇论文中,属于这三个专业的就分别为27、11、10篇;其他的如控制理论与控制工程、计算机软件与理论、软件工程、模式识别与智能系统专业篇数也较多;从结果还可以看出,在这83篇论文中,像应用化学、基础数学、测试计量技术及仪器等与癌症医学无明显关系的专业对数据挖掘在癌症医学上的应用也有研究,可见数据挖掘在癌症医学上的研究已经突破了专业限制,其影响和关注度正逐渐的扩大,价值也会变得越来越高。

  6 结语

  6.1 数据挖掘在癌症医学领域的应用及其前景

  近年来,癌症的发病率越来越高,所以如何有效的预防以及解决癌症迫在眉睫。数据挖掘技术在癌症医学领域中的应用越来越广泛。在引起癌症的因素、癌症预防、癌症的基因序列、癌症的用药规律等方面都获得了可喜的成果。比如广西大学甘枥元同学在硕士论文中探讨和研究基于关联规则分析法的肝癌致病因素危险性,该文针对Apriori与其改进型算法AprioriTid效率较低和空间占用率较大的问题,提出一种基于AprioriTid的改进型算法,该算法通过待需挖掘事务和相关候选项目集进行压缩,以达到提高效率节省空间的目的。最后用Java编程语言实现优化后的算法,对广西中医药大学第一附属医院电子病历数据库资料中的13310例病历进行数据挖掘,目的是寻找出人们因生活习惯、环境、家族遗传等导致肝癌发生的因素之间的一些关联规则,以这些规则作为分析依据,探索诸多致癌因素相互组合作用时引发肝癌的可能性及危险性,从而获得一些相对可靠的肝癌高发预警规律。这对癌症的预防起到很大的作用,类似这样的关于癌症医学的论文还有很多,它们都在很大程度上帮助研究癌症的医者们。所以,在癌症问题仍是医学难题的今天,基于数据挖掘在癌症医学中的研究具有广阔的前景。

  6.2 结论

  综上所述,数据挖掘技术已经有广泛的应用,在癌症医学的研究中也是逐年增加的,研究人员开始重视数据挖掘在癌症医学方面的应用,也意识到数据挖掘的重要性和有效性。在研究的过程中已经初步形成一些有效的方法,并且发现在关于癌症医学研究的数据中能通过数据挖掘技术得到相应的规律,可以对癌症的治疗提供一个有利依据。

  癌症医学科学是实践性、实验性、统计性、创新性比较强的一门科学,是一门验证科学,因此积极研究数据挖掘在癌症医学中应用具有广阔的前景,也是非常有研究价值的。我们应该重视并大力支持这方面的研究,让更多的学者了解并参与到其中去,让数据挖掘在癌症医学中的研究有新的突破与进展,为以后克服癌症疾病打下一个良好的基础。

栏目分类