網(wǎng)站介紹 關(guān)于我們 聯(lián)系方式 友情鏈接 廣告業(yè)務(wù) 幫助信息
1998-2022 ChinaKaoyan.com Network Studio. All Rights Reserved. 滬ICP備12018245號(hào)
《數(shù)據(jù)挖掘綜合》考試大綱
第一部分:考試內(nèi)容及要求
一、數(shù)據(jù)挖掘概述
考試內(nèi)容
數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘的任務(wù) 數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘的主要問題
考試要求
1.了解數(shù)據(jù)庫(kù)系統(tǒng)技術(shù)的演變過程;理解數(shù)據(jù)挖掘的概念;掌握知識(shí)發(fā)現(xiàn)過程的7個(gè)步驟。
2.掌握數(shù)據(jù)挖掘要解決的問題;掌握數(shù)據(jù)挖掘功能和模式;理解數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)的聯(lián)系和區(qū)別;了解數(shù)據(jù)挖掘的起源;掌握數(shù)據(jù)挖掘的任務(wù)。
二、數(shù)據(jù)
考試內(nèi)容
數(shù)據(jù)類型 數(shù)據(jù)質(zhì)量 數(shù)據(jù)預(yù)處理 相似性和相異性度量
考試要求
1.了解數(shù)據(jù)對(duì)象與屬性類型。
2.了解進(jìn)行數(shù)據(jù)預(yù)處理的原因及其重要性;了解數(shù)據(jù)質(zhì)量涉及的因素;掌握數(shù)據(jù)預(yù)處理的主要步驟。
4.了解數(shù)據(jù)清理的概念;了解處理數(shù)據(jù)缺失值的方法;了解處理噪音數(shù)據(jù)的方法。
5.理解數(shù)據(jù)預(yù)處理中的聚集、抽樣、特征子集選擇以及離散化和二元化等方法。
8.理解數(shù)據(jù)對(duì)象之間相似度;數(shù)據(jù)對(duì)象之間的相異度。
三. 分類和預(yù)測(cè)
考試內(nèi)容
數(shù)據(jù)分類和預(yù)測(cè)的概念 判定樹歸類算法 信息增益 樹剪枝 回歸分析 分類法的準(zhǔn)確性 組合分類器 類不平衡問題
考試要求
1.理解數(shù)據(jù)分類的概念;了解分類的兩個(gè)過程;理解監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別;了解分類和預(yù)測(cè)的數(shù)據(jù)預(yù)處理方法;掌握評(píng)估分類和預(yù)測(cè)方法的標(biāo)準(zhǔn)。
2.了解決策樹的概念和優(yōu)缺點(diǎn);了解決策樹歸分類的主要步驟;了解常用的屬性選擇度量,掌握信息增益度量的求法;理解兩種常用的樹剪枝方法。
3、掌握神經(jīng)網(wǎng)絡(luò)的分類與構(gòu)造原理
4、熟練掌握單層感知機(jī)原理與學(xué)習(xí)算法
5、掌握BP算法原理與學(xué)習(xí)過程
6.了解評(píng)估分類器性能的度量;了解評(píng)估分類和預(yù)測(cè)準(zhǔn)確率的方法(混淆矩陣、靈敏度和特小型、F度量)。
7、掌握Boosting算法的基本思想。
8、熟練掌握支持向量機(jī)SVM分類建模原理和計(jì)算方法。
9.了解組合分類器的概念和常用的組合分類方法;了解裝袋和提升的基本思想以及兩者的區(qū)別;了解隨機(jī)森林的基本思想。
10.了解類不平衡問題的概念;了解提高類不平衡數(shù)據(jù)分類準(zhǔn)確率的一般方法。
四. 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
考試內(nèi)容
頻繁項(xiàng)集概念 頻繁項(xiàng)集挖掘方法 Apriori算法 FP-growth算法
考試要求
1.理解項(xiàng)集、閉項(xiàng)集、頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的概念 ;了解規(guī)則興趣度的兩種度量(支持度和置信度)。
2.了解關(guān)聯(lián)規(guī)則挖掘的步驟。
3.了解Apriori算法的步驟;了解FP-growth算法的步驟和優(yōu)缺點(diǎn);掌握相關(guān)性度量提升度(lift)的計(jì)算方法。
五. 聚類分析
考試內(nèi)容
聚類分析的概念 聚類方法的分類 算法方法的距離度量 劃分方法 層次方法 基于密度的方法 基于網(wǎng)格的方法 聚類評(píng)估
考試要求
1.理解聚類分析的概念;了解聚類分析的應(yīng)用領(lǐng)域;了解比較聚類方法的標(biāo)準(zhǔn);了解數(shù)據(jù)挖掘?qū)垲惖牡湫鸵?了解比較聚類方法的各個(gè)方面。
2.理解劃分方法的概念和一般特點(diǎn),以及典型算法;理解層次方法的概念和一般特點(diǎn),以及典型算法;理解基于密度的聚類方法的概念和一般特點(diǎn),以及典型算法;理解基于網(wǎng)格的聚類方法的概念和一般特點(diǎn),以及典型算法;
3.理解K-均值算法的步驟和優(yōu)缺點(diǎn);
4.了解算法方法的距離度量。
5.了解聚類評(píng)估概念和主要任務(wù);了解測(cè)定聚類質(zhì)量的方法。
第二部分:考試方法和考試時(shí)間
數(shù)據(jù)挖掘?qū)д摽荚嚥捎瞄]卷、筆試形式,考試時(shí)間為180分鐘。
第三部分:試卷結(jié)構(gòu)及參考書目
(一)題分:試卷滿分為150分
(二)題型比例:
選擇題與判斷題 約30%
簡(jiǎn)答題和計(jì)算題 約70%
(三)參考書目:
《數(shù)據(jù)挖掘?qū)д摗罚?美)陳封能,(美)斯坦巴赫,(美)庫(kù)瑪爾,人民郵電出版社,2010年。
來(lái)源未注明“中國(guó)考研網(wǎng)”的資訊、文章等均為轉(zhuǎn)載,本網(wǎng)站轉(zhuǎn)載出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,如涉及版權(quán)問題,請(qǐng)聯(lián)系本站管理員予以更改或刪除。如其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)站下載使用,必須保留本網(wǎng)站注明的"稿件來(lái)源",并自負(fù)版權(quán)等法律責(zé)任。
來(lái)源注明“中國(guó)考研網(wǎng)”的文章,若需轉(zhuǎn)載請(qǐng)聯(lián)系管理員獲得相應(yīng)許可。
聯(lián)系方式:chinakaoyankefu@163.com
掃碼關(guān)注
了解考研最新消息
網(wǎng)站介紹 關(guān)于我們 聯(lián)系方式 友情鏈接 廣告業(yè)務(wù) 幫助信息
1998-2022 ChinaKaoyan.com Network Studio. All Rights Reserved. 滬ICP備12018245號(hào)