iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (3) 發佈留言 / 作者: S學院 / 2025-05-24 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 以密度為基礎的離群值偵測方法,下圖中有哪些點最可能是離群值(Outlier)? O1, O2, O3 O1, O2 O3 O4 None 2. 關於關聯分析:FP-growth 演算法(Frequent Pattern-growth),下列敘述何者「不」正確? 它構造了一個高度緊湊的資料結構(FP-tree)來壓縮原始交易資料庫 它著重於頻繁項目的增長,避免昂貴的候選生成 採用類似 Apriori 方法的生成和測試(generate-and-test)策略 這是一種沒有生成候選項目集的頻繁項目集探勘方法 None 3. 關於類神經網路(artificial neural networks),下列敘述何者「不」正確? 除了投入層之外,其餘各層的神經元節點均需設置活化函數(activation function) 近年來一些分段線性活化函數漸受歡迎,整流線性單元(Rectified Linear Unit, ReLU)和硬式雙曲正切函數(hard hyperbolic tangent function)大範圍地取代了 S 型函數(Sigmoid function)與雙曲正切函數(hyperbolic tangent function),因為兩者更適合訓練多層神經網路 最簡單的類神經網路是感知機(perceptron),它是一種線性分類模型 類神經網路至少包括投入層與隱藏層,投入層各個節點接收資料表中的自變數,隱藏層則試圖預測因變數 None 4. 下列何者是 k 平均數集群(k-means clustering)的優點? 形成的群多為類圓球狀且大小相近 算法涉及隨機抽樣,每次運行的結果不盡相同 原理簡單,容易以非統計的詞彙解釋說明之 不易受到離群值的影響 None 5. 下表是 7 個資料點的(x, y)值,假設現在分成三個集群 A={P1, P3, P6}, B={P2, P4}, C={P5,P7},若以歐氏距離(Euclidean distance)平方作為衡量相似度的依據,則集群 A 與 B 間共有 6 個兩兩資料點的距離:D(P1, P2)=233, D(P1, P4)=261, D(P3, P2)=149, D(P3 P4)=169, D(P6, P2)=80, D(P6, P4)=104,則下列敘述何者「不」正確? 若以中心值距離(centroid distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 156.89 若以平均距離(average distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 160 若以最小距離(minimum distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 80 若以最大距離(maximum distance)作為集群相似度的衡量,則集群 A 與 B 間的距離是 261 None 6. 下列何者通常「不」用來處理連續值的預測問題? 簡單線性迴歸(simple linear regression) 支援向量迴歸(support vector regression) 多元迴歸分析(multiple regression analysis) 羅吉斯迴歸(logistic regression) None 7. 關於離群值檢測(outlier detection)可能面臨的挑戰,下列敘述何者「不」正確? 異常值與雜訊不同 異常值檢測高度依賴於正常(非異常值)和異常值的有效建模 一般檢測方法與應用無關(application-independent) 檢測到異常值具備易理解性(understandability) None 8. 俗話說:「三個臭皮匠,勝過一個諸葛亮」,恰好呼應了拔靴集成法(Bootsrap AGGregatING, BAGGING)中,會產生多個弱分類器,並將這些弱分類器組合在一起,以獲得一個強分類器,有機會做出更準確的判斷。請問以下敘述何者正確? 每個臭皮匠的意見越接近越好,因為表示他們越團結一心。(亦即:各個弱分類器的判斷結果越接近,強分類器的分類結果越準確。) 即使沒有一個臭皮匠能答對所有的問題,但這些臭皮匠一起討論後,仍有可能答對所有的問題。(亦即:雖然各個弱分類器的分類準確度都不到 100%,但強分類器的分類準確度仍有可能達到100%。) 假如臭皮匠們沒有贏過諸葛亮,只要持續增加臭皮匠的人數,必定可以勝過諸葛亮。(亦即:假如強分類器表現不好,只要增加弱分類器的數量,必定能提升強分類器的分類準確度。) 增加臭皮匠的數量會導致意見分歧,反而無法贏過諸葛亮。(亦即:增加弱分類器數量,反而會導致強分類器的分類準確度變差。) None 9. 關於自適應效能提升法(Adaptive Boosting , AdaBoost)的訓練過程,下列敘述何者「不」正確? 如果有 M 個樣本,則每一個訓練樣本最開始時都被賦予相同的權值:1/M 某個樣本點若已經被準確地分類,在建構下一個訓練集中,它的權重就被降低;若沒有被準確地分類,那麼它的權重就得到提高 將每個訓練得到的弱分類器(weak classifiers)集合成強分類器(strong classifier) 分類錯誤率低的弱分類器(weak classifiers)在最終分類器中占的權重較小,否則較大 None 10. 關於決策樹(decision tree)的使用,下列敘述何者「不」正確? 結合多個決策樹形成隨機森林(random forest),模型較穩健,不易過度配適 樹葉節點中的樣本應屬於同一類別 每次分割要讓子節點不純度降低 為了進行準確的預測,要讓決策樹盡量長大長深 None 11. 生產智慧自動化系統,達成即時多結構化的資料彙整,資料來源包括現場生產管制(Shop Floor Control, SFC)所產生的生產機台測試資料、生產機台參數與生產執行系統(Manufacturing Execution System, MES)中的工單相關資料,依需求定義「資料處理與運算邏輯」,產生資料分析所需要生產總表與對應統計表,透過監控製程數據早期發現異常,產生警告訊號。下圖如同時對「Sample #1~4」以每小時取樣,同時了解資料的偏斜性(skewness)及離群值(outliers),建議使用何種圖表分析? 直方圖(histogram) 管制圖(control chart) 圓餅圖(pie chart) 盒鬚圖(boxplot) None 12. 集群(clustering)是以非監督(unsupervised)方式定義其欲解決的問題,所以只能透過一些常用的內部核驗準則來評估結果,下列何者「不是」內部核驗準則? 類別標籤 群內距離相對於群間距離的比值 側影係數(silhouette coefficient) 各群樣本點到中心距離的平方和 None 13. 此例交易資料用 Apriori 演算法尋找頻繁項目集(frequent itemsets),最小支持度(minimum support)要設多少,才會有長度為 3 的頻繁項目集? 0.22 0.27 0.3 0.25 None 14. 分類問題當不同類的樣本數不平衡時,下列何者「不是」處理方式? 使用數據合成(synthetic)方法生成新的樣本 使用降抽樣(undersampling)方法從大類中選取部分樣本 使用丟棄(dropout)方法從大類中剔除一些樣本 使用權重(weighting)方法調整樣本權重 None 15. 用主成分分析(principle component analysis)來處理多維度資料時,會利用相關矩陣(correlation matrix)來計算特徵值(eigenvalue)與特徵向量(eigenvector),如果特徵向量 λ= [4.32, 1.07, 0.49, 0.10, 0.01, 0.01],下列敘述何者正確? 主特徵值的貢獻率達到 90% 前兩個特徵值的貢獻率達到 90% 主特徵值的貢獻率達到 80% 前兩個特徵值的代表性不足 None 16. 關於下表資料,使用 k 平均數集群(k-means clustering)分析法與歐氏距離(Euclidean distance),將資料分成三個集群(假設 k=3)。 C1: (P1, P2, P3, P4, P5, P6), C2: (P7, P8, P10), C3: (P9) C1: (P1, P2, P4, P5), C2: (P3, P6, P7, P8, P10), C3: (P9) C1: (P1, P2, P3, P4), C2: (P5, P6, P7, P8, P10), C3: (P9) C1: (P1, P2, P3), C2: (P4, P5, P6, P7, P8, P10), C3: (P9) None 17. 有一個混淆矩陣(confusion matrix),橫列表示預測類別,縱行表示真實類別,假設有一個預測類別矩陣為[0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1 ,1],真實類別矩陣為[1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0 ,1],則假陽數(false positive)的值為何? 6 3 5 2 None 18. 自適應效能提升法(Adaptive Boosting , AdaBoost)與隨機森林(random forest)的關鍵差異在於? 前者運用資料集中的全部屬性;後者只使用資料集中的部份屬性 前者的拔靴抽樣各樣本權重相同;後者則依前面模型預測結果的良窳,對各樣本進行加權抽樣 前者的基本模型是樹狀模型(tree-like models);後者則是非樹狀模型 前者的基本模型是強模型(strong learners);後者則是集成數個弱模型(weak learners) None 19. 圖形資料集如圖(1),則圖(2)的支持度為?n(圖取自資料探勘 /Pang Ning Tan, Michael Steinbach , 作者:施雅月,出版社: 臺灣培生教育/ 歐亞) 40% 80% 60% 20% None 20. 關於 k 近鄰(k-nearest neighbors)學習,下列敘述何者「不」正確? 度量綱不一的屬性、名目屬性與遺缺數據需要額外處理 因為沒有模型,所以限制了我們瞭解預測變數與目標變數之間關係的能力 資料需服從常態分配 k 近鄰法計算耗時,計算時須將數據載入記憶體中,當資料量大時通常用節省記憶體的資料結構,以加快計算,如:k 維樹(k-dimensional tree, k-d tree) None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up