iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (2) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 關於 K-Means 與 DBSCAN,下列敘述何者不正確? 兩者都需要事先告知分群的數量 K-Means 集群結果易受離群值的影響 兩者都是集群分析 K-Means 基於距離的概念,而 DBSCAN 基於密度的概念 None 2. 下列何種圖形,較適合用來顯示資料隨著時間的變化趨勢? 直方圖 圓餅圖 盒鬚圖 折線圖 None 3. 關於資料之遺缺值處理,下列何者不正確? 透過差值法(interpolation method)補上該值 類別資料補上眾數之值 無須考慮遺缺值比例,全部刪除 利用模型補上估計產生之值 None 4. 利用多個分類器的預測來提高分類的準確率之技術為下列何者? Dimensionality reduction Feature selection Pruning Ensemble None 5. 下列何種方法通常應用在集群(Clustering)問題? K Nearest Neighbors Random Forest K-Means Support Vector Machine None 6. 關於獨立(independence)與相依(dependency),下列敘述何者不正確? 關聯(association)衡量是基於頻次進行計算,用以表達兩類別變數之間的相依性 相關(correlation)係數為 0,代表兩變數統計獨立 數值變數以相關係數代表兩變數之間的相依性 獨立與相依是描述兩變數之間關係的概念 None 7. 在資料分析之前,需要花費很多力氣去整理資料,其中處理遺失值(Missing Value)便是一種,下列何者不是處理遺失值的手段? 移除有遺失值的資料 使用平均數或第一四分位數來填補 使用 K-近鄰法(K-Nearest Neighbours)搭配中位數進行填補 將前一筆資料的值填入 None 8. 史皮爾曼相關係數(Spearman correlation coefficient)是一種兩兩變數相關係數計算的方式,下列敘述何者不正確? 史皮爾曼相關係數又稱為等級相關係 順序值類別變數(ordinal qualitative variables)適合此計算方式 實數值量化變數(real-valued quantitative variables)適合此計算方式 名目值類別變數(nominal qualitative variables)適合此計算方式 None 9. 關於資料特徵,下列敘述何者不正確? 剔除不相關或多餘的資料特徵,以減少資料特徵個數,提高模型效果 可透過模型計算資料特徵重要程度,例如:Random Forest 資料特徵個數越多,容易引起維度災難,而模型也會越複雜 資料特徵個數越多,該模型所需的運算時間也就越短 None 10. 關於資料敘述與摘要統計之內容,下列敘述何者不正確? 衡量資料集中趨勢的統計量,例如: 平均數、中位數、眾數 資料抽樣常見的有簡單隨機抽樣、系統抽樣、分層隨機抽樣 比較兩筆資料的分散程度,例如: 相關係數 a將資料處理與製作圖表,例如: 次數分配表、直方圖 None 11. 下列敘述何者在描述巨量資料中多樣性(Variety)的特性? 能夠處理相當大的資料,例如 100TB 的歷史資料 善於處理非結構化資料,例如各式網站資料等 能夠處理每天龐大的交易數據 能夠大幅縮短分析的時間,能更快速反應商業需求 None 12. 下列何者不為監督式學習(Supervised Learning)方法? 自我組織映像圖(Self-OrganizingMap) K 近鄰法(K-Nearest Neighbor) 支援向量機(Support Vector Machine) 邏輯迴歸(Logistic Regression) None 13. 根據下面提供的資料,老闆希望你一句話報告今年業績和去年業績的狀況,請問下列哪句話比較合適?2017 年業績:100 萬 2018 年業績:120 萬 今年業績增加了 20 萬 今年業績成長了 20% 今年的業績是 120 萬 去年業績比今年少 20 萬 None 14. 下列何者不屬於非監督式學習? K Nearest Neighbor Word2Vec K-Means 關聯法則 None 15. 下列何者不屬於非監督式學習的演算法? PCA Auto-Encoder XGBoost Hierarchical-Clustering None 16. 下列何者不是極端值或雜訊產生的主要原因? 數據輸入錯誤 資料交給分析人員時,是透過電子郵件寄送而非隨身碟傳送 人為故意謊報資料導致錯誤 測量儀器出錯 None 17. 關於模型績效評估,下列敘述何者不正確? 迴歸模型績效衡量大多基於殘差 Mallow's Cp 準則有考慮建模所用的變數數量,因此適合用來比較不同變數數量下的模型績效 赤池弘次訊息準則(Akaike's Information Criterion, AIC)與舒瓦茲貝氏訊息準則(Schwarz's Bayesian Information Criterion, BIC)的不同在於懲罰過多變數入模的方式不同 殘差(或稱預測誤差)是預測的反應變數值減去真實的反應變數值 None 18. 關於單一變量的(univariate)統計量數,下列敘述何者不正確? 異質性(heterogeneity)最低時集中度(concentration)達到最大;而異質性最高時集中度則最小 熵係數(entropy coefficient)可用於檢視類別變數次數分佈的異質性 變異係數(coefficient of variation)適用於量化變數 四分位距(inter-quartile range)可由類別變數的次數分佈進行計算 None 19. 某公司員工 8 人,月薪如下: 薪資中位數為 29 千元 有 50%的員工,薪資平均值 繪製成箱形圖(Box plot,盒鬚圖),呈現右偏 有 50%的員工,薪資第二四分位數 None 20. 經過網路爬蟲收集的網頁資料(如新聞網頁 HTML 格式資料)為半結構化的內容,經過解析器取得各式重要資訊,並透過詮釋資料(Metadata)結構化這些內容,這樣的過程與下列何者較為相符? 模型預測 資料組織 資訊分類 資料擴增 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up