iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 ,採智能選題,無限次反覆練習。 1. 關於資料尺度的敘述,下列哪一項正確? 比率尺度可以轉換成名目尺度 名目尺度是衡量數值型變數 順序尺度加減運算後是有意義的 等距尺度比順序尺度粗糙 None 2. 如附圖所示為一資料分佈型態,哪一項是其分位圖(Quantile-Quantile Plot)? None 3. 在一項調查中,研究者收集了某班級學生的學期總成績,並計算了樣本的平均數、標準差和變異係數。下列敘述哪一項錯誤? 變異係數的值越大,表示數據的絕對變異性越高 當數據分布對稱於某一值時,平均數和中位數的值會相等 標準差的單位與數據本身的單位相同,這使其更易於解釋 變異係數是標準差與平均數的比值,常用來比較不同數據集的變異性 None 4. 下列哪一項最適合描述「信賴區間(Confidence Interval)」? 一個區間,內含樣本平均值的可能範圍 一個區間,內含所有樣本數據,並附有一定的信賴水準 一個區間,內含母體參數的可能範圍,並附有一定的信賴水準 一個區間,測量樣本標準差的範圍 None 5. 某金融科技公司正在開發一個信用評分系統,用於評估貸款申請人的信用風險。他們決定使用隨機森林模型來預測申請人是否可能違約。在模型開發過程中,資料科學團隊注意到模型的準確率很高,但在實際應用中發現一些問題。關於這種情況,下列哪一項陳述最可能是正確的? 隨機森林的特徵以重要性排序顯示,申請人的財力是最重要的預測因子,因此應該只使用財力作為單一特徵來簡化模型 訓練數據中可能存在類別不平衡問題,導致模型對多數類別的預測偏好,需要考慮使用平衡採樣技術 為了提高模型的解釋性,應該將隨機森林替換為單一決策樹模型 模型可能存在過擬合(over fitting)問題,增加樹的數量即可提高模型實際應用的準確性 None 6. 如附圖所示為 Python 程式碼,有一變數 df 為 pandas.DataFrame 型態,依序執行附圖 1 程式碼,請問在執行後,選項中之敘述何者錯誤? 上述程式碼會刪除欄位 ColB 中有缺失值的資料列 執行上述程式碼後,再執行 df['ColC'].sum(),會得到 9 上述程式碼會對欄位 ColC,進行缺失值的填補 執行上述程式碼後,df 剩下 2 筆資料 None 7. 在監督式學習過程中,模型性能的評估相當重要。關於性能評估指標的敘述,下列哪一項錯誤? ROC 曲線下的面積(Area Under Curve, AUC)是一個綜合性指標,能夠幫助評估模型的分類性能,數值範圍介於 0 到 1 之間 召回率(Recall)衡量的是所有實際為正類的樣本中,成功被預測為正類的比例 當模型的準確率(Accuracy)提高時,召回率必然也會隨之提高 交叉驗證是一種常用的模型評估方法,能有效減少過擬合的風險 None 8. 關於 Hadoop 分散式檔案系統的特性,下列哪一項錯誤? 較不適合低等待時間的資料進出 善於儲存巨量的資料 不適合大量的小檔案 需要高效能且昂貴機器才能運作 None 9. 判斷資料是否接近常態可以透過常態分位數圖(Quantile-Quantile Plot , QQ Plot)來檢視,下列哪一項接近常態分佈? D C A B None 10. 下列敘述哪一項正確? 平均數不會受到極值影響 中位數不會受到極值影響 眾數容易受到極值影響 極值一定是異常值 None 11. 關於分群法(Clustering)的敘述,下列哪一項錯誤? 切割式分群會事先指定分群數量,並透過像 K-means 等演算法,讓組內同質性和組間異質性最大化 集群分析技術主要有兩大類:階層式分群(Hierarchical Clustering)和切割式分群(Partitional Clustering) 集群分析能將 N 個樣本,集結成 M 個群體的統計方法 階層式分群會事先指定分群數量,演算法會直接根據樣本資料之間的距離,將距離最近的集結在一群,直到所有樣本都併入到同一個集群之中 None 12. 關於類別資料編碼方式的敘述,下列哪一項正確? 使用 one-hot encoding 時,適合應用於類別數量較多的資料,因為它可以有效減少維度的複雜度 label encoding 適合用於具有順序性質的類別資料,例如學歷(高中、大學、碩士、博士) 在進行 one-hot encoding 時,每個類別會被編碼為唯一的整數值,並保持數值之間的順序關係 dummy encoding 的編碼結果與 one-hot encoding 完全相同,無論模型使用哪種編碼方式,結果都是一致的 None 13. 在處理巨量資料時,假設數據集的某些變數存在嚴重的偏態分布,且部分變數的值範圍差異極大。為了優化模型穩定性和性能,下列何種特徵轉換組合策略最適合應對這兩個問題? Z-score 標準化後進行欠採樣(Under-sampling) Min-Max 縮放和主成份分析(Principal Components Analysis, PCA)結合使用 類別變數進行 One-Hot Encoding(獨熱編碼)並做標準化 對數變換後再進行 Z-score 標準化 None 14. 分析方法通常需要資料轉換成對應的格式才有辦法進行,關於資料格式的說明下列哪一項正確? 資料計算共變異數需要轉換成寬格式資料 資料計算相關係數需要轉換成長格式資料 圖形文法的繪圖套件,只接受短格式資料 進行變異數分析需要寬格式資料 None 15. 下列哪一項「不」是分散式運算(Distributed Computing)系統提供的優勢? 系統可擴展:系統可以隨著工作負載增加、需要時進一步擴充 硬體使用效率:分散式系統的設計,可有效利用硬體資源提升整體性能 高容錯可用:即使一部分節點(或稱系統)失效,整個系統仍可運作 節點數據隔離:每個節點的數據互不共享、互不同步,完全隔離而獨自運作 None 16. 巨量資料分析班共有一、二、三、四,四個年級,每個年級有 50 個學生,學生身高呈常態分佈,下列敘述哪一項錯誤? 要檢測一年級、二年級、三年級之間的平均身高是否有差異,可以利用 t 檢定 要檢測一年級的平均身高是否等於 170 公分,可以利用卡方檢定 要檢測二年級、三年級、四年級之間的平均身高是否有差異,可以利用 F 檢定 要檢測一年級和二年級的平均身高是否有差異,可以利用 t 檢定 None 17. 在進行機器學習時,當資料的數值範圍差異過大會影響模型的表現。關於數值資料調整方式的敘述,下列哪一項正確? 當資料具有明顯的異常值時,資料標準化可以有效避免異常值的影響,因為其考慮了最小值與最大值 資料標準化(Standardization)會將資料的範圍縮放到[0, 1]之間,使得所有變數在相同尺度下進行計算 當資料特徵服從常態分佈時,資料標準化相較於正規化更適合用來調整資料範圍 資料正規化(Normalization)會將資料調整成均值為 0、標準差為 1,以便模型能夠更有效率地訓練 None 18. 假設教師用傳統教學法教授學生之統計平均成績為 75 分。此教師想要驗證一種新的教學方法對學生統計成績的影響,設立的虛無假設為「新的教學方法對學生統計成績沒有影響」(H₀: μ = 75),對立假設為「新的教學方法提高學生統計成績」(Ha: μ > 75)。經過實驗,從 36 名學生中獲得的成績樣本平均數為 78,樣本標準差為 10。計算得出的 t 值為 1.8,對應的 p 值約為 0.04。假設顯著水準(Significance Level)設定為 0.05,請問研究者應該如何解釋數據分析後之檢定結果? 需要更多數據來驗證檢定結果的穩定性 拒絕虛無假設,並認為新的教學方法可提高學生統計成績 不拒絕虛無假設,因為 p 值略低於 0.05 不拒絕虛無假設,因為樣本平均數未顯著超過 75 None 19. 在非監督式學習的聚類分析中,針對不同方法的適用性及其在特定情境中的優缺點,下列哪一項說法正確? 階層式聚類無需事先設定聚類數量,且其結果可以通過樹狀圖進行解釋,因此適合大規模資料集 K-means 演算法適合處理任意形狀的數據分布,因為它基於樣本間的距離進行分配 在處理高維度數據時,K-means 會自動執行降維處理,以提高演算法的計算效率並避免維度災難(Curse of Dimensionality) DBSCAN(Density-based Spatial Clustering of Applications with Noise)可以有效地識別資料中的異常點(Outliers),並且比 K-means 更適合於處理具有不規則形狀的分佈 None 20. 關於決策樹(Decision Tree)的敘述,下列哪一項正確? 決策樹對數據中的小變化不敏感,能夠穩健地處理不同的數據集 決策樹的深度對模型的複雜度和過擬合風險有重要影響,樹的深度越大,模型越容易過度擬合訓練數據 決策樹的剪枝過程主要是用來增加模型的複雜度,以便更好地擬合訓練數據 決策樹中的每一個節點都會進行多次分裂,以尋找最佳的分裂特徵和閾值,以達到最佳的模型性能 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up