iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (8) 發佈留言 / 作者: S學院 / 2025-05-24 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題 ,採智能選題,無限次反覆練習。 1. 關於 Python 所提供的資料表排序功能敘述,下列哪一項錯誤? sort_index()是以內定列索引為鍵值(Key 值)進行排序 sort_values()是以內定列索引為鍵值進行排序 ascending=False,表示由大到小排列 ascending=True,表示由小到大排列 None 2. 在進行假設檢定時,當 p 值小於α(顯著性水準)時,下列結論哪一項正確? 接受虛無假設 拒絕對立假設 拒絕虛無假設 接受對立假設 None 3. 判斷資料是否接近常態可以透過常態分位數圖(Quantile-Quantile Plot , QQ Plot)來檢視,下列哪一項接近常態分佈? A C B D None 4. 特徵選取(Feature Selection)和特徵萃取(Feature Extraction)是兩種不同的技術,用於處理資料集的特徵。關於這兩者的敘述,下列哪一項是正確的比較? 特徵選取常使用隨機森林來選擇特徵,而特徵萃取則是通過聚類分析生成新特徵 特徵萃取比特徵選取更常用於預測模型的訓練過程 特徵選取是使用機器學習模型(如決策樹)直接篩選特徵,而特徵萃取則不涉及任何模型的使用 特徵選取是從原始特徵中選擇最重要的部分,而特徵萃取是從原始特徵透過特定方法生成新的特徵 None 5. 如附圖所示為 Python 程式碼,有一變數 df 為 pandas.DataFrame 型態,依序執行附圖 1 程式碼,請問在執行後,選項中之敘述何者錯誤? 執行上述程式碼後,再執行 df['ColC'].sum(),會得到 9 執行上述程式碼後,df 剩下 2 筆資料 上述程式碼會對欄位 ColC,進行缺失值的填補 上述程式碼會刪除欄位 ColB 中有缺失值的資料列 None 6. 關於低結構化文字資料前處理的敘述,下列哪一項錯誤? 資料清理(Data Cleaning):例如網頁資料,必須先移除 HTML 標籤(Tag),取出乾淨的本文 分詞(Tokenize):透過移除單字的後綴,進行字根還原 移除停駐詞(Stop Words):例如移除英文中的 the、as、to、from 等介係詞或助詞,它們對本文語意的瞭解可能沒有太大幫助 本文正規化(Text Normalization):是將輸入的本文轉換為標準形式,如:將數字、符號、縮寫等轉換為全稱 None 7. 假設教師用傳統教學法教授學生之統計平均成績為 75 分。此教師想要驗證一種新的教學方法對學生統計成績的影響,設立的虛無假設為「新的教學方法對學生統計成績沒有影響」(H₀: μ = 75),對立假設為「新的教學方法提高學生統計成績」(Ha: μ > 75)。經過實驗,從 36 名學生中獲得的成績樣本平均數為 78,樣本標準差為 10。計算得出的 t 值為 1.8,對應的 p 值約為 0.04。假設顯著水準(Significance Level)設定為 0.05,請問研究者應該如何解釋數據分析後之檢定結果? 需要更多數據來驗證檢定結果的穩定性 不拒絕虛無假設,因為樣本平均數未顯著超過 75 拒絕虛無假設,並認為新的教學方法可提高學生統計成績 不拒絕虛無假設,因為 p 值略低於 0.05 None 8. 在進行數據分析時,了解資料的性質與類型對於選擇合適的分析方法相當重要。關於資料的性質和處理方式,下列敘述哪一項正確? 離散型資料(Discrete Data)的分佈通常用連續的機率密度函數來描述 連續型資料(Continuous Data)只能使用線性迴歸進行分析,無法使用其他統計方法 名目型資料(Nominal Data)的分析通常需要使用 t 檢定來檢查兩個群體之間的差異 順序型資料(Ordinal Data)的比較可以使用中位數來評估差異 None 9. 假設我們有以下依升序排列的薪資值(仟元):32、35、48、50、52、56、56、60、65、72、72、120;關於第一個四分位數(First quartile, Q1)、四分位距(Interquartile Range, IQR)與第三個四分位數(Third quartile, Q3),下列敘述哪一項正確? 四分位距(IQR):56 仟元 第三個四分位數(Q3):72 仟元 四分位距(IQR):17 仟元 第一個四分位數(Q1):50 仟元 None 10. 分析方法通常需要資料轉換成對應的格式才有辦法進行,關於資料格式的說明下列哪一項正確? 進行變異數分析需要寬格式資料 資料計算相關係數需要轉換成長格式資料 資料計算共變異數需要轉換成寬格式資料 圖形文法的繪圖套件,只接受短格式資料 None 11. 在資料分析中,主成份分析(Principal Components Analysis, PCA)是一種特徵萃取(Feature Extraction)的技術。PCA 的主要目的下列哪一項正確? 從原始數據中提取最具變異性的特徵以減少維度 透過轉換數據來強化特徵之間的相關性 提高數據的維度以捕捉更多的特徵訊息 將特徵轉換為類別變數以便於模型訓練 None 12. 一位數據分析師正在分析一組銷售數據,並希望了解數據的分布特徵以及變數之間的相關性。關於資料分布和相關性的敘述,下列哪一項正確? 當變數之間的相關係數為 0 時,表示它們之間存在強烈的非線性關係 散佈圖可以幫助呈現兩個變數之間的關係,包括線性和非線性關係 數據分布呈現偏態時,算術平均數會比中位數更能準確地反映數據的中心趨勢 當數據具有常態分佈時,標準差是唯一適合描述數據變異性的指標 None 13. 關於類別資料編碼方式的敘述,下列哪一項正確? 在進行 one-hot encoding 時,每個類別會被編碼為唯一的整數值,並保持數值之間的順序關係 dummy encoding 的編碼結果與 one-hot encoding 完全相同,無論模型使用哪種編碼方式,結果都是一致的 使用 one-hot encoding 時,適合應用於類別數量較多的資料,因為它可以有效減少維度的複雜度 label encoding 適合用於具有順序性質的類別資料,例如學歷(高中、大學、碩士、博士) None 14. 下列哪一項最適合描述「信賴區間(Confidence Interval)」? 一個區間,測量樣本標準差的範圍 一個區間,內含樣本平均值的可能範圍 一個區間,內含所有樣本數據,並附有一定的信賴水準 一個區間,內含母體參數的可能範圍,並附有一定的信賴水準 None 15. 下列哪一項技術通常用於減少線性迴歸模型中的多重共線性問題? 標準化(Standardization) 脊迴歸(Ridge Regression) 隨機森林(Random Forest) 多元線性迴歸(Multiple Linear Regression) None 16. 如附圖所示為 Python 程式碼,關於程式碼的敘述,下列哪一項錯誤? 第 1 列是匯入 pandas 套件,並設定別名為 pd 第 4 列是統計各群別銷售地區的資料內容加總 第 2 列是讀取 CSV 檔案轉成資料框型別 第 3 列是以產品種類進行分群 None 17. 關於資料尺度的敘述,下列哪一項正確? 等距尺度比順序尺度粗糙 順序尺度加減運算後是有意義的 名目尺度是衡量數值型變數 比率尺度可以轉換成名目尺度 None 18. 巨量資料分析班共有一、二、三、四,四個年級,每個年級有 50 個學生,學生身高呈常態分佈,下列敘述哪一項錯誤? 要檢測二年級、三年級、四年級之間的平均身高是否有差異,可以利用 F 檢定 要檢測一年級的平均身高是否等於 170 公分,可以利用卡方檢定 要檢測一年級和二年級的平均身高是否有差異,可以利用 t 檢定 要檢測一年級、二年級、三年級之間的平均身高是否有差異,可以利用 t 檢定 None 19. 假設一組資料呈現正偏態(右偏態),下列敘述哪一項正確? 平均數等於中位數 平均數大於中位數 中位數和眾數相同 平均數小於中位數 None 20. 關於決策樹(Decision Tree)的敘述,下列哪一項正確? 決策樹中的每一個節點都會進行多次分裂,以尋找最佳的分裂特徵和閾值,以達到最佳的模型性能 決策樹對數據中的小變化不敏感,能夠穩健地處理不同的數據集 決策樹的深度對模型的複雜度和過擬合風險有重要影響,樹的深度越大,模型越容易過度擬合訓練數據 決策樹的剪枝過程主要是用來增加模型的複雜度,以便更好地擬合訓練數據 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up