iPAS AI 應用規劃師(中級) 科目2 大數據處理分析與應用 (4) / iPAS AI 應用規劃師, AI 測驗題庫, iPAS AI 中級, 測驗題庫 / 作者: S學院 iPAS AI應用規劃師(中級) 科目2 大數據處理分析與應用 模擬試題,採智能選題,無限次反覆練習。 1. 典型的 k 平均數(k-means)屬於下列何種集群(Clustering)方式? 分割式集群(Partitional Clustering) 基於圖的集群(Graph-based Clustering) 階層式集群(Hierarchical Clustering) 密度集群(Density-based Clustering) None 2. 參考附圖,關於 mtcars 資料集散佈圖矩陣,下列敘述何者為正確? mpg 與 disp 資料呈現約為正相關 hp 達到 300 以上佔較大的比例 disp 與 hp 資料呈現約為負相關 qsec 與 disp 呈現約為負相關 None 3. 若執行新專案,輸入的向量超過 100 維,下列何種方法「不」適合用來做為降維並取得特徵向量的方法? ICA(Independent Component Analysis) Autoencoder LSTM(Long Short-Term Memory) PCA(Principal Component Analysis) None 4. 建模的過程中,經常會出現不平衡資料(Imbalanced Data)的問題,下列敘述何者「不」正確? 採用加權方式處理 採用數據合成,例如:SMOTE(Synthetic Minority Oversampling Technique) 使用採樣,例如:上採樣(Oversampling)、下採樣(Undersampling) 採用梯度下降法(Gradient Descent) None 5. 關於各類統計圖的使用時機,下列敘述何者「不」正確? 散佈圖(Scatter Plot)可以用來觀察兩連續變數 X 與 Y 之間的關係 雷達圖(Radar Char)可以用來比較多個指標 散佈圖(Scatter Plot)可以觀察兩個變數間的因果關係 泡泡圖(Bubble),用泡泡大小展現第三變量 None 6. 下列選項何者為梯度下降法的正確步驟順序?(1)重複迭代,直到得到權重最佳值、(2)把輸入傳入類神經網路,得到輸出、(3)對每一個神經元計算誤差與調整相對應的權重以減少誤差、(4)用隨機值初始化權重與偏差、(5)計算預測值與真實值之間的誤差 42531 24513 45312 45132 None 7. 下列何者「不」屬於 Python 或 R 常用到的繪圖套件? D3.js(Data-Driven Documents) ggplot2 Seaborn Matplotlib None 8. 附圖為某餐廳之"餐廳小費統計數據"所繪製而成的箱型圖(Box Plot)。關於該數據與圖表的敘述,下列何者較「不」正確?(單位:元) 該數據之箱型圖繪製結果中,沒看到有離群值的情況 該數據之中位數介於 10-20 元之間 該數據之第三四分位數(第 75 個百分位數)大約是 24 元 該數據之最小值大於 0 元 None 9. 貝氏定理主要是哪三種機率構成? 事前機率、獨立事件、條件機率 事前機率、聯合機率、條件機率 聯合機率、獨立事件、條件機率 事前機率、事後機率、條件機率 None 10. 參考附圖,R 語言中下列敘述何者正確? 資料共有 25 筆 四大類別中,合計死亡率最高者為「都市-女性」 四大類別中,60-64 歲人口死亡率第二高者為「郊區-男性」 使用 barplot 繪圖時,須設定 beside = FALSE 才可繪製附圖結果 None 11. 關於資料匯入與匯出,下列敘述何者「不」正確? 針對來源資料量設計資料萃取(Extract)方式,例如:將大檔案切分為數個小檔案後,各別進行資料萃取作業 考慮到關聯式資料庫之 ETL 作業執行效率,可一次執行多個大資料表(Table)關聯(Join),讓資料一次寫入目的地 ETL 作業常有上下游作業關係,因此需要設定好相互關係(Job Dependency)與執行順序 當 ETL 作業發生錯誤時,規劃良好的 ETL 作業具有分階段重新執行能力(Re-run),不用每次都重頭開始 None 12. 有一 pandas DataFrame 格式的變數 df,其資料內容如下:df_new = df.dropna(subset=['電話', '信箱'])、print(list(df_new.姓名.unique())),請問執行附圖程式碼後,下列何者為輸出結果? ['Alfred', 'Ken'] ['Batman', 'Catwoman'] ['Alfred', 'Batman', 'Catwoman'] ['Alfred', 'Batman', 'Catwoman', 'Chris', 'Ken'] None 13. 透過 Python 載入 CSV 資料時,可能會使用 pandas 套件的 read_csv 函數,下列敘述何者「不」正確?(可參考附圖官方說明文件) 可以直接匯入本機資料夾的 CSV 資料 XLS(Excel Spreadsheet)資料類似於 CSV,故也可透過此函數匯入 可以載入非 CSV 格式,例如以 Tab 分隔或是以句號分隔的純文字資料 可以直接匯入網路上的 CSV 資料,例如:pandas.read_csv('http://www.sample-videos.com/csv/Sample-Spreadsheet-10-rows.csv') None 14. 基於集群的離群值之偵測方法(Clustering-based Approaches),下列何者「不」是用來判斷離群值的依據? 物件是小型或稀疏集群的一部分 物件與最接近的集群之間是否存在較大距離 物件是否位於兩個集群之間 物件不屬於任何集群 None 15. 請問資訊增益(Information Gain)衡量是應用在樹狀模型(如:決策樹)建構過程中的哪一個階段? 樹的深度或複雜度 葉節點(Leaf Node)的預測方程或方式 訓練樣本數 分割資料集的預測變數(Attribute Selection Measures)與其分割值 None 16. 有一 pandas DataFrame 格式的變數 df,其資料內容如下:請問執行附圖程式碼後,下列選項內姓名何者「不」在執行結果當中? Jen Andrew Judy Celine None 17. 交叉驗證(Cross-Validation)主要用於模型訓練或建模應用中,目的是為了得到可靠穩定的模型。請問下列敘述何者正確? 交叉驗證經常用於分類預測、偏最小平方(Partial Least Squares, PLS)迴歸建模等 保留法(Holdout)驗證不算交叉驗證的類型 採用 k 摺交叉驗證(k-fold Cross Validation)通常會重複 k 次以上,以 k-1 次的結果均值作為對算法精度的估計 k 摺交叉驗證(k-fold Cross Validation),若 k=10,代表將數據集分成 10 份,將其中 5 份做訓練、5 份做驗證 None 18. 關於資料解析,下列敘述何者「不」正確? 資料解析過程中,若遇到有異常的數據資料,考慮時效性應該直接予以剔除 特徵工程(Feature Engineering)是一種資料解析的過程,使用專業背景知識和技巧處理數據,使得特徵能在機器學習算法上發揮更好的作用 資料整理、解析、變數篩選等步驟,往往佔據建模過程中大量的時間 資料變數篩選,可以採取專家討論或使用分析方法的方式來進行 None 19. 附圖為某商店其中一位客戶的消費紀錄,請問下列何種資料處理方式「最不」適當? 修正錯誤的時間,建立消費金額的時間序列 不修正時間,依照資料順序建立消費金額的時間序列 移除含有 NA 值的該筆觀測值資料 依照消費金額尋找可能之商品名稱填補 NA 值 None 20. 混淆矩陣(Confusion Matrix)是等長的觀測類別值向量與預測類別值向量,交叉統計後的二維表格結果,請問下列敘述何者「不」正確? R 語言 caret 套件與 Python 語言 pandas_ml 套件中有分類模型的各種績效評估指標 形容詞真與假意指預測的結果是否與其真實的類別相同 陽性事件通常是我們所關心的事件,例如:授信客戶違約、垃圾郵件與簡訊、患有某種疾病等,當這些事件發生時,人們通常會採取因應措施 混淆矩陣中真陽數一定大於真陰數 None 如有問題可留言,謝謝您的寶貴意見! 暱稱 電郵(提交獲得正確答案,可換題測驗完整題庫,新增題庫電郵通知) Time's up