工学类东北大学工学部

申明敬告: 本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

文档介绍

工学类东北大学工学部

2007/4/20東北大学工学部 橋本研究室AGeneralFrameworkforMiningConcept-DriftingDataStreamswithSkewedDistributions~コンセプトドリフトが生じるクラス分布に偏りがあるデータストリームに対するデータマイニングの一般的な枠組み~出典:SIAMConferenceonDataMining2007(SDM07)著者:J.Gao,W.Fan,J.Han,P.S.Yu発表者:橋本研究室4年 西村聖所属:東北大学工学部発表日:2007/4/20\n2007/4/20東北大学工学部 橋本研究室1目次背景既存手法の問題予測誤差の原因提案手法による誤差の削減実験方法・結果まとめ・考察\n背景分類:大量のデータを予め決められたグループ(クラス)に分 けること例.不正アクセスの検出毎日大量のアクセス履歴があるが,そのうち不正アクセスはごく僅か↑                       ↑データストリーム             クラス分布の偏りまた,不正アクセスの手段も日々変化していく(コンセプトドリフト)不正アクセスは見逃すと大変!クラス分布の偏り,データストリームのコンセプトドリフトに対応できるような手法が必要となる2007/4/20東北大学工学部 橋本研究室2\n2007/4/20東北大学工学部 橋本研究室3基本的なオンライン型分類学習の流れ学習用データ学習アルゴリズム分類モデルクラス1クラス2分類分類したいデータデータが発生するたびにモデル構築データの発生\n2007/4/20東北大学工学部 橋本研究室4既存の手法の問題点データのクラス分布のバランスが取れていて,安定したデータストリームを仮定しているコンセプトドリフトが生じるクラス分布の偏ったデータストリームを仮定コンセプトドリフトを条件付確率の変化と捉えている.しかし実際に観測できるのは,結合確率であり結合確率の変化が条件付確率の変化によるものか,生起確率の変化によるものかが分からないコンセプトドリフトを結合確率の変化と捉えることにより,詳細な分析をするx:事例y:クラス\n2007/4/20東北大学工学部 橋本研究室5コンセプトドリフトと予測誤差の関係予測誤差コンセプトドリフトの発生⋍結合確率の変化表1.コンセプトドリフトの種類予測誤差はコンセプトドリフト発生の指標とはならず,コンセプトドリフトに対応するためには既存の手法同様最新のデータによるモデルの再構築が必要変化なし予測誤差変化なし変化する変化する変化するは分類モデルが予測するクラス\n2007/4/20東北大学工学部 橋本研究室6分類結果に含まれる誤差の種類予測誤差=ベイズ誤差(真の分類誤り率)+バイアス+分散バイアス:分類に用いるモデルへの制約分散:異なる学習データを用いた場合の分類モデルの予測の差バイアスが大きすぎる学習精度があがらないバイアスが小さすぎる学習結果が安定しないバイアスは適切に設定すべき提案手法は学習アルゴリズムにC4.5を用いているので,枝刈りによりバイアスを適度に保てる\n提案手法の流れサンプリングアンサンブル学習学習アルゴリズム分類モデルクラス1クラス2分類分類したいデータモデル再構築最新データデータの発生過去の少数クラス学習用データ2007/4/20東北大学工学部 橋本研究室7\nサンプリング学習には最新のデータを用いるのがよいが,クラス分布が偏っているので過去の少数クラスの再利用と,多数クラスの数を減らすことによりデータ分布の偏りをなくす図3.サンプリングの流れ少数クラスに分類される事例多数クラスに分類される事例過去の少数クラス最新データ2007/4/208東北大学工学部 橋本研究室\n2007/4/20東北大学工学部 橋本研究室9サンプリングによる分散削減利点:過去の少数クラスも用いることにより,事例不足による分散が減る欠点:過去の事例を用いることにより,現在のコンセプトと異なるデータが増えるので,バイアスが増えるしかし,多数事例は現在のコンセプトを反映しており,かつ数も十分あるのでバイアスの上昇は僅かトータルで見ると予測精度は上昇\n2007/4/20東北大学工学部 橋本研究室10アンサンブル学習複数の分類モデルを用いて予測精度の向上を計るアンサンブル学習の結果は,それぞれの分類モデルの予測の平均で,ある事例xが少数クラスに属する確率は:分類モデルの数:アンサンブル学習の結果:各分類モデルの予測結果学習アルゴリズム学習用データk学習用データ1分類モデル1分類モデル2……結果平均学習用データ2分類モデルk\n2007/4/20東北大学工学部 橋本研究室11アンサンブル学習による分散削減アンサンブル学習の結果の誤差を用いた表現分散の項の分散は以下のようになるので分類モデルの数kが大きいほど分散の分散が小さくなり,精度が上がる\n2007/4/20東北大学工学部 橋本研究室12実験方法・目的提案手法と他の手法を比べ,提案手法のクラス分布の偏ったデータストリームに対する優位性を示す表2.提案手法と他の手法提案手法SE(Sampling+Ensemble)分類モデルの数は5個比較手法NS(Nosampling+Singlemodel)SS(Sampling+Singlemodel)SENSSSサンプリング有り無し有りアンサンブル有り無し無し\n2007/4/20東北大学工学部 橋本研究室13人工データデータストリームの実現11個のデータセットを作るそれぞれのデータセットのサイズは1000コンセプトドリフトの実現データセット間で  の各次元の値,重みを変えるP(x),P(y|x)を変えることに相当変化の方向は10%の確率で反転するクラス分布の偏りの実現少数クラスは全体の1%となるように設定コンセプトドリフトの生じる,クラス分布に偏りのあるデータストリームの実現\n2007/4/20東北大学工学部 橋本研究室14条件付確率,生起確率の変化P(x)の変化事例xが正規分布に従うとし,xの各次元の平均値μを変化させることにより,xの分布を変化させるP(y|x)の変化事例xが小数クラスcに割り当てられる条件付確率をで表すg(x)はxの各次元の値とその次元の重みの関数で,分布が偏るように(少数クラスは全体の1%)設定する\n2007/4/20東北大学工学部 橋本研究室15人工データのROC曲線Figure2-(a).人工データのROC曲線提案手法のほうが他の手法よりも遥かによい縦軸:検出率少数クラスを正しく分類できる確率横軸:誤検出率多数クラスを誤分類する確率左上に近づくほど理想的な分類モデル\n2007/4/20東北大学工学部 橋本研究室16人工データの精度-再現率プロットFigure2-(b).人工データの精度-再現率プロット提案手法が他の手法よりも精度と再現率を高く保てる縦軸:精度モデルが少数クラスと予測した中で正しい確率横軸:再現率(検出率)精度と再現率には経験的にトレードオフがある\n2007/4/20東北大学工学部 橋本研究室17まとめ既存の手法では対応できなかったクラス分布の偏ったデータストリームのコンセプトドリフトに対して,提案手法はサンプリング,アンサンブル学習を用いることにより対応できる既存の手法同様,分類モデルの再構築によりコンセプトドリフトに対応するが,コンセプトドリフトに対して詳細な分析をした課題2クラス問題だけではなく,多クラス問題にも対応できるようにすべき\n2007/4/20東北大学工学部 橋本研究室18考察毎回モデルの再構築をするとコストがかかるので,現在のモデルがコンセプトの変化に対応できなくなったら再構築するなどの方法で,モデルの再構築の頻度を減らすべきである\n2007/4/20東北大学工学部 橋本研究室19ご静聴ありがとうございました\n2007/4/20東北大学工学部 橋本研究室20予測精度の比較DecisionTreeNaïveBayesLogisticRegressionSENSSSSENSSSSENSSSSynthetic10.94640.51750.69440.95320.8220.95250.88010.83630.8737Synthetic20.93370.4840.66110.95580.83550.95560.89920.81020.8854Thyroid110.99990.99990.99820.99790.99820.99770.97740.9909Thyroid20.99980.99980.99960.95510.90540.91450.99490.95930.993Opt0.99420.94950.97770.99260.97220.98980.99710.9940.9953Letter0.99310.94670.97820.93950.93890.93890.95450.94480.9517Covtype110.99990.99970.99950.99970.99950.99890.9994補助表1.AUCの比較\n2007/4/20東北大学工学部 橋本研究室21実データ(UCImachinelearningrepositoryで公開されているデータ)偏った分布の実現そのままでは使えないので,分布が偏るように加工するあるクラスを少数クラスとし,残りのクラスをまとめて多数クラスとするデータストリームの実現偏った分布を保ったままランダムにいくつかのデータセット分けるコンセプトドリフトの実現データストリームの実現の為,元のデータをランダムにいくつかのデータセットに分けるとデータセット同士が微妙に異なるコンセプトドリフトを実現,しかしコンセプトドリフトの程度は弱い補助表2.実データ種類事例数属性数少数クラスの事例数分割数分割サイズOpt5620645546936\n実データ補助表3.実データ2007/4/20東北大学工学部 橋本研究室22種類事例数特徴数少数クラス分割数分割後サイズThyroid68322116661138Opt562064554-5726936Letter200001613163332Covtype2860454274112599\n2007/4/20東北大学工学部 橋本研究室23実データのROC曲線Figure3-(a).実データのROC曲線実データはコンセプトドリフトの程度が激しくないので,人工データ程提案手法による改善が見られないしかし,それでも提案手法が最も優れている\n2007/4/20東北大学工学部 橋本研究室24実データの精度-再現率プロット図10.実データの精度-再現率プロットコンセプトドリフトの程度が激しくないので人工データよりも差はないが,それでも提案手法が一番精度と再現率を高く保てる\n2007/4/20東北大学工学部 橋本研究室25人工データ詳細\nROC曲線少数クラスの確率密度多数クラスの確率密度0%100%50%\n2007/4/20東北大学工学部 橋本研究室27サンプリング学習には最新のデータを用いるのがよいが,クラス分布が偏っているので過去の少数クラスの再利用と,多数クラスの数を減らすことによりデータ分布の偏りをなくす過去現在図3.サンプリングの流れ少数クラスに分類される事例多数クラスに分類される事例\n分散の計算Y=aXの分散は\n更多资源xiti123.taobao.com初二语文初二英语初二数学初二物理初二政治初二历史初二地理初二生物
查看更多

相关文章

您可能关注的文档