بکارگیری تکنیک های خوشه بندی و الگوریتم ژنتیک در بهینه سازی درختان تصمیم گیری برای اعتبارسنجی مشتریان بانک ها

نوع مقاله: مقاله پژوهشی

نویسندگان

1 ندارد

2 مسئول مکاتبات

چکیده

درختان تصمیم گیری به عنوان یکی از تکنیک های داده کاوی کاربرد زیادی در اعتبارسنجی مشتریان بانک و
شناسایی آن ها برای اعطای تسهیلات اعتباری دارد. مسئله اصلی در پیچیدگی درختان تصمیم گیری، اندازه بیش از حد،
عدم انعطاف پذیری و دقت کم در طبقه بندی است. هدف از این مقاله ارائه مدل ترکیبی در بهینه سازی درختان تصمیم
گیری توسط تکنیک الگوریتم ژنتیک به منظور حل مسائل ذکر شده در فوق برای اعتبارسنجی مشتریان بانک است. به
نظر می رسد بتوان با انتخاب ویژگی های مناسب و ساخت درختان تصمیم گیری توسط الگوریتم ژنتیک به کاهش
پیچیدگی و افزایش انعطاف پذیری درختان تصمیم گیری پرداخت. در مدل ترکیبی پیشنهادی ابتدا داده های اعتباریتوسط تکنیک خوشه بندی SimpleKmeansبه دو خوشه تقسیم می شوند. سپس با استفاده از الگوریتم ژنتیک، پنج الگوریتم انتخاب ویژگی مبتنی بر سه رویکرد فیلترWrapperو طرح جاسازی شده بر پایه درخت تصمیم گیری ژنتیکی،به انتخاب ویژگی های اعتبارسنجی مهم در مجموعه داده می پردازند. در ادامه پنج درخت تصمیم گیری مبتنی برلگوریتم C4.5در هر خوشه با مجموعه ویژگی های منتخب ساخته می شود. بهترین درختان تصمیم گیری در هر خوشهمبتنی بر معیارهای بهینگی مورد نظر در این مقاله انتخاب شده و با هم ترکیب می شوند تا درخت تصمیم گیری نهاییبرای اعتبارسنجی مشتریان بانک ایجاد شود. ابزار یادگیری ماشین وکا و نرم افزارGATreeبرای رسیدن به نتایج بکار
گرفته شده است. نتایج پژوهش نشان می دهد که استفاده از مدل ترکیبی پیشنهادی در ساخت درخت تصمیم گیری
منجر به افزایش دقت طبقه بندی نسبت به بسیاری از الگوریتم های مقایسه شده در این مقاله می شود؛ ولی پیچیدگی
الگوریتم مدل ترکیبی پیشنهادی از برخی الگوریتم های طبقه بندی مقایسه شده در این مقاله بیشتر است.

کلیدواژه‌ها


عنوان مقاله [English]

Using Clustering and Genetic Algorithm Techniques in Optimizing Decision Trees for Credit Scoring of Bank Customers

نویسندگان [English]

  • Mahmood Alborzi 1
  • Mohammad Khanbabaei 2
  • M. E. Mohammad Pourzarandi 1
چکیده [English]

Decision trees technique as one of the data mining techniques, is used in credit scoring of
bank customers to classify them in order to offer credit facilities. The main problem is in
complexity of decision trees, excessive size, lack of flexibility and low accuracy in
classification. The purpose of this paper is to propose a compound model in the optimization of
decision trees by using genetic algorithm technique. It appears that genetic algorithm can choose
appropriate features and build decision trees to reduce complexity and increase flexibility in
decision trees. In the proposed compound model, the credit data is initially divided into two
clusters by Simple means clustering technique. On the next step, the important credit scoring
features in the data set are selected using genetic algorithm and the five feature selection
algorithm based on Filter, Wrapper and Embedded approaches. Subsequently, five decision
trees based on C4.5 algorithm in each cluster are constructed with a set of the selected features.
The best decision trees in each cluster, are selected and combined based on the desired
optimality criteria, mentioned in this paper, to construct the final decision tree. WEKA machine
learning tool and GATree software were used to in this purpose. Results show that using the
proposed compound model in building decision trees leads to increased classification accuracy,
compared to other algorithms in this paper. However the algorithm complexity of the proposed
compound model is more than some of the classification algorithms compared in this paper.

کلیدواژه‌ها [English]

  • Credit Scoring
  • Classification
  • Genetic algorithm
  • Decision Trees
  • Feature Selection
  • Clustering