আমাদের মডেল যতো বেশি কমপ্লেক্স হবে, সেটা ততো বেশি ভালো করে ট্রেনিং ডেটা প্রেডিক্ট করতে পারবে। আমরা কী সেটা চাই? না সেটা চাইনা। আমরা চাই মডেল ভালো করে কাজ করে অজানা ডেটার ওপর। সেকারণে টেস্ট ডেটার জন্য ওপেন করতে হবে মডেলকে। আমরা যদি ট্রেনিং এর প্রতিটা রেকর্ড ধরে ধরে অ্যানালাইসিস করি, তাহলে সেটা ট্রেনিং ডেটাকে ঠিকমতো প্রেডিক্ট করতে পারবে তবে, অজানা ডেটা নিয়ে প্রশ্ন থাকবে। সেটাকে 'জেনারেলাইজ' করা হলো না। আমি নিজে দেখেছি ট্রেনিং ডেটাতে মডেলের অ্যাক্যুরেসি ৯৬%, টেস্টে সেটা কমে এসেছে ৮০%। মানে প্রশ্ন ফাঁস। ট্রেনিং ডেটাকে (পরীক্ষার প্রশ্ন) মুখস্ত করেছে, আর বাকি বই পড়েনি।