# ৩.৫. ডাটার তত্ব আর তার প্রসেস

মেশিন লার্নিং আর ডাটার কিছু “প্রিন্সিপাল” মানে তত্ত্ব নিয়ে আলাপ করি। জানি - তত্ব পছন্দ করেন না কেউ, তবে শুরুতে সেটা জরুরি। সেটাও করবো অল্প সময়ের জন্য।

প্রথমত:

১. ডাটা হচ্ছে “স্ট্রাটেজিক” অ্যাসেট

যেহেতু ডাটা থেকে শুরু হয় সবকিছু, একে লম্বা সময় ধরে রাখা জরুরী। মানে, কতটুকু রাখবেন আর কতটুকু ফেলে দেবেন সেখানে দরকার একটা ব্যালান্স। তবে সেখানে দুটো প্রশ্ন করতে পারেন নিজেকে। বিশেষ করে এ ব্যাপারে।

ক. আমরা সব ডাটা কি নিতে পারছি আমাদের দরকারে? আবার, সব ডাটা কি ব্যবহার করতে পারছি আমাদের প্রয়োজনে? কতটুকু হচ্ছে আসলে কতটুকু?

খ. প্রতিটা ডাটা থেকে কি নিতে পারছি দরকারী ‘জ্ঞান’? নাকি একেবারেই পারছি না?

স্বভাবতই এর উত্তর “না”। স্টোরেজের দাম কমাতে ব্যাপারটা গায়ে না লাগলেও ডাটাকে ফেলতে হবে আমাদের দরকারী “স্ট্রাটেজিক” অ্যাসেট হিসেবে। সে কারণে আমরা ব্যাপারটা রাখবো মাথায় - একটা লম্বা সময় ধরে। ডাটা কিন্তু সময়ই ডাটা। আগের আমলে আমরা দুর্গকে বলতাম স্ট্রাটেজিক অ্যাসেট। ব্যাপারটা সেরকম। তাকে ঘিরেই তৈরি করতে হবে আমাদের ভবিষ্যত সব প্ল্যানিং। কতোটুকু আসলে রাখবো - আবার সেই ডাটা তখন পাবো কি না?

২. ডাটা থেকে “সিস্টেম্যাটিক” ভাবে জ্ঞান আহরণ

ডাটাকে অনেকদিন ধরে হাজির করলাম আমাদের সিস্টেমে। আবার - সেগুলোকে স্টোর করলাম অনেক দিন ধরে। এখন - এই ডাটাগুলো থেকে জ্ঞান বের করা দরকার। কিভাবে সেই জ্ঞান বের করবো সেটার একটা “সিস্টেম্যাটিক প্রসেস” থাকা দরকার। একেক সময়ে একেক রকম না। পুরোপুরি একটা ডিফাইন্ড প্রসেস। আজকে মনে হলো - করলাম একটা। আরেকদিন করলাম আরেকটা - সেটা হবে না। ডাটা মাইনিংএর জন্য এধরনের ক্রস ইন্ডাস্ট্রি প্রসেসগুলো তৈরি করা আছে আগে থেকে। জানতে হবে - আছে কোথায় সেটা? মানতে হবে সেই জিনিস।

৩. ডাটার সাথে ভালবাসার সম্পর্ক তৈরি করা

ডাটা নিয়ে যাদের নাওয়া, খাওয়া-দাওয়া, ঘুমানো সবকিছু, তাদেরকে নিয়ে আসতে হবে এক জায়গায়। দিতে হবে কাজের স্পেস। দিতে হবে সেরকম এনভায়রনমেন্ট। তাদের ভেতরের সেই রসায়ন তৈরি হবার সময় দিতে হবে ডাটার সাথে। ডাটা ডাটা এবং ডাটা। মানে শুধু ডাটা। যারা চিন্তা করে শুধু ডাটা নিয়ে। আনতে হবে তাদেরকে এক ছাদের নিচে। সেই মানুষগুলোই কিন্তু যোগসুত্র করতে পারবে ব্যবসা এবং ডাটার সাথে। বুঝতে হবে পুরো ইকোসিস্টেম।

৪. কাঁটাতে হবে ডাটার অনিশ্চয়তা

অনেক গল্প আছে ডাটা নিয়ে। ডাটা এটা করতে পারে - ওটা করতে পারে। সবই বুঝলাম, তাই বলে ডাটা তো সর্বেসর্বা নয়। ভুল হতে পারে ডাটার। মানে, ঠিকমতো ডাটাকে না ইন্টারর্প্রেট করতে পারলে। সে জায়গাটা হচ্ছে 'হিউম্যান এলিমেন্ট'। আসলেই মানুষের কাজ সেটা। মানুষের ভুলে দোষ পড়ে মেশিন লার্নিংয়ের ওপর। মনে রাখতে হবে ডাটা একটা টুল, সিদ্ধান্ত নেবার একটা সহায়ক জিনিস। ভুল হতে পারে ডাটার ঠিক ফিচারটা না বুঝতে পারলে। ডাটার পাশাপাশি ব্যবহার করতে হবে সাধারণ জ্ঞানটাকেও। কে যেন বলেছিলো ফেইল ফার্স্ট, লার্ন ফার্স্ট - মানে যতো তাড়াতাড়ি এক্সপেরিমেন্ট করা যায় ততো ভালো। শেখা যায় কি ভুল করছিলাম নিজের কাজে। তাড়াতাড়ি।

৫. "বিজনেস-অ্যানালাইটিক্স-বিজনেস" তত্ব

সবচেয়ে বড় তত্ব হচ্ছে এই জিনিস। মেশিন লার্নিং অথবা তার এলগরিদম সবকিছু নয়। আসলে এগুলোই অল্প অংশ। যেগুলো নিয়ে আমরা আলাপ করছি। দরকার ব্যবসাটা বোঝা। আসলেই সবচেয়ে বড় অংশ হচ্ছে সেই ব্যবসাটা বোঝা। হৃদয় দিয়ে। আগাগোড়া ধরে। আমি ই-কমার্স ব্যবসায় থাকলে সেটার ইকোসিস্টেম বোঝা জরুরি। এলগরিদম অথবা মেশিন লার্নিং ততো নয়। মেশিন লার্নিং সিস্টেম জানতে সময় লাগে না - লাগে সেই ব্যবসাটার এন্ড টু এন্ড ইকোসিস্টেম বুঝতে। এখানেই ভুল করেন বেশিরভাগ মানুষ। বুঝতে ব্যবসার আসল ইকুয়েশন। মেশিন লার্নিং নয়। পরে দোষ হয় মডেলের। দোষ হয় যান্ত্রিক শিক্ষার।
