Data Science - ডেটা সায়েন্স

ডেটা সায়েন্স কী এবং ডেটা সায়েন্টিস্ট কারা?

ডেটা সায়েন্স এখন হট টপিক।

একাডেমিয়া থেকে ইন্ডাস্ট্রিতে চলে আসার পর প্রথম যে সমস্যা অনুভব করেছি সেটা হলো কাউকে সহজে বোঝানো যায় না আমি কী করি। আমেরিকাতে ইউনিভার্সিটির শিক্ষকদের প্রফেসর বলে। প্রফেসর বললে সবাই বোঝে কাজটা কী। ইন্ডাস্ট্রিতে কাজ করছি ডেটা সায়েন্টিস্ট হিসেবে। কেউ জিজ্ঞেস করলে এক কথায় যদি বলি ডেটা সায়েন্টিস্ট, তখন অবধারিতভাবে মুখের অভিব্যক্তি পরিবর্তিত হয়ে ভাবটা এমন হয় যেন ডেটা সায়েন্টিস্ট– সেটা আবার কী?

অনেকে প্রশ্ন করে –

ডেটা?

সায়েন্টিস্ট?

মানে?

ডেটা সায়েন্স কী?

ডেটা সায়েন্স নতুন এবং দ্রুত জনপ্রিয় হচ্ছে এমন একটি ফিল্ড। অনেকেই ইদানীং ডেটা সায়েন্সের প্রতি আগ্রহী হয়ে উঠছে। অথচ তাদের অনেকেই পরিষ্কারভাবে জানে না ডেটা সায়েন্স বলতে কী বোঝায়।

ডেটা সায়েন্স ইজ লুজলি ডিফাইন্ড। অর্থাৎ ডেটা সায়েন্স বলতে অনেক কিছুই বোঝানো সম্ভব এবং অনেক কিছুই বোঝানো হচ্ছে। কোন্ ডিসিপ্লিনের মানুষ শব্দটি ব্যবহার করছে তার উপর নির্ভর করে তারা ডেটা সায়েন্স বলতে কী বোঝাচ্ছে। এর কারণ হলো ডেটা নিয়ে যে বা যারা কাজ করে তারাই নিজেদেরকে ডেটা সায়েন্টিস্ট হিসেবে দাবী করতে পারে।

সহজ করে বলতে গেলে ডেটা সায়েন্স এমন একটি শাখা যেখানে নানা বিষয়ের লোকজন একসাথে ডেটা নিয়ে কাজ করে সেই ডেটাকে অর্থবহ করে ব্যবহারোপযোগী করে তোলে যা থেকে সিদ্ধান্ত গ্রহণ করা সম্ভব হয়। অর্থাৎ কোন প্রতিষ্ঠানের কাছে যে ডেটা আছে সেই ডেটা প্রতিষ্ঠানটির কী কাজে লাগবে সেভাবে ডেটাকে কাজে লাগানোর বিজ্ঞানকেই ডেটা সায়েন্স বলা যাবে।

ডেটা সায়েন্স কোথায় ব্যবহৃত হচ্ছে?

অতি পরিচিত উদাহরণ হলো গুগল। আপনি গুগলের সার্ভিসে লগিন থাকা অবস্থায় সার্চ করেন “cricket” তাহলে যা পাবেন আপনি গুগলে লগিন না করে যদি একই কী-ওয়ার্ড সার্চ করেন দেখবেন ফলাফল একটু হলেও ভিন্ন হবে। কেন এমনটা হয় সেটা ভেবে দেখেছেন কখনো? কারণ হলো গুগল আপনার পছন্দ অপছন্দ অনেক কিছুই জানে। আর সে মোতাবেক আপনার জন্য personalized search result তৈরী করে আপনার সামনে পেশ করে। গুগল এমনটি করে থাকে আর্টিফিশিয়াল ইন্টেলিজেন্সের মাধ্যমে যেটি ডেটা সায়েন্সের একটি অংশ বলা যায়।

আপনি কী করেন, কোথায় ঘুরতে যান, কোথায় খান, কোন দোকানে শপিং করেন, কী ধরনের শপিং করেন সেসবের অনেককিছুই এখন ট্রাক করা সম্ভব এবং করা হচ্ছেও। লোকেশনের কথাই ধরা যাক। আপনার হাতের স্মার্ট ফোনটি আপনার গতিবিধি সবকিছুই রেকর্ড করছে। আপনি হয়তো জানেন না অথবা জেনেও কিছু বাড়তি সুবিধা দিয়ে গুগল আপনার কাছ থেকে এই তথ্যগুলো যোগাড় করে নিচ্ছে। এতে গুগলের ব্যবসায়িক উদ্দেশ্য তো অবশ্যই আছে সেই সাথে আপনাকেও অনেক কিছু সহজে করে দিচ্ছে। এসব তথ্য নিয়ে গুগলের মেশিন আপনার সম্পর্কে লার্ণ করছে বা শিখছে। আপনাকে চিনছে।

এটা গেল একটা উদাহরণ। ডেটা সায়েন্সে এখন বিগ ডেটার ব্যবহার শুরু হয়েছে। বিগ ডেটা হলো অনেক বড় ডেটা। যত বড় হলে আপনার কম্পিউটারে সেই ডেটা এনালাইজ করা যাবে না সেরকম ডেটাকেই বিগ ডেটা বলা হচ্ছে। অন্যভাবে বলা যায় সাধারণ কনজিউমার লেভেলের কম্পিউটার দিয়ে যে ডেটা এনালাইজ করা যায়না সেই ডেটা হলো বিগ ডেটা।

এরকম ডেটা এখন হরহামেশা তৈরী হচ্ছে। কারণ তথ্যের প্রবাহ বেড়েছে আর সেই সাথে কমেছে কম্পিউটার স্টোরেজ -এর মূল্য। ফলে সবাই এখন ব্যাপক হারে ডেটা জেনারেট করছে (যেমন ওয়েব সাইট ক্লিক, সাইট ভিজিট, টুইট করা কিংবা ফেইসবুকে স্ট্যাটাস দেয়া, ইত্যাদি) তেমনি সেই ডেটাকে অল্প খরচে এখন সংরক্ষণ করাও সহজ হয়েছে।

তবে এর ব্যতিক্রমও আছে। যেমন প্লেনের ফ্লাইট রেকর্ড যা প্রতি সেকেন্ডে প্লেনের অবস্থান, দ্রুতি, বাতাদের প্রেশার সহ হাজারো প্যারামিটিারের মান রেকর্ড করতে পারে যা থেকে ফ্লাইটকে আরো নিরাপদ করা সম্ভব বলে বলা হচ্ছে। অথচ চাইলেই এরকম ডেটা রিয়েল টাইমে সংগ্রহ করা সহজ নয়। কারণ স্যাটেলাইটের মাধ্যমে গিগাবাইট ডেটা ট্রান্সফার করা ব্যাপক ব্যয়বহুল। আপনার মোবাইলের ডেটার খরচের সাথে তুলনা করলেই সেটা অনুমান করতে পারবেন।

মেশিন লারনিং

ডেটা সায়েন্সের একটি দিক হলো মেশিন লারনিং। মেশিন লারনিং বাস্তবায়ন করা খুব সহজ কাজ না হলেও ব্যাপারটা বেশ সহজ। একটি শিশুর কথা ধরা যাক। শিশুটি কিভাবে ভাষা শেখে সেটি ভেবে দেখুন। যদি বলা হয় শিশু নয়, একটি যন্ত্রকে ভাষা শেখাতে হবে তাহলে আপনি কিভাবে সেটি বাস্তবায়ন করবেন যাতে সে আপনার ভাষা বুঝতে পারে? কঠিন কাজ। কিন্তু এটিই মেশিন লারনিং। মেশিন যেভাবে শেখে সেটিই মেশিন লারনিং।

উদাহরন দেই– হাসপাতালে অপারেশনর পর ICU তে যেসব রোগী যায় তাদের (ধরি) আনুমানিক ১০ শতাংশ মারা যায়। ধরুন আপনার হাসপাতালে সেরকম এক লক্ষ্য রোগীর তথ্য আছে — রোগীর বয়স, রোগের ধরন, অন্যান্য ক্লিনিকাল তথ্য। এই ডেটা থেকে লার্ণ করে আমরা এমন একটি স্ট্যাটিসটিক্যাল মডেল কি তৈরী করতে পারবো যেটি নতুন সেরকম একজন রোগীর মারা যাওয়ার সম্ভাবনা বের করতে পারবে? এমনটি যদি করা যায় তাহলে আমরা আগে থেকেই সে রোগীর প্রতি নিবিড় মনোযোগ দিতে পারবো বা ব্যবস্থা নিতে পারবো। এখানে মেশিন লারনিং ব্যবহার করে ‘ফিচার’ বা ‘ফ্যাক্টর’গুলোকে বের করা হচ্ছে যে ফ্যাক্টরগুলো রোগীর মারা যাওয়ার সাথে সম্পর্কিত।

মেশিন লারনিং এর জনপ্রিয় উদাহরণ হলো গুগল নাউ বা Ok Google এবং এ্যাপল-এর সিরি এসিস্ট্যান্ট। তারা আপনার ভয়েস চিনে আপনার সাথে আলাপ চালিয়ে যেতে পারে এবং ছোটখাট প্রশ্নের উত্তরও দিতে পারে।

আসছে দিনে মেশিল লারনিং-এর আরেকটি উপহার আমরা পেতে যাচ্ছি যেটি হলো স্বচালিত গাড়ি।

ডেটা সায়েন্টিস্ট কারা?

খুব সরলভাবে বলা যায় যারা ডেটা নিয়ে কাজ করে তারাই ডেটা সায়েন্টিস্ট। মজার ব্যপার হলো ডেটা সায়েন্টিস্ট হওয়ার জন্য কারো সার্টিফিকেট লাগে না। আপনার মধ্যে যদি নিচের দক্ষতাগুলোর বেশীর ভাগই থাকে তাহলে আপনিও নিজেকে ড্যাটা সায়েন্টিস্ট হিসেবে দাবী করতে পারেন। তবে দাবীই যথেষ্ট নয়, কাজেও তার চিহ্ন রাখতে হবে।

  • SQL কোয়েরি লিখতে পারা
  • মেসি ডেটাকে ক্লিন করতে পারা (এই মেসি সেই মেসি নয়)
  • অতপর সেই ডেটাকে স্ট্যাটিসটিকাল মডেল রান দেয়ার উপযোগী করে প্রস্তত করতে পারা
  • ওয়েব পেজ, পিডিএফ ফাইল বা এরকম নন-স্ট্যান্ডার্ড জায়গা থেকে ডেটা স্ক্রাপ করতে পারা
  • ডেটাকে গ্রাফের মাধ্যে ভিজুয়ালাইজ করতে পারা
  • মেশিন লারনিং মডেল ফিট করতে পারা
  • ডিজাইন অব এক্মপেরিমেন্ট এবং analysis of variance করতে পারা
  • পরিসংখ্যানের বেসিক এবং কিছুটা এডভান্সড ধারণা রাখা
  • প্রোগ্রামিংএ দক্ষতা থাকা কিংবা দ্রুত ধরে ফেলতে পারা

আমার তো প্রোগ্রামিংএ শক্ত ভিত্তি নাই তাহলে কি ডেটা সায়েন্টিস্ট হতে পারবো না?

অবশ্যই পারবেন যদি আপনার এনালাইটিক মাইন্ড থাকে। মনে রাখবেন প্রোগ্রামিং জানতেই হবে এমন নয়। ডেটা সায়েন্স ইন্টারডিসিপ্লিনারি বিষয়। আপনি বিষয়ভিত্তিক জ্ঞানের অভিজ্ঞতা দিয়ে ডেটা সায়েন্স টিমে গুরুত্বপূর্ণ ভূমিকা রাখতে পারেন।

পরিসংখ্যান কি জানা লাগবেই?

নির্ভর করে আপনার রোল কী হবে তার উপর। এনালাইটিক কাজ করতে চাইলে পরিসংখ্যানের ধারণা থাকতে হবে। কলেজ (দ্বাদশ শ্রেনী) লেভেলের পরিসংখ্যানের জ্ঞান দিয়ে হয়তো হবে না, বিশ্ববিদ্যালয় লেভেলের পরিসংখ্যানের কিছু কোর্স করা থাকলে সুবিধা হবে।

আর কী কী লাগবে?

আর লাগবে একগাদা কৌতূহল। আপনাকে হতে হবে ভীষণ কৌতূহলি। সমস্যা খুঁজে বের করা এবং তা কিভাবে ডেটা ব্যবহার করে তার সমাধান করা যায় সেরকম মনের অধিকারি হতে হবে। অনেক সময় নন-টেকনিক্যাল ব্যক্তি একজন টেকনিক্যাল ব্যক্তির চেয়ে সমস্যাকে অনেক সহজে সমাধান করতে পারেন।

এর সাথে লাগবে কমিউনিকেশনে দক্ষতা। ডেটা থেকে ইনসাইট বের করে সেটাকে সাধারণ মানুষ এবং প্রতিষ্ঠানের CEO বা Business leader দের কাছে সহজবোধ্য করে বোঝানোর সক্ষমতা থাকতে হবে।

আমার তো এর সবগুলোই মোটামুটি আছে- তাহলে?

তাহলে আপনাকেই খুঁজছে বাংলাদেশ। আপনিই ডেটা সায়েন্টিস্ট 🙂

(শেষ)

আগামী পর্বে লিখবো ডেটা সায়েন্টিস্ট হওয়ার জন্য কিভাবে প্রস্ততি নিতে হয়।

 

স্থায়ী লিংক

http://wp.me/p85dFo-19

Data Science শব্দটিকে ড্যাটা সায়েন্স, ডেটা সায়েন্স কিংবা ডেটা সাইন্স — নানাভাবে লেখা যেতে পারে।

ফেইসবুক কমেন্ট

wavatar

ড. এনায়েতুর রহীম

পরিসংখ্যান নিয়ে কাজ করছি প্রায় দুই দশক। কর্মজীবন শুরু ঢাকা বিশ্ববিদ্যালয়ে শিক্ষকতার মাধ্যমে। বর্তমানে আমেরিকায় ড্যাটা সাইন্টিস্ট হিসেবে কাজ করছি ক্যারোলাইনা হেলথকেয়ার সিস্টেমে। তরুণ পরিসংখ্যানবিদদের জন্য পরিসংখ্যান নিয়ে লেখালেখি করতে পছন্দ করি। পরিসংখ্যানে উচ্চশিক্ষা ও কর্মক্ষেত্রে পরিসংখ্যানের ব্যবহার সম্পর্কিত বিষয় নিয়ে আমার সাথে যোগাযোগ করা যাবে। যোগাযোগ করতে উপরের Contact লিংক ব্যবহার করতে পারেন।

6 thoughts to “ডেটা সায়েন্স কী এবং ডেটা সায়েন্টিস্ট কারা?”

Leave a Reply

Your email address will not be published. Required fields are marked *