ដេរីវេ — ភាសានៃការផ្លាស់ប្ដូរ

រាល់ពេលដែល Neural Network រៀន វាតែងតែសួរខ្លួនឯងនូវសំណួរដដែលៗថា: "ប្រសិនបើខ្ញុំកែប្រែ parameter នេះបន្តិច តើ error នឹងកើនឡើង ឬថយចុះ — ហើយប៉ុន្មាន?" សំណួរនេះត្រូវបានឆ្លើយដោយ ដេរីវេ (Derivative)។ មុននឹងយើងនិយាយអំពី gradient ឬ optimizer យើងត្រូវយល់ derivative ពីដំបូងបង្អស់។

ផ្នែកទី ១ — បន្ទាត់ និងមេគុណប្រាប់ទិស (Lines and Slopes)

សមីការបន្ទាត់

ទំនាក់ទំនងងាយបំផុតរវាងតម្លៃពីរ គឺបន្ទាត់ត្រង់៖

y = mx + b

ក្នុងនោះ៖

$x$ គឺជា ទិន្នន័យចូល (input)
$y$ គឺជា លទ្ធផល (output)
$m$ គឺជា មេគុណប្រាប់ទិស ឬចំណោត (slope) — បញ្ជាក់ថាបន្ទាត់នោះងើបឡើង ឬចុះក្រោមខ្លាំងកម្រិតណា
$b$ គឺជា ចំណុចប្រសព្វអ័ក្ស y — ជាកន្លែងដែលបន្ទាត់កាត់អ័ក្សឈរ

ឧទាហរណ៍៖ $y = 2x + 1$

$x$	$y = 2x + 1$
0	1
1	3
2	5
3	7

រាល់ពេលដែល $x$ កើនឡើង ១ នោះ $y$ នឹងកើនឡើង ២ ជានិច្ច។ មេគុណប្រាប់ទិស $m = 2$ គឺជាអ្នកកំណត់អត្រាកំណើនថេរនេះ។

ការគណនាមេគុណប្រាប់ទិសរវាងចំណុចពីរ

ប្រសិនបើយើងមានពីរចំណុច $(x_1, y_1)$ និង $(x_2, y_2)$ នៅលើបន្ទាត់ មេគុណប្រាប់ទិសគឺ៖

m = \frac{\Delta y}{\Delta x} = \frac{y_2 - y_1}{x_2 - x_1}

នេះគឺជាការគណនា បំរែបំរួលកម្ពស់ ធៀបនឹងបំរែបំរួលចម្ងាយដេក — ពោលគឺ $y$ ប្រែប្រួលប៉ុន្មាន នៅពេល $x$ ផ្លាស់ប្តូរមួយឯកតា។

ហេតុអ្វីបានជាមេគុណប្រាប់ទិសមានសារៈសំខាន់?

មេគុណប្រាប់ទិសប្រាប់អ្នកអំពី អត្រាបម្រែបម្រួល។ បើវាស្មើ ២ មានន័យថា "រាល់ពេលដើរទៅមុខ ១ ជំហានក្នុងទិសដៅ x, តម្លៃ y នឹងឡើង ២"។ បើស្មើ −3 មានន័យថា y នឹងចុះ ៣។ បើស្មើ ០ មានន័យថា y មិនប្រែប្រួលទេ (បន្ទាត់ដេករាបស្មើ)។

ផ្នែកទី ២ — នៅពេលបន្ទាត់ក្លាយជាខ្សែកោង

បន្ទាត់ត្រង់មានមេគុណប្រាប់ទិស ថេរ នៅគ្រប់កន្លែង។ ប៉ុន្តែក្នុងគណិតវិទ្យា និង machine learning ភាគច្រើនយើងជួបនឹង ខ្សែកោង ដែលមានចំណោតប្រែប្រួលនៅគ្រប់ចំណុច។

សូមពិនិត្យមើលអនុគមន៍ប៉ារ៉ាបូល៖

f(x) = x^2

$x$	$f(x) = x^2$
−3	9
−1	1
0	0
1	1
3	9

នៅក្បែរ $x = 0$ ខ្សែកោងនេះស្ទើរតែរាបស្មើ។ ប៉ុន្តែនៅក្បែរ $x = 3$ វាហក់ឡើងយ៉ាងខ្លាំង។ ចំណោតរបស់វា ខុសៗគ្នានៅគ្រប់ចំណុច — នេះមានន័យថារូបមន្ត $m = \frac{\Delta y}{\Delta x}$ រវាងចំណុចពីរដែលនៅឆ្ងាយគ្នា អាចប្រាប់យើងបានត្រឹមតែ អត្រាបម្រែបម្រួលមធ្យម ប៉ុណ្ណោះ។

អត្រាបម្រែបម្រួលមធ្យម

សម្រាប់ចំណុចពីរ $x$ និង $x + h$ នៅលើខ្សែកោង $f$ អត្រាបម្រែបម្រួលមធ្យមគឺ៖

\frac{\Delta f}{\Delta x} = \frac{f(x + h) - f(x)}{h}

នេះគឺជាចំណោតនៃ បន្ទាត់កាត់ (secant line) ដែលភ្ជាប់ចំណុចពីរនៅលើខ្សែកោង។

ឧទាហរណ៍ នៅលើ $f(x) = x^2$ ចន្លោះ $x = 1$ និង $x = 3$ :

\frac{f(3) - f(1)}{3 - 1} = \frac{9 - 1}{2} = 4

នោះគឺជាភាពចោតមធ្យមចន្លោះ $x=1$ និង $x=3$ ប៉ុន្តែវាមិនប្រាប់យើងពីចំណោតនៅ ចំណុចជាក់លាក់ ណាមួយឡើយ។

ផ្នែកទី ៣ — លីមីត៖ ការពង្រីកមើលចំណុចតែមួយ

ដើម្បីរកចំណោត នៅត្រង់ចំណុចជាក់លាក់មួយ យើងត្រូវបង្រួមចម្ងាយ $h$ ឱ្យខិតទៅជិតសូន្យបំផុត។ នៅពេល $h$ កាន់តែតូចទៅៗ បន្ទាត់កាត់នឹងរំកិលខ្លួនរហូតក្លាយជា បន្ទាត់ប៉ះ (tangent line) — ដែលប៉ះខ្សែកោងត្រង់ចំណុចតែមួយគត់ និងបង្ហាញពីចំណោតពិតប្រាកដនៅត្រង់នោះ។

ជាផ្លូវការ អត្រាបម្រែបម្រួលខណៈ (ភ្លាមៗ) នៅត្រង់ $x$ គឺជា លីមីត (limit)៖

\lim_{h \to 0} \frac{f(x + h) - f(x)}{h}

នេះគឺជាគំនិតស្នូលនៃ ដេរីវេ។

លីមីតតាមរយៈការយល់ដឹង

លីមីតសួរថា: "តើប្រាតិបត្តិការណ៍នោះខិតទៅតម្លៃអ្វី នៅពេលអថេរខិតទៅជិតលេខណាមួយ — ទោះបីជាមិនដល់ចំណុចនោះក៏ដោយ?"

\lim_{h \to 0} \frac{(x+h)^2 - x^2}{h}

ពង្រីក numerator (ចំនួននៅខាងលើ):

= \lim_{h \to 0} \frac{x^2 + 2xh + h^2 - x^2}{h} = \lim_{h \to 0} \frac{2xh + h^2}{h} = \lim_{h \to 0} (2x + h)

នៅពេល $h \to 0$ :

= 2x

ចំណោតនៃ $f(x) = x^2$ នៅចំណុចណាមួយ $x$ គឺ $2x$ ពិតប្រាកដ។

ផ្នែកទី ៤ — ដេរីវេ (The Derivative)

និយមន័យ

ដេរីវេ នៃអនុគមន៍ $f$ នៅត្រង់ចំណុច $x$ សរសេរថា $f'(x)$ ឬ $\frac{df}{dx}$ គឺ៖

\boxed{f'(x) = \lim_{h \to 0} \frac{f(x + h) - f(x)}{h}}

វាប្រាប់យើងអំពី អត្រាបម្រែបម្រួលភ្លាមៗ ឬចំណោតនៃបន្ទាត់ប៉ះនៅគ្រប់ចំណុច។

អត្ថន័យតាមរូបធរណីមាត្រ

តម្លៃដេរីវេ	អត្ថន័យ
$f'(x) > 0$	អនុគមន៍កំពុង កើនឡើង នៅត្រង់ $x$
$f'(x) < 0$	អនុគមន៍កំពុង ថយចុះ នៅត្រង់ $x$
$f'(x) = 0$	អនុគមន៍ រាបស្មើ (អាចជាចំណុចទាបបំផុត ឬខ្ពស់បំផុត)
$\\|f'(x)\\|$ ធំ	អនុគមន៍ប្រែប្រួល យ៉ាងលឿន
$\\|f'(x)\\|$ តូច	អនុគមន៍ប្រែប្រួល យឺតៗ

ផ្នែកទី ៥ — ច្បាប់នៃការគណនាដេរីវេ (Rules)

ការគណនាលីមីតដោយដៃរាល់ពេលគឺហត់នឿយណាស់។ អ្នកគណិតវិទ្យាបានបង្កើត ច្បាប់កាត់ (shortcut rules) ជាច្រើន ដែលគ្របដណ្ដប់អនុគមន៍ស្ទើរតែទាំងអស់ដែលអ្នកនឹងជួប។

ច្បាប់ស្វ័យគុណ (Power Rule)

សម្រាប់ $f(x) = x^n$ :

\frac{d}{dx} x^n = n \cdot x^{n-1}

ឧទាហរណ៍:

អនុគមន៍	ដេរីវេ
$x^2$	$2x$
$x^3$	$3x^2$
$x^{10}$	$10x^9$
$x$ (ពោលគឺ $x^1$ )	$1$
$5$ (ថេរ, $x^0$ )	$0$

ច្បាប់គុណនឹងថេរ (Constant Multiple Rule)

\frac{d}{dx}[c \cdot f(x)] = c \cdot f'(x)

ប្រសិនបើ $f(x) = 3x^2$ នោះ $f'(x) = 3 \cdot 2x = 6x$ ។

ច្បាប់ផលបូក (Sum Rule)

\frac{d}{dx}[f(x) + g(x)] = f'(x) + g'(x)

ប្រសិនបើ $f(x) = x^3 + 5x^2 - 2x + 7$ គណនាដេរីវេម្តងមួយតេប:

f'(x) = 3x^2 + 10x - 2

ច្បាប់បណ្តាក់ (Chain Rule)

សម្រាប់ ការផ្សំ នៃអនុគមន៍ $f(g(x))$ :

\frac{d}{dx} f(g(x)) = f'(g(x)) \cdot g'(x)

អានថា: "ដេរីវេនៃ outer function គណនានៅ inner function — គុណ (times) ដេរីវេនៃ inner function"

ឧទាហរណ៍: $h(x) = (3x + 1)^4$

ឱ្យ $g(x) = 3x + 1$ និង $f(u) = u^4$ :

h'(x) = 4(3x+1)^3 \cdot 3 = 12(3x+1)^3

ច្បាប់បណ្តាក់ (Chain Rule) មាននៅគ្រប់ទីកន្លែងក្នុង machine learning — Backpropagation គឺជាការអនុវត្តច្បាប់នេះម្តងហើយម្តងទៀតឆ្លងកាត់ layer នៃ neural network។

តារាងសង្ខេបដេរីវេទូទៅ

អនុគមន៍	ដេរីវេ
$e^x$	$e^x$
$\ln(x)$	$\frac{1}{x}$
$\sin(x)$	$\cos(x)$
$\cos(x)$	$-\sin(x)$
$\sigma(x) = \frac{1}{1+e^{-x}}$ (sigmoid)	$\sigma(x)(1 - \sigma(x))$

ធ្វើចលនា x₀ តាមខ្សែកោង ហើយមើល h ប្រែតូចទៅ 0 — បន្ទាត់កាត់ (ក្រហម) រំកិលខ្លួនក្លាយជាបន្ទាត់ប៉ះ (បៃតង) ដែលបង្ហាញពីដេរីវេជា slope ភ្លាមៗ។

ការកំណត់

អនុគមន៍

ចំណុច x₀: 2.00

-4.70.04.7

ចំងាយ h: 1.500

0.0011.53

បង្ហាញ Tangentបង្ហាញ Secant

ការគណនាផ្ទាល់

x₀2.000

f(x₀)4.0000

f′(x₀) — ពិតប្រាកដ4.0000

h1.5000

[f(x₀+h) − f(x₀)] / h5.5000

កំហុស1.50000

↗ កំពុងកើន

ខ្សែកោង និង ដេរីវេ

អត្ថន័យ ដេរីវេ តាមរូបធរណីមាត្រ

ផ្នែកដែលភ្លឺ បង្ហាញស្ថានភាពបច្ចុប្បន្ននៃ f′(x₀)។

f′(x) > 0 — កំពុងកើន

អនុគមន៍កើនឡើង នៅពេល x ដើរទៅស្ដាំ។ Gradient Descent ត្រូវដើរទៅឆ្វេង ដើម្បីចុះ Loss។

← ទីតាំងបច្ចុប្បន្ន

f′(x) = 0 — រាបស្មើ

បន្ទាត់ប៉ះ (tangent line) រាបត្រង់ — ចំណុចនេះ (critical point) អាចជា minimum, maximum, ឬ saddle point។

f′(x) < 0 — កំពុងចុះ

អនុគមន៍ចុះ នៅពេល x ដើរទៅស្ដាំ។ Gradient Descent ត្រូវដើរទៅស្ដាំ ដើម្បីចុះ Loss។

ផ្នែកទី ៦ — ការប្រើប្រាស់ដេរីវេក្នុងអនុវត្តជាក់ស្តែង

ការស្វែងរកចំណុចទាបបំផុត និងខ្ពស់បំផុត

ប្រសិនបើ $f'(x) = 0$ នោះអនុគមន៍គឺរាបស្មើ។ ចំណុចនេះហៅថា ចំណុចវិបាក (critical point) ដែលអាចជា៖

ចំណុចអប្បបរមា (Local minimum): អនុគមន៍ចុះក្រោម ហើយឡើងវិញ → $f'(x)$ ប្រែពីអវិជ្ជមានទៅជ្ជមាន
ចំណុចអតិបរមា (Local maximum): អនុគមន៍ឡើង ហើយចុះក្រោម → $f'(x)$ ប្រែពីជ្ជមានទៅអវិជ្ជមាន
ចំណុចបន្ទោះ (Saddle point): អនុគមន៍រាបស្មើ ប៉ុន្តែបន្តដំណើរក្នុងទិសដៅទូទៅដដែល

ឧទាហរណ៍: រករចំណុចអប្បបរមានៃ $f(x) = x^2 - 4x + 5$

f'(x) = 2x - 4 = 0 \implies x = 2

នៅ $x = 2$ : $f(2) = 4 - 8 + 5 = 1$ — នេះជាចំណុចអប្បបរមា។

def f(x):
    return x**2 - 4*x + 5

def f_prime(x):
    return 2*x - 4

# ស្វែងរកកន្លែងដែលដេរីវេ = 0
# 2x - 4 = 0  =>  x = 2
x_min = 2
print(f"ចំណុចអប្បបរមានៅ x={x_min}, f(x)={f(x_min)}")  # x=2, f(x)=1

ដេរីវេជាសញ្ញាណទិស

នេះគឺជាអត្ថន័យសំខាន់ដែលភ្ជាប់ calculus ទៅ machine learning:

ប្រសិនបើ $f'(x) > 0$ នៅចំណុចណាមួយ ការដើរ $x$ ទៅស្តាំធ្វើឱ្យ $f$ កើន។ ការដើរ $x$ ទៅឆ្វេងធ្វើឱ្យ $f$ ចុះ។
ប្រសិនបើ $f'(x) < 0$ ផ្ទុយពីខាងលើ។

ដើម្បី កាត់បន្ថយ $f$ យើងគួរតែដើរ $x$ ក្នុងទិសដៅ ផ្ទុយ ពីដេរីវេ:

x_{\text{new}} = x_{\text{old}} - \alpha \cdot f'(x_{\text{old}})

(ថ្មី = new, ចាស់ = old)

ត្រង់ $\alpha$ គឺជាជំហានតូច (step size)។ ត្រូវចំណាំទេ? នេះគឺ ច្បាប់អាប់ដែតនៃ gradient descent ពិតប្រាកដ។

ផ្នែកទី ៧ — ពីអថេរមួយទៅអថេរច្រើន៖ ហ្ក្រាដ្យង់ (The Gradient)

ម៉ូឌែល Machine learning មិនមែនមានប៉ារ៉ាម៉ែត្រតែមួយទេ គឺវាមានរាប់លាន។ យើងត្រូវការរកដេរីវេធៀបនឹងប៉ារ៉ាម៉ែត្រ នីមួយៗ ក្នុងពេលតែមួយ។

ដេរីវេដោយផ្នែក (Partial Derivatives)

ដេរីវេដោយផ្នែក គឺការគណនាដេរីវេធៀបនឹងអថេរមួយ ដោយទុកអថេរផ្សេងទៀតឱ្យនៅថេរ (មិនប្រែប្រួល)។

\frac{\partial J}{\partial w_i}

= "តើ J ប្រែប្រួលប៉ុន្មាន ប្រសិនបើយើងកែ $w_i$ តែម្នាក់ឯង?"

ឧទាហរណ៍: $J(w_1, w_2) = w_1^2 + 3w_1 w_2 + w_2^2$

\frac{\partial J}{\partial w_1} = 2w_1 + 3w_2 \qquad \frac{\partial J}{\partial w_2} = 3w_1 + 2w_2

វ៉ិចទ័រហ្ក្រាដ្យង់ (The Gradient Vector)

នៅពេលយើងប្រមូលដេរីវេដោយផ្នែកទាំងអស់មកដាក់ក្នុងវ៉ិចទ័រតែមួយ យើងហៅវាថា ហ្ក្រាដ្យង់ ( $\nabla J$ ):

\nabla J(w_1, w_2, \ldots, w_n) = \begin{bmatrix} \frac{\partial J}{\partial w_1} \\[4pt] \frac{\partial J}{\partial w_2} \\ \vdots \\[4pt] \frac{\partial J}{\partial w_n} \end{bmatrix}

ហ្ក្រាដ្យង់គឺជាដេរីវេច្រើនឯករណ៍ (multi-dimensional equivalent of the derivative)។ វាចង្អុលបង្ហាញទិសដៅ ឡើងខ្លាំងបំផុត ក្នុង loss landscape។ ដើម្បីកាត់បន្ថយ error យើងត្រូវដើរក្នុង ទិសដៅផ្ទុយ ពីហ្ក្រាដ្យង់ — នេះជាមូលដ្ឋាននៃ gradient descent ពិតប្រាកដ។

ស្ពានទៅកាន់ Machine Learning

ក្នុង ML, អនុគមន៍ខាតបង់ (loss function) វាស់វែងថា តើម៉ូឌែលទស្សន៍ទាយខុសកម្រិតណា។ ហ្ក្រាដ្យង់ប្រាប់យើងថា តើត្រូវកែតម្រូវទម្ងន់ (weights) ទៅទិសដៅណាដើម្បីឱ្យកំហុសនោះថយចុះ។

ផ្នែកទី ៨ — ឧទាហរណ៍ពេញលេញ៖ Linear Regression

សូមមើលការអនុវត្តជាក់ស្ដែងនៃគំនិតទាំងអស់នេះ។

ការតំរុង: យើងមានទិន្នន័យ $(x^{(i)}, y^{(i)})$ ហើយចង់ Fit បន្ទាត់ $\hat{y} = wx + b$ ។

អនុគមន៍ខាតបង់ (Loss function) (Mean Squared Error):

J(w, b) = \frac{1}{m} \sum_{i=1}^{m} \left(\hat{y}^{(i)} - y^{(i)}\right)^2 = \frac{1}{m} \sum_{i=1}^{m} \left(wx^{(i)} + b - y^{(i)}\right)^2

ដេរីវេដោយផ្នែក ធៀបនឹង $w$ (ប្រើ chain rule — ដេរីវេនៃ squared term ខាងក្រៅ គុណ ដេរីវេនៃ $wx+b$ ខាងក្នុង):

\frac{\partial J}{\partial w} = \frac{2}{m} \sum_{i=1}^{m} \left(wx^{(i)} + b - y^{(i)}\right) \cdot x^{(i)}

ដេរីវេដោយផ្នែក ធៀបនឹង $b$ :

\frac{\partial J}{\partial b} = \frac{2}{m} \sum_{i=1}^{m} \left(wx^{(i)} + b - y^{(i)}\right)

ការអាប់ដែត gradient descent — ដើរក្នុងទិសដៅផ្ទុយពី gradient:

w \leftarrow w - \alpha \cdot \frac{\partial J}{\partial w}, \qquad b \leftarrow b - \alpha \cdot \frac{\partial J}{\partial b}

import numpy as np

# ទិន្នន័យ: ទំនាក់ទំនងពិត y = 3x + 2
X = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y = np.array([5.0, 8.0, 11.0, 14.0, 17.0])

w, b = 0.0, 0.0   # ចាប់ផ្ដើមពីសូន្យ
alpha = 0.01
m = len(y)

for epoch in range(500):
    y_pred = w * X + b              # forward pass
    error  = y_pred - y             # residuals: ŷ - y

    # ដេរីវេដោយផ្នែក (the gradient)
    dw = (2 / m) * np.dot(error, X) # ∂J/∂w
    db = (2 / m) * np.sum(error)    # ∂J/∂b

    # ជំហាន gradient descent
    w = w - alpha * dw
    b = b - alpha * db

print(f"Fitted: ŷ = {w:.4f}·x + {b:.4f}")
# Output: ŷ = 3.0000·x + 2.0000

ដេរីវេ — គណនាតាមការវិភាគ calculus ហើយប្រើប្រាស់ម្ដងហើយម្ដងទៀត — គឺជាអ្វីដែលដំណើរការដំណើររៀនទាំងមូល។

សេចក្តីសង្ខេប

គំនិត	និយមន័យខ្លីៗ
ចំណោត (Slope)	$m = \frac{\Delta y}{\Delta x}$ — អត្រាបម្រែបម្រួលថេរ
អត្រាបម្រែបម្រួលមធ្យម	$\frac{f(x+h)-f(x)}{h}$ — ចំណោតនៃ secant ចន្លោះ $h$
លីមីត (Limit)	តម្លៃដែលប្រាតិបត្តិការណ៍ខិតទៅ នៅពេល $h \to 0$
ដេរីវេ (Derivative)	$f'(x) = \lim_{h\to 0}\frac{f(x+h)-f(x)}{h}$ — អត្រាបម្រែបម្រួលភ្លាមៗ
ច្បាប់ស្វ័យគុណ (Power rule)	$\frac{d}{dx} x^n = nx^{n-1}$
ច្បាប់បណ្តាក់ (Chain rule)	$\frac{d}{dx}f(g(x)) = f'(g(x))\cdot g'(x)$ — ចំបាច់សម្រាប់ backprop
ដេរីវេដោយផ្នែក (Partial derivative)	ដេរីវេ ដោយទុកអថេរផ្សេងទៀតនៅថេរ
ហ្ក្រាដ្យង់ (Gradient)	វ៉ិចទ័រនៃដេរីវេដោយផ្នែកទាំងអស់ — ចង្អុលទៅទិសដៅឡើងខ្លាំងបំផុត

ដេរីវេគឺជាចម្លើយគណិតវិទ្យាចំពោះសំណួរថា "តើផ្លូវណាជាផ្លូវឡើងទួល?"។ ក្នុង machine learning យើងប្រើសញ្ញាផ្ទុយរបស់វាដើម្បីរក "ផ្លូវចុះទួល" ដើម្បីបង្ហាត់ម៉ូឌែលឱ្យកាន់តែឆ្លាតវៃ។

តើត្រូវរៀនអ្វីបន្ត?

ឥឡូវនេះអ្នកមានមូលដ្ឋានគ្រឹះ calculus ហើយ។ ជំហានបន្ទាប់គឺ Gradient Descent ដែលជាអាល់ហ្គោរីតយកគំនិតដេរីវេនេះ មកបង្កើតជាម៉ាស៊ីនសម្រាប់រៀនដោយស្វ័យប្រវត្តិ។

បន្ទប់បន្ទាប់: Gradient Descent

See how the derivative becomes an optimization algorithm — with interactive experiments, full Python code, and a walk through every step of the math.

ចូលបន្ទប់ Gradient Descent →

ការ​កំ​ណត់