Hình 1.1. Mô hình đồ thị có hướng với các trang được xem là đỉnh và có
trọng số PageRank và khả năng web surfer tại mỗi đỉnh.
Ở hình trên (trích từ [1]), trang C có PageRank cao hơn trang E mặc
dù có ít liên kết trỏ đến nó hơn bởi liên kết trỏ đến C có giá trị cao hơn rất
nhiều. Web surfer chọn một liên kết ngẫu nhiên trên mỗi trang nhảy đến
trang E là 8.1%. Khả năng nhảy đến một trang trong toàn bộ trang một
cách ngẫu nhiên là 15%; 15% hay 85% (xem mục 2.5.1) này được xem
như một nhân tố hãm (damping factor) bởi không có nó, quá trình duyệt
ngẫu nhiên (random web surfer) sẽ kết thúc ngay trên trang A, B, hay C;
điều này khiến cho các trang khác sẽ có giá trị PageRank là 0. Ngoài ra,
trang A được giả định liên kết tất cả các trang bởi nó không có outgoing
link (xem mục 2.4.1).
Đây chính xác là ý tưởng về Rank Prestige trong Social Network.
Nói cách khác, kết quả của PageRank từ một “lá phiếu” (ballot) giữa
tất cả các trang khác trong World Wide Web cho biết độ quan trọng của
một trang web như thế nào. Một liên kết trỏ đến một trang tính như một
bình chọn hỗ trợ. PageRank của một trang web được định nghĩa bởi sự đệ
quy và phụ thuộc vào số lượng và độ đo PageRank của tất cả các trang
liên kết đến nó, còn gọi là các liên kết nội (incoming link). Một trang
được liên kết với nhiều trang khác với giá trị PageRank cao sẽ có một thứ
hạng cao. Nếu không có liên kết nào đến trang web, sẽ không có bất kì sự
2
hỗ trợ đánh giá nào cho trang web đó. Google sẽ gán một trọng số
trong khoảng từ 0 đến 10 cho mỗi trang web trên internet; dựa vào đó
PageRank sẽ cho biết tầm quan trọng của một site trong con mắt của
Google.
PageRank bắt nguồn từ lý thuyết xác suất (theoretical probability)
định giá trên Logarithmic Scale, tương tự như Richter Scale.
Ngoài ra, một liên kết từ một trang này đến các trang khác còn mang
hàm ý về authority của các trang mà nó liên kết đến. Hay nói cách khác,
càng nhận nhiều incoming link thì độ prestige của trang web càng tăng.
Bất kì một trang nào cũng có độ prestige riêng, do đó bất kì một trang nào
liên kết đến các trang khác cũng đều sở hữu độ prestige riêng của nó. Như
vậy, một trang A có độ prestige cao hơn khi trỏ đến trang C nào đó sẽ
“quan trọng” hơn một trang B nào đó cũng trỏ đến C nhưng có độ
prestige thấp hơn A. Nói cách khác, một trang sẽ là “quan trọng” nếu nó
được trỏ đến bởi một trang “quan trọng” khác. Nhờ cơ chế đánh giá này
nên PageRank tránh được nguy cơ bị spamdexing và spoofing so với
HITS.
1.2. Lịch sử
PageRank được phát triển tại đại học Stanford bởi Larry Page (do đó
giải thuật mới được đặt tên là Page-Rank) và sau đó được Sergey Brin
tiếp tục nghiên cứu và ứng dụng trong một dự án nghiên cứu về một loại
công cụ tìm kiếm mới. Dự án này được bắt đầu từ năm 1995, và kết quả
của nó là sự ra đời của Google vào năm 1998. Không lâu sau đó Page và
Brin thành lập công ty Google, cung cấp công cụ tìm kiếm mang tên
Google. Trong khi chỉ một trong nhiều yếu tố xác định thứ hạng của kết
quả tìm kiếm thì PageRank tiếp tục cung cấp các cơ sở khác phục vụ cho
công cụ tìm kiếm trên web này.
PageRank phát triển dựa trên công trình Citation Analysis của Eugene
Garfield vào những năm 1950 tại đại học Pennsylvania, các nhà sáng lập
Google cũmg đã từng trích dẫn công trình của Garfield trong paper gốc
của họ. Giải thuật PageRank phát triển dựa trên việc phân tích liên kết
giữa các trang (web link analysis). Web Link Analysis lần đầu tiên được
phát triển phải kể đến giải thuật HITS của Jon Kleinberg và nhóm của
ông khi làm việc với dự án CLEVER của IBM’s Almaden Research
Center. Bên cạnh HITS và PageRank, hiện cũng có những thuật giải Link
Analysis khác như TrustRank của Yahoo! hay BrowseRank của
Microsoft….
TÌM HIỂU
2.1. Ý tưởng gốc
Tùy theo rank prestige, độ “quan trọng” của trang i sẽ được tính bởi
tổng các giá trị PageRank của tất cả các trang trỏ đến trang i. Do một
trang có thể trỏ đến nhiều trang khác, nên độ prestige của nó cũng phải
2.
3
được chia sẻ với các trang đó.
Xem web như là một đồ thị có hướng G = (V, E), gọi n là tổng số các
trang thu thập được.
Điểm PageRank của một trang i, kí hiệu là P(i) sẽ được định nghĩa bởi
công thức sau:
với Oj là số lượng outgoing link của trang j.
Với n trang web thu thập được, chúng ta có một hệ thống gồm n
phương trình tuyến tính với n chưa biết. Ta có thể sử dụng ma trận kề
(adjacency matrix) để diễn đạt chúng. Như vậy mỗi cột trong ma trận sẽ
biểu diễn cho một trang (tương ứng một đỉnh trong đồ thị) và cho ta biết
các trang trỏ đến nó. Hay nói cách khác ta sẽ có P là một vector cột để
biểu diễn cho các giá trị PageRank của từng trang:
Ma trận kề biểu diễn cho đồ thị sẽ có các giá trị tại mỗi ô sau:
Phương trình tính PageRank lúc này sẽ là:
Đây là một phương trình đặc biệt thuộc một hệ thống đặc trưng
(eigensystem), tại đó P là một vector đặc trưng (eigenvector) tương ứng
với giá trị đặc trưng (eigenvalue) là 1. Điều đó chứng tỏ rằng khi một số
điều kiện được thỏa mãn, 1 là giá trị đặc trưng lớn nhất và PageRank
vector P là một vector đặc trưng chính (principal eigenvector). Để tìm P,
ta có thể sử dụng một phương pháp toán học được gọi là Power Iteration
(còn gọi là igenvalue algorithm). Power Iteration [3] được định nghĩa đơn
giản như sau: cho trước một ma trận A, giải thuật sẽ tạo ra một giá trị đặc
trưng λ và một vector đặc trưng v khác 0, dạng Aν=λV ; có thể sử dụng
khi A là một ma trận lớn tuy nhiên nó chỉ tìm một giá trị đặc trưng duy
nhất (có trị tuyệt đối lớn nhất) và có thể chậm.
Vấn đề đặt ra là phương trình (4) sẽ không được thỏa mãn nếu đồ thị
không đáp ứng được các điều kiện. Để giới thiệu về các điều kiện ở trên
và cải thiện phương trình (4), ta sẽ sử dụng chuỗi Markov (Markov chain)
xây dựng lại phương trình trên.
2.2. Chuỗi Markov (Markov chain)
4
Trong một chuỗi Markov, mỗi trang web hoặc một node trong đồ thị
được xem như một trạng thái (state). Lúc này một liên kết được xem như
một nút chuyển trạng thái, tức dựa vào một liên kết một trạng thái này có
thể chuyển sang một trang thái khác dựa vào một xác suất. Mô hình
framework Web Surfer này tương tự quá trình thống kê ngẫu nhiên, tại đó
quá trình duyệt ngẫu nhiên đến một trang web được xem như là một
chuyển trạng thái.
Gọi Oi là số lượng outgoing link của node i trong đồ thị biểu diễn mối
liên hệ của các trang, xác suất của mỗi nút chuyển trạng thái là 1/Oi nếu
giả định rằng Web Surfer click vào trang i một cách ngẫu nhiên (button
“back” không được sử dụng và không cho phép nhập URL).
Ma trận ác suất chuyển trạng thái A có dạng như sau:
với Aij biểu diễn cho xác xuất chuyển trạng thái i (trang i) sang trạng thái
j (trang j), Aij được mô tả tương tự phương trình (3).
Tương tự như định nghĩa ma trận kề biểu diễn đồ thị web, ta cũng có
vector cột biểu diễn một trạng thái trong ma trận xác xuất chuyển trạng
thái A nxn như sau:
Từ đó, ta có:
Ma trận A thỏa phương trình (7) thì được gọi là stochastic matrix (lý
thuyết xác suất thống kê) thuộc chuỗi Markov. Stochastic matrix [4] là
một ma trận biến thiên ngẫu nhiên, có 3 loại:
Right stochastic matrix: mỗi hàng trong ma trận hai chiều đều
được biểu diễn bởi các số thực, và tổng của chúng phải bằng 1.
Left stochastic matrix: mỗi cột trong ma trận hai chiều đều phải
biểu diễn bởi một con số không phải số thực, và tổng của chúng cũng
phải bằng 1.
Doubly stochastic matrix: tất cả các thành phần trong ma trận
không phủ định và tổng các hàng và các cột là 1.
Ở chuỗi Markov tồn tại một câu hỏi như sau:
“Nếu p0 là vector đầu tiên, thì xác xuất của m chuyển trạng thái trong
chuỗi Markov tại trạng thái thứ j là bao nhiêu?”
Do đó, ta phải xác định xác suất mà hệ thống cấp cho trạng thái j sau
1 bước chuyển trạng thái bằng phương trình sau:
với Aij(1) là xác suất chuyển trạng thái từ i sang j sau một bước trạng thái
5
(1 lần duyệt từ i sang j) và Aij(1) = Aij. Do đó dựa vào chuỗi Markov, ta
có thể viết lại phương trình (4) lại như sau:
hay tổng quát là:
Một chuỗi Markov hữu hạn được định nghĩa bởi một ma trận biến
thiên A có duy nhất một sự phân phối xác suất không đổi nếu A tối giản
(irreducible) và không tuần hoàn (aperiodic). A tối giản khi từ bất kì một
trạng thái i nào cũng có thể chuyển sang một trạng thái j bất kì và ngược
lại, do A là ma trận kề biểu diễn đồ thị có hướng các trạng thái, nên A tối
giản đồng nghĩa với A là đồ thị liên thông mạnh.
Định nghĩa liên thông: một đồ thị vô hướng gọi là liên thông
(connected) nếu mọi cặp đỉnh (u, v) ta đều có u đến được v; một đồ thị có
hướng gọi là liên thông mạnh (strongly connected) nếu với mỗi cặp đỉnh
(u, v) ta đều có u đến được v và ngược lại; một đồ thị có hướng gọi là
liên thông yếu (weakly connected) khi phiên bản vô hướng của nó là đồ
thị liên thông.
2.3. Steady-State Probability
Sự phân bố xác suất không đổi có nghĩa là sau một loạt các bước
chuyển trạng thái, pk sẽ đạt đến một trạng thái xác suất ổn định (steadystate probability) có vector xác suất � bất chấp đến việc lựa chọn vector
ban đầu (vector p0), phương trình (11) biểu diễn điều đó:
Trở lại thuật toán PageRank, khi ta đã đạt đến trạng thái ổn định, ta có
pk = pk-1 = π ; do đó ta có phương trình:
Lúc này, π trở thành vector đặc trưng chính của ma trận AT với giá trị
đặc trưng là 1. Trong PageRank, được sử dụng như là vector P. Dựa vào
đây, ta một lần nữa thu được phương trình (4): P = AT.T
Câu hỏi được đưa ra là liệu có hợp lý khi xem P = π ? Sử dụng π như
là một PageRank vector là hợp lý và trực quan vì:
Nó phản ánh xác suất lâu dài (long-run probability) khi trang web
được duyệt đến một cách ngẫu nhiên.
Một trang có độ prestige cao nếu xác suất của việc ghé thăm nó là
cao.
Trở lại đồ thị web, ta xem xét liệu các điều kiện ở trên đã thỏa mãn?
Tức A có phải là một ma trận biến thiên không? Và liệu nó đã được tối
6
Không có nhận xét nào :
Đăng nhận xét