11/23/12

Tự học SEO bài 5: Tránh vi phạm cơ chế tìm kiếm Google spider

Bài 4 trong chuyên mục tự học SEO Web mình có giới thiệu qua về Search Engine Spiders. Ở bài này mình sẽ trình bày rõ hơn về Search Engine Spiders - còn được gọi là con bọ tìm kiếm của google.
Các SE xem website bạn bằng nhiều cách khác nhau. Cách mô tả đơn giản nhất cho việc này là hình dung một người đứng từ bên ngoài và nhìn vào website của bạn, họ không thể thiết kế các logo của bạn hay tạo các image trên website bạn mà chỉ có thể đọc và copy. Search Engine spiders/robots là những chương trình (vd : GoogleBot) bằng các phương pháp như browse/crawl/spider lùng sục khắp internet để thu về dữ liệu
tu hoc seo - co che hoat dong cua cong cu tim kim google spider
Tự học SEO -  cơ chế hoạt động google Spider
Các spider bắt đầu công việc bằng tìm kiếm 1 danh sách các URLs để viếng thăm, nhận dạng tất cả hyperlinks của page đó, sau đó lại add các link đó vào lần viếng thăm kế tiếp. Thông tin này sẽ được indexed vào các SE, và sau khi chạy thuật toán thì link được hiển thị và rank được đưa lên phù hợp cho các kết quả tìm kiếm. Tất cả các SE đều có riêng cho mình các spider.
Tự học SEO Web: Tránh lỗi làm hạn chế cơ chế tìm kiếm
Những điều sau đây sẽ làm cho các spider mơ hồ về website của bạn:
• URL với 2 tham số động. VD: http://itviet360.com/category.php?id=4&post=34rr&User=%Tom%, tất nhiên với những URL như điều đầu tiên sẽ làm rối người dùng và khó nhớ đến thứ 2 đó là làm cho các spider miễn cưỡng hoặc không crawl.
• Page có hơn 100 link duy nhất đến các trang # trên site (điều này rất ít gặp).
• Page được click 3 lần mới đến được từ trang chủ(trang bị chôn quá sâu) sẽ thường bị các spider từ
chối trừ khi có khá nhiều external link(link ngoại) liên kết đến site.
• Page cần các “session id” hoặc cookies để được điều hướng mới đến được (spider không phải các
browser nên có không thể giữ lại các trang kiểu như vậy).
• Page bị chia cắt bới các “frame” sẽ cản trở việc crawling và làm lộn xộn đối với việc xếp rank.
SEO - tu hoc seo - toi uu hoa bo cuc trang web
Tự học SEO - Bố cục Page
Những điều sau đây sẽ giết chết các spider:
• Pages được điều hướng đến bởi các submit button (coder rất rõ về điều này).
• Pages hiển thị khi được xổ xuống từ các drop menu (spider không thể bypass được các javascript).
• Các tài liệu được tìm thấy trong search box
• Tài liệu bị khóa có chủ đích (trong trường hợp này là do bạn sử dụng các robots.txt)
• Pages cần phải login.
• Pages cần phải redirect mới thấy được thông tin.
• Pages load chậm, vài giây thì không vấn đề gì cả nhưng mất đến 20s để load thì là 1 vấn đề lớn.
Để chắc chắn rằng trang của chúng ta luôn được các spider crawl hoàn toàn thì cần cung cấp các direct link HTML đến các trang mà cần được crawl. Tổng thể, nếu trang không thể vào được từ trang chủ bằng click thì cũng giống như không thể vào được bằng các SE.
tu hoc seo - tự học seo - seo la gi
Tự học SEO - Tu hoc SEO
Không nên gian lận:
Đây cũng như là một lời nhắc nhở cho những ai có ý định có một kết quả như ý chỉ sau một thời gian ngắn đối với SEO và cần chú ý những điều sau:
• Cần tránh duplicate content. Nếu chúng ta chỉ có một trang sản phẩm nhưng lại được truy cập bởi nhiều URL cùng một lúc, spider sẽ hiểu chúng ta có cùng một nội dung nhưng lại được đặt tại nhiều nơi. Khi spider phát hiện nó sẽ bỏ qua trường hợp này. Chúng ta gặp phổ biến nhất vấn đề này đó là config domain không rõ ràng giữa www và không www.
• Không copy nội dung từ site khác. Google thật sự không thích tìm thấy duplicate content trên site chúng ta
• Không liên kết với những “hàng xóm xấu”. Nếu chúng ta liên kết với những spam site thì google cũng nghĩ chúng ta là đồng phạm…
• Không nên ẩn các hình ảnh, vấn đề SEO Image cần được quan tâm hơn rất nhiều, và được nhắc đến nhiều lần về sử dụng thuộc tính “ALT”.
---------------------------------------------------------
Nguồn tài liệu: tự học SEO toàn tập 2011

0 nhận xét:

Post a Comment