Nội dung trùng lặp là lỗi tối ưu hóa trên trang phổ biến nhất. Nội dung trùng lặp

Nội dung trùng lặp là một trong những vấn đề chính khiến trang web có thứ hạng thấp trên công cụ tìm kiếm. Vấn đề này xảy ra do sự hiện diện trên trang web của các trang giống hệt nhau hoàn toàn hoặc một phần. Đương nhiên, đối với các công cụ tìm kiếm, sự hiện diện của các trang rác trên một trang web đặt ra một vấn đề nghiêm trọng vì chúng phải tiêu tốn sức mạnh máy chủ để xử lý chúng. Sẽ thật vô nghĩa nếu các công cụ tìm kiếm lãng phí tài nguyên vật lý vào việc lập chỉ mục những nội dung vô dụng như vậy. Do đó, họ chống lại những trang web như vậy bằng cách áp dụng bộ lọc cho chúng hoặc hạ thứ hạng của chúng, điều này dẫn đến vị trí thấp cho các truy vấn được thăng hạng.

Trùng lặp và SEO

Sự hiện diện của các trang trùng lặp trên trang web dẫn đến những điều sau:

Nước ép liên kết hữu ích bị lãng phí trên những trang vô dụng này.
Sau lần cập nhật tiếp theo, trang trùng lặp sẽ thay thế trang đích và mất vị trí.
Nội dung trùng lặp làm giảm tính độc đáo của tất cả các trang mà nó được đăng.
Khi công cụ tìm kiếm chống lại các trang như vậy bằng cách xóa chúng khỏi tìm kiếm, nó cũng có thể loại trừ trang đang được quảng cáo.

Phân loại trùng lặp và giải pháp loại bỏ chúng

Bản sao có thể đầy đủ hoặc một phần. Bản sao hoàn chỉnh là khi các trang hoàn toàn giống nhau. Theo đó, trùng lặp một phần là khi các trang không khớp hoàn toàn. Các bản sao hoàn chỉnh được loại bỏ thông qua robots.txt và thiết lập chuyển hướng 301. Sự trùng lặp một phần được loại bỏ bằng cách thực hiện các chỉnh sửa cần thiết trên trang web.

Dưới đây là danh sách các danh sách kiểm tra mà bạn cần phải xem qua để xác định và giải quyết vấn đề trùng lặp:

Tìm kiếm các bản sao của trang chính của trang web. Ví dụ: có thể có các tùy chọn trang chủ sau: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http:/ /domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Như bạn thấy, có rất nhiều tùy chọn, nhưng tùy chọn tối ưu là http://www.domen.com/. Để loại bỏ các bản sao khác của trang chính, chuyển hướng 301 và đóng trong robots.txt được sử dụng (trong trường hợp các cấu trúc như https://www.domen.com/.
Kiểm tra nguyên tắc cơ bản (quy tắc vàng của SEO) - mỗi trang chỉ có thể truy cập được tại một địa chỉ. Các địa chỉ không thể thay đổi như sau: http://www.domen.com/stranica1/stranica2/ và http://www.domen.com/stranica2/stranica1/.
Kiểm tra sự hiện diện của các biến trong URL. Họ không nên có trong địa chỉ trang. Ví dụ: việc tạo các URL như: http://www.domen.ru/index.php?dir=4567&id=515 là một lỗi. URL chính xác sẽ là: http://www.domen.ru/dir/4567/id/515.
Kiểm tra sự hiện diện của số nhận dạng phiên trong URL. Ví dụ: các URL như http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 không được chấp nhận. Những URL như vậy chứa vô số bản sao của mỗi trang. Do đó, cần phải đóng tất cả số nhận dạng phiên trong robots.txt.

Nội dung trùng lặp làm xấu đi việc lập chỉ mục trang web

“Những con đường khác nhau dẫn đến những nơi khác nhau và chỉ có một trong số đó là con đường đúng đắn.”

Xin chào các bạn! Tôi đã dự định thảo luận về chủ đề này từ lâu trên các trang trên trang web của mình, do đó, sau khi nghiên cứu khá nhiều tài liệu về trùng lặp nội dung và nguyên nhân, hậu quả cũng như cách loại bỏ hiện tượng tiêu cực này, tôi quyết định trình bày suy nghĩ của mình về vấn đề này. vấn đề về nguồn lực khiêm tốn của tôi.

Hãy kiên nhẫn và nghiên cứu cẩn thận tất cả các khuyến nghị trong bài viết, sau đó kiểm tra trạng thái tài nguyên của bạn. Nếu bạn muốn thấy thứ hạng xuất sắc của các trang trên trang web của mình trong công cụ tìm kiếm, hãy tuân thủ nghiêm ngặt chúng.

Tuy nhiên, không giả vờ cung cấp tất cả các cách có thể để loại bỏ nguyên nhân trùng lặp nội dung, tuy nhiên, tôi sẽ đề xuất nghiên cứu những điểm quan trọng nhất của vấn đề này.

Nếu một người dùng bình thường (và đôi khi chính quản trị viên web) có thể không nhận thấy nội dung trùng lặp trên một trang web thì các công cụ tìm kiếm sẽ ngay lập tức phát hiện ra điều này. Phản ứng của họ sẽ rõ ràng: nội dung từ các trang này sẽ không còn là duy nhất. Và điều này đã không tốt rồi, vì nó sẽ ảnh hưởng tiêu cực đến thứ hạng của họ.

Ngoài ra, sự trùng lặp làm mờ trọng lượng liên kết, tới một bài đăng cụ thể mà bằng cách tối ưu hóa, bạn đã cố gắng quảng cáo lên TOP, chẳng hạn như trang đích. Các bản sao sẽ đơn giản phá hỏng mọi nỗ lực tối ưu hóa nó và hiệu quả của việc liên kết với nhau sẽ rất ít.

Nội dung trùng lặp là gì?

1. Nội dung do ai đó hoặc cá nhân bạn sao chép và đăng trên tài nguyên của bên thứ ba.

Bạn có thể đọc nhiều bài viết trên Internet về cách xử lý nội dung bị đánh cắp, một trong những lựa chọn là bài viết của tôi. Liệu nó có thể bị tiêu diệt hay không là một câu hỏi tu từ và ngày nay, theo tôi, không có giải pháp cơ bản nào cho vấn đề này trên Internet. Chỉ có một vài kỹ thuật ít nhiều hiệu quả.

2. Nội dung là bản sao do chính tay quản trị trang web tạo ra.

Một bản sao hoàn chỉnh (hoặc không đầy đủ) khi phân phối thông tin (hoặc, như chúng còn được gọi là thông báo) trên các trang web và diễn đàn đặc biệt. Nếu bạn muốn có một bản sao bài viết của mình trên Internet, hãy sao chép nó trên một số tài nguyên phù hợp - kết quả hầu như sẽ luôn có ngay lập tức. Có thể sao chép trực tiếp trên các trang của trang web. Bạn đã bao giờ nhìn thấy hai trang giống hệt nhau trên trang web của mình khi bạn chỉ tạo một trang chưa? Tại sao chuyện này đang xảy ra? Các lý do bao gồm chỉnh sửa các mục hoặc lưu những mục chưa hoàn thành vào bản nháp và sau đó vô tình tạo bản sao. Người quản trị trang web, không tự nhận ra điều đó và sau đó không xem qua tất cả các mục của mình để không phát hiện ra bản sao, sống hạnh phúc mãi mãi, không nghi ngờ rằng mình có “cặp song sinh”, “sinh ba”, v.v.

3. Sao chép vì lý do kỹ thuật - sự xuất hiện của các bản sao mà CMS phải chịu trách nhiệm.

Những lỗi này xuất hiện do các nhà phát triển CMS không suy nghĩ giống như trình duyệt hoặc trình thu thập thông tin tìm kiếm mà nghĩ như các nhà phát triển công cụ trang web nên làm; Nhiều người mắc phải lỗi này - ví dụ như Joomla.

Hãy để tôi giải thích một chút. Giả sử bạn có một bài viết có từ khóa "nội dung trùng lặp". Nó phải được đặt trên một trang có địa chỉ sau: http://domain.ru/trùng lặp nội dung/, nhưng nội dung tương tự có thể được hiển thị, chẳng hạn như thế này: http://domain.ru/article-category/sao chép nội dung/. Và nếu chúng tôi cũng tính đến các trang trùng lặp khác, chẳng hạn: http://domain.ru/duplication nội dung/?source=rss. Tất cả các URL này là các địa chỉ khác nhau đối với bất kỳ URL nào, nhưng giống nhau đối với người dùng (người đọc). Những khác biệt này cho phép quản trị viên web theo dõi người dùng đến từ đâu nhưng chúng cũng có thể gây hại nếu không thực hiện các cài đặt lập chỉ mục cần thiết.

Các trang web được biết là hoạt động nhờ vào hệ thống cơ sở dữ liệu hiện có. Chỉ có một phiên bản của một bài viết (ID) nhất định trong cơ sở dữ liệu, nhưng các tập lệnh của trang web cho phép hiển thị bài viết này từ cơ sở dữ liệu trên các trang khác nhau (URL). Nhưng công cụ tìm kiếm cần một tài liệu (URL) - chỉ có điều nó là mã định danh duy nhất và không có gì khác!

4. Mất mờ.

Một kiểu trùng lặp đặc biệt xảy ra chủ yếu trong các cửa hàng trực tuyến, trong đó các trang có thẻ sản phẩm chỉ khác nhau ở một vài câu mô tả và tất cả phần còn lại của nội dung, bao gồm các khối từ đầu đến cuối và các thành phần khác, đều giống nhau. . Thật khó để đổ lỗi cho quản trị viên web, mặc dù có một số lựa chọn để loại bỏ chúng.

Như vậy, chúng ta đã giải quyết được nguyên nhân và hậu quả của việc trùng lặp nội dung. Bây giờ chúng ta hãy chuyển sang giải quyết vấn đề. Trước hết chúng ta hãy tìm hiểu

Làm thế nào để phát hiện các trang trùng lặp?

1. Phương pháp thủ công.

1) Nếu nội dung của bạn không quá lớn, chỉ cần cuộn qua trang trong bảng quản trị "Tất cả các mục» và nếu tìm thấy các bản sao, hãy xóa những cái không cần thiết.

2) Để tìm hiểu sự hiện diện của các bản sao, bạn có thể sử dụng dịch vụ của công cụ tìm kiếm “Yandex Webmaster” hoặc Công cụ quản trị trang web của Google.

Ví dụ: trong Công cụ quản trị trang web, hãy mở trang “Công cụ dành cho quản trị viên web” - “Tối ưu hóa” - “Tối ưu hóa HTML”: Nếu có lỗi và trùng lặp, trình hướng dẫn sẽ hiển thị cho bạn mọi thứ. Hãy tìm ra nó bằng những cú nhấp chuột, đồng thời loại bỏ lỗi và trùng lặp.

3) Sử dụng trực tiếp các cửa sổ tìm kiếm hệ thống (phương pháp gần đúng). Nhập cho mỗi người trong số họ một mục nhập của biểu mẫu trang web: tên miền.ru và so sánh kết quả của chúng. Nếu chúng không khác nhau lắm thì sự trùng lặp của bạn không quá tệ.

4) Có một cách hiệu quả để tìm các bản sao - tìm kiếm qua các đoạn văn bản. Điều này được thực hiện đơn giản: trong cửa sổ tìm kiếm của bất kỳ hệ thống nào, nhập một đoạn văn bản của bài đăng (bài viết) của bạn gồm 10-20 từ (tốt nhất là từ giữa) và phân tích kết quả. Sự hiện diện của hai hoặc nhiều trang trong kết quả tìm kiếm có nghĩa là có những trang trùng lặp cho tác phẩm này. Nếu không thì bạn có thể vui mừng một chút :).

Thật khó khăn nếu trang web đã tích lũy được nhiều trang. Việc kiểm tra trên có thể trở thành một công việc không thể chịu nổi. Nếu bạn muốn giảm thiểu chi phí thời gian, hãy sử dụng chương trình Thám tử liên kết của Xenu.

Để kiểm tra trang web, bạn cần mở một dự án mới bằng cách chọn “Kiểm tra URL” từ menu “Tệp”, nhập địa chỉ và nhấp vào “OK”. Sau đó, chương trình sẽ bắt đầu xử lý tất cả các URL của trang web. Sau khi hoàn tất kiểm tra, bạn cần xuất dữ liệu nhận được sang bất kỳ trình chỉnh sửa thuận tiện nào và bắt đầu tìm kiếm các bản sao.

Ai cần link tải file của chương trình này thì bình luận, mình sẽ gửi vào email.

Vì vậy, chúng tôi đã tìm ra lý do (chính) dẫn đến nội dung trùng lặp. Bây giờ hãy xác định làm thế nào để loại bỏ nó.

Các cách loại bỏ nội dung trùng lặp

URL Canonical - một giải pháp khái niệm cho vấn đề

Nếu bạn không có tùy chọn () để loại bỏ trùng lặp, vấn đề có thể được giải quyết bằng cách sử dụng thẻ kinh điển l (dùng cho bản sao mờ). Thẻ canonical cũng phù hợp với các phiên bản trang để in và trong những trường hợp tương tự khác. Nó được áp dụng rất đơn giản - thuộc tính rel=”canonical” được chỉ định cho tất cả các bản sao, nhưng không phải cho trang chính, trang có liên quan nhất. Mã sẽ trông giống như thế này: liên kết rel=”canonical” href=”http://domain.ru/page-copy”/ và nằm trong thẻ head.

Đối với người dùng sử dụng công cụ WordPress, có cơ hội tuyệt vời để thực hiện tất cả điều này một cách tự động bằng cách cài đặt plugin tất cả trong một gói seo hoặc tương tự. Trong cài đặt, thao tác này được đặt với các nhãn sau:

Thiết lập các chức năng không cho phép trong tệp robots.txt của trang web của bạn

Mặc dù việc thiết lập các trang cấm lập chỉ mục không phải lúc nào cũng là cách hiệu quả để ngăn chặn sự trùng lặp, vì các công cụ tìm kiếm đôi khi có thể bỏ qua chúng, nhưng một robot.txt được định cấu hình đúng cách sẽ hỗ trợ rất nhiều cho nhiệm vụ ngăn chặn chúng.

VỚIwwwhoặc không cówww

Các trang trên trang web của bạn sẽ trông như thế nào - chỉ sử dụng http hoặc http.www? Sự không chắc chắn sẽ tạo ra sự trùng lặp. Ngay sau khi tạo trang web, hãy xác định giao thức truyền tải siêu văn bản nào bạn sẽ sử dụng. Để thực hiện việc này, hãy nhập lựa chọn của bạn vào bảng quản trị trang web Yandex và Google (trong Google, điều này có thể được thực hiện cho cả hai phiên bản, nhưng bạn sẽ cần xác nhận quyền đối với cả hai địa chỉ). Bạn có thể để mặc định hoặc “lựa chọn robot tìm kiếm”, nhưng tốt hơn hết bạn nên xác định rõ ràng.

Thiết lập chuyển hướng

Chuyển hướng 301 rất tốt cho việc hợp nhất các trang sao chép có URL khác nhau khi có và không có www. Như bạn đã hiểu (xem ảnh chụp màn hình ở trên), việc thiết lập chuyển hướng trên WordPress cũng được đơn giản hóa bằng cách sử dụng plugin. Về bản chất, nếu bạn và robot tìm kiếm đã “quyết định” lựa chọn của mình - có hoặc không có www hoặc không có nó thì sẽ có một tên miền chính, việc thiết lập chuyển hướng cho tất cả các trang là không cần thiết. Tuy nhiên, chủ đề thiết lập chuyển hướng và tính khả thi của nó là chủ đề của một bài viết riêng.

Kết quả và kết luận

không cho phép sao chép các trang (nội dung) trên tài nguyên của bạn, vì sự trùng lặp sẽ làm giảm mức độ liên quan của các trang một cách nghiêm trọng, khiến chúng khó đưa chúng lên hàng đầu trong kết quả tìm kiếm (TOP);
Hầu hết các vấn đề về sao chép nội dung đều có giải pháp - sử dụng mọi cách có thể để thực hiện việc này;
Thường xuyên theo dõi quá trình lập chỉ mục nội dung của bạn và không tạo bản sao trên đó

Thế thôi, bạn đọc thân mến. Nếu bạn có điều gì cần bổ sung hoặc sửa chữa cho tôi, hãy đặt câu hỏi - hãy nắm lấy cơ hội!

Không hoàn toàn đúng chủ đề, nhưng về cặp song sinh.

(Đã truy cập 28 lần, 1 lượt truy cập hôm nay)

Nội dung (tiếng Anh: nội dung) - thông tin, cụ thể là văn bản, hình ảnh, video, tệp có trên trang web.

Nó phải là:

Đưa ra câu trả lời đầy đủ và dễ hiểu nhất, giải quyết vấn đề của một người: đó là để vui lên, chấm dứt một tình thế khó xử hay mua một sản phẩm chất lượng.
Không sử dụng các đoạn ẩn như:

văn bản có cùng màu với nền,
văn bản bị ẩn bởi hình ảnh, nằm phía sau nó,
cỡ chữ được đặt thành 0.

Cấu trúc và thiết kế đa dạng, dễ dàng nhận biết bằng mắt:

Các ý chính được làm nổi bật bằng màu sắc hoặc độ đậm để người dùng tập trung vào chúng. Đừng quên rằng các trang web không được đọc mà chỉ được lướt qua.
thông qua cấu trúc của bài viết được thực hiện,
các câu được kết hợp thành các đoạn văn có một dòng trống giữa chúng,
danh sách, dấu ngoặc kép, bảng đã sử dụng,
Hình ảnh, đồ họa thông tin, video, bản ghi âm đã được sử dụng. Hình ảnh đóng một vai trò lớn. Vì vậy, một độc giả của blog này đã yêu cầu dịch các ký tự trong ảnh chụp màn hình hiển thị trình chỉnh sửa Blogger.

Độc đáo và nguyên bản (không thể khôi phục từ các trang web chết hoặc lấy từ các tài nguyên theo bộ lọc). Các công cụ tìm kiếm giám sát chặt chẽ điều này, xử lý các bản sao cực kỳ không mong muốn và áp dụng các biện pháp trừng phạt đối với việc sử dụng các tài liệu tương tự. Hãy tưởng tượng tình huống: bạn đặt một truy vấn và thấy câu trả lời tương tự trong kết quả tìm kiếm. Nghiên cứu một số nguồn bao gồm chủ đề theo những cách khác nhau sẽ cho phép chúng ta hình thành sự hiểu biết chính xác và rộng hơn về vấn đề này. Bạn có thể kiểm tra tính duy nhất của văn bản bằng cách chèn một đoạn văn bản vào dấu ngoặc kép () vào biểu mẫu tìm kiếm.

Sự trùng lặp nội dung có thể được quan sát không chỉ khi dữ liệu được đăng trên các trang web khác nhau mà còn khi thông tin được lặp lại trên hai hoặc nhiều dự án web. Đây là một thử nghiệm trên devvver.ru về mặt tiêu cực của việc trùng lặp nội bộ và cách các đối thủ cạnh tranh có thể tận dụng điều này.

Hãy xem chúng ta có những công cụ nào trong cuộc chiến chống lại căn bệnh này.

Liên kết đến trang

Thứ duy nhất Cách 100% để ngăn lập chỉ mục một trang là không đăng liên kết đến trang đó và không thêm trang đó vào tiện ích bổ sung Yandex, Google và như thế.

Tệp robot.txt

Tệp văn bản robots.txt (chẳng hạn như ) là một công cụ tuyệt vời để quản lý việc lập chỉ mục. Trợ giúp Yandex, Google. Nhưng nếu Google tìm thấy liên kết tới một URL đã đóng trong robots.txt, nó sẽ thêm liên kết đó vào kết quả.

Bởi vì điều này, bạn cần phải vào đây chỉ những tài liệu web không thể truy cập được bằng bất kỳ cách nào khác, Ví dụ, . Và dĩ nhiên, sơ đồ trang webđể lập chỉ mục tốt hơn và nhanh hơn các trang phổ biến.

tiêu đề HTTP

URL sẽ không được lập chỉ mục nếu nó hiển thị 404 hoặc 301. Và đối với Google, ngay cả khi có dòng này

X-Robots-Tag: noindex

Thẻ meta robot

Cái này công cụ chính, vì nó hoạt động giống nhau cho cả Yandex và Google. Trên trang, việc truy cập vào nội dung bị cấm, có nội dung sau:

Thuộc tính rel="canonical"

Yêu cầu thuộc tính rel="canonical" gợi ý thuộc tính ưa thích từ một số tài liệu web có nội dung rất giống nhau, ví dụ: http://site/2010/07/kontent..html?showComment. Công cụ tìm kiếm sẽ bỏ qua dòng thứ hai vì nó sẽ tuân theo dòng:

Yandex.Quản trị trang web

phương tiện truyền thông="in"

Không cần phải tạo một phiên bản có thể in riêng. Kiểu có thể được điều chỉnh bằng cách sử dụng .

Xóa nhầm các bản sao trong chỉ mục

Bất chấp các biện pháp đã được thực hiện, robot tìm kiếm vẫn có thể lập chỉ mục trang không mong muốn. Bằng cách gửi yêu cầu

Xem lại tất cả các kết quả tìm kiếm, đặc biệt là những kết quả có kết quả bị Google bỏ qua. Lý tưởng nhất, dòng chữ này không nên:

Kết quả bị bỏ qua phải được loại bỏ bằng tay. Đối với Yandex, chúng tôi sẽ sử dụng biểu mẫu xóa trang và đối với Google, bạn cần truy cập “Công cụ quản trị trang web” - “Tối ưu hóa” - “Xóa URL” - “Tạo yêu cầu xóa mới”.

Nội dung trùng lặp hoặc đơn giản là trùng lặp là các trang trên trang web của bạn hoàn toàn (trùng lặp rõ ràng) hoặc một phần (trùng lặp mờ) giống nhau nhưng mỗi trang có một URL khác nhau. Một trang có thể có một hoặc nhiều bản sao.

Nội dung trùng lặp xuất hiện trên một trang web như thế nào?

Đối với cả những trường hợp rõ ràng và không rõ ràng, có một số lý do khiến chúng xảy ra. Xóa trùng lặp có thể xảy ra vì những lý do sau:

Chúng xuất hiện do CMS của trang web. Ví dụ: sử dụng replytocom trong WordPress, khi thêm nhận xét mới sẽ tự động tạo các trang mới chỉ khác nhau về URL.
Là kết quả của lỗi quản trị trang web.
Do những thay đổi trong cấu trúc trang web. Ví dụ: khi triển khai mẫu cập nhật có URL mới.
Được tạo bởi chủ sở hữu trang web cho một số chức năng nhất định. Ví dụ: các trang có phiên bản văn bản có thể in được.

Các bản sao không rõ ràng trên trang web của bạn có thể xuất hiện vì những lý do sau:

Tại sao nội dung trùng lặp có hại cho một trang web?

Ảnh hưởng tiêu cực đến việc quảng cáo trong kết quả tìm kiếm. Robot tìm kiếm có thái độ tiêu cực đối với nội dung trùng lặp và có thể hạ thấp vị trí của chúng trong kết quả tìm kiếm do thiếu tính độc đáo và do đó không hữu ích cho khách hàng. Không có ích gì khi đọc cùng một nội dung trên các trang khác nhau của trang web.
Có thể thay thế các trang thực sự có liên quan. Robot có thể chọn trả lại một trang trùng lặp nếu nó cho rằng nội dung của nó phù hợp hơn với yêu cầu. Đồng thời, theo quy luật, trang trùng lặp có các chỉ số về yếu tố hành vi và/hoặc khối lượng liên kết thấp hơn trang mà bạn đang quảng cáo có mục đích. Điều này có nghĩa là nhân đôi sẽ được hiển thị ở những vị trí kém hơn.
Dẫn đến mất liên kết tự nhiên. Khi người dùng tạo một liên kết không phải đến nguyên mẫu mà đến một bản sao.
Thúc đẩy việc phân phối trọng lượng liên kết nội bộ không chính xác. Các trang trùng lặp chiếm một phần trọng lượng của các trang được quảng cáo, điều này cũng cản trở việc quảng cáo trên các công cụ tìm kiếm.

Làm thế nào để kiểm tra xem bạn có trùng lặp hay không?

Để tìm hiểu xem các trang của trang có trùng lặp hay không, có một số cách.

Bạn có tìm thấy bất kỳ bản sao? Chúng tôi đọc cách vô hiệu hóa chúng:

chuyển hướng thứ 301 Phương pháp này được coi là đáng tin cậy nhất khi loại bỏ các bản sao không cần thiết trên trang web của bạn. Bản chất của phương pháp này là chuyển hướng robot tìm kiếm từ trang trùng lặp sang trang chính. Do đó, robot bỏ qua thao tác kép và chỉ hoạt động với trang được yêu cầu của trang web. Theo thời gian, sau khi thiết lập chuyển hướng thứ 301, các trang trùng lặp sẽ dính vào nhau và rơi ra khỏi chỉ mục.
Nhãn . Ở đây chúng tôi cho công cụ tìm kiếm biết trang nào là trang chính của chúng tôi, nhằm mục đích lập chỉ mục. Để thực hiện việc này, trong mỗi lần thực hiện, bạn cần nhập một mã đặc biệt cho robot tìm kiếm , sẽ chứa địa chỉ của trang chính. Để tránh thực hiện công việc đó một cách thủ công, có các plugin đặc biệt.
Không cho phép trong robots.txt. Tệp robots.txt là một loại hướng dẫn dành cho robot tìm kiếm, cho biết trang nào cần được lập chỉ mục và trang nào không. Để cấm lập chỉ mục và chống trùng lặp, lệnh Disallow được sử dụng. Ở đây, cũng như khi thiết lập chuyển hướng 301, điều quan trọng là phải đặt lệnh cấm một cách chính xác.

Làm cách nào để xóa các bản sao khỏi chỉ mục của công cụ tìm kiếm?

Đối với Yandex, nó sẽ loại bỏ các bản sao khỏi chỉ mục một cách độc lập nếu tệp robots.txt được định cấu hình chính xác. Nhưng đối với Google, bạn cần đặt quy tắc trong tab “Tham số URL” thông qua Google Webmaster.

Nếu bạn gặp bất kỳ khó khăn nào trong việc kiểm tra và loại bỏ nội dung trùng lặp, bạn luôn có thể liên hệ với các chuyên gia của chúng tôi. Chúng tôi sẽ tìm thấy tất cả các yếu tố đáng ngờ, thiết lập chuyển hướng 301, robots.txt, rel="canonical", thực hiện cài đặt trong Google. Nhìn chung, chúng tôi sẽ thực hiện mọi công việc để đảm bảo trang web của bạn hoạt động hiệu quả.

“Tôi đã đề cập đến chủ đề các trang trùng lặp và hôm nay chúng ta sẽ nói chi tiết hơn về vấn đề này.

Chuyện gì đã xảy ra vậy trang trùng lặp? Đây là những trang có văn bản tương tự hoặc giống hệt nhau có sẵn tại các URL khác nhau. Ví dụ: các bản sao rất phổ biến của trang chính của tài nguyên

Dưới đây chúng ta sẽ xem xét một số tùy chọn phổ biến để sao chép nội dung, nhưng bây giờ hãy nói về cách chúng ảnh hưởng đến trang tương tựđể quảng bá trang web.

Các công cụ tìm kiếm từ lâu đã học cách xác định tính duy nhất của văn bản bằng một chuỗi ký tự, nghĩa là bằng các câu được soạn thảo giống hệt nhau, từ đó lấy chuỗi các chữ cái và dấu cách. Nếu nội dung không phải là duy nhất (bị đánh cắp) thì robot sẽ dễ dàng tìm ra nội dung đó và khi văn bản không duy nhất được tìm thấy thường xuyên thì khả năng tài nguyên đó rơi vào bộ lọc AGS là khá cao.

Hãy tưởng tượng công việc của một robot tìm kiếm. Khi truy cập một trang web, điều đầu tiên anh ấy nhìn vào là tập tin. robot.txt và nhận được hướng dẫn từ anh ta: những gì cần được lập chỉ mục và những gì cần đóng để lập chỉ mục. Hành động tiếp theo của nó sẽ là truy cập vào tệp sitemap.xml, tệp này sẽ hiển thị cho robot bản đồ trang web với tất cả các tuyến đường được phép. Đọc bài viết - “Tệp Sitemap.xml dành cho công cụ tìm kiếm Google và Yandex.” Sau khi nhận được tất cả thông tin cần thiết, robot bắt đầu thực hiện các chức năng thông thường của nó.

Sau khi truy cập một trang nhất định, anh ấy “tiếp thu” nội dung của nó và so sánh nó với thông tin đã có sẵn trong bộ não điện tử của mình, được thu thập từ khắp nơi trên Internet. Sau khi nhận thấy văn bản không phải là duy nhất, công cụ tìm kiếm sẽ không lập chỉ mục trang này và sẽ ghi chú vào sổ ghi chép của nó trong đó ghi lại các URL "vi phạm". Như bạn có thể đã đoán, anh ấy sẽ không quay lại trang này nữa để không lãng phí thời gian quý báu của mình.

Giả sử trang này rất độc đáo và robot đã lập chỉ mục trang đó, nhưng sau khi đi theo URL tiếp theo của cùng một tài nguyên, trang đó sẽ kết thúc trên một trang có văn bản tương tự hoàn toàn hoặc một phần. Công cụ tìm kiếm sẽ làm gì trong tình huống như vậy? Tất nhiên, anh ấy cũng sẽ không lập chỉ mục cho một bài kiểm tra tương tự, ngay cả khi bài kiểm tra gốc nằm trên cùng một trang nhưng ở một URL khác. Robot có thể sẽ không hài lòng với việc lãng phí thời gian và chắc chắn sẽ ghi chú vào sổ ghi chép của mình. Một lần nữa, nếu sự cố như vậy lặp lại nhiều lần, tài nguyên có thể không được công cụ tìm kiếm ưa chuộng.

Kết luận số 1. Các trang tương tự nằm ở các URL khác nhau sẽ chiếm thời gian dành cho robot lập chỉ mục trang web. Nó vẫn sẽ không lập chỉ mục các trang trùng lặp, nhưng nó sẽ dành một phần thời gian để làm quen với chúng và có thể không có thời gian để tiếp cận nội dung thực sự độc đáo.

Kết luận số 2. Nội dung trùng lặp sẽ có tác động tiêu cực đến việc quảng bá trang web của bạn trong các công cụ tìm kiếm. Công cụ tìm kiếm không thích những văn bản không độc đáo!

Kết luận số 3. Bạn chắc chắn nên kiểm tra dự án của mình để tìm các trang trùng lặp nhằm tránh các vấn đề được liệt kê ở trên.

Nhiều người không quan tâm chút nào đến sự “tinh khiết” của nội dung của họ. Vì tò mò, tôi đã kiểm tra một số trang web và hơi ngạc nhiên trước tình trạng có các trang trùng lặp. Trên blog của một người phụ nữ, tôi không tìm thấy tệp robots.txt nào cả.

Cần phải nghiêm túc chống lại nội dung trùng lặp và bắt đầu bằng việc xác định chúng.

Ví dụ về nội dung trùng lặp phổ biến và cách khắc phục sự cố

Trang chính trùng lặp. Ví dụ:

http://site.com
http://site.com/index.php.

Trong trường hợp này, sự cố được giải quyết bằng cách sử dụng chuyển hướng 301 - một “lệnh” dành cho máy chủ thông qua tệp .htaccess.

Một ví dụ khác về trang chủ bị trùng lặp:

http://site.com
http://www.site.com

Để tránh sự trùng lặp như vậy, bạn có thể đăng ký bản sao chính của trang web trong tệp robot.txt trong chỉ thị - "Chủ nhà" cho Yandex:

Máy chủ: site.com

Và còn tận dụng chuyển hướng 301 và hướng các công cụ tìm kiếm Yandex và Google tới bản sao chính của trang web bằng các công cụ quản trị trang web.

Một ví dụ về một trang chủ trùng lặp khiến tôi gần như choáng váng khi tìm kiếm giải pháp trông như thế này:

http://site.com
http://site.com/

Tôi đã đọc ở đâu đó rằng dấu gạch chéo ở cuối liên kết đến trang chính sẽ tạo ra một bản sao và các công cụ tìm kiếm nhận thấy các liên kết có và không có dấu gạch chéo là các URL khác nhau dẫn đến một trang có cùng một văn bản. Điều khiến tôi lo lắng không phải là khả năng bị trùng lặp mà là sự mất đi sức nặng của trang chính trong tình huống như vậy.

Tôi bắt đầu đào. Khi yêu cầu máy chủ tại các URL trên, tôi nhận được mã phản hồi 200. Mã 200 có nghĩa là - "Yêu cầu của người dùng đã được xử lý thành công và phản hồi may chủ chứa dữ liệu được yêu cầu." Từ đó nó vẫn là một đôi trên khuôn mặt.

Tôi thậm chí đã thử thực hiện chuyển hướng 301 (chuyển hướng), nhưng các lệnh không hoạt động và tôi vẫn nhận được mã phản hồi 301 mong muốn. Giải pháp cho vấn đề là sự vắng mặt của chính vấn đề đó. Đây là một cách chơi chữ. Hóa ra các trình duyệt hiện đại tự chèn ký tự “/” ở cuối dòng, làm cho nó ẩn đi, điều này tự động khiến ký tự kép không thể thực hiện được. Như thế này!

Chà, một ví dụ khác về bản sao của trang chính:

http://site.com
https://site.com

Đôi khi, do lỗi quản trị trang web hoặc trục trặc của công cụ tìm kiếm hoặc trong các trường hợp khác, một liên kết theo giao thức https:// an toàn sẽ được đưa vào chỉ mục. Phải làm gì trong những trường hợp như vậy và làm thế nào để tránh điều này trong tương lai? Tất nhiên, bạn cần xóa các liên kết có giao thức https:// khỏi tìm kiếm, nhưng bạn sẽ phải thực hiện việc này một cách thủ công bằng các công cụ quản trị trang web:

Trong công cụ tìm kiếm Yandex, quản trị trang web — trang web của tôi — xóa URL:

Quan trọng ! Các chỉ thị được viết trong tệp robots.txt cấm rô-bốt tìm kiếm quét văn bản để bảo vệ trang web khỏi bị trùng lặp, nhưng các lệnh tương tự không cấm lập chỉ mục URL của trang.

Đọc thêm ở các bài viết:

Có một cách khá hiệu quả khác để xác định “bản sao” bằng chính các công cụ tìm kiếm. Trong Yandex, bạn cần nhập vào trường tìm kiếm: link.site.com “Đoạn thử nghiệm”. Ví dụ:

Yandex tìm thấy 2 kết quả trùng khớp vì tôi không chặn danh mục lập chỉ mục và do đó có kết quả trùng khớp với thông báo trên trang chính. Nhưng nếu đối với một blog ẩm thực, sự tham gia của các danh mục trong tìm kiếm là chính đáng, thì đối với các chủ đề khác, chẳng hạn như SEO, không có nhu cầu như vậy và tốt hơn là nên đóng các danh mục khỏi việc lập chỉ mục.

Bạn có thể kiểm tra bằng cách sử dụng tìm kiếm của Google như thế này: site:site.com “Đoạn văn bản.” Ví dụ:

Các chương trình và dịch vụ trực tuyến để tìm kiếm các nội dung trùng lặp bên trong và bên ngoài bằng cách sử dụng các đoạn văn bản

Trong bài viết này, tôi sẽ không đánh giá chi tiết về các chương trình và dịch vụ phổ biến; tôi sẽ chỉ tập trung vào những chương trình và dịch vụ mà bản thân tôi thường xuyên sử dụng.

Để tìm kiếm các bản sao bên trong và bên ngoài, tôi khuyên bạn nên sử dụng dịch vụ trực tuyến www.miratools.ru. Ngoài việc kiểm tra văn bản, dịch vụ còn có nhiều tính năng thú vị khác nhau.

Chương trình tìm bản sao - Advego Plagiatus. Một chương trình rất phổ biến, cá nhân tôi luôn sử dụng nó. Chức năng của chương trình rất đơn giản; để kiểm tra văn bản, chỉ cần sao chép và dán nó vào cửa sổ chương trình và nhấp vào bắt đầu.

Sau khi kiểm tra, một báo cáo sẽ được trình bày về tính duy nhất của văn bản được kiểm tra theo tỷ lệ phần trăm kèm theo các liên kết đến các nguồn trùng khớp:

Ngoài ra, các đoạn văn bản cụ thể mà chương trình tìm thấy phù hợp sẽ được đánh dấu bằng nền màu vàng:

Chương trình rất tốt, hãy sử dụng nó và nhớ đăng ký để cập nhật blog.

Thấy bạn!

Trân trọng, Kirillov Vitaly