İyinet'e Hoşgeldiniz!

Türkiye'nin En Eski Webmaster Forum'una Hemen Kayıt Olun!

Kayıt Ol!

İçerik toplayan bot - yasallık

TRinsanRehberi

0
İyinet Üyesi
Katılım
21 Ağustos 2005
Mesajlar
1,845
Reaction score
0
yok yaw yarışmak değil amacım:) dediklerinin hepsinin farkındayım. onun için şu şekilde bir yol kullanıyorum.

1. tek sunucu dan o kadar baglantı açarsam karşı sunucu beklemeye alıyor bot tıkanıyor.
Çözüm: 3 sunucu + 7 hosting de bot calisiyor. Paylaşımlı bir tek mysql sunucusundan db yi inceliyor ki karşı sayfalar engellemesin.

2. timer fonksiyonu kullanıyorum ki 2. baglantiyi açacağı zaman araya 2 saniye atsın flood şeklinde gözükmesin.

3. curl kesinlikle kullanmıyorum farkedilmek istemem fopen de kullanmıyorum aynı şekilde. fsockopen ile baglantı açıp kendimi google spider gibi gösteriyorum. eğer banlayacaksa google yi banlamak istemez herhalde:)

Kodlamanın ne kadar sürdüğünü sorabilir miyim?
 

Caesar

0
İyinet Üyesi
Katılım
5 Haziran 2006
Mesajlar
1,894
Reaction score
7
15 dk

Örneğin haber7 için:
linkekle.php
PHP:
<?
include "caesar_mysql_class.php";
$ay="1"; //Ocak
$yil="2006"; 
for ($i=1; $i<=30; $i++) {
$oku="http://www.haber7.com/tumHaberler.php?categories_id=0&sday=$i&smonth=$ay&syear=$yil";
$ac=fopen($oku,"r");


        //Linkler
        $linkler='# <a class=titsTanitim href=(.*?)>#si';

        while (!feof($ac)) {
                        $kaynak=fgets($ac,1024);

                if ($kaynak!=lisanssız) {
                    if(preg_match($linkler,$kaynak,$yaz))  {
                    $link="http://www.haber7.com/".$yaz[1];
                    $kontrol=mysql_query("select id from linkler where sayfa='$link'");
                    $no=mysql_num_rows($kontrol);
                       if ($no==0) {
                        $ekle=mysql_query("insert into linkler values('','$link','1')") or die(mysql_error());

                        }
                    }
                } else {
                die("oehh");
                }

        }
                echo $i." [ok]<br>";
}
?>

Ocak 2006 da girilmiş haberlerin linklerini aliyor linkler tablosuna kaydediyor.

haber7.php
PHP:
<?
include "caesar_mysql_class.php";
$sorgu=mysql_query("select * from linkler where durum='1'") or die(mysql_error());
while ($oku=mysql_fetch_array($sorgu)) {
$kaynak=file_get_contents($oku[sayfa]);

        //<-- Başlık başlangıcı -->
        $baslik='#<td class=titsBaslik-little bgcolor=\#F9F9F0>(.*?)<\/td>#si';
        preg_match($baslik,$kaynak,$d_baslik);
        $d_baslik=strip_tags($d_baslik[1]);
        //<-- Başlık Sonu -->

        //<-- Konu kısaca -->
        $konukisaca='#<td class=titsBasliklar bgcolor=\#F9F9F0>(.*?)<\/td>#si';
        preg_match($konukisaca,$kaynak,$d_konu_kisa);
        $d_konu_kisa=strip_tags($d_konu_kisa[1]);
        //<--Konu kısa sonu-->

        //<-- Konu -->
        $konu='#<td id=objectContent>(.*?)<\/td>#si';
        preg_match($konu,$kaynak,$d_konu);
        $d_konu=$d_konu[1];
        //<-- Konu sonu -->

        $gun=date("d");
        $ay=date("m");
        $yil=date("Y");
        $toplammetin="<b>".$d_konu_kisa."</b><br /><br />".$d_konu;
        $toplammetin=str_replace("'"," ",$toplammetin);
        $d_baslik=str_replace("'"," ",$d_baslik);
        $ekle=mysql_query("insert into makale values('','32','$d_baslik','$toplammetin','$gun','$ay','$yil','Arsivtek Spider')") or die(mysql_error());
        $update=mysql_query("update linkler set durum='0' where id='$oku[id]'");
}
echo "Tamamlandı";
?>
Daha sonra aldığı linkleri gezerek listeliyor.

Bu arama yapıp daha sonra ekleyen kodlar. Birde güncell haberleri anlık linkleri listeleyen farklı bir yapısı daha var.
 

Eglence-Siteleri

0
İyinet Üyesi
Katılım
1 Şubat 2006
Mesajlar
762
Reaction score
0
Bir kac yerde okudum, nerden aldiginizi belirtseniz bile basiniz agriyabilir.
En temizi konusup anlasmak mümkünse yazili izin almak.

@mod a bir soru da. Icerik calanlari engellersiniz ama Ceasar'in dedigi gibi google botu gibi görünüyorsa sayfalarin indekslenmesi de tehlikeye girebilir.

Ha google mühim degilse zaten sorun yok.
Ama bana googlebot belli ip ile giriyor diye cevap verecekseniz de googlebot tanidik ip'lerin disinda useragent bilgisi vermeden normal user gibi de gezebiliyor cloaking var mi yok mu diye kontrol etmek icin.
 

yakese

0
İyinet Üyesi
Katılım
10 Mart 2004
Mesajlar
562
Reaction score
0
arkadaşlar haberlerde fotoğraflar gibidir biri gelsin sizin fotonuzu çekip yayınlasın bu iş buna benzer haber siteleri (kaliteli olanlar) haber ajanslarına aylık ücretlerini öder ve haberi yayınlarlar aynı haberim milyonlarca sitede yayınlanması sizinde yayınlama hakkınız olduğunu göstermez eğer işi abartırsanız başınız ağrır ama abartmadan haberi verip habere aldığınız ana kaynağın bilgisi dahilinde yaparsanız sorun çıkmaz
 

GaLadRe

0
İyinet Üyesi
Katılım
21 Haziran 2006
Mesajlar
784
Reaction score
0
Çok ince bir konu . Neticede başkasının ücret ödeyip edindiği bilgiyi yayınlıyorsun . Ama şuda var tabi , bu bir şahsa ait köşe yazısı değil . Gündemle ilgili şeyler . Gidipte bir gazetecinin birisi ile yaptığı röportajı yayınlamak daha farklı . Genelde habercilerin yaptığı şey başka yerde bir haber görüp onu kendine göre uyarlamak , yani 1 e 1 kopya değil . Senin açından zararlı ayrıca , kopya içerik olduğu için tam anlamıyla siten sandbox a girebilir .
Hem şuda var gazeteciler bir vatandaş hakkında haber yaparken gidip izin falan almıyor vatandaştan yayınlamak için . Size bir örnek : Bir dergiden bir haberi scanladım yazıcıda , içindeki harfleri aldım , yazıcı bazı harfleri tam algılayamıyordu ufak düzenlemeler yaptım ve yayınladım . Tabi dergi yeniydi ve haber internette henüz yoktu . İlk ben indexlettim ve sonuç : günde 100 tekile yakın aldı o haber . Daha sonra site host sorunları yaşayınca indexlerimin arasında oda silindi gitti . Neticede 1 e 1 kopya içerik olunca pekte faydası olmuyor . Şu açıdan çok iyi , mesela ben mirc scriptte bu şekilde bir bot var onu kullanıyorum , beğendiğim haberleri okuyup kafama göre yazıyorum hatta bazen 4 5 yerde olan aynı haberde farklılıklar oluyor bilgi olarak , edindiğim bilgileri birleştirip o haber hakkında karma bir haber yapıyorum . Haber bulmakta basit değil o kadar ,bu bot o yönden güzel .
 

Merlin

0
İyinet Üyesi
Katılım
4 Mart 2006
Mesajlar
2,162
Reaction score
1
Konum
Tuna Nehri
ploop kesinlikle hakli. Basin haber ajanslariyla derde girer. Altindan hic kalmayacagin bir belaya bulasirsin. Bunu hangi avukata sorarsan son aynisini diyecektir. Ayrica haberin telif hakki olur.
 

xxxx

0
İyinet Üyesi
Katılım
11 Temmuz 2003
Mesajlar
1,837
Reaction score
0
hocam bu script ne kadar:D walla deli bişey olmuş.
 

Türkiye’nin ilk webmaster forum sitesi iyinet.com'da forum üyeleri tarafından yapılan tüm paylaşımlardan; Türk Ceza Kanunu’nun 20. Maddesinin, 5651 Sayılı Kanununun 4. maddesinin 2. fıkrasına göre, paylaşım yapan üyeler sorumludur.

Üst