09/10/2018

10 cara untuk mendapatkan data dari web: Code, Tools, & kumpulan data

10 cara untuk mendapatkan data dari web: Code, Tools, & kumpulan data

“Gartner percaya bahwa data perusahaan akan tumbuh 650 persen dalam lima tahun ke depan, sementara IDC berpendapat bahwa informasi dunia sekarang berlipat ganda setiap tahun dan setengahnya. IDC mengatakan bahwa pada tahun 2011 kami menciptakan 1,8 zettabytes (atau 1,8 triliun GB) informasi, yang merupakan data yang cukup untuk mengisi 57,5 ​​miliar iPad Apple 32GB, cukup iPad untuk membangun Tembok iPad yang Besar dari China dua kali lebih tinggi dari aslinya. ”(Sumber )

Data ada di mana-mana.

Untuk pertama kalinya dalam sejarah, sebagian besar data dunia ada di satu tempat: World Wide Web. Belum pernah kita begitu terhubung satu sama lain, dengan milik kita, dan teknologi seperti sekarang ini.

Ingin tahu seberapa besar "Big Data" sebenarnya? Pertimbangkan pernyataan ringkasan berikut dari The GovLab Index:

Berapa banyak data yang ada di jagad digital pada 2012: 2,7 zetabytes (atau 1 miliar terabyte)
Peningkatan kuantitas data Internet dari 2005 hingga 2012: + 1,696%
Persentase data dunia yang dibuat dalam dua tahun terakhir: 90
Jumlah exabyte (= 1 miliar gigabyte) yang dibuat setiap hari pada tahun 2012: 2,5; jumlah itu berlipat ganda setiap bulan
Berapa banyak informasi di jagad digital yang dibuat dan dikonsumsi oleh konsumen (video, media sosial, foto, dll.) Pada tahun 2012: 68%
Kapasitas efektif tahunan dunia untuk bertukar informasi melalui jaringan telekomunikasi pada tahun 1986, 2007, dan (diprediksi) 2013: 281 petabyte, 65 exabytes, 667 exabytes
Peningkatan volume pengumpulan data dari tahun ke tahun di tahun 2012: 400%
Dari angka-angka ini, ada dua hal yang jelas: (1) data tidak pergi kemana-mana; dan (2) internet pada dasarnya adalah kumpulan data kehidupan raksasa yang terus-menerus diunggah setiap detik setiap hari.

Jumlah besar data yang diunggah dan dibagikan ke web menciptakan peluang besar bagi bisnis yang ingin mempelajari lebih lanjut tentang pesaing mereka, produk mereka, proses mereka, pasar mereka, dan pelanggan mereka.

Untuk membuat keputusan bisnis yang tepat hari ini, Anda harus mengandalkan data. Jika Anda tidak melakukannya atau memikirkannya, Anda akan ditinggalkan.

Tapi jangan gunakan kata kami untuk itu. Jika Anda ingin mempelajari bagaimana perusahaan dari semua ukuran mendapatkan manfaat dari Big Data hari ini, baca artikel ini:

6 Perusahaan Menggunakan Big Data untuk Mengubah Bisnis
Pengecer Menggunakan Data Besar untuk Mengubah Anda Menjadi Pemboros Besar
Sekarang, mungkin kami telah meyakinkan Anda tentang peluang yang ada dan seberapa penting data untuk kesuksesan bisnis Anda yang berkelanjutan. Jika ya, itu hebat! Namun sebelum Anda mulai membuat keputusan tentang data, Anda perlu mencari tahu bagaimana Anda akan mengumpulkan data dari web, dan bagaimana Anda akan membuatnya 'siap diproses'. Posting ini akan membantu Anda memutuskan dengan memandu Anda melalui 3 pilihan pengumpulan data utama: (1) kode scraper Anda sendiri; (2) alat pengumpulan data visual; (3) data web sebagai layanan. Di setiap opsi yang disajikan, Anda akan diberikan ikhtisar, alat apa pun yang tersedia yang dapat Anda gunakan, dan kartu skor keseluruhan dari kami yang dapat membantu Anda akhirnya mengambil keputusan tentang opsi mana yang tepat untuk Anda.

Mari mulai dengan opsi pertama:

1. Opsi "Kode milik Anda"
Ikhtisar

Jika Anda seorang pengembang, Anda memiliki pilihan untuk membangun alat koleksi web Anda sendiri menggunakan kerangka kerja yang tercantum di bawah ini. Hari-hari ini, bagaimanapun, dengan ketersediaan opsi 2 (alat) dan 3 (data web sebagai layanan), ini mungkin bukan pilihan terbaik berdasarkan berapa banyak waktu yang diperlukan untuk membangun alat koleksi web kustom Anda sendiri.

Kerangka tersedia

Selenium IDE

Scrapy

PhantomJS

Kartu Skor:

Biaya orang: Opsi ini memerlukan pengembang yang didedikasikan untuk memulai dan paruh waktu untuk pemeliharaan.

Waktu ke nilai: Membiarkan 1-3 bulan dari proyek mulai mendapatkan data siap proses adalah realistis, tergantung pada kompleksitas proyek dan pengalaman pengembang Anda dengan mengekstraksi data web.

Berkelanjutan: Jika Anda mengumpulkan data dari web secara berkelanjutan (misalnya tinjauan bulanan dari Amazon), perlu diingat bahwa web scrapers biasanya rusak ketika situs web mereka mengumpulkan data dari perubahan. Hal ini menciptakan pekerjaan pemeliharaan berkelanjutan bagi orang yang membangun scraper di tempat pertama, ini dapat menjadi mahal ketika tergantung pada orang tersebut (yaitu pengembang).

Pekerjaan tambahan diperlukan:
Data QA (yaitu memastikan apa yang dikumpulkan adalah apa yang ada di situs web)
Untuk memantau perubahan di seluruh kumpulan data besar (misalnya pemantauan untuk ulasan produk baru), Anda harus memisahkan file data Anda
Anda masih perlu memantau kerusakan karena perubahan situs web merusak pencakar Anda.
2. Opsi "Alat"
Ikhtisar

Alat-alat visual ini memungkinkan non-pengembang untuk mendapatkan data dari situs web, yang mengurangi hambatan teknis untuk mendapatkan data web. Sebagian besar gratis / murah yang sangat bagus jika Anda tidak dapat berkode dan tidak memiliki anggaran. Peringatan: Mereka masih memerlukan pengaturan + pemeliharaan ... .sementara mereka tidak menggunakan sebanyak mungkin sumber daya pengembang, Anda masih harus membangun tim dan proses untuk mengelolanya yang merupakan pertimbangan serius ketika merencanakan proyek Anda. Pertanyaan yang patut ditanyakan adalah diri Anda: apakah Anda ingin menghabiskan waktu tim Anda pada pengumpulan data atau hanya fokus pada penggunaan data (analisis dan wawasan)?

Hal-hal lain yang perlu dipertimbangkan dengan Alat dan coding pengikis Anda sendiri adalah:

proses QA data (memastikan apa yang Anda kumpulkan dari web sebenarnya apa yang ada di situs web)
mengelola volume kueri di situs sehingga Anda tidak terlalu membebani situs dan diblokir
Alat tersedia

Mozenda (anggaran: $ 2.000-10.000 / tahun)

Connotate (anggaran: $ 50,000-100,000 / tahun)

Kekurangan (anggaran: ~ $ 200 pembelian perangkat lunak desktop)

import.io (budget: Gratis)

Kimono Labs (anggaran: Gratis)

Kapow Software (anggaran: $ 50.000-100,000 / tahun SaaS)

Kartu skor:

Biaya orang: Opsi ini mengharuskan orang non-teknis untuk memulai dan sumber daya berkelanjutan untuk pemeliharaan. Perlu dicatat bahwa untuk sebagian besar proyek pengumpulan data, Anda masih memerlukan pengembang untuk menulis skrip perancah di sekitar alat gesekan untuk mendapatkan hasil yang Anda inginkan.

Waktu ke nilai: Membiarkan 1-2 bulan dari proyek mulai mendapatkan data siap proses adalah realistis, tergantung pada kompleksitas proyek dan pengalaman Anda dengan mengekstraksi data web

Berkelanjutan: Jika Anda mengumpulkan data dari web secara berkelanjutan (misalnya tinjauan bulanan dari Amazon), perlu diingat bahwa pencakar web (termasuk alat pengerik) biasanya rusak ketika situs web mereka mengumpulkan data dari perubahan. Hal ini menciptakan pekerjaan pemeliharaan yang berkelanjutan bagi orang yang membangun scraper di tempat pertama, ini dapat menjadi mahal ketika tergantung pada orang tersebut.

Pekerjaan tambahan diperlukan:

Data QA (yaitu memastikan apa yang dikumpulkan adalah apa yang ada di situs web)
Untuk memantau perubahan di seluruh kumpulan data besar (misalnya pemantauan untuk ulasan produk baru), Anda harus memisahkan file data Anda
Anda masih perlu memantau kerusakan karena perubahan situs web merusak pencakar Anda.
Untuk proyek pengumpulan data drill-down yang lebih kompleks Anda akan perlu untuk rantai pencakar data Anda bersama-sama, yang akan membutuhkan kustom coding (misalnya menemukan semua headphone di amazon dan kemudian pengeboran bawah untuk mendapatkan reveiws untuk setiap set headphone akan membutuhkan 2-3 pencakar dirantai bersama)
3. Opsi "Data sebagai Layanan"
Ikhtisar

Ini adalah kategori terbaru di ruang data web. Ini adalah opsi terbaik bagi orang-orang yang memiliki anggaran dan ingin memfokuskan upaya mereka pada analitik data dan mengelola proses pengumpulan data. Hal ini memungkinkan pengguna untuk menentukan URL situs (misalnya bestbuy.com), data skema (misalnya product_name, deskripsi, harga dll) dan frekuensi refresh (harian, mingguan, bulanan) dan mendapatkan data disampaikan pada jadwal itu. Tidak perlu pengaturan atau pengelolaan berkelanjutan, data siap-proses dapat langsung dihubungkan ke tumpukan analitik data Anda.

Alat tersedia

Penawaran Import.io DaaS (catatan: beri tahu kami jika menemukan opsi lain dalam kategori ini!)

Kartu skor:

Biaya orang: Opsi ini tidak memerlukan sumber daya orang untuk membangun atau manajemen berkelanjutan.

Waktu ke nilai: Membiarkan 2-4 minggu untuk mendapatkan data siap proses adalah realistis

Sedang berlangsung: Tidak ada pemeliharaan berkelanjutan

Pekerjaan Tambahan Diperlukan: Tidak ada pekerjaan tambahan yang diperlukan untuk mendapatkan data siap proses.

Kami berharap ikhtisar ini akan membantu menemukan layanan pengumpulan data web yang tepat untuk bisnis Anda, jika ada pertanyaan, silakan hubungi kami.

Apa pertanyaan lain yang Anda miliki untuk kami tentang hal ini? Tanya kami di bawah ini!

0 komentar:

Posting Komentar