西西軟件園多重安全檢測下載網(wǎng)站、值得信賴的軟件下載站!
西西首頁 電腦軟件 安卓軟件 電腦游戲 安卓游戲 排行榜 專題合集

知乎熱評爬蟲程序

  • 知乎熱評爬蟲程序
  • 軟件大小:65M
  • 更新時(shí)間:2020-05-26 09:15
  • 軟件語言:中文
  • 軟件廠商:
  • 軟件類別:國產(chǎn)軟件 / 免費(fèi)軟件 / 源碼相關(guān)
  • 軟件等級:3級
  • 應(yīng)用平臺:WinXP, Win7, win8
  • 官方網(wǎng)站:暫無
  • 應(yīng)用備案:
好評:50%
壞評:50%

本類精品

軟件介紹

知乎熱評爬蟲程序,由吾愛大神原創(chuàng)制作分享的一個(gè)爬蟲程序單exe文件版本,可以免費(fèi)爬取知乎上的一些熱評信息,只需要復(fù)制自己的知乎cookie鏈接即可一鍵開始爬取,可以按照熱度榜來進(jìn)行爬蟲搜索,將評論信息存儲到本地進(jìn)行瀏覽。本次帶來知乎熱評爬蟲程序資源下載,經(jīng)常瀏覽知乎的朋友們可以試試。

知乎熱評爬蟲程序

知乎熱評爬蟲程序說明

一鍵爬取知乎熱評信息

支持按搜索榜來進(jìn)行爬取操作

可下載到本地進(jìn)行瀏覽

知乎熱評爬蟲源碼內(nèi)容

# -*- coding:utf-8 -*-

import requests

from lxml import etree

import pandas as pd

import json

from openpyxl import Workbook

from openpyxl.utils.dataframe import dataframe_to_rows

import datetime

from PySide2.QtWidgets import QApplication, QMessageBox,QFileDialog,QHeaderView,QAbstractItemView,QTableWidgetItem

from PySide2.QtUiTools import QUiLoader

import threading

import os

from PySide2.QtGui import  QIcon

class Download:

    def __init__(self):

        self.ui = QUiLoader().load('知乎.ui')

        self.ui.cookies_button.clicked.connect(self.get_cookies)

        self.ui.catch_button.clicked.connect(self.find_hot)

        self.ui.save_button.clicked.connect(self.save2)

        self.cookies = 0000

        self.df = 0000

        self.ui.hot_list.horizontalHeader().resizeSection(0, 80)

        self.ui.hot_list.horizontalHeader().resizeSection(1, 400)

        # self.tableWidget.horizontalHeader().setSectionResizeMode(QHeaderView.Stretch)

        self.ui.hot_list.setEditTriggers(QAbstractItemView.NoEditTriggers)

        self.hot_list = 0000

        #self.ui.hot_list.setEditTriggers(QAbstractItemView.NoEditTriggers)

    def get_cookies(self):

        if len(threading.enumerate()) >= 2:

            QMessageBox.about(self.ui,

                              '警告',

                              '正在下載!'

                              )

            return

        self.ui.cookies_edit.clear()

        self.ui.cookies_edit.paste()

        self.cookies = self.ui.cookies_edit.toPlainText()

    def find_hot(self):

        if len(threading.enumerate()) >= 2:

            QMessageBox.about(self.ui,

                              '警告',

                              '正在下載!!'

                              )

            return

        if self.cookies == 0000:

            QMessageBox.about(self.ui,

                              '警告',

                              '你還沒有粘貼進(jìn)去cookies!下載個(gè)錘子'

                              )

            return

        rows = self.ui.hot_list.rowCount()

        for row in range(rows):

            self.ui.hot_list.removeRow(0)

        url = 'https://www.zhihu.com/hot'

        headers = {

            'user-agent': '''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36''',

            'cookie': self.cookies

        }

        try:

            response = requests.get(url, headers=headers)

        except:

            self.ui.hot_list.insertRow(0)

            item = QTableWidgetItem('錯(cuò)誤!')

            self.ui.hot_list.setItem(0, 0, item)

            item = QTableWidgetItem('cookies可能有誤,無誤的話就重啟軟件試試~')

            self.ui.hot_list.setItem(0, 1, item)

            return

        html = response.text

        html = etree.HTML(html)

        url_list = html.xpath('''//div[@class='HotList-list']/section/div[@class="HotItem-content"]/a/@href''')

        title_list = html.xpath('''//div[@class='HotList-list']/section/div[@class="HotItem-content"]/a/@title''')

        hot_nums = html.xpath('''//div[@class='HotList-list']/section/div[@class="HotItem-content"]/div/text()''')

        data = {

            'url': url_list,

            'title': title_list,

            'hot': hot_nums

        }

        df = pd.DataFrame(data)

        try:

            df1 = pd.DataFrame(list(df['url'].str.split('/')))

        except AttributeError:

            self.ui.hot_list.insertRow(0)

            item = QTableWidgetItem('錯(cuò)誤!')

            self.ui.hot_list.setItem(0, 0, item)

            item = QTableWidgetItem('你可拉倒吧,cookies明顯有誤!')

            self.ui.hot_list.setItem(0, 1, item)

            return

        df = df.join(df1[[3, 4]])

        df = df.rename(columns={3: 'isque', 4: 'pid'})

        df = df[df['isque'] == 'question']

        for i in range(len(df)):

            dftemp = df.loc[i]

            row = self.ui.hot_list.rowCount()

            self.ui.hot_list.insertRow(row)

            item = QTableWidgetItem(str(dftemp['hot']))

            self.ui.hot_list.setItem(row, 0, item)

            item = QTableWidgetItem(str(dftemp['title']))

            self.ui.hot_list.setItem(row, 1, item)

        self.df = df

    def save2(self):

        if len(threading.enumerate()) >= 2:

            QMessageBox.about(self.ui,

                              '警告',

                              '正在下載。'

                              )

            return

        print(type(self.df))

        try:

            if self.df == 0000:

                QMessageBox.about(self.ui,

                                  '警告',

                                  '你還沒有獲取,保存?zhèn)錘子',

                                  )

                return

        except ValueError:

            pass

        df = self.df

        filePath = QFileDialog.getExistingDirectory(self.ui, "選擇存儲路徑")

        if filePath == '':

            return

        def get_comments(df,cookies):

            pid = df['pid']

            comm_list = []

            print(f'正在爬pid={pid}')

            for i in range(1, 100, 20):

                print(f'其中第{i}個(gè)')

                url = f'https://www.zhihu.com/api/v4/questions/{pid}/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Crelevant_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cis_labeled%2Cis_recognized%2Cpaid_info%2Cpaid_info_content%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%2A%5D.topics&limit=20&offset={i}&platform=desktop&sort_by=default'

                headers = {

                    'user-agent': '''Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36''',

                    'cookie': cookies

                }

                res = requests.get(url, headers=headers)

                res.encoding = 'utf-8'

                html = res.text

                data = json.loads(html)['data']

                if data == []:

                    break

                df2 = pd.DataFrame(data)

                df3 = pd.DataFrame(list(df2['author']))

                df3 = df3[['name', 'url_token', 'user_type', 'headline']]

                df4 = df3.merge(df2[['content', 'voteup_count', 'comment_count']], left_index=True, right_index=True)

                comm_list.append(df4)

            a = comm_list[0]

            for j in comm_list[1:]:

                a = a.append(j, ignore_index=True)

            return a

        def thr(df,ui,cookies):

            hot_list = []

            for i in df.index:

                ui.download_edit.append(f'正在爬第{i + 1}個(gè)')

                ui.download_edit.ensureCursorVisible()

                comments = get_comments(df.loc[i],cookies)

                hot_list.append(comments)

                #break

            ui.download_edit.append('終于下載完了,正在保存')

            ui.download_edit.ensureCursorVisible()

            wb = Workbook()

            ws = wb.active

            for row in dataframe_to_rows(df[['url', 'title', 'hot']], index=False, header=True):

                ws.append(row)

            count = 1

            for df0 in hot_list:

                title = f'排行第{count}'

                wb.create_sheet(title=title)

                sheet = wb[title]

                for r in dataframe_to_rows(df0, index=False, header=True):

                    sheet.append(r)

                count += 1

            file_time = str(datetime.datetime.now())[:-7]

            file_time = file_time.replace(":", '-')

            file_name = f"知乎熱評{file_time}.xlsx"

            wb.save(filePath + '\\' + file_name)

            # QMessageBox.about(ui,

            #                   '通知',

            #                   '久等了,終于下載完成了'

            #                   )

        t1 = threading.Thread(target=thr,args=[df,self.ui,self.cookies])

        t1.start()

app = QApplication([])

app.setWindowIcon(QIcon('0.png'))

d = Download()

d.ui.show()

app.exec_()

os._exit(0)

相關(guān)新聞

知乎近30W人擔(dān)心的問題,一個(gè)人是怎樣廢掉的?警惕這些情況

對于這個(gè)問題,要從兩點(diǎn)開始回答,怎樣的人才算是廢掉?他/她是怎樣變成這個(gè)樣子的?

1.染上了嚴(yán)重的惡習(xí)

為什么說染上了嚴(yán)重的惡習(xí)就算是廢掉了?因?yàn)閻毫?xí)會一點(diǎn)一點(diǎn)侵蝕一個(gè)人,導(dǎo)致精神迷幻,嚴(yán)重者導(dǎo)致死亡。

這里所指的惡習(xí)就是黃賭毒,這三樣是每個(gè)人堅(jiān)決不能碰的東西,雖然在中華上下五千年的歷史長河中,這三樣惡習(xí)從來都沒有絕跡過,總是有人想要去嘗試一番,這也是他們的可怕之處。

黃賭毒會嚴(yán)重影響一個(gè)人的心智,侵蝕價(jià)值觀,道德底線也會不斷地降低,最終的結(jié)果就是喪失人生價(jià)值,失去人生該有的幸福體驗(yàn)。

2.習(xí)慣于被動吸收,一切事物逆來順受

如果硬是要說一個(gè)具體的詞來描述,“上進(jìn)心”會貼切一些,一個(gè)人喪失了主動思考的能力,對于所有的信息都習(xí)慣于被動吸收,從不主動做某件事情。對于外界,無論好事還是壞事,一切都逆來順受,如同行尸走肉一般渾渾噩噩的生活。

人和植物的基本區(qū)別是思想,就是因?yàn)橛辛怂枷,人才能在進(jìn)化的過程中變得越來越優(yōu)秀。

3.封閉社交,拒絕接受新鮮事物

這就好比一個(gè)上世紀(jì)早期的人,來到現(xiàn)在這個(gè)社會,如果拒絕接受任何新鮮事物,并且封閉自己的社交,那么他很難存活下來。

其他版本下載

發(fā)表評論

昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
查看所有(0)條評論 > 字?jǐn)?shù): 0/500

TOP
軟件下載