农机网_多模板页面,无限if抓取(源码)_一蓑烟雨任平生

本文介绍了一种针对农机网的爬虫实现方案,通过不断适应网页结构的变化来抓取新闻标题、发布时间及内容等信息,并将这些数据存入MySQL数据库。示例中详细展示了如何使用Python的requests库获取网页内容,利用BeautifulSoup进行解析,以及如何处理不同页面布局所带来的挑战。

这个网站算是比较棘手的了,因为每次标签位置都会变,一会标题在div里,一会再select里,一会又在span里,所以无限判断搞的,到最后我都不知道我在写什么了

废话不多说,直接上代码

今天要倒霉的网站是农机网

# -*- coding: utf-8 -*-
import requests
import pymysql
from bs4 import BeautifulSoup  # 用来解析网页
import uuid
import time

url = "https://www.nongjx.com"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 '
                  'Safari/537.36',
    'Accept-Language': 'zh-CN,zh;q=0.8'
}
conn = pymysql.connect(host='127.0.0.1', user='root', passwd='123456', db='zhang', charset='utf8')
cur = conn.cursor()
print("连接成功")

for i in range(1, 10):  # 爬取第一页到第3页的数据
    resp = requests.get(f"https://www.nongjx.com/tech_news/t118/list_p{i}.html", headers=headers)
    page_one = BeautifulSoup(resp.content, "html.parser")
    dd = page_one.find('div', class_='mainLeftList').find_all('dt')
    for ss in dd:
        sUrl = url + ss.find('a')['href']
        # 打开二级网页进行爬取
        rp = requests.get(sUrl, headers=headers)
        page_two = BeautifulSoup(rp.content, "html.parser")
        papaer_id = str(uuid.uuid1())
        # 标题
        if page_two.find('section', class_='newsDetail') is None:
            if page_two.find('div', class_='newsDetail') is not None:
                title = page_two.find('div', class_='newsDetail').find('h3').text
                # 时间
                timet = page_two.find('div', class_='newsDetail').find('div').text.strip().split(":")[2]
                print(timet)
                # 内容
                content = page_two.find('div', class_='newsContent').text.strip()
            else:
                if page_two.find('div', class_='nr_box') is None:
                    if page_two.find('div', class_='main_news_details') is None:
                        title = page_two.find('div', class_='newsShow').find('a').text
                        # 时间
                        timet = page_two.find('div', class_='newsShow').find('dt').text.strip()[0:11]
                        print(timet)
                        # 内容
                        content = page_two.find('div', class_='newsContent').text.strip()
                    else:
                        title = page_two.find('div', class_='main_news_details').find('h1').text
                        # 时间
                        timet = page_two.find('div', class_='main_news_details').find('span').text.strip().split(":")[1]
                        print(timet)
                        # 内容
                        content = page_two.find('div', class_='news_detail_content').text.strip()
                else:
                    title = page_two.find('div', class_='nr_box').find('h3').text
                    # 时间
                    timet = page_two.find('div', class_='nr_box').find('p').text.strip().split(":")[2]
                    print(timet)
                    # 内容
                    content = page_two.find('div', class_='down_xx').text.strip()
        else:
            title = page_two.find('section', class_='newsDetail').find('h3').text
            # 时间
            timet = page_two.find('section', class_='newsDetail').find('span').text.strip().split(":")[2]
            print(timet)
            # 内容
            content = page_two.find('div', class_='newsContent').text.strip()
        sql = "insert into knowledge(id,title,timet,content,p_type,url) VALUES (%s,%s,%s,%s,%s,%s)"
        cur.execute(sql, (papaer_id, title, timet, content, "机械农业", sUrl))
    print("SQL正在执行第{}页执行完毕".format(i))
    conn.commit()
    time.sleep(1)  # 防止服务器蹦了,间隔一秒钟
cur.close()
conn.close()

在这里插入图片描述

内容概要:本文提出了一种基于非合作博弈理论的居民负荷分层调度模型,并结合双层鲸鱼优化算法(Two-level Whale Optimization Algorithm)进行高效求解,模型与算法均通过Matlab代码实现。研究针对电力系统中居民侧用电负荷的复杂调度问题,引入非合作博弈机制刻画各用户之间的利益竞争关系,实现负荷的分层优化分配;同时设计双层优化架构,上层优化资源配置,下层模拟用户自主决策行为,提升了模型的实用性与合理性。通过智能优化算法求解多层级、非凸非线性的博弈模型,有效提高了调度方案的收敛性与全局寻优能力,适用于现代智能电中的需求侧管理与能源优化场景。; 适合人群:具备电力系统基础理论知识和Matlab编程能力,从事智能电、能源优化调度、需求侧管理、博弈论应用等方向的科研人员、高校研究生及工程技术人员。; 使用场景及目标:①应用于居民区电力负荷的分层优化调度系统设计与仿真分析;②为非合作博弈在多主体能源系统建模中的应用提供方法论支持;③利用双层鲸鱼算法解决具有嵌套结构的复杂双层优化问题,提升求解效率与调度方案的可行性。; 阅读建议:建议读者结合提供的Matlab代码深入理解模型构建逻辑与算法实现流程,重点关注博弈模型的效用函数设计、纳什均衡求解思路以及双层优化结构的迭代机制,宜配合实际用电数据开展复现实验以验证模型有效性与鲁棒性。
内容概要:本文围绕基于自适应神经模糊推理系统(ANFIS)智能控制器的可再生能源微电功率管理系统展开研究,结合Simulink仿真实现,深入探讨了微电中功率的智能调控与经济机组组合调度问题。通过引入ANFIS控制器,有效应对风能、光伏等可再生能源出力的波动性与不确定性,提升系统运行的稳定性与电能质量。研究内容涵盖微电多源协调控制策略、功率平衡管理、优化调度模型构建及仿真验证,实现了对分布式电源、储能系统和负荷的协同优化,兼顾经济性与可靠性目标,并通过仿真平台验证了所提方法的有效性与优越性。; 适合人群:具备电力系统、自动化或新能源相关专业背景,熟悉Matlab/Simulink仿真环境,从事微电能量管理、智能控制、能源优化等领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于高比例可再生能源接入场景下的微电能量管理系统研发与教学实践;②为实现微电功率稳定控制与经济高效运行提供先进的智能控制解决方案;③支撑高水平学术论文复现、科研课题攻关及实际工程项目的仿真验证与方案优化。; 阅读建议:建议结合提供的Simulink模型与相关代码进行动手实践,重点关注ANFIS控制器的设计流程、规则库构建与参数调优方法,并通过与传统PID或MPC控制策略的对比实验,深入理解其在动态响应与鲁棒性方面的优势。同时可进一步拓展文中提出的优化调度逻辑,应用于多目标、多约束的复杂实际应用场景中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值