• 如何爬取 python 进行多线程跑数据的内容


    下是一个使用 Rust 编写的爬虫程序,用于爬取 python 进行多线程跑数据的内容。这个爬虫使用代理信息进行网络请求,并使用了 Rust 的 async-std 库进行异步编程。

    use async_std::net::{TcpStream, TcpListener};
    use async_std::io::{BufReader, BufWriter};
    use async_std::task::{await, spawn};
    use async_std::prelude::*;
    use std::io::{self, Write};
    use std::net::IpAddr;
    use std::thread;
    use std::sync::Mutex;
    
    const PROXY_HOST: &str = "jshk.com.cn";
    struct Worker {
        stream: TcpStream,
    }
    
    impl Worker {
        fn new(stream: TcpStream) -> Self {
            Worker { stream }
        }
    }
    
    impl Future for Worker {
        type Item = ();
    
        fn poll(self: Pin<&mut Self>, cx: &mut Context) -> Poll<Self::Item> {
            match self.stream.read_to_string(&mut self.stream.buffer()) {
                Ok(size) => {
                    let url = format!("http://localhost:8000/data?{}={}", URL, size);
                    match self.stream.write_to(&url, &mut self.stream.buffer()) {
                        Ok(_) => {
                            println!("Worker finished reading and writing data");
                        },
                        Err(err) => {
                            println!("Worker failed to write data: {}", err);
                        }
                    }
                },
                Err(err) => {
                    println!("Worker failed to read data: {}", err);
                }
            }
            Poll::Ready(())
        }
    }
    
    async fn main() {
        let mut proxy_stream = TcpStream::connect(format!("{}:{}", PROXY_HOST, PROXY_PORT))?;
        let proxy_listener = TcpListener::bind("127.0.0.1:8000")?;
        let mut workers = Vec::new();
    
        for _ in 0..10 {
            let mut worker = Worker::new(proxy_stream);
            let task = spawn(move || worker.run());
            workers.push(task);
        }
    
        loop {
            let (socket, _) = proxy_listener.accept()?;
    
            for worker in workers {
                let task = worker.clone();
                let mut conn = worker.stream;
                if let Ok(conn) = conn {
                    task.detach().join();
                    proxy_stream = TcpStream::connect(format!("{}:{}", PROXY_HOST, PROXY_PORT))?;
                }
            }
        }
    }
    
    async fn run(self: &mut Worker) {
        self.stream.read_to_string(&mut self.stream.buffer())?;
        let url = format!("http://localhost:8000/data?{}={}", URL, self.stream.buffer().string().trim());
        self.stream.write_to(&url, &mut self.stream.buffer())?;
    }
    
    • 1
    • 2
    • 3
    • 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 10
    • 11
    • 12
    • 13
    • 14
    • 15
    • 16
    • 17
    • 18
    • 19
    • 20
    • 21
    • 22
    • 23
    • 24
    • 25
    • 26
    • 27
    • 28
    • 29
    • 30
    • 31
    • 32
    • 33
    • 34
    • 35
    • 36
    • 37
    • 38
    • 39
    • 40
    • 41
    • 42
    • 43
    • 44
    • 45
    • 46
    • 47
    • 48
    • 49
    • 50
    • 51
    • 52
    • 53
    • 54
    • 55
    • 56
    • 57
    • 58
    • 59
    • 60
    • 61
    • 62
    • 63
    • 64
    • 65
    • 66
    • 67
    • 68
    • 69
    • 70
    • 71
    • 72
    • 73
    • 74

    步骤如下:

    1. 引入所需的 Rust 库,包括 async-std、std 和 io。
    2. 定义一个 Worker 结构体,它有一个 TcpStream 对象作为成员。
    3. 实现 Worker 的 Future 和 poll 方法。poll 方法用于处理网络请求,并将结果写入 URL 地址。
    4. 在 main 函数中,创建一个 TcpListener 对象,并使用它创建多个 Worker 线程。
    5. 在 main 函数中,循环监听连接请求。每当有新的连接请求时,都会创建一个新的 Worker 线程,并将其添加到 workers 列表中。
    6. 在 main 函数中,当所有的 Worker 线程都运行完毕后,退出循环。对于每个 Worker 线程,都会尝试将其连接与代理服务器断开,并重新连接到代理服务器。在这里插入图片描述
  • 相关阅读:
    Go字符串实战操作大全!
    噢!查重原来是这样实现的啊!
    Python模糊匹配(fuzzywuzzy package)
    CSDN 云IDE产品初步体验优劣势(JAVA语言方向)
    CC25 词语序列
    使用ThreeJS绘制一个饼图
    最热门的跨考考研5大专业是哪些?
    数据特征工程 | Python实现CatBoost特征处理及选择
    js---深拷贝
    TypeScript24:TS中的声明文件
  • 原文地址:https://blog.csdn.net/D0126_/article/details/134305124