python Selenium库的使用 - 军军小站|张军博客

一、什么是Selenium

Selenium是一个自动化测试工具，对各种浏览器都能很好地支持，包括Chrome、Firefox这些主流浏览器。使用它就可以模拟浏览器进行各种各样的操作，包括爬取一些网页内容。当你看到浏览器自己运行并且在网页上翻页或者跳转的时候，应该会觉得很有趣的。
安装selenium
先安装好Selenium库和对应浏览器的WebDriver驱动,比如我用的是Chrome，则相对应安装的是ChromeDriver。
1.安装selenium # 打开命令控制符执行 pip install selenium
2.我的Google Chrome 已是最新版本版本 74.0.3729.108（正式版本）（64 位）
安装三大浏览器驱动driver
1.chromedriver 下载地址：http://chromedriver.storage.googleapis.com/index.html?path=74.0.3729.6/
2.Firefox的驱动geckodriver 下载地址：https://github.com/mozilla/geckodriver/releases/
3.IE的驱动IEdriver 下载地址：http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
注意：64位向下兼容，直接下载32位的就可以啦，亲测可用。
chromedriver_win32.zip
D:\Python\python\Scripts
.粘贴chromedriver.exe到文件d:\Python37\Scripts路径下。

如果Chrome问题闪退，不兼容问题！

二、selenium基本使用

用python写爬虫的时候，主要用的是selenium的Webdriver，我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器
声明浏览器对象：

            
              from selenium import webdriver
from time import sleep

driver = webdriver.Chrome() 			 # 打开Google浏览器
#driver= webdriver.Firefox() 
#driver= webdriver.Ie()
driver.get('http://www.baidu.com') 	 # 打开 网址
#driver.get(r"C:\desktop\text.html")    	# 打开本地 html页面
driver.maximize_window()  #将浏览器最大化显示
driver.set_window_size(480, 800) #设置浏览器宽480、高800显示
# 移动浏览器大小观看展示
driver.set_window_size(width=500, height=500, windowHandle="current")
driver.set_window_position(x=1000, y=100, windowHandle='current')
# 获取当前页面的源码并断言
pageSource = driver.page_source
sleep(2)
try:
    assert u"百度一下，你就不知道" in pageSource, "页面源码中未找到'百度一下，你就知道'关键字"
    # 断言语句和 if 分支有点类似，它用于对一个 bool 表达式进行断言，如果该 bool 表达式为 True，该程序可以继续向下执行；否则程序会引发 AssertionError 错误。
except:
    print("源码这里故意断言错误", "\n")
sleep(2)
try:
	title = driver.title      			    # 获取打开网址 的名字 
	url = driver.current_url 	 	# 获取打开网址的url
	driver.page_sourse  #打印出页面源代码
	driver.forward()  #浏览器前进
	driver.back()  #浏览器后退
except:
  	#print("Oops!  That was no valid number.  Try again   ")
  	driver.close()     #关闭这个页面
	# driver.quit()     #退出浏览器

三基本使用

            
              from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By #按照什么方式查找，By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys #键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素
driver=webdriver.Chrome()
try:
    driver.get('https://www.baidu.com')
    input_tag=driver.find_element_by_id('kw')
    input_tag.send_keys('美女') #python2中输入中文错误，字符串前加个u
    input_tag.send_keys(Keys.ENTER) #输入回车
    wait=WebDriverWait(driver,10)
    wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒
    print(driver.page_source)  # 打印出页面源代码
    print(driver.current_url)  # 获取打开网址的url
    print(driver.get_cookies())   #cookies
finally:
    driver.close()

四选择器

一浏览器操作

            
              driver.current_url #用于获得当前页面的URL
driver.title #用于获取当前页面的标题
driver.page_source #用于获取页面html源代码
driver.port #用于获取浏览器的端口
driver.capabilities['version']  #打印浏览器version的值

#浏览器：
driver.get(url):#浏览器加载url
driver.back() #浏览器后退
driver.forward() #浏览器前进
driver.refresh() #浏览器刷新（点击刷新按钮）
driver.set_page_load_timeout(5) #设置页面加载时间，如果超时会跑异常
driver.implicitly_wait(秒) #隐式等待，通过一定的时长等待页面上某一元素加载完成。
#若提前定位到元素，则继续执行。等待10s若超过时间未加载出，则抛出NoSuchElementException异常。


#执行js：
driver.execute_script(js) #调用js

二窗口和弹框操作

            
              #窗口：
driver.current_window_handle  #用于获取当前窗口句柄
driver.window_handles  #用于获取所有窗口句柄

driver.maximize_window()  #将浏览器最大化显示
driver.set_window_size(480, 800)  #设置浏览器宽480、高800显示
driver.get_window_size()  #获取当前窗口的长和宽
driver.get_window_position()  #获取当前窗口坐标
driver.set_window_position(300,200)  #设置当前窗口坐标
driver.get_screenshot_as_file(filename)  #截取当前窗口
#实例：driver.get_screenshot_as_file('D:/selenium/image/baidu.jpg')

driver.close()  #关闭当前窗口，或最后打开的窗口
driver.quit()  #关闭所有关联窗口，并且安全关闭session

#窗口切换：
driver.switch_to_frame(id或name属性值)#切换到新表单(同一窗口)。若无id或属性值，可先通过xpath定位到iframe，再将值传给switch_to_frame()
driver.switch_to.parent_content()#跳出当前一级表单。该方法默认对应于离它最近的switch_to.frame()方法
driver.switch_to.default_content() #跳回最外层的页面 
driver.switch_to_window(窗口句柄) #切换到新窗口 
driver.switch_to.window(窗口句柄) #切换到新窗口 

#弹框切换： 
driver.switch_to_alert() #警告框处理。处理JavaScript所生成的alert,confirm,prompt
driver.switch_to.alert() #警告框处理

三 cookies 操作

            
              driver.get_cookies()   #获取当前会话所有cookie信息
driver.get_cookie(cookie_name)  #返回字典的key为“cookie_name”的cookie信息。
#实例：driver.get_cookie("NET_SessionId")

driver.add_cookie(cookie_dict)   #添加cookie。“cookie_dict”指字典对象，必须有name和value值
driver.delete_cookie(name,optionsString)  #删除cookie信息
driver.delete_all_cookies()  #删除所有cookie信息

四页面元素操作

            
              # 属性：
element.size  #获取元素的尺寸。
element.text   #获取元素的文本。
element.tag_name   #获取标签名称

element.clear()  #用于清除输入框的默认内容
element.send_keys("xx")  #用于在一个输入框里输入 xx 内容
element.click()  #用于单击一个按钮
element.submit()  #提交表单
element.size  #返回元素的尺寸
element.text  #获取元素文本
element.get_attribute('value')
#返回元素的属性值，可以是id、name、type或元素拥有的其它任意属性
#如果是input的，可以通过获取value值获得当前输入的值

element.is_displayed ()
#返回元素的结果是否可见，返回结果为True或False

element.is_enabled()  #判断元素是否可用
element.is_selected()   #返回单选按钮、复选框元素结果是否被选中（True 或 False）
element.value_of_css_property(height)  #获取元素css样式属性

五鼠标事件

            
              #引入ActionChains类
from selenium.webdriver.common.action_chains import ActionChains

mouse =driver.find_element_by_xpath("xx") #定位鼠标元素

#对定位到的元素执行鼠标操作
ActionChains(driver).context_click(mouse).perform() #鼠标右键操作
ActionChains(driver).double_click(mouse).perform() #鼠标双击操作
ActionChains(driver).move_to_element(mouse).perform() #鼠标移动到上面的操作
ActionChains(driver).click_and_hold(mouse).perform() #鼠标左键按下的操作
ActionChains(driver).release(mouse).perform()  #鼠标释放

#鼠标拖拽
element = driver.find_element_by_name("xxx")  #定位元素的原位置
target = driver.find_element_by_name("xxx") #定位元素要移动到的目标位置
ActionChains(driver).drag_and_drop(element, target).perform() #执行元素的移动操作
复制代码

六键盘事件

            
              #引入Keys类包
from selenium.webdriver.common.keys import Keys

element.send_keys(Keys.BACK_SPACE)  #删除键（BackSpace）
element.send_keys(Keys.SPACE)  #空格键(Space)
element.send_keys(Keys.TAB)  #制表键(Tab)
element.send_keys(Keys.ESCAPE)  #回退键（Esc）
element.send_keys(Keys.ENTER)  #回车键（Enter）
element.send_keys(Keys.CONTROL,'a')  #全选（Ctrl+A）
element.send_keys(Keys.CONTROL,'c')  #复制（Ctrl+C）
element.send_keys(Keys.CONTROL,'x')  #剪切（Ctrl+X）
element.send_keys(Keys.CONTROL,'v')  #粘贴（Ctrl+V）
element.send_keys(Keys.F12)   #键盘F12

#输入空格键+“python”
element.send_keys(Keys.SPACE)
element.send_keys("python")

案例

            
              from selenium import webdriver
from selenium.webdriver.common.keys import Keys  # 模拟键盘操作
from time import sleep

browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)
print(input.text)
browser.find_element_by_id('zu-top-add-question').click()  # 点击进入
# browser.find_element_by_class_name('zu-top-add-question').click()  # 点击进入

#from selenium import webdriver
#browser = webdriver.Chrome()
browser.get("http://www.taobao.com")
# 
              
              
input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]')    # //*[@id="q"]

input_third1 = browser.find_element_by_xpath('/html/body/div[3]/div/h2').text   # 获取文字内容
input_third2 = browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').text   # 获取文字内容

browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').click()  # 点击进入

print(input_first)
print(input_second)
print(input_third)
print(input_third1)
print(input_third2)
# browser.close()
element = browser.find_element_by_tag_name('body')
element.send_keys(Keys.CONTROL,'a')  #全选（Ctrl+A）
element.send_keys(Keys.CONTROL,'c')  #复制（Ctrl+C）

browser.get("http://www.taobao.com")
# browser.find_element_by_id("q").send_keys(Keys.CONTROL, 'v')    #粘贴（Ctrl+V）
browser.find_element_by_id("q").send_keys(input_third1)    #粘贴（Ctrl+V）
# element.send_keys(Keys.CONTROL,'v')  #粘贴（Ctrl+V）
sleep(3)
# element.send_keys(Keys.CONTROL,'x')  #剪切（Ctrl+X）
browser.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click()  # 点击进入

#element.send_keys(Keys.BACK_SPACE)  #删除键（BackSpace）
#element.send_keys(Keys.SPACE)  #空格键(Space)
#element.send_keys(Keys.TAB)  #制表键(Tab)
#element.send_keys(Keys.ESCAPE)  #回退键（Esc）
#element.send_keys(Keys.ENTER)  #回车键（Enter）
#element.send_keys(Keys.F12)   #键盘F12

定位元素的8种方式
参考：selenium元素定位

            
              定位一个元素	定位多个元素	含义
find_element_by_id	find_elements_by_id	通过元素id定位
find_element_by_name	find_elements_by_name	通过元素name定位
find_element_by_xpath	find_elements_by_xpath	通过xpath表达式定位
find_element_by_link_text	find_elements_by_link_tex	通过完整超链接定位
find_element_by_partial_link_text	find_elements_by_partial_link_text	通过部分链接定位
find_element_by_tag_name	find_elements_by_tag_name	通过标签定位
find_element_by_class_name	find_elements_by_class_name	通过类名进行定位
find_elements_by_css_selector	find_elements_by_css_selector	通过css选择器进行定位
3.实例演示
假如我们有一个Web页面，通过前端工具（如，Firebug）查看到一个元素的属性是这样的。


  
  
    
              
                
                  
                  
                  
                  

通过id定位:
dr.find_element_by_id("kw")

通过name定位:
dr.find_element_by_name("wd")

通过class name定位:
dr.find_element_by_class_name("s_ipt")

通过tag name定位:
dr.find_element_by_tag_name("input")

通过xpath定位，xpath定位有N种写法，这里列几个常用写法:
dr.find_element_by_xpath("//*[@id='kw']")
dr.find_element_by_xpath("//*[@name='wd']")
dr.find_element_by_xpath("//input[@class='s_ipt']")
dr.find_element_by_xpath("/html/body/form/span/input")
dr.find_element_by_xpath("//span[@class='soutu-btn']/input")
dr.find_element_by_xpath("//form[@id='form']/span/input")
dr.find_element_by_xpath("//input[@id='kw' and @name='wd']")

通过css定位，css定位有N种写法，这里列几个常用写法:
dr.find_element_by_css_selector("#kw")
dr.find_element_by_css_selector("[name=wd]")
dr.find_element_by_css_selector(".s_ipt")
dr.find_element_by_css_selector("html > body > form > span > input")
dr.find_element_by_css_selector("span.soutu-btn> input#kw")
dr.find_element_by_css_selector("form#form > span > input")

接下来，我们的页面上有一组文本链接。


                
              
              
                新闻
              
              
                hao123
              
              

通过link text定位:
dr.find_element_by_link_text("新闻")
dr.find_element_by_link_text("hao123")

通过partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义

一、什么是Selenium

二、selenium基本使用

三 基本使用

四 选择器

一 浏览器操作

二 窗口和弹框操作