一、什么是Selenium
Selenium是一个自动化测试工具,对各种浏览器都能很好地支持,包括Chrome、Firefox这些主流浏览器。使用它就可以模拟浏览器进行各种各样的操作,包括爬取一些网页内容。当你看到浏览器自己运行并且在网页上翻页或者跳转的时候,应该会觉得很有趣的。
安装selenium
先安装好Selenium库和对应浏览器的WebDriver驱动,比如我用的是Chrome,则相对应安装的是ChromeDriver。
1.安装selenium # 打开命令控制符执行 pip install selenium
2.我的Google Chrome 已是最新版本版本 74.0.3729.108(正式版本) (64 位)
安装三大浏览器驱动driver
1.chromedriver 下载地址:http://chromedriver.storage.googleapis.com/index.html?path=74.0.3729.6/
2.Firefox的驱动geckodriver 下载地址:https://github.com/mozilla/geckodriver/releases/
3.IE的驱动IEdriver 下载地址:http://www.nuget.org/packages/Selenium.WebDriver.IEDriver/
注意:64位向下兼容,直接下载32位的就可以啦,亲测可用。
chromedriver_win32.zip
D:\Python\python\Scripts
.粘贴chromedriver.exe到文件d:\Python37\Scripts路径下。
如果Chrome问题闪退 ,不兼容问题!
二、selenium基本使用
用python写爬虫的时候,主要用的是selenium的Webdriver,我们可以通过下面的方式先看看Selenium.Webdriver支持哪些浏览器
声明浏览器对象:
from selenium import webdriver
from time import sleep
driver = webdriver.Chrome() # 打开Google浏览器
#driver= webdriver.Firefox()
#driver= webdriver.Ie()
driver.get('http://www.baidu.com') # 打开 网址
#driver.get(r"C:\desktop\text.html") # 打开本地 html页面
driver.maximize_window() #将浏览器最大化显示
driver.set_window_size(480, 800) #设置浏览器宽480、高800显示
# 移动浏览器大小观看展示
driver.set_window_size(width=500, height=500, windowHandle="current")
driver.set_window_position(x=1000, y=100, windowHandle='current')
# 获取当前页面的源码并断言
pageSource = driver.page_source
sleep(2)
try:
assert u"百度一下,你就不知道" in pageSource, "页面源码中未找到'百度一下,你就知道'关键字"
# 断言语句和 if 分支有点类似,它用于对一个 bool 表达式进行断言,如果该 bool 表达式为 True,该程序可以继续向下执行;否则程序会引发 AssertionError 错误。
except:
print("源码这里故意断言错误", "\n")
sleep(2)
try:
title = driver.title # 获取打开网址 的名字
url = driver.current_url # 获取打开网址的url
driver.page_sourse #打印出页面源代码
driver.forward() #浏览器前进
driver.back() #浏览器后退
except:
#print("Oops! That was no valid number. Try again ")
driver.close() #关闭这个页面
# driver.quit() #退出浏览器
三 基本使用
from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By #按照什么方式查找,By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys #键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait #等待页面加载某些元素
driver=webdriver.Chrome()
try:
driver.get('https://www.baidu.com')
input_tag=driver.find_element_by_id('kw')
input_tag.send_keys('美女') #python2中输入中文错误,字符串前加个u
input_tag.send_keys(Keys.ENTER) #输入回车
wait=WebDriverWait(driver,10)
wait.until(EC.presence_of_element_located((By.ID,'content_left'))) #等到id为content_left的元素加载完毕,最多等10秒
print(driver.page_source) # 打印出页面源代码
print(driver.current_url) # 获取打开网址的url
print(driver.get_cookies()) #cookies
finally:
driver.close()
四 选择器
一 浏览器操作
driver.current_url #用于获得当前页面的URL
driver.title #用于获取当前页面的标题
driver.page_source #用于获取页面html源代码
driver.port #用于获取浏览器的端口
driver.capabilities['version'] #打印浏览器version的值
#浏览器:
driver.get(url):#浏览器加载url
driver.back() #浏览器后退
driver.forward() #浏览器前进
driver.refresh() #浏览器刷新(点击刷新按钮)
driver.set_page_load_timeout(5) #设置页面加载时间,如果超时会跑异常
driver.implicitly_wait(秒) #隐式等待,通过一定的时长等待页面上某一元素加载完成。
#若提前定位到元素,则继续执行。等待10s若超过时间未加载出,则抛出NoSuchElementException异常。
#执行js:
driver.execute_script(js) #调用js
二 窗口和弹框操作
#窗口:
driver.current_window_handle #用于获取当前窗口句柄
driver.window_handles #用于获取所有窗口句柄
driver.maximize_window() #将浏览器最大化显示
driver.set_window_size(480, 800) #设置浏览器宽480、高800显示
driver.get_window_size() #获取当前窗口的长和宽
driver.get_window_position() #获取当前窗口坐标
driver.set_window_position(300,200) #设置当前窗口坐标
driver.get_screenshot_as_file(filename) #截取当前窗口
#实例:driver.get_screenshot_as_file('D:/selenium/image/baidu.jpg')
driver.close() #关闭当前窗口,或最后打开的窗口
driver.quit() #关闭所有关联窗口,并且安全关闭session
#窗口切换:
driver.switch_to_frame(id或name属性值)#切换到新表单(同一窗口)。若无id或属性值,可先通过xpath定位到iframe,再将值传给switch_to_frame()
driver.switch_to.parent_content()#跳出当前一级表单。该方法默认对应于离它最近的switch_to.frame()方法
driver.switch_to.default_content() #跳回最外层的页面
driver.switch_to_window(窗口句柄) #切换到新窗口
driver.switch_to.window(窗口句柄) #切换到新窗口
#弹框切换:
driver.switch_to_alert() #警告框处理。处理JavaScript所生成的alert,confirm,prompt
driver.switch_to.alert() #警告框处理
三 cookies 操作
driver.get_cookies() #获取当前会话所有cookie信息
driver.get_cookie(cookie_name) #返回字典的key为“cookie_name”的cookie信息。
#实例:driver.get_cookie("NET_SessionId")
driver.add_cookie(cookie_dict) #添加cookie。“cookie_dict”指字典对象,必须有name和value值
driver.delete_cookie(name,optionsString) #删除cookie信息
driver.delete_all_cookies() #删除所有cookie信息
四 页面元素操作
# 属性:
element.size #获取元素的尺寸。
element.text #获取元素的文本。
element.tag_name #获取标签名称
element.clear() #用于清除输入框的默认内容
element.send_keys("xx") #用于在一个输入框里输入 xx 内容
element.click() #用于单击一个按钮
element.submit() #提交表单
element.size #返回元素的尺寸
element.text #获取元素文本
element.get_attribute('value')
#返回元素的属性值,可以是id、name、type或元素拥有的其它任意属性
#如果是input的,可以通过获取value值获得当前输入的值
element.is_displayed ()
#返回元素的结果是否可见,返回结果为True或False
element.is_enabled() #判断元素是否可用
element.is_selected() #返回单选按钮、复选框元素结果是否被选中(True 或 False)
element.value_of_css_property(height) #获取元素css样式属性
五 鼠标事件
#引入ActionChains类
from selenium.webdriver.common.action_chains import ActionChains
mouse =driver.find_element_by_xpath("xx") #定位鼠标元素
#对定位到的元素执行鼠标操作
ActionChains(driver).context_click(mouse).perform() #鼠标右键操作
ActionChains(driver).double_click(mouse).perform() #鼠标双击操作
ActionChains(driver).move_to_element(mouse).perform() #鼠标移动到上面的操作
ActionChains(driver).click_and_hold(mouse).perform() #鼠标左键按下的操作
ActionChains(driver).release(mouse).perform() #鼠标释放
#鼠标拖拽
element = driver.find_element_by_name("xxx") #定位元素的原位置
target = driver.find_element_by_name("xxx") #定位元素要移动到的目标位置
ActionChains(driver).drag_and_drop(element, target).perform() #执行元素的移动操作
复制代码
六 键盘事件
#引入Keys类包
from selenium.webdriver.common.keys import Keys
element.send_keys(Keys.BACK_SPACE) #删除键(BackSpace)
element.send_keys(Keys.SPACE) #空格键(Space)
element.send_keys(Keys.TAB) #制表键(Tab)
element.send_keys(Keys.ESCAPE) #回退键(Esc)
element.send_keys(Keys.ENTER) #回车键(Enter)
element.send_keys(Keys.CONTROL,'a') #全选(Ctrl+A)
element.send_keys(Keys.CONTROL,'c') #复制(Ctrl+C)
element.send_keys(Keys.CONTROL,'x') #剪切(Ctrl+X)
element.send_keys(Keys.CONTROL,'v') #粘贴(Ctrl+V)
element.send_keys(Keys.F12) #键盘F12
#输入空格键+“python”
element.send_keys(Keys.SPACE)
element.send_keys("python")
案例
from selenium import webdriver
from selenium.webdriver.common.keys import Keys # 模拟键盘操作
from time import sleep
browser = webdriver.Chrome()
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)
print(input.text)
browser.find_element_by_id('zu-top-add-question').click() # 点击进入
# browser.find_element_by_class_name('zu-top-add-question').click() # 点击进入
#from selenium import webdriver
#browser = webdriver.Chrome()
browser.get("http://www.taobao.com")
#
input_first = browser.find_element_by_id("q")
input_second = browser.find_element_by_css_selector("#q")
input_third = browser.find_element_by_xpath('//*[@id="q"]') # //*[@id="q"]
input_third1 = browser.find_element_by_xpath('/html/body/div[3]/div/h2').text # 获取文字内容
input_third2 = browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').text # 获取文字内容
browser.find_element_by_xpath('//*[@id="J_SiteNavLogin"]/div[1]/div[1]/a[1]').click() # 点击进入
print(input_first)
print(input_second)
print(input_third)
print(input_third1)
print(input_third2)
# browser.close()
element = browser.find_element_by_tag_name('body')
element.send_keys(Keys.CONTROL,'a') #全选(Ctrl+A)
element.send_keys(Keys.CONTROL,'c') #复制(Ctrl+C)
browser.get("http://www.taobao.com")
# browser.find_element_by_id("q").send_keys(Keys.CONTROL, 'v') #粘贴(Ctrl+V)
browser.find_element_by_id("q").send_keys(input_third1) #粘贴(Ctrl+V)
# element.send_keys(Keys.CONTROL,'v') #粘贴(Ctrl+V)
sleep(3)
# element.send_keys(Keys.CONTROL,'x') #剪切(Ctrl+X)
browser.find_element_by_xpath('//*[@id="J_TSearchForm"]/div[1]/button').click() # 点击进入
#element.send_keys(Keys.BACK_SPACE) #删除键(BackSpace)
#element.send_keys(Keys.SPACE) #空格键(Space)
#element.send_keys(Keys.TAB) #制表键(Tab)
#element.send_keys(Keys.ESCAPE) #回退键(Esc)
#element.send_keys(Keys.ENTER) #回车键(Enter)
#element.send_keys(Keys.F12) #键盘F12
定位元素的8种方式
参考:selenium元素定位
定位一个元素 定位多个元素 含义
find_element_by_id find_elements_by_id 通过元素id定位
find_element_by_name find_elements_by_name 通过元素name定位
find_element_by_xpath find_elements_by_xpath 通过xpath表达式定位
find_element_by_link_text find_elements_by_link_tex 通过完整超链接定位
find_element_by_partial_link_text find_elements_by_partial_link_text 通过部分链接定位
find_element_by_tag_name find_elements_by_tag_name 通过标签定位
find_element_by_class_name find_elements_by_class_name 通过类名进行定位
find_elements_by_css_selector find_elements_by_css_selector 通过css选择器进行定位
3.实例演示
假如我们有一个Web页面,通过前端工具(如,Firebug)查看到一个元素的属性是这样的。
新闻
hao123
通过link text定位:
dr.find_element_by_link_text("新闻")
dr.find_element_by_link_text("hao123")
通过partial link text定位:
dr.find_element_by_partial_link_text("新")
dr.find_element_by_partial_link_text("hao")
dr.find_element_by_partial_link_text("123")