SWE-bench
Metrics
வகைகள்
தீம்கள்
SWE-bench என்பது நிஜ உலக மென்பொருள் பொறியியல் பணிகளை தீர்க்கும் திறனை மதிப்பிடுவதற்காக பிரின்ஸ்டன் பல்கலைக்கழகம் மற்றும் ஸ்டான்ஃபோர்டு பல்கலைக்கழகம் உருவாக்கிய ஒரு பெஞ்ச்மார்க் ஆகும். இது பிரபலமான Python களஞ்சியங்களிலிருந்து எடுக்கப்பட்ட GitHub பிரச்சினைகளைக் கொண்டுள்ளது; இதில், தொடர்புடைய சோதனைத் தொகுதிகளை (test suites) கடக்கும் குறியீட்டு திருத்தங்களை (code patches) மாதிரிகள் உருவாக்க வேண்டும்.
இந்த பெஞ்ச்மார்க் பல பிரிவுகளை வழங்குகிறது; அதில் Full (2,294 நிகழ்வுகள்), Verified (500 நிகழ்வுகள்), Lite (300 நிகழ்வுகள்), மற்றும் உரையுடன் சேர்த்து படங்களையும் உள்ளடக்கும் Multimodal வகை (517 நிகழ்வுகள்) ஆகியவை அடங்கும். செயல்திறன் என்பது வெற்றிகரமாக தீர்க்கப்பட்ட பிரச்சினைகளின் சதவீதத்தின் மூலம் அளவிடப்படுகிறது; முடிவுகள் swebench.com இல் உள்ள பொது லீடர்போர்டு மூலம் கண்காணிக்கப்படுகின்றன.
பெரிய மொழி மாதிரிகள் மற்றும் தன்னாட்சி குறியீட்டு முகவர்கள் (autonomous coding agents) ஆகியவற்றின் நடைமுறை குறியீட்டு திறன்களை ஆராய்ச்சியாளர்களும் டெவலப்பர்களும் மதிப்பிட்டு ஒப்பிடுவதற்கு SWE-bench பரவலாகப் பயன்படுத்தப்படுகிறது.
பின்னணி மற்றும் வளர்ச்சி
SWE-bench 2024 ஆம் ஆண்டில் Princeton University மற்றும் Stanford University ஆராய்ச்சியாளர்களால், AI அமைப்புகள் நடைமுறை மென்பொருள் பொறியியல் சவால்களை எவ்வளவு நன்றாக சமாளிக்க முடியும் என்பதை அளவிடுவதற்கான கடுமையான மதிப்பீட்டு கட்டமைப்பாக அறிமுகப்படுத்தப்பட்டது. செயற்கை அல்லது கல்வி சார்ந்த நிரலாக்க பணிகளை நம்பும் பெஞ்ச்மார்க்குகளுக்கு மாறாக, SWE-bench உண்மை உலக செயல்பாட்டின் அடிப்படையில் அமைந்துள்ளது: அதன் எடுத்துக்காட்டுகள், பரவலாக பயன்படுத்தப்படும் திறந்த மூல Python நிரல்தொகுப்புகளுக்கு எதிராக GitHub-ல் தாக்கல் செய்யப்பட்ட சிக்கல்களிலிருந்து பெறப்படுகின்றன; அவற்றை தீர்க்க இறுதியில் ஏற்றுக்கொள்ளப்பட்ட குறியீட்டு மாற்றங்களுடன் இணைக்கப்படுகின்றன. இந்த வடிவமைப்பு, உண்மையான மென்பொருள் பராமரிப்பு பணியின் சிக்கல்தன்மையும் மாறுபாடுகளும் பெஞ்ச்மார்க்கில் பிரதிபலிக்கப்படுவதை உறுதி செய்கிறது.
இந்த பெஞ்ச்மார்க் ஒரு இணை மதிப்பாய்வு செய்யப்பட்ட அரங்கில் முறையாக அறிமுகப்படுத்தப்பட்டதுடன், swebench.com என்ற தனிப்பட்ட இணையதளம் வழியாக அணுகக்கூடியதாக உள்ளது; அங்கு காலப்போக்கில் சமர்ப்பிக்கப்பட்ட மாதிரிகள் மற்றும் ஏஜென்ட்களின் செயல்திறனை கண்காணிக்கும் பொது லீடர்போர்டு இடம்பெற்றுள்ளது.
கட்டமைப்பு மற்றும் வகைகள்
வேறுபட்ட மதிப்பீட்டு தேவைகள் மற்றும் கணினி வள வரம்புகளுக்கு ஏற்ப, SWE-bench பல பிரிவுகளில் வழங்கப்படுகிறது:
- Full: பல்வேறு Python நிரல்தொகுப்புகளிலிருந்து பெறப்பட்ட 2,294 பணித் எடுத்துக்காட்டுகள் கொண்ட முழுத் தரவுத்தொகுப்பு.
- Verified: பணியின் தெளிவும் சோதனை நம்பகத்தன்மையும் உறுதி செய்ய கூடுதல் தரச் சரிபார்ப்புகள் செய்யப்பட்ட 500 எடுத்துக்காட்டுகளைக் கொண்ட தேர்ந்தெடுக்கப்பட்ட துணைத்தொகுப்பு.
- Lite: வேகமான மீள்முறை மற்றும் குறைந்த செலவிலான மதிப்பீட்டு இயக்கங்களுக்காக நோக்கமிடப்பட்ட 300 எடுத்துக்காட்டுகளைக் கொண்ட சிறிய பிரிவு.
- Multilingual: ஆங்கிலம் மையமாக உள்ள நிரல்தொகுப்புகளுக்கு அப்பால் பெஞ்ச்மார்க்கின் எல்லையை விரிவுபடுத்தும், 300 எடுத்துக்காட்டுகளையும் கொண்ட ஒரு வகை.
- Multimodal: 517 எடுத்துக்காட்டுகளைக் கொண்ட ஒரு வகை; இதில் உரையுடன் சேர்த்து பட உள்ளீடுகளும் சேர்க்கப்படுகின்றன. இதனால், சிக்கல் அறிக்கைகளுடன் வரும் ஸ்கிரீன்ஷாட்கள் அல்லது வரைபடங்கள் போன்ற காட்சி தகவல்களை செயலாக்கக்கூடிய மாதிரிகளை மதிப்பிட முடியும்.
ஒவ்வொரு பணியும், அந்த நிரல்தொகுப்பில் பயன்படுத்தப்படும் போது தொடர்புடைய சோதனைத் தொகுப்பு வெற்றியடையச் செய்யும் ஒரு குறியீட்டு பேட்சை உருவாக்கும்படி ஒரு மாதிரி அல்லது ஏஜென்டை தேவைப்படுத்துகிறது. முதன்மை அளவுகோல் என்பது வெற்றிகரமாக தீர்க்கப்பட்ட சிக்கல்களின் சதவீதம்; இது செயல்பாட்டு சரியானதன்மைக்கான தெளிவான மற்றும் பொருள்மையான அளவீட்டை வழங்குகிறது.
பயன்பாட்டு வழக்குகள் மற்றும் ஆராய்ச்சி தாக்கம்
SWE-bench, பெரிய மொழி மாதிரிகள் மற்றும் தன்னாட்சி மென்பொருள் பொறியியல் ஏஜென்ட்களின் நடைமுறை குறியீட்டுத் திறன்களை மதிப்பிடுவதற்கான பரவலாக ஏற்றுக்கொள்ளப்பட்ட தரநிலையாக மாறியுள்ளது. ஆராய்ச்சியாளர்கள், களத்தில் பயன்படுத்தப்படும் மென்பொருள் மேம்பாட்டு பணிச்சூழல்களை அண்மித்த நிபந்தனைகளில் புதிய மாதிரி கட்டமைப்புகளையும் ஏஜென்ட் கட்டமைப்புகளையும் பெஞ்ச்மார்க் செய்ய இதைப் பயன்படுத்துகின்றனர்; இதில் நிரல்தொகுப்பு வழிசெலுத்தல், பிழை இடம்காணல், மற்றும் பேட்ச் உருவாக்கம் ஆகியவை அடங்கும்.
மேலும், ஏஜென்ட் மதிப்பீட்டை பற்றிய பரந்த AI மற்றும் மென்பொருள் பொறியியல் சமூகத்தின் சிந்தனையை SWE-bench பாதித்துள்ளது. பணிகள் தனித்த செயல்பாடுகளை மட்டும் அல்லாமல் பல கட்ட காரணமிடலையும் உண்மையான குறியீட்டு அடுக்குகளுடன் தொடர்பையும் தேவைப்படுத்துவதால், எளிய குறியீடு உருவாக்க பெஞ்ச்மார்க்குகள் வெளிப்படுத்தாமல் விடக்கூடிய வரம்புகளை SWE-bench வெளிப்படுத்துகிறது. இதனால் retrieval-augmented coding agents, tool-use frameworks, மற்றும் தானியக்க சோதனை குழாய்கள் போன்ற பணிகளில் ஊக்கம் கிடைத்துள்ளது.
Verified பிரிவு கிடைப்பது சமூக விவாதங்களில் குறிப்பாக குறிப்பிடத்தக்கதாக இருந்துள்ளது; ஏனெனில் முழுப் பெஞ்ச்மார்க் இயக்கங்கள் கணினி ரீதியாக செலவாக இருக்கும் போது, அர்த்தமுள்ள ஒப்பீடுகளுக்கான அதிக கட்டுப்பாட்டுள்ள துணைத்தொகுப்பை இது வழங்குகிறது. அதேபோல், Multimodal வகை பார்வை-மொழி மாதிரிகள் மென்பொருள் மேம்பாட்டு சூழல்களில் பயன்படுத்தப்படுவதற்கான மதிப்பீட்டு பாதைகளைத் திறக்கிறது.
லீடர்போர்டு மற்றும் சமூகம்
swebench.com இல் உள்ள பொது லீடர்போர்டு, நிறுவனங்களும் சுயாதீன ஆராய்ச்சியாளர்களும் முடிவுகளை சமர்ப்பித்து, மாதிரி தலைமுறைகள் முழுவதும் முன்னேற்றத்தை கண்காணிக்க உதவுகிறது. பதிவுகள் பல்வேறு அணுகுமுறைகளை உள்ளடக்குகின்றன; பொதுப் பயன்பாட்டு மொழி மாதிரிகளுக்கு பயன்படுத்தப்படும் prompting உத்திகள் முதல், குறிப்பாக உருவாக்கப்பட்ட தன்னாட்சி குறியீட்டு ஏஜென்ட்கள் வரை. லீடர்போர்டின் வெளிப்படைத்தன்மை, தொழில்நுட்ப அறிக்கைகளிலும் மாதிரி வெளியீட்டு அறிவிப்புகளிலும் SWE-bench ஐ ஒரு பொதுவான குறிப்புப் புள்ளியாக மாற்றியுள்ளது; இதனால் AI உதவியுடன் மென்பொருள் பொறியியல் துறையில் பகிரப்பட்ட அடிப்படை அளவுகோல்கள் உருவாக உதவுகிறது.